BRPI0520115B1 - métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio - Google Patents

métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio Download PDF

Info

Publication number
BRPI0520115B1
BRPI0520115B1 BRPI0520115A BRPI0520115A BRPI0520115B1 BR PI0520115 B1 BRPI0520115 B1 BR PI0520115B1 BR PI0520115 A BRPI0520115 A BR PI0520115A BR PI0520115 A BRPI0520115 A BR PI0520115A BR PI0520115 B1 BRPI0520115 B1 BR PI0520115B1
Authority
BR
Brazil
Prior art keywords
signal
excitation
audio signal
candidate
signals
Prior art date
Application number
BRPI0520115A
Other languages
English (en)
Inventor
Taleb Anisse
Original Assignee
Ericsson Telefon Ab L M
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Telefon Ab L M filed Critical Ericsson Telefon Ab L M
Publication of BRPI0520115A2 publication Critical patent/BRPI0520115A2/pt
Publication of BRPI0520115B1 publication Critical patent/BRPI0520115B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio. informação (k~ m~) sobre sinais de excitação de um primeiro sinal (s~ m~(n)) codificado por celp é usada para derivar um conjunto limitado (10') de sinais de excitação candidatos para um segundo sinal correlacionado (s~ s~(n)). preferivelmente, localizações de pulso dos sinais de excitação do primeiro sinal codificado (s~ m~(n)) são usadas para determinar o conjunto (10') de sinais de excitação candidatos. mais preferivelmente, as localizações de pulso do conjunto de sinais de excitação candidatos são posicionadas na vizinhança das localizações de pulso dos sinais de excitação do primeiro sinal codificado (s~ m~(n)). o primeiro e segundo sinais (s~ m~(n), s~ s~(n)) podem ser sinais multicanal de um sinal de voz ou áudio comum. entretanto, o primeiro e segundo sinais (s~ m~(n), s~ s~(n))podem também ser idênticos, onde a codificação do segundo sinal (s~ s~(n)) pode ser utilizada para recodificação a uma taxa de bit mais baixa.

Description

(54) Título: MÉTODOS PARA CODIFICAR E PARA DECODIFICAR SINAIS DE ÁUDIO E CODIFICADOR E DECODIFICADOR PARA SINAIS DE ÁUDIO (51) Int.CI.: G10L 19/008; G10L 19/10 (73) Titular(es): TELEFONAKTIEBOLAGET LM ERICSSON (72) Inventor(es): ANISSE TALEB / 23 “MÉTODOS PARA CODIFICAR E PARA DECODIFICAR SINAIS DE ÁUDIO E CODIFICADOR E DECODIFICADOR PARA SINAIS DE ÁUDIO”
CAMPO TÉCNICO [0001] A presente invenção relaciona-se em geral a codificação de áudio e, em particular, a codificação de predição linear excitada por código.
FUNDAMENTOS [0002] Técnicas de codificação existentes, estéreo, ou em geral de multicanal, requerem uma taxa de bit realmente alta. Estéreo paramétrico é freqüentemente usado a taxas de bit muito baixas. Entretanto, estas técnicas são projetadas para uma ampla classe de material de áudio genérico, isto é, música, conversação e conteúdo misto.
[0003] Na codificação de voz multicanal, muito pouco tem sido feito. A maior parte do trabalho tem sido focada em uma abordagem de predição intercanal (ICP). Técnicas ICP utilizam o fato de que há uma correlação entre um canal direito e esquerdo. Muitos métodos diferentes que reduzem esta redundância no sinal estéreo são descritos na literatura, por exemplo em [1][2][3].
[0004] ICP aborda modelos muito semelhantes ao caso em que há somente um alto-falante, entretanto deixa de modelar alto-falantes múltiplos e fontes de som difusas (por exemplo, ruídos de fundo difusos). Portanto, codificar ICP residual é uma necessidade em vários casos e faz altas exigências quanto à taxa de bit.
[0005] A maior parte dos codecs de áudio existentes são monofônicos e são baseados no modelo de codificação preditiva linear excitada (CELP). Exemplos incluem AMR-NB e AMR-WB (Adaptativo Multi-Taxa Faixa Estreita e Adaptativo Multi-Taxa Faixa Larga). Neste modelo, isto é, CELP, um sinal de excitação em uma entrada de um filtro de síntese LP de curta duração é construído adicionando dois vetores de excitação a partir de livros
Petição 870180039559, de 11/05/2018, pág. 6/70 / 23 de código (documentos para implementar um código) adaptativos e fixos (inovadores), respectivamente. A voz é sintetizada alimentando os dois vetores adequadamente escolhidos a partir destes livros de código através do filtro de síntese de curta duração. A seqüência de excitação ótima em um livro de código é escolhida usando um procedimento de busca de análisepor-síntese no qual o erro entre a conversação original e sintetizada é minimizado de acordo com uma medida de distorção ponderada perceptualmente.
[0006] Há dois tipos de livros de código fixos. Um primeiro tipo são os assim chamados livros de código estocásticos. Tal livro de código freqüentemente envolve substancial armazenagem física. Dado o índice em um livro de código, o vetor de excitação é obtido por tabela de busca convencional. O tamanho do livro de código é, portanto, limitado pela taxa de bit e complexidade.
[0007] Um segundo tipo de livro de código é um livro de código algébrico. Em contraste com os livros de código estocásticos, livros de código algébricos não são randômicos e requerem virtualmente nenhuma armazenagem. Um livro de código algébrico é um conjunto de vetores de código cujas amplitudes e posições dos pulsos constituindo o k-ésimo vetor de código, são derivados diretamente do índice k correspondente. Isto não requer, virtualmente, exigências de memória. Portanto, o tamanho dos livros de código algébricos não é limitado por exigências de memória. Adicionalmente, os livros de código algébricos são bem adequados para procedimentos de busca eficientes.
[0008] É importante notar que uma parte substancial e freqüentemente também a principal dos bits disponíveis do codec de voz, está alocada à codificação de excitação de livro de código fixo. Por exemplo, no padrão AMR-WB, a quantidade de bits alocados aos procedimentos de livro de código fixos varia de 36% a 76%. Adicionalmente, é a busca de excitação de livro de
Petição 870180039559, de 11/05/2018, pág. 7/70 / 23 código fixo que representa a maior parte da complexidade do codificador. [0009] Em [7], um livro de código fixo multi-parte incluindo um livro de código fixo individual para cada canal e um livro de código compartilhado comum a todos os canais é usado. Com esta estratégia, é possível ter uma boa representação das correlações inter-canal. Entretanto, isto vem em uma extensão de complexidade aumentada, bem como armazenagem. Adicionalmente, a taxa de bit requerida para codificar as excitações de livro de código fixo é muito grande porque, em adição a cada índice de livro de código de canal é necessário também transmitir o índice de livro de código compartilhado. Em [8] e [9], métodos similares para codificar sinais multicanal são descritos onde o modo de codificação é tornado dependente do grau de correlação dos diferentes canais. Estas técnicas já são bem conhecidas da codificação Esquerdo/Direito e Médio/Lateral, onde a comutação entre os dois modos de codificação é dependente de um resíduo, então dependente da correlação.
[00010] Em [10], é descrito um método para codificar sinais de multicanal, que generaliza diferentes elementos de um codec preditivo linear de canal único. O método tem a desvantagem de requerer uma enorme quantidade de computações, tornando-o não utilizável em aplicações de tempo real, tais como aplicações conversacionais. Uma outra desvantagem desta tecnologia é a quantidade de bits necessários no sentido de codificar os vários filtros de descorrelação usados para codificação.
[00011] Uma outra desvantagem com as soluções citadas previamente descritas acima é sua incompatibilidade com codecs de conversação monofônicos padronizados existentes, no sentido de que nenhum sinal monofônico é codificado separadamente, proibindo então a habilidade de decodificar diretamente um sinal somente monofônico.
SUMÁRIO [00012] Um problema geral com a codificação de voz da técnica anterior é
Petição 870180039559, de 11/05/2018, pág. 8/70 / 23 que esta requer altas taxas de bit e codificadores complexos.
[00013] Um objetivo geral da presente invenção é então prover métodos e dispositivos melhorados para codificação de voz. Um objetivo subsidiário da presente invenção é prover métodos e dispositivos CELP apresentando exigência reduzida em termos de taxas de bit e complexidade de codificador. [00014] Os objetivos acima são alcançados por métodos e dispositivos de acordo com as reivindicações de patente anexas. Em palavras gerais, sinais de excitação de um primeiro sinal codificado por CELP são usados para derivar um conjunto limitado de sinais de excitação candidatos para um segundo sinal. Preferivelmente, o segundo sinal é correlacionado ao primeiro sinal. Em uma realização particular, o conjunto limitado de sinais de excitação candidatos é derivado por uma regra, que foi selecionada a partir de um conjunto predeterminado de regras baseadas no primeiro sinal codificado e/ou no segundo sinal. Preferivelmente, locações de pulsos dos sinais de excitação do primeiro sinal codificado são usadas para determinar o conjunto de sinais de excitação candidatos. Mais preferivelmente, as locações de pulso do conjunto de sinais de excitação candidatos são posicionadas na vizinhança das locações de pulso dos sinais de excitação do primeiro sinal codificado. O primeiro e segundo sinais podem ser sinais de multicanal de uma conversação normal ou sinal de áudio. Entretanto, o primeiro e segundo sinais podem também ser idênticos, nos quais a codificação do segundo sinal pode ser utilizada para recodificação a uma taxa de bit mais baixa.
[00015] Uma vantagem da presente invenção é que a complexidade de codificação é reduzida. Adicionalmente, no caso de sinais multicanal, a taxa de bit requerida para transmitir sinais codificados é reduzida. Também, a presente invenção pode ser eficientemente aplicada a recodificação do mesmo sinal a uma taxa mais baixa. Uma outra vantagem da invenção é a compatibilidade com sinais mono e a possibilidade de ser implementada cooperativamente uma extensão de codecs de voz existentes, com muito
Petição 870180039559, de 11/05/2018, pág. 9/70 / 23 poucas modificações.
BREVE DESCRIÇÃO DOS DESENHOS [00016] A invenção, juntamente com objetivos adicionais e vantagens desta, pode ser melhor entendida fazendo referência à seguinte descrição, considerada juntamente com os desenhos que a acompanham, nos quais: [00017] Figura 1A é uma ilustração esquemática de um modelo de predição linear excitada por código;
[00018] Figura 1B é uma ilustração esquemática de um processo de derivar um sinal de excitação;
[00019] Figura 1C é uma ilustração esquemática de uma realização de um sinal de excitação para uso em um modelo de predição linear excitada por código;
[00020] Figura 2 é um esquema em bloco de uma realização de um codificador e decodificador de acordo com o modelo de predição linear excitada por código;
[00021] Figura 3A é um diagrama ilustrando uma realização de um principio de selecionar sinais de excitação candidatos de acordo com a presente invenção;
[00022] Figura 3B é um diagrama ilustrando uma outra realização de um principio de selecionar sinais de excitação candidatos de acordo com a presente invenção;
[00023] Figura 4 ilustra uma possibilidade de reduzir entidades de dados requeridos de acordo com uma realização da presente invenção;
[00024] Figura 5A é um esquema em bloco de uma realização de codificadores e decodificadores para dois sinais de acordo com a presente invenção;
[00025] Figura 5B é um esquema em bloco de uma outra realização de codificadores e decodificadores para dois sinais de acordo com a presente invenção;
Petição 870180039559, de 11/05/2018, pág. 10/70 / 23 [00026] Figura 6 é um esquema em bloco de uma realização de codificadores e decodificadores para recodificação de um sinal de acordo com a presente invenção;
[00027] Figura 7 é um esquema em bloco de uma realização de codificadores e decodificadores para codificação paralela de um sinal para diferentes taxas de bit de acordo com a presente invenção;
[00028] Figura 8 é um diagrama ilustrando a qualidade perceptual obtida por realizações da presente invenção;
[00029] Figura 9 é um fluxograma das etapas principais de uma realização de um método de codificação de acordo com a presente invenção;
[00030] Figura 10 é um fluxograma das etapas principais de uma outra realização de um método de codificação de acordo com a presente invenção; e [00031 ] Figura 11 é um fluxograma das etapas principais de uma realização de um método de decodificação de acordo com a presente invenção. DESCRIÇÃO DETALHADA [00032] Um modelo geral de síntese de voz CELP é mostrado na Figura 1A. Um livro de código fixo 10 compreende um número de sinais de excitação candidatos 30, caracterizado por um respectivo índice k. No caso de um livro de código algébrico, o índice k sozinho caracteriza completamente o sinal de excitação candidato correspondente. Cada sinal de excitação candidato 30 compreende um número de pulsos 32 tendo uma certa posição e amplitude. Um índice k determina um sinal de excitação candidato 30 que é amplificado em um amplificador 11 dando origem a um sinal de excitação de saída ck(n)
12. Um livro de código adaptativo 14 que não é o assunto primário da presente invenção, provê um sinal adaptativo v(n), via um amplificador 15. O sinal de excitação de saída ck(n) e o sinal adaptativo v(n) são somados em um somador 17, acarretando um sinal de excitação composto u(n). O sinal de excitação composto u(n) influencia o livro de código adaptativo para sinais subseqüentes, como indicado pela linha tracejada 13.
Petição 870180039559, de 11/05/2018, pág. 11/70 /23 [00033] O sinal de excitação composto u(n) é usado como sinal de entrada para uma transformada 1/A(z) em uma seção de síntese de predição linear 20, resultando em um sinal “previsto” s(n) 21 que, tipicamente após o pósprocessamento 22, é provido como a saída do procedimento de síntese CELP. [00034] O modelo de síntese de voz CELP é usado para codificação de análise-por-síntese do sinal de voz de interesse. Um sinal alvo s(n), isto é, o sinal que está para ser remontado é provido. Uma predição de longa duração é feita pelo uso do livro de código adaptativo, ajustando uma codificação prévia ao presente sinal alvo, acarretando um sinal adaptativo v(n)=gp u(n-ô). A diferença remanescente é o alvo para o sinal de excitação de livro de código fixo, por meio do qual um índice de livro de código k correspondente a uma entrada Ck deveria minimizar a diferença de acordo com, tipicamente, uma função objetiva, por exemplo, uma medida de média quadrática. Em geral, o livro de código algébrico é buscado minimizando o erro médio quadrático entre a conversação de entrada ponderada e a conversação de síntese ponderada. A busca de livro de código fixo, objetiva encontrar a entrada de livro de código algébrico Ck correspondente ao índice k, de tal modo que
O jriHc,)2 * é maximizado. A matriz H é uma matriz de filtragem cujos elementos são derivados da resposta ao impulso de um filtro de ponderação, yi é um vetor de componentes que são dependentes do sinal a ser codificado.
[00035] O procedimento de livro de código fixo pode ser ilustrado como na Figura 1B, onde um índice k seleciona uma entrada Ck a partir do livro de código fixo 10 como sinal de excitação de saída Ck(n) 12. Em um livro de código fixo estocástico, o índice k serve tipicamente como uma entrada para uma tabela de pesquisa enquanto em um livro de código fixo algébrico o sinal de excitação de saída Ck(n) 12 é derivado diretamente do índice k. Em
Petição 870180039559, de 11/05/2018, pág. 12/70
8/23 geral, a excitação multi-pulso pode ser escrita como:
f CJ>7 =&/(» -Psô j-L [00036] Onde pi,k são as posições de pulsos para o índice k, enquanto bi,k são as amplitudes de pulsos individuais e P é o número de pulso e δ é a função de pulso de Dirac:
δ(0) = 1, δ(η) = 0 para η Ψ 0.
[00037] Figura 1C ilustra um exemplo de um sinal de excitação candidato 30 do livro de código fixo 10. O sinal de excitação candidato 30 é caracterizado por um número de pulsos 32, neste exemplo 8 pulsos. Os pulsos 32 são caracterizados por sua posição P(l) - P(8) e sua amplitude, que em um livro de código fixo algébrico típico é +1 ou -1.
[00038] Em um sistema de codificador/decodificador para um único canal, o modelo CELP é tipicamente implementado conforme ilustrado na Figura 2. As diferentes partes correspondentes às diferentes funções do modelo de síntese CELP da Figura IA recebem os mesmos números de referência, uma vez que as partes são principalmente caracterizadas por sua função e tipicamente não no mesmo grau por sua implementação real. Por exemplo, filtros de ponderação de erro, usualmente presentes em uma implementação real de uma análise por síntese de predição linear, não são representados. [00039] Um sinal a ser codificado s(n) 33 é provido a uma unidade de codificador 40. A unidade de codificador compreende um bloco de síntese CELP 25 de acordo com os princípios discutidos acima. (O pósprocessamento é omitido no sentido de facilitar a leitura da figura). A saída do bloco de síntese CELP 25 é comparada com o sinal s(n) em um bloco comparador 31. Uma diferença 37, que pode ser ponderada por um filtro de ponderação, é provida a um bloco de otimização de livro de código 35, que é arranjado de acordo com quaisquer princípios da técnica anterior para encontrar um sinal de excitação de saída Ck(n) 12 ótimo ou pelo menos razoavelmente bom. O bloco de otimização de livro de código 35 provê o
Petição 870180039559, de 11/05/2018, pág. 13/70 / 23 livro de código fixo 10 do índice correspondente k. Quando o sinal de excitação final é encontrado, o índice k e o retardo δ do livro de código adaptativo 12 são codificados em um codificador de índice 38 para prover um sinal de saída 45 representando o índice k e o retardo δ.
[00040] As representações do índice k e o retardo δ são providas a uma unidade de decodificador 50. A unidade de decodificador compreende um bloco de síntese CELP 25 de acordo com os princípios discutidos acima. (O pós-processamento é também omitido aqui, no sentido de facilitar a leitura da figura). As representações do índice k e retardo δ são decodificadas em um decodificador de índice 53, e o índice k e retardo δ são providos como parâmetros de entrada ao livro de código fixo e código adaptativo, respectivamente, resultando em um sinal “previsto” s(n) 21 que é suposto parecer com o sinal original s(n).
[00041] A representação do índice k e retardo δ pode ser armazenada para um tempo mais curto e mais longo em qualquer lugar entre o codificador e o decodificador, habilitando, por exemplo, armazenagem de gravações de áudio requerendo capacidade de armazenagem relativamente pequena.
[00042] A presente invenção é relacionada a codificação de voz e áudio em geral. Em um caso típico, esta lida com casos em que um sinal principal sM(n) foi codificado de acordo com a técnica CELP e deseja-se codificar um outro sinal sS(n). O outro sinal poderia ser o mesmo sinal principal sS(n) = sM(n), por exemplo, durante a recodificação a uma taxa de bit mais baixa, ou uma versão codificada do sinal principal sS(n) = sM(n) ou um sinal correspondente a um outro canal, por exemplo, estéreo, multicanal 5.1, etc.
[00043] Esta invenção é então aplicável diretamente a codificação estéreo e multicanal em geral para voz em aplicações de teleconferência. A aplicação desta invenção pode também incluir codificação de áudio como parte de uma codificação dependente de conteúdo de malha aberta ou malha fechada. [00044] Preferencialmente deveria existir uma correlação entre o sinal
Petição 870180039559, de 11/05/2018, pág. 14/70 / 23 principal e o outro sinal, no sentido da presente invenção operar em condições ótimas. Entretanto, a existência de tal correlação não é uma exigência obrigatória para a operação adequada da invenção. De fato, a invenção pode ser operada adaptativamente e tornada dependente do grau de correlação entre o sinal principal e o outro sinal. Uma vez que não existe relação causal entre um canal esquerdo e direito em aplicações estéreo, o sinal principal sM(n) é freqüentemente escolhido como o sinal de soma e sS(n) como sinal diferença nos canais esquerdo e direito.
[00045] A inferência da presente invenção é que o sinal principal sM(n) está disponível em uma representação codificada CELP. Uma idéia básica da presente invenção é limitar a busca no livro de código fixo durante a codificação do outro sinal sS(n) para um subconjunto dos sinais de excitação candidatos. Este conjunto é selecionado dependendo da codificação CELP do sinal principal. Em uma realização preferida, os pulsos dos sinais de excitação candidatos do subconjunto são restritos a um conjunto de posições de pulso que são dependentes das posições de pulso de sinal principal. Isto é equivalente a definir localizações de pulsos candidatos restritas. O conjunto de posições de pulso disponíveis pode ser tipicamente estabelecido para as posições de pulso do sinal principal mais posições de pulsos vizinhas.
[00046] Esta redução do número de pulsos candidatos reduz dramaticamente a complexidade computacional do codificador.
[00047] Abaixo, é dado um exemplo ilustrativo para o caso geral de sinais de dois canais. Entretanto, este é facilmente estendido a canais múltiplos. Entretanto, no caso de canais múltiplos, o alvo pode ser diferente, dados diferentes filtros de ponderação em cada canal, mas também os alvos em cada canal podem ser retardados um em relação a cada outro.
[00048] Um canal principal e um canal lateral podem ser construídos por
Petição 870180039559, de 11/05/2018, pág. 15/70
11/23 onde si/n) e sr(ü) são as entradas do canal esquerdo e direito, respectivamente. Pode-se claramente ver que mesmo se o canal esquerdo e direito fossem uma versão retardada um do outro, então este não seria o caso para o canal principal e lateral, uma vez que em geral estes conteriam informação de ambos os canais.
[00049] A seguir, é suposto que o canal principal é o primeiro canal codificado e que as localizações de pulsos para a excitação de livro de código fixo para aquela codificação estão disponíveis.
[00050] O alvo para a codificação de excitação de livro de código fixo de sinal lateral é computado como a diferença entre o sinal lateral e a excitação de livro de código adaptativa:
sc(n)=ss(n) - gpv(n), n=0,...,L-l, onde gpv(n) é a excitação de livro de código adaptativo e sc(n) é o sinal alvo para busca de livro de código adaptativo.
[00051] Na presente realização, o número de posições de pulso potenciais dos sinais de excitação candidatos é definido em relação às posições de pulso de sinal principal. Uma vez que estas são apenas uma fração de todas as posições possíveis, a quantidade de bits requerida para codificação do sinal lateral com um sinal de excitação dentro deste conjunto limitado de sinais de excitação candidatos é portanto largamente reduzido, comparado com o caso em que todas as posições de pulso podem ocorrer.
[00052] A seleção das posições de pulsos candidatos em relação à posição do pulso principal é fundamental para determinar a complexidade bem como a taxa de bit requerida.
[00053] Por exemplo, se a extensão de quadro é L e se o número de pulsos no sinal principal de codificação é N, então pode-se necessitar aproximadamente N*log2(L) bits para codificar as posições de pulso. Entretanto, para
Petição 870180039559, de 11/05/2018, pág. 16/70 / 23 codificação do sinal lateral, se forem retidas apenas as posições de pulso de sinal principal como candidatas, e o número de pulsos em sinais de excitação candidatos para o sinal lateral é P, então necessita-se aproximadamente P*log2(N) bits. Para números razoáveis para N, P e L, isto corresponde a realmente uma redução nas exigências de taxa de bit.
[00054] Um aspecto interessante é quando as posições de pulso para o sinal lateral são estabelecidas iguais às posições de pulso para o sinal principal. Então, não há codificação das posições de pulso necessárias e somente a decodificação das amplitudes de pulso são necessárias. No caso de livros de código algébricos com pulsos tendo amplitudes +1/-1, então somente os sinais (N bits) precisam ser codificados.
[00055] Se denotamos por Pm(í), i=1,...n, as posições de pulso de sinal principal, as posições de pulso de sinais de excitação candidatos para o sinal lateral são selecionadas com base nas posições de pulso de sinal principal e possíveis parâmetros adicionais. Os parâmetros adicionais podem consistir do retardo de tempo entre os dois canais e/ou diferença de índice de livro de código adaptativo.
[00056] Nesta realização, o conjunto de posições de pulso para o sinal de excitação candidato do sinal lateral é construído como {Pm (í) + J(i,k), k=1,...,k maxi, i=1, ..., n} onde J(i,k) denota algum índice de retardo. Isto significa que cada posição de mono pulso gera um conjunto de posições de pulso usado para construir os sinais de excitação candidatos para o procedimento de busca de pulso de sinal lateral. Isto é ilustrado na Figura 3A. Aqui, Pm denota as posições de pulso do sinal de excitação para o sinal principal, e P's denota possíveis posições de pulso dos sinais de excitação candidatos para a análise de sinal lateral.
[00057] Isto naturalmente é ótimo com sinais altamente correlacionados. Para sinais de baixa correlação ou não correlacionados, a estratégia inversa seria adotada. Esta consiste em tomar os pulsos candidatos como todos os pulsos
Petição 870180039559, de 11/05/2018, pág. 17/70 / 23 não pertencendo ao conjunto {Pm (i) + J(i,k), k=1,...,k maxi, i=1, n} [00058] Uma vez que este é um caso complementar, é facilmente entendido pelos especialistas na técnica que ambas estratégias são similares e somente o caso correlacionado será descrito em mais detalhe.
[00059] É facilmente visto que a posição e número de pulsos candidatos é dependente do índice de retardo J(i,k). O índice de retardo pode ser tornado dependente do retardo efetivo entre os dois canais e/ou o índice de livro de código adaptativo. Na Figura 3A, k max = 3 e J(i,k) = J(k) e {0, +1, +2}. [00060] Alguém especialista na técnica entende que as regras de como selecionar as posições de pulso podem ser construídas de muitas diversas maneiras. A regra real para uso pode ser adaptada à implementação real. As características importantes são, entretanto, que as posições de pulso candidatas sejam selecionadas dependendo das posições de pulso resultantes da análise de sinal principal seguindo uma certa regra. Esta regra pode ser única e fixa ou pode ser selecionada de um conjunto de regras predeterminadas dependentes, por exemplo, do grau de correlação entre os dois canais e/ou o retardo entre os dois canais.
[00061] Dependendo da regra usada, o conjunto de pulsos candidatos do sinal lateral é construído. O conjunto dos pulsos candidatos do sinal lateral é em geral muito pequeno comparado com a extensão de quadro inteira. Isto permite reformular o problema de maximização objetivo com base em um quadro decimado.
[00062] No caso geral, os pulsos são buscados usando, por exemplo, o algoritmo de primeira profundidade descrito em [5] ou usando uma busca exaustiva se o número de pulsos candidatos for realmente pequeno. Entretanto, mesmo com um pequeno número de candidatos é recomendável usar um procedimento de busca rápido.
[00063] Um sinal filtrado reverso é geralmente pré computado usando
Petição 870180039559, de 11/05/2018, pág. 18/70
14/23 df= /Η [00064] A matriz
Φ = ΗΓΗ é a matriz de correlações de h(n) (a resposta ao impulso de um filtro de ponderação), cujos elementos são computados por = £*(/ - WV ~ /). /=0,/,-1, j = Ά..Λ - L i=J [00065] A função objetiva pode, portanto, ser escrita como
Figure BRPI0520115B1_D0001
[00066] Dado o conjunto de posições de pulsos candidatos possíveis no sinal lateral, somente um subconjunto de índices do vetor de filtragem reversa d e a matriz φ são necessários. O conjunto de pulsos candidatos podem ser classificados em ordem ascendente.
{Pm(í) + J(i,k), k=l,...,kmaxi, i=l,..., n} = P*s(i),i = 1,..., p} [00067] P*s(i) são as posições de pulsos candidatos e p é seu número. Deveria ser notado que p é sempre menor que e tipicamente muito menos que a extensão de quadro L.
[00068] Se denotamos o sinal decimado d2(i) = d(P*s(i)), i = l,..,p e a matriz de correlações φ2 φ2(ί,]) = φ(Ρ*δ(ΐ), P*s(j)), i = l,..,p, j = l,..,p [00069] φ2 é simétrica e positiva definida. Podemos escrever diretamente ‘ Φ A ' onde c’k é o novo vetor de código algébrico. O índice torna-se k’ que é uma nova entrada em um livro de código de tamanho reduzido.
[00070] O sumário destas operações de decimação é ilustrado na Figura 4. No topo da figura, uma redução de um livro de código algébrico 10 de tamanho ordinário para um livro de código 10’ de tamanho reduzido, é ilustrada. No
Petição 870180039559, de 11/05/2018, pág. 19/70 / 23 meio, uma redução de uma matriz de covariância de filtro de ponderação 60 de tamanho ordinário para uma matriz de covariância de filtro de ponderação reduzida 60' é ilustrada. Finalmente, na parte do fundo, uma redução de um alvo de filtragem reversa 62 de tamanho ordinário para um alvo de filtragem reversa de tamanho reduzido 62' é ilustrada. Alguém especialista na técnica verifica a redução de complexidade que é o resultado de tal redução.
[00071] Maximizar a função objetiva nos sinais decimados tem várias vantagens. Uma delas é a redução de exigências de memória, por exemplo, a matriz φ2 necessita menos memória. Uma outra vantagem é o fato de que, como as localizações de pulso de sinal principal são transmitidas em todos os casos ao receptor, os índices dos sinais decimados estão sempre disponíveis para o decodificador. Isto por sua vez permite a codificação das outras posições de pulso de sinal (lateral) em relação às posições de pulso de sinal principal, o que consome muito menos bit. Uma outra vantagem é a redução na complexidade computacional, uma vez que a maximização é efetuada em sinais decimados.
[00072] Na Figura 5A, uma realização de um sistema de codificadores 40A, 40B e decodificadores 50A, 50B de acordo com a presente invenção é ilustrada. Muitos detalhes são similares aos ilustrados na Figura 2 e, portanto, não serão discutidos em detalhe novamente, se suas funções são essencialmente inalteradas. Um sinal principal 33A sm(n) é provido a um primeiro codificador 40A. O primeiro codificador 40A opera de acordo com qualquer modelo de codificação CELP da técnica anterior, produzindo um índice km para o livro de código fixo e uma medida de retardo ôm para o livro de código adaptativo. Os detalhes desta codificação não são de qualquer importância para a presente invenção e são omitidos no sentido de facilitar o entendimento da Figura 5A. Os parâmetros km e ôm são codificados em um primeiro codificador de índice 38A, produzindo representações k*m e ó*m dos parâmetros que são enviados ao primeiro decodificador 50A. No primeiro
Petição 870180039559, de 11/05/2018, pág. 20/70
16/23 decodificador, as representações k*m e ô*m são decodificadas nos parâmetros km e ôm em um primeiro decodificador de índice 53A. A partir destes parâmetros, o sinal original é reproduzido de acordo com qualquer modelo de decodificação CELP de acordo com a técnica anterior. Os detalhes desta decodificação não são de qualquer importância para a presente invenção e são omitidos para facilitar o entendimento da Figura 5A. Um primeiro sinal de saída reproduzido 21A sm(n) é provido. Um sinal lateral 33B ss(n) é provido como um sinal de entrada para um segundo codificador 40B. O segundo codificador 40B é na maioria das parte similar ao codificador da Figura 2. Os sinais recebem agora um índice “s” para distingui-los de quaisquer sinais usados para codificar o sinal principal. O segundo codificador 40B compreende um bloco de síntese CELP 25. De acordo com a presente invenção, o índice km ou uma representação deste é provido a partir do primeiro codificador 40A para uma entrada 45 do livro de código fixo 10 do segundo codificador 40B. O índice km é usado por um meio de derivação de candidato 47 para extrair um livro de código fixo reduzido 10’ de acordo com os princípios apresentados acima. A síntese do bloco de síntese CELP 25’ do segundo codificador 40B é então baseada nos índices k’s representando sinais de excitação (t^(n)) a partir do livro de código fixo reduzido 10’. Um índice k’s é então encontrado para representar uma melhor escolha da síntese CELP. Os parâmetros k’s e ôs são codificados em um segundo codificador de índice 32B produzindo as representações k’*s e ô*s dos parâmetros que são enviados a um segundo decodificador 50B.
[00073] No segundo decodificador 50B, as representações k’*s e ô*s são decodificadas nos parâmetros k’s e ôs em um segundo decodificador de índice 53B. Ainda mais, o parâmetro de índice km é disponível a partir do primeiro decodificador 50A e é provido à entrada 55 do livro de código fixo 10 e do segundo decodificador 50B, no sentido de habilitar uma extração por um meio de derivação de candidato 57 de um livro de código fixo reduzido 10’ igual
Petição 870180039559, de 11/05/2018, pág. 21/70 / 23 ao que foi usado no segundo codificador 40B. A partir dos parâmetros k's e ós e livro de código fixo reduzido 10', o sinal lateral original é reproduzido de acordo com modelos de decodificação CELP ordinários 25''. Os detalhes desta decodificação são executados essencialmente em analogia com a Figura 2, mas usando o livro de código fixo reduzido 10'. Um sinal de saída lateral reproduzido 21B §s(n) é então provido.
[00074] A seleção da regra para construir o conjunto de pulsos candidatos, por exemplo, a função de indexação J(i,k) pode vantajosamente ser tornada adaptativa e dependente de características intercanal adicionais, tais como parâmetros de retardo, grau de correlação, etc. Neste caso, isto é, seleção de regra adaptativa, o codificador preferivelmente tem que transmitir ao decodificador cuja regra tenha sido selecionada para derivar o conjunto de pulsos candidatos para codificar o outro sinal. A seleção de regra poderia ser efetuada por um procedimento de malha fechada, onde um número de regras são testadas e aquela dando melhor resultado é finalmente selecionada.
[00075] Figura 5B ilustra uma realização usando a abordagem de seleção de regra. O sinal mono sm(n) e preferivelmente também o sinal lateral ss(n) são providos adicionalmente aqui a uma unidade de seleção de regra 39. Alternativamente ao sinal mono, o parâmetro km representando o sinal mono pode ser usado. Na unidade de seleção de regra 39, os sinais são analisados, por exemplo, com respeito a parâmetros de retardo ou grau de correlação. Dependendo dos resultados, uma regra, por exemplo, representada por um índice r é selecionada a partir de um conjunto de regras predefinidas. O índice da regra selecionada é provido ao meio de derivação de candidato 47 para determinar como os conjuntos candidatos seriam derivados. O índice de regra r é também provido ao segundo codificador de índice 38B, dando uma representação r* do índice, que subseqüentemente é enviada ao segundo decodificador 50B. O segundo decodificador de índice 53B decodifica o índice de regra r, que então é usado para governar a operação do meio de
Petição 870180039559, de 11/05/2018, pág. 22/70
18/23 derivação de candidato 57.
[00076] Desta maneira, um conjunto de regras pode ser provido, o qual será adequado para diferentes tipos de sinais. Uma flexibilidade adicional é então obtida, apenas adicionando um índice de regra único na transferência de dados.
[00077] A regra específica usada, bem como o número resultante de pulsos de sinal lateral candidatos são os parâmetros principais governando a taxa de bit e a complexidade do algoritmo.
[00078] Conforme estabelecido adicionalmente acima, exatamente os mesmos princípios poderíam igualmente ser bem aplicados para recodificação de um e do mesmo canal. Figura 6 ilustra uma realização, onde partes diferentes de um caminho de transmissão permitem diferentes taxas de bit. E então aplicável como parte de uma solução de transcodificação de taxa. Um sinal s(n) é provido como um sinal de entrada 33A a um primeiro codificador 40A, que produz representações k* e δ* de parâmetros que são transmitidos de acordo com uma primeira taxa de bit. Em um certo local, a taxa de bit disponível é reduzida, e uma recodificação para taxas de bit mais baixas tem que ser efetuada. Um primeiro decodificador 50A usa as representações k* e δ* de parâmetros para produzir um sinal reproduzido 21A s(n) é provido a um segundo codificador 40B como um sinal de entrada 33B. Também o índice k a partir do primeiro decodificador 50A é provido ao segundo codificador 40B. O índice k está em analogia com a Figura 6 usada para extrair um livro de código fixo reduzido 10’. O segundo codificador 40B codifica o sinal s(n) para uma taxa de bit mais baixa, dando um índice k' representando o sinal de excitação selecionado (c^(n)). Entretanto, este índice k' é de pouco uso em um decodificador distante, uma vez que o decodificador não tem a informação necessária para construir um livro de código fixo reduzido correspondente. O índice k' então tem que ser associado a um índice k' referindo-se ao livro de código original 10. Isto é preferivelmente efetuado
Petição 870180039559, de 11/05/2018, pág. 23/70 / 23 em conexão com o livro de código fixo 10 e é representado na Figura 6 pelas setas 41 e 43 ilustrando a entrada de K e a saída de k'. A codificação do índice K é então efetuada com referência a um conjunto pleno de sinais de excitação candidatos.
[00079] Em um caso típico, é feita uma primeira codificação com uma taxa de bit n e a segunda codificação é feita com uma taxa de bit m, onde n>m. [00080] Em certas aplicações, por exemplo transmissão em tempo real de conteúdo ao vivo através de diferentes tipos de redes com diferentes capacidades (por exemplo, teleconferência), pode também ser de interesse prover codificações paralelas com taxas de bit diferentes, por exemplo na situação em que a codificação em tempo real é necessária no sentido de acomodar os diferentes tipos de redes, assim chamada codificação multi taxa paralela. Figura 7 ilustra um sistema onde um sinal s(n) é provido a ambos primeiro decodificador 40A e um segundo codificador 40B. Em analogia com realizações prévias, o segundo codificador provê um livro de código fixo reduzido 10' baseado em um índice ka representando a primeira codificação. A segunda codificação é aqui denotada pelo índice “b”. O segundo codificador 40B então se torna independente do primeiro decodificador 50B. A maioria das outras partes estão em analogia com a Figura 6, entretanto, com indexação adaptada.
[00081] Para estas duas aplicações, a recodificação do mesmo sinal com uma taxa mais baixa, a presente invenção uma redução substancial de complexidade, permitindo então a implementação destas aplicações com baixo custo de hardware.
[00082] Uma realização do algoritmo acima descrito tem sido implementada em associação com um codec de voz AMR-WB. Para codificar um sinal lateral, o mesmo índice de livro de código adaptativo é usado como é usado para codificar a excitação mono. O ganho LTP bem como o ganho do vetor de inovação não foi quantizado.
Petição 870180039559, de 11/05/2018, pág. 24/70 / 23 [00083] O algoritmo para o livro de código algébrico foi baseado nas posições de mono pulso. Conforme descrito, por exemplo, em [6] o livro de código pode ser estruturado em trilhas. Exceto para o modo mais baixo, o número de trilhas é igual a 4. Para cada modo, um certo número de posições de pulsos é usado. Por exemplo, para o modo 5, isto é, 15,85 kbps, as posições de pulsos candidatos são conforme segue
Trilha Pulso Posições
1 i0, i4, i8 0, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60
2 i1, i5, 19 1, 5, 9, 13, 17, 21, 25, 29, 33, 37, 41, 45, 49, 53, 57, 61
3 i2, i6, i10 2, 6, 10, 14, 18, 22, 26, 30, 34, 38, 42, 46, 50, 54, 58, 62
4 i3, i7, i11 3, 7, 11, 15, 19, 23, 27, 31, 35, 39, 43, 47, 51, 55, 59, 63
Tabela 1. Posições de pulsos candidatos [00084] O algoritmo implementado retém todos os mono pulsos como as posições de pulsos do sinal lateral, isto é, as posições de pulsos não são codificadas. Somente os sinais dos pulsos são codificados.
Trilha Pulso de sinal lateral Pulso de mono sinal
1 p0, p4, p8 i0, i4, Í8
2 p1, p5, p9 i1, i5, i9
3 p2, p6, p10 i2, i6, Í10
4 p3, p7, p11 i3, i7, Í11
Tabela 2. Pulsos laterais e de mono sinal [00085] Então, cada pulso consumirá apenas 1 bit para codificar o sinal, o que conduz a uma taxa de bit total igual ao número de mono pulsos. No exemplo acima, há 12 pulsos por sub quadro e isto conduz a uma taxa de bit total igual a 12 bits x 4 x 50 = 2,4 kbps para codificar o vetor de inovação. Este é o mesmo número de bits requerido para o modo muito mais baixo AMR-WB (2 pulsos para o modo 6,6 kbps), mas nesse caso temos densidade de pulsos mais alta.
[00086] Deveria ser notado que nenhum retardo algorítmico adicional é necessário para codificar o sinal estéreo.
[00087] Figura 8 mostra os resultados obtidos com PEAQ [4] para avaliar a qualidade perceptual. PEAQ tem sido escolhido até o melhor conhecimento, é a única ferramenta que provê medidas de qualidade objetivas para sinais
Petição 870180039559, de 11/05/2018, pág. 25/70 / 23 estéreo. A partir dos resultados, é claramente visto que o estéreo 100 de fato provê um aumento de qualidade com respeito ao sinal mono 102. Os itens de som usados foram realmente variados, o som 1, S1 é um extrato de um ruído de fundo de filme, o som 2, S2, é uma gravação de rádio de 1 minuto, o som 3, S3, um evento esportivo de corrida de cart, e o som 4, S4 é uma gravação real de dois microfones.
[00088] Figura 9 ilustra uma realização de um método de codificação de acordo com a presente invenção. O procedimento começa na etapa 200. Na etapa 210, uma representação de um sinal de excitação CELP para um primeiro sinal de áudio é provida. Notar que não é absolutamente necessário prover o primeiro sinal de áudio inteiro, apenas a representação do sinal de excitação CELP. Na etapa 212, um segundo sinal de áudio é provido, o qual é correlacionado ao primeiro sinal de áudio. Um conjunto de sinais de excitação candidatos é derivado na etapa 214, dependendo do primeiro sinal de excitação CELP. Preferivelmente, as posições de pulso dos sinais de excitação candidatos são relacionadas às posições de pulso do sinal de excitação CELP do primeiro sinal de áudio. Na etapa 216, uma codificação CELP é efetuada no segundo sinal de áudio, usando o conjunto reduzido de sinais de excitação candidatos derivados na etapa 214. Finalmente, a representação, isto é,, tipicamente um índice, do sinal de excitação CELP para o segundo sinal de áudio é codificada, usando referências ao conjunto candidato reduzido. O procedimento termina na etapa 299.
[00089] Figura 10 ilustra uma outra realização de um método de codificação de acordo com a presente invenção. O procedimento começa na etapa 200. Na etapa 211, é provido um sinal de áudio. Na etapa 213, é provida uma representação de um primeiro sinal de excitação CELP para o mesmo sinal de áudio. Um conjunto de sinais de excitação candidatos é derivado na etapa 215, dependendo do primeiro sinal de excitação CELP. Preferivelmente, as posições de pulso dos sinais de excitação candidatos são relacionadas às
Petição 870180039559, de 11/05/2018, pág. 26/70 / 23 posições de pulso do sinal de excitação CELP do primeiro sinal de áudio. Na etapa 217, uma recodificação CELP é efetuada no sinal de áudio, usando o conjunto reduzido de sinais de excitação candidatos derivado na etapa 215. Finalmente, a representação, isto é, tipicamente um índice, do segundo sinal de excitação CELP para o sinal de áudio é codificado, usando referências ao conjunto candidato não reduzido, isto é, o conjunto usado para a primeira codificação CELP. O procedimento termina na etapa 299.
[00090] Figura 11 ilustra uma realização de um método de decodificação de acordo com a presente invenção. O procedimento começa na etapa 200. Na etapa 210, uma representação de um primeiro sinal de excitação CELP para um primeiro sinal de áudio é provida. Na etapa 252, uma representação de um segundo sinal de excitação CELP para um segundo sinal de áudio é provida. Na etapa 254, um segundo sinal de excitação é derivado do segundo sinal de excitação e com conhecimento do primeiro sinal de excitação. Preferivelmente, um conjunto reduzido de sinais de excitação candidatos é derivado, dependendo do primeiro sinal de excitação CELP, a partir do qual um segundo sinal é selecionado pelo uso de um índice para o segundo sinal de excitação CELP. Na etapa 256, o segundo sinal de áudio é reconstruído usando o segundo sinal de excitação. O procedimento termina na etapa 299. [00091] As realizações descritas acima são para serem entendidas como uns poucos exemplos ilustrativos da presente invenção. Será entendido pelos especialistas na técnica que várias modificações, combinações e mudanças podem ser feitas às realizações, sem se afastar do escopo da presente invenção. Em particular, diferentes partes de soluções nas diferentes realizações podem ser combinadas em outras configurações, onde tecnicamente possível. O escopo da presente invenção é, entretanto, definido pelas reivindicações anexas.
[00092] A invenção permite uma redução dramática de complexidade (ambas memória e operações aritméticas) bem como taxa de bit, ao codificar canais
Petição 870180039559, de 11/05/2018, pág. 27/70 / 23 de áudio múltiplos usando livros de código algébricos e CELP.
REFERÊNCIAS [1] H. Fuchs, “Improving joint stereo audio coding by adaptive interchannel prediction” , in Proc. IEEE WASPAA, Mohonk, NYLON, Oct. 1993.
[2] S.A. Ramprashad, “Stereophonic CELP coding using cross channel prediction”, in Proc. IEEE workshop Speech Coding, pp. 136-138, Sept. 2000.
[3] T. Liebschen, “Lossless audio coding using adaptive multichannel prediction”, in Proc. AES 113th Conv., Los Angeles, CA, Oct. 2002.
[4] ITU-R BS.1387 [5] WO 96/28810 [6] 3GPP transmissão 26.190, p. 28, table 7 [7] US 2004/0044524 A1 [8] US 2004/0109471 A1 [9] US 2003/0191635 A1 [10] US 6,393,392 B1
Petição 870180039559, de 11/05/2018, pág. 28/70

Claims (34)

  1. REIVINDICAÇÕES
    1. Método para codificar sinais de áudio, compreendendo as etapas de:
    prover uma representação (k, km, ka) de um primeiro sinal de excitação de uma predição linear excitada por código de um primeiro sinal de áudio (33A);
    derivar um conjunto (10') de sinais de excitação candidatos (c’(n)) com base no citado primeiro sinal de excitação;
    prover um segundo sinal de áudio (33B), o citado segundo sinal de áudio (33B) sendo diferente do citado primeiro sinal de áudio (33A), caracterizado por efetuar uma codificação de predição linear excitada por código do citado segundo sinal de áudio (33B) usando o citado conjunto (10’) de sinais de excitação candidatos (c’(n)).
  2. 2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o segundo sinal de áudio (33B) é correlacionado ao citado primeiro sinal de áudio (33 A).
  3. 3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a citada etapa de derivar o citado conjunto (10’) de sinais de excitação candidatos (c’(n)) compreende selecionar uma regra além de um conjunto predeterminado de regras com base no citado primeiro sinal de excitação e/ou citado segundo sinal de áudio, onde o citado conjunto (10’) de sinais de excitação candidatos (c’(n)) é derivado de acordo com a citada regra selecionada.
  4. 4. Método de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que citado primeiro sinal de excitação tem n localizações de pulso (Pm ) de um conjunto de N localizações de pulso possíveis;
    citados sinais de excitação candidatos (c’(n)) tem localizações
    Petição 870180039559, de 11/05/2018, pág. 29/70
    2 / 9 de pulso (P*s) somente em um subconjunto das citadas N localizações de pulso possíveis; e citado subconjunto de localizações de pulso (P*s) sendo selecionado com base nas n localizações de pulso (Pm ) do citado primeiro sinal de excitação.
  5. 5. Método de acordo com a reivindicação 4, caracterizado pelo fato de que localizações de pulso (P*s) do citado subconjunto de localizações de pulso são posicionadas em posições pj, onde o índice j está dentro de intervalos {i+L, i+K}, onde i é um índice das citadas n localizações de pulso, K e L são inteiros e K>L.
  6. 6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que K=1 e L=-1.
  7. 7. Método de acordo com qualquer uma das reivindicações 1 a
    6, caracterizado pelo fato de que a predição linear excitada por código do citado segundo sinal de áudio (33B) é efetuada com uma busca global dentro do conjunto (10’) de sinais de excitação candidatos.
  8. 8. Método de acordo com qualquer uma das reivindicações 1 a
    7, caracterizado pelo fato de compreender adicionalmente as etapas de:
    codificar um segundo sinal de excitação da citada predição linear excitada por código do citado segundo sinal de áudio (33B) com referência ao citado conjunto (10’) de sinais de excitação candidatos; e prover o citado segundo sinal de excitação codificado juntamente com a citada representação (k, km, ka) do citado primeiro sinal de excitação.
  9. 9. Método de acordo com a reivindicação 3 ou 8, caracterizado pelo fato de compreender a etapa adicional de prover dados representando uma identificação da citada regra selecionada, juntamente com a citada representação (k, km, ka) do citado primeiro sinal de excitação.
  10. 10. Método de acordo com qualquer uma das reivindicações 1
    Petição 870180039559, de 11/05/2018, pág. 30/70
    3/9 a 7, caracterizado pelo fato de compreender a etapa adicional de:
    codificar um segundo sinal de excitação da citada predição linear excitada por código do citado segundo sinal de áudio (33B) com referência a um conjunto (10) de sinais de excitação candidatos tendo N localizações de pulso possíveis.
  11. 11. Método de acordo com qualquer uma das reivindicações 4 a 10, caracterizado pelo fato de que o segundo sinal de excitação possui m localizações de pulso, onde m < n.
  12. 12. Método para decodificar sinais de áudio (33A, 33B) caracterizado pelo fato de compreender as etapas de:
    prover uma representação (k, km, ka) de um primeiro sinal de excitação de uma predição linear excitada por código de um primeiro sinal de áudio (33A);
    prover uma representação (k’s) de um segundo sinal de excitação de uma predição linear excitada por código de um segundo sinal de áudio (33B); citado segundo sinal de áudio (33B) sendo diferente do citado primeiro sinal de áudio (33A);
    citado segundo sinal de excitação sendo um dentre um conjunto (10’) de sinais de excitação candidatos;
    citado conjunto (10’) de sinais de excitação candidatos sendo baseado no citado primeiro sinal de excitação;
    derivar o citado segundo sinal de excitação (c^(n)) a partir da citada representação (k’s) do citado segundo sinal de excitação e baseado em informação relacionada ao citado conjunto (10’) de sinais de excitação candidatos; e reconstruir o citado segundo sinal de áudio (ss(n)) por filtragem de predição do citado segundo sinal de excitação ((^(n)).
  13. 13. Método de acordo com a reivindicação 12, caracterizado pelo fato de que o citado segundo sinal de áudio (33B) é
    Petição 870180039559, de 11/05/2018, pág. 31/70
    4 / 9 correlacionado ao citado primeiro sinal de áudio (33A).
  14. 14. Método de acordo com a reivindicação 12 ou 13, caracterizado pelo fato de que a citada informação relacionada ao citado conjunto (10') de sinais de excitação candidatos compreende identificação de uma regra além de um conjunto predeterminado de regras, citada regra determinando a derivação do citado conjunto (10') de sinais de excitação candidatos.
  15. 15. Método de acordo com qualquer uma das reivindicações 12 a 14, caracterizado pelo fato de que citado primeiro sinal de excitação tem n localizações de pulso (Pm ) de um conjunto de n localizações de pulso possíveis;
    citados sinais de excitação candidatos tem localizações de pulso (P*s) somente em um subconjunto das citadas N localizações de pulso possíveis; e citado subconjunto de localizações de pulso (P*s) sendo selecionado com base nas n localizações de pulso (Pm ) do citado primeiro sinal de excitação.
  16. 16. Método de acordo com a reivindicação 15, caracterizado pelo fato de que localizações de pulso (P*s) do citado subconjunto de localizações de pulso são posicionadas em posições pj, onde o índice j está dentro de intervalos {i+L, i+K} onde i é um índice das citadas n localizações de pulso, K e L são inteiros e K>L.
  17. 17. Método de acordo com a reivindicação 16, caracterizado pelo fato de que K=1 e L=-1.
  18. 18. Codificador (40B) para sinais de áudio, compreendendo: meio (45) para prover uma representação (k, km, ka) de um primeiro sinal de excitação de uma predição linear excitada por código de um primeiro sinal de áudio (33A);
    meio (47) para derivar um conjunto (10') de sinais de
    Petição 870180039559, de 11/05/2018, pág. 32/70
    5 / 9 excitação candidatos, conectado para receber a citada representação (k, km, ka) do citado primeiro sinal de excitação, citado conjunto (10') de sinais de excitação candidatos sendo baseado no citado primeiro sinal de excitação;
    meio para prover um segundo sinal de áudio (33B), o citado segundo sinal de áudio (33B) sendo diferente do primeiro sinal de áudio (33A), caracterizado por compreender meio (25') para efetuar uma codificação de predição linear excitada por código conectada para receber o citado segundo sinal de áudio (33B) e uma representação do citado conjunto (10') de sinais de excitação candidatos, citado meio (25') para executar uma predição linear excitada por código sendo arranjado para efetuar uma predição linear excitada por código do citado segundo sinal de áudio (33B) usando o citado segundo conjunto (10') de sinais de excitação candidatos.
  19. 19. Codificador de acordo com a reivindicação 18, caracterizado pelo fato de que o citado segundo sinal de áudio (33B) é correlacionado ao citado primeiro sinal de áudio (33A).
  20. 20. Codificador de acordo com a reivindicação 18 ou 19, caracterizado pelo fato de que o citado meio (47) para derivar um conjunto (10') de sinais de excitação candidatos é arranjado para selecionar uma regra além de um conjunto predeterminado de regras com base no citado primeiro sinal de excitação e/ou citado segundo sinal de áudio, e para derivar o citado conjunto (10') de sinais de excitação candidatos (c'(n)) de acordo com a citada regra selecionada.
  21. 21. Codificador de acordo com qualquer uma das reivindicações 18 a 20, caracterizado pelo fato de que citado primeiro sinal de excitação tem n localizações de pulso (Pm ) de um conjunto de N localizações de pulso possíveis;
    citados sinais de excitação candidatos tem localizações de
    Petição 870180039559, de 11/05/2018, pág. 33/70
    6 / 9 pulso (P*s) somente em um subconjunto das citadas N localizações de pulso possíveis; e citado subconjunto de localizações de pulso (P*s) sendo selecionado com base nas n localizações de pulso (Pm ) do citado primeiro sinal de excitação.
  22. 22. Codificador de acordo com a reivindicação 21, caracterizado pelo fato de que localizações de pulso (P*s) do citado subconjunto de localizações de pulso são posicionadas em posições pj, onde o índice j está dentro de intervalos {i+L, i+K}, onde i é um índice das citadas n localizações de pulso, K e L são inteiros e K>L.
  23. 23. Codificador de acordo com a reivindicação 22, caracterizado pelo fato de que K=1 e L=-1.
  24. 24. Codificador de acordo com qualquer uma das reivindicações 18 a 23, caracterizado pelo fato de que o citado meio (25') para efetuar predição linear excitada por código do citado segundo sinal de áudio (33B) é arranjado para executar uma busca global dentro do conjunto (10’) de sinais de excitação candidatos.
  25. 25. Codificador de acordo com qualquer uma das reivindicações 18 a 24, caracterizado pelo fato de compreender adicionalmente:
    meio (38B) para codificar um segundo sinal de excitação da citada predição linear excitada por código do citado segundo sinal de áudio (33B) com referência ao citado conjunto (10’) de sinais de excitação candidatos; e meio para prover o citado segundo sinal de excitação codificado juntamente com a citada representação (k, km, ka) do citado primeiro sinal de excitação.
  26. 26. Codificador de acordo com a reivindicação 20 ou reivindicação 25 caracterizado pelo fato de compreender adicionalmente:
    Petição 870180039559, de 11/05/2018, pág. 34/70
    7 / 9 meio para prover dados representando uma identificação da citada regra selecionada, juntamente com a citada representação (k, km, ka) do citado primeiro sinal de excitação.
  27. 27. Codificador de acordo com qualquer uma das reivindicações 18 a 24, caracterizado pelo fato de compreender adicionalmente:
    meio (38B) para codificar um segundo sinal de excitação da citada predição linear excitada por código do citado segundo sinal de áudio (33B) com referência a um conjunto (10) de sinais de excitação candidatos tendo N localizações de pulso possíveis.
  28. 28. Codificador de acordo com qualquer uma das reivindicações 21 a 27, caracterizado pelo fato de que o segundo sinal de excitação possui m localizações de pulso, onde m < n.
  29. 29. Decodificador (50B) para sinais de áudio, caracterizado pelo fato de compreender:
    meio (55) para prover uma representação (km) de um primeiro sinal de excitação de uma predição linear excitada por código de um primeiro sinal de áudio (33A);
    meio (53B) para prover uma representação (k's) de um segundo sinal de excitação de uma predição linear excitada por código de um segundo sinal de áudio (33B); citado segundo sinal de áudio (33B) sendo diferente do citado primeiro sinal de áudio (33A);
    citado segundo sinal de excitação sendo um dentre um conjunto (10') de sinais de excitação candidatos;
    citado conjunto (10') de sinais de excitação candidatos sendo baseado no citado primeiro sinal de excitação;
    meio (57) para derivar o citado segundo sinal de excitação, conectado para receber informação associada à citada representação (km) de um primeiro sinal de excitação e citada representação (k's) do citado segundo
    Petição 870180039559, de 11/05/2018, pág. 35/70
    8/9 sinal de excitação, citado meio (57) para derivação sendo arranjado para derivar o citado segundo sinal de excitação ((c^.(n)) a partir da citada representação (k’s) do citado segundo sinal de excitação e com base na informação relacionada ao citado conjunto (10’) de sinais de excitação candidatos; e meio (25') para reconstruir o citado segundo sinal de áudio (§s(n)) filtrando por predição o citado segundo sinal de excitação ((c^(n)).
  30. 30. Decodificador de acordo com a reivindicação 29, caracterizado pelo fato de que o citado segundo sinal de áudio (33B) é correlacionado ao citado primeiro sinal de áudio (33A).
  31. 31. Decodificador de acordo com a reivindicação 29 ou 30, caracterizado pelo fato de que a citada informação relacionada ao citado conjunto (10’) de sinais de excitação candidatos compreende identificação de uma regra além de um conjunto predeterminado de regras, citada regra determinando a derivação do citado conjunto (10’) de sinais de excitação candidatos.
  32. 32. Decodificador de acordo com qualquer uma das reivindicações 29 a 31, caracterizado pelo fato de que citado primeiro sinal de excitação tem n localizações de pulso (Pm ) de um conjunto de N localizações de pulso possíveis;
    citados sinais de excitação candidatos tem localizações de pulso (P*s) somente em um subconjunto das citadas N localizações de pulso possíveis; e citado subconjunto de localizações de pulso (P*s) sendo selecionado com base nas n localizações de pulso (Pm ) do citado primeiro sinal de excitação.
  33. 33. Decodificador de acordo com a reivindicação 32, caracterizado pelo fato de que localizações de pulso (Pm ) do citado subconjunto de localizações de pulso são posicionadas em posições pj, onde o
    Petição 870180039559, de 11/05/2018, pág. 36/70
    9 / 9 índice j está dentro de intervalos {i+L, i+K}, onde i é um índice das citadas n localizações de pulso, K e L são inteiros e K>L.
  34. 34. Decodificador de acordo com a reivindicação 33, caracterizado pelo fato de que K=1 e L=-1.
    Petição 870180039559, de 11/05/2018, pág. 37/70
    1/11
    .........../___________________________________________
    Ρ(1) Ρ(2) Ρ(3) Ρ(4) 30 Ρ(5) ρ(θ) > Ρ(7) Ρβ)
    Δι 1ι I I Ήι Τι 1^1
BRPI0520115A 2005-03-09 2005-03-09 métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio BRPI0520115B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2005/000349 WO2006096099A1 (en) 2005-03-09 2005-03-09 Low-complexity code excited linear prediction encoding

Publications (2)

Publication Number Publication Date
BRPI0520115A2 BRPI0520115A2 (pt) 2009-09-15
BRPI0520115B1 true BRPI0520115B1 (pt) 2018-07-17

Family

ID=36953623

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0520115A BRPI0520115B1 (pt) 2005-03-09 2005-03-09 métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio

Country Status (8)

Country Link
EP (1) EP1859441B1 (pt)
JP (1) JP5174651B2 (pt)
KR (1) KR101235425B1 (pt)
CN (1) CN101138022B (pt)
AT (1) ATE513290T1 (pt)
BR (1) BRPI0520115B1 (pt)
TW (1) TW200639801A (pt)
WO (1) WO2006096099A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2827327T3 (da) 2007-04-29 2020-10-12 Huawei Tech Co Ltd Fremgangsmåde til excitationsimpulskodning
CN102299760B (zh) * 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3139602B2 (ja) * 1995-03-24 2001-03-05 日本電信電話株式会社 音響信号符号化方法及び復号化方法
JPH1097295A (ja) * 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
JP3329216B2 (ja) * 1997-01-27 2002-09-30 日本電気株式会社 音声符号化装置及び音声復号装置
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US6161086A (en) * 1997-07-29 2000-12-12 Texas Instruments Incorporated Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
US6539349B1 (en) * 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法

Also Published As

Publication number Publication date
EP1859441B1 (en) 2011-06-15
KR20070116869A (ko) 2007-12-11
CN101138022B (zh) 2011-08-10
JP2008533522A (ja) 2008-08-21
WO2006096099A1 (en) 2006-09-14
BRPI0520115A2 (pt) 2009-09-15
CN101138022A (zh) 2008-03-05
ATE513290T1 (de) 2011-07-15
EP1859441A1 (en) 2007-11-28
KR101235425B1 (ko) 2013-02-20
JP5174651B2 (ja) 2013-04-03
TW200639801A (en) 2006-11-16

Similar Documents

Publication Publication Date Title
US8000967B2 (en) Low-complexity code excited linear prediction encoding
US7778827B2 (en) Method and device for gain quantization in variable bit rate wideband speech coding
RU2459282C2 (ru) Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра
US11282530B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
BRPI0816557B1 (pt) Codificação de áudio usando upmix
AU2011358654B2 (en) Efficient encoding/decoding of audio signals
BRPI0606387B1 (pt) Decodificador, dispositivo de reprodução de áudio, codificador, dispositivo de gravação, método para gerar um sinal de áudio multicanal, meio de armazenamento, método paracodificar um sinal de áudio multicanal, receptor, transmissor, sistema de transmissão, método de receber um sinal de áudio multicanal, e método de transmitir um sinal deáudio multicanal
US20050258983A1 (en) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications
US11783844B2 (en) Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods
US20080306732A1 (en) Method and Device for Carrying Out Optimal Coding Between Two Long-Term Prediction Models
BR112020004909A2 (pt) método e dispositivo para distribuir, de forma eficiente, um bit-budget em um codec celp
BRPI0520115B1 (pt) métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio
Bossen et al. Minoru Etoh, Khosrow Lashkari
RECOMMENDATION ITU-Tg. 722.2

Legal Events

Date Code Title Description
B06G Technical and formal requirements: other requirements [chapter 6.7 patent gazette]

Free format text: SOLICITA-SE A REGULARIZACAO DA PROCURACAO, UMA VEZ QUE BASEADO NO ARTIGO 216 1O DA LPI, O DOCUMENTO DE PROCURACAO DEVE SER APRESENTADO EM SUA FORMA AUTENTICADA; OU SEGUNDO PARECER DA PROCURADORIA NO 074/93, DEVE CONSTAR UMA DECLARACAO DE VERACIDADE, A QUAL DEVE SER ASSINADA POR UMA PESSOA DEVIDAMENTE AUTORIZADA A REPRESENTAR O INTERESSADO, DEVENDO A MESMA CONSTAR NO INSTRUMENTO DE PROCURACAO, OU NO SEU SUBSTABELECIMENTO.

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/008 (2013.01), G10L 19/10 (2013.01)

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]
B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 15A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: REFERENTE AO DESPACHO 21.6 PUBLICADO NA RPI 2557 DE 2020-01-07