BRPI0910999B1

BRPI0910999B1 - Esquema de codificação/decodificação de áudio com bypass comutável

Info

Publication number: BRPI0910999B1
Application number: BRPI0910999-4A
Authority: BR
Inventors: Stefan Geyersberger; Ralf Geiger; Johannes Hilpert; Nikolaus Rettelbach; Bruno Bessette; Phillippe Gournay; Bernhard Grill; Ulrich Kraemer; Jeremie Lecomte; Markus Multrus; Max Neuendorf; Harald Popp; Roch Lefebvre; Jimmy Lapierre; Redwan Salami; Stefan Bayer; Guillaume Fuchs
Original assignee: Voiceage Corporation; Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2020-03-10
Also published as: AU2009270524B2; AU2009270524A1; EP2146344B1; PL2301024T3; US8959017B2; HK1138673A1; KR20110055515A; JP2011528129A; CA2727883C; CA2727883A1; US8321210B2; EP2301024A1; MX2011000534A; CN102099856B; RU2483364C2; ES2592416T3; TWI441167B; US20130066640A1; RU2010154749A; AR072551A1

Abstract

"esquema de codificação/decodificação de áudio com bypass comutável" a presente invenção refere-se a um aparelho para 5 codificação que compreende um primeiro conversor de domínio (510), um bypass comutável (50), um segundo conversor de domínio (410), um primeiro processador (420) e um segundo processador (520) para obter um sinal de áudio codificado que apresenta diferentes porções de sinal representadas por dados codificados em diferentes 10 domínios, que foram codificados por diferentes algoritmos de codificação. estágios de decodificação correspondentes no decodificador junto com um bypass para derivação de um conversor de domínio ~rªra permiti r~ _ a __ g§..ração de um~s_inal de áudio decodificado com alta qualidade e baixa taxa de bits.

Description

"ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO COM BYPASS COMUTÁVEL" DESCRIÇÃO A presente invenção refere-se a codificação de áudio e, particularmente, a esquemas de codificação de áudio com baixa taxa de bits.

No estado da técnica, são conhecidos esquemas de codificação no domínio de freqüência tais como MP3 ou AAC. Esses codificadores no domínio de frequência são besados em uma conversão de domínio de tempo/domínio de frequência, um estágio de quantização subsequente, no qual o erro de quantização é controlado utilizando-se informação de um módulo psicoacústico, e um estágio de codificação, no qual os coeficientes espectrais-quantizados e informação adicional correspondente são codificados por entropia utilizando tabelas de códigos. · — — Por outro lado, existem codificadores que extremamente adequados para o processamento da fala tais como o AMR-WB+ conforme descrito no 3GPP TS 26.290. Esquemas de codificação de fala desse tipo realizam uma filtragem preditiva linear de um sinal no domínio de tempo. Uma filtragem LP desse tipo é derivada de uma análise de predição linear do sinal no domínio de tempo de entrada. Os coeficientes de filtro LP resultantes são então codificados e transmitidos como informação adicional. O processo é conhecido como Codificação de Predição Linear (LPC). Na saída do filtro, o sinal residual de predição ou sinal de erro de predição que também é conhecido como o sinal de excitação é codificado com o uso dos estágios análise por síntese do codificador ACELP ou, alternativamente, é codificado através de um codificador de transformação, que usa uma transformação Fourier com uma sobreposição. A decisão entre a codificação ACELP e a codificação excitação codificada por transformação (Transform Coded eXcitation coding) também chamada de codificação TCX é feita mediante o uso de um algoritmo de loop fechado ou de um algoritmo de loop aberto.

Esquemas de codificação de áudio no domínio de frequência tais como o esquema de codificação AAC de alta eficiência, que combina um esquema de codificação AAC e uma técnica de replicação de largura de banda espectral, também podem ser combinados com uma ferramenta de codificação joint stereo ou uma ferramenta de codificação multi-canal conhecida pelo nome "MPEG surround". _ _ _ _ _ _ _ . _ - Por outro lado, codificadores de fala, tais como o AMR-WB+ também apresentam um estágio de intensificação de alta _freqüência e uma funcionalidade estéreo.

Esquemas de codificação no domínio de frequência são vantajosos pelo fato de eles apresentarem uma alta qualidade a baixas taxas de bits para sinais de música. Porém, é problemática a qualidade de sinais de fala a baixas taxas de bits.

Esquemas de codificação de fala apresentam uma alta qualidade para sinais de fala mesmo a baixas taxas de bits, porém uma baixa qualidade para sinais de música a baixas taxas de bits. É objeto da presente invenção prover um conceito melhorado de codificação/decodificação.

Esse objeto é obtido através de um aparelho de codificação de sinal de áudio de acordo com a reivindicação 1, de um método de codificação de sinal de áudio de acordo com a reivindicação 12, de um aparelho para decodificação de um sinal de áudio codificado de acordo com a reivindicação 13, de um método de decodificação de sinal de áudio codificado de acordo com a reivindicação 21 ou um programa de computador de acordo com a reivindicação 22.

Em um codificador de acordo com a presente invenção, dois conversores de domínio são usados, sendo que o primeiro conversor de domínio converte um sinal de áudio a partir do primeiro domínio tal como o domínio de tempo em um segundo domínio tal como um domínio LPC. O conversor do segundo domínio é operativo para converter um domínio de entrada para um domínio de saída e o Segundo conversor recebe, como uma=entrada,=um_sinal _de^ saída do primeiro conversor de domínio ou um sinal de saída de um bypass comutável, que é conectado ao bypass o primeiro conversor _ de” domínio. Em outras palavras, isso significa que o segundo conversor de domínio, como uma entrada, recebe o sinal de áudio no primeiro domínio tal como o domínio de tempo ou alternativamente, o sinal de saída do primeiro conversor de domínio, ou seja, um sinal de áudio, que já havia sido convertido de um domínio para um domínio diferente. A saída do Segundo conversor de domínio é processada por um primeiro processador a fim de gerar um primeiro sinal processado e a saída do primeiro conversor de domínio é processada por um segundo processador a fim de gerar um segundo sinal processado. Preferivelmente, o bypass comutável pode adicionalmente ser conectado ao Segundo processador de modo que a entrada para o Segundo processador seja o sinal de áudio no domínio de tempo em vez de uma saída do primeiro conversor de domínio.

Esse conceito de codificação extremamente flexível é especificamente útil para codificação de áudio de alta qualidade e alta taxa de bit-eficiente, já que isso permite codificar um sinal de áudio em pelo menos três diferentes domínios e quando o bypass comutável é adicionalmente conectado ao segundo processador do mesmo modo, mesmo em quatro domínios. Isso é possível através da comutação controlável do bypass comutável a fim de derivar ou ligar em ponte o primeiro conversor de domínio para uma determinada porção do sinal de áudio no domínio de tempo ou não. Mesmo se o primeiro conversor de domínio for derivado, ainda restarão duas diferentes possibilidades de codificação do sinal de áudio no domínio de tempo, _ ou_ seja, via_o ^.primeiro processador conectado a um segundo conversor de domínio ou ao segundo processador. “ Preferivelmente, o primeiro processador e o Segundo conversor de domínio juntos formam um codificador modelo coletor de dados tais como o codificador de áudio acionado piscoacusticamente conforme é conhecido do MPEG 1 Layer 3 ou MPEG 4 (AAC) .

Preferivelmente, o outro codificador, ou seja, o segundo processador é um codificador no domínio de tempo, que é, por exemplo, o codificador residual conforme conhecido a partir de um codificador ACELP, onde o sinal residual LPC é codificado utilizando-se um codificador residual tais como um codificador de quantização vetorial para o sinal residual LPC ou um sinal no domínio de tempo. Em uma concretização, esse codificador no domínio de tempo recebe, como uma entrada, um sinal no domínio LPC, quando o bypass estar aberto. Um codificador desse tipo é um codificador modelo fonte de dados já que, em contraste com o codificador modelo coletor de dados, o codificador modelo fonte de dados é especialmente designado para utilizar dados especiais de um modelo de geração de fala. Se, porém, o bypass for fechado, o sinal de entrada no Segundo processador será um sinal no domínio de tempo ao invés de um sinal no domínio LPC.

Se, porém, o bypass comutável for desativado, o que significa que o sinal de áudio do primeiro domínio foi convertido para um Segundo domínio antes de ser processado posteriormente, ainda restam duas possibilidades diferentes, ou seja, ou codificar a saída do primeiro conversor de domínio no segundo domínio, que pode, por exemplq, _ser um domínio LPC ou alternativamente transformar o segundo sinal no domínio em um terceiro domínio, que pode, por exemplo, ser um domínio espectral. _ Vantajosamente, o conversor de domínio espectral, ou seja, o Segundo conversor de domínio, é adaptado para implementar o mesmo algoritmo independentemente se o sinal de entrada no segundo conversor de domínio está no primeiro domínio tal como o domínio de tempo ou está no segundo domínio tal como o domínio LPC.

No lado do decodif icador, existem dois ramos diferentes de decodificação sendo que um ramo de decodificação inclui um conversor de domínio, ou seja, o segundo conversor de domínio, enquanto o outro ramo de decodificação inclui apenas um processador inverso,porém não inclui um conversor de domínio. Dependendo do atual ajuste do bypass no lado do codificador, isto é, se o bypass estava ativo ou não, um primeiro conversor e um decodificador é derivado ou não. Particularmente, o primeiro conversor em um decodificador é derivado quando a saída do Segundo conversor já está no domínio alvo tal como o primeiro domínio ou domínio de tempo. Se, porém, a saída do Segundo conversor no decodificador estiver em um domínio diferente do primeiro domínio, então o bypass decodificador é desativado e o sinal é convertido do domínio diferente para o domínio alvo, ou seja, o primeiro domínio na concretização preferida. O segundo sinal processado está, em uma concretização, no mesmo domínio, ou seja, no Segundo domínio, porém em outras concretizações nas quais um bypass comutável no lado do codificador também é conectável ao segundo processador, a saída do segundo processador inverso no lado do decodif icador já pode estar no primeiro _domínio _ também._ Neste caso, o primeiro conversor é derivado utilizando-se o bypass comutável no lado do decodif icador de forma que um combinador de saída de decodificador recebe sinais de entrada, que representam diferentes porções de um sinal de áudio e que estão no mesmo domínio. Esses sinais podem ser multiplexados no tempo através do combinador ou podem ser enfraquecidos pelo combinador de saída de decodificador.

Em uma concretização preferida, o aparelho para codificação compreende um estágio comum de pré-processamento para compressão de um sinal de entrada. Este estágio de pré-processamento comum pode incluir o processador multi-canal e/ou um processador de replicação de largura de banda espectral de forma que a saída do estagio de pré-processamento comum para todos os modos diferentes de codificação seja uma versão comprimida com relação a uma entrada no estágio de pré-processamento comum.

Correspondentemente, o sinal de saída do combinador do lado do servidor pode ser posteriormente processado por um estágio de pré-processamento comum que, por exemplo, é operativo para realizar uma síntese de replicação de largura de banda espectral e/ou uma operação de expansão multi-canal tais como uma operação upmix multi-canal, que é preferivelmente dirigida utilizando informação multi-canal paramétrica transmitida do lado do codificador para o lado do decodificador.

Em uma concretização preferida, o primeiro domínio, no qual é localizada a entrada do sinal de áudio no codificador e a saída de sinal de áudio pelo decodif icador, é o · domínio de tempo. Em uma concretização preferida, o Segundo domínio, noqual^está posicionada a saída do_ primeiro^conversor de domínio, é um domínio LPC de forma que o primeiro conversor é um estágio de análise LPC. Em uma outra concretização, o terceiro domínio, ou seja, no qual está posicionada a saída do Segundo conversor de domínio, é um domínio espectral ou é um domínio espectral do sinal no domínio LPC gerado pelo primeiro conversor de domínio. 0 primeiro processador conectado ao Segundo conversor de domínio é preferivelmente implementado como um codificador coletor de dados tais como um quantizador/conversor de escala juntos com um código de redução de entropia tais como um quantizador dirigido psicoacusticamente conectado a um codificador Huffman ou a um codificador aritmético, que realiza as mesmas funcionalidades, independentemente se o sinal de entrada de entrada está no domínio espectral ou no domínio espectral LPC.

Em uma outra concretização preferida, o Segundo processador para o processamento da saída do primeiro conversor de domínio ou para o processamento da saída do bypass comutável em um dispositivo de funcionalidade total, é um codificador de domínio de tempo usado no codificador ACELP ou em quaisquer outros codificadores CELP.

Concretizações preferidas da presente invenção são a seguir descritos com relação aos desenhos anexos, onde: A figura la mostra um diagrama em bloco de um esquema de codificação de acordo com o primeiro aspecto da presente invenção; A figura lb mostra um diagrama em bloco de um esquema de decodificação de acordo com o primeiro aspecto da presente invenção; A figura lc mo_st_ra_ um _diagrama~em - bloco de - um esquema de decodificação de acordo com um outro aspecto da presente invenção; ‘ _ A figura ld mostra um diagrama em bloco de um esquema de decodificação de acordo com um outro aspecto da presente invenção; A figura 2a mostra um diagrama em bloco de um esquema de decodificação de acordo com um segundo aspecto da presente invenção; e A figura 2b mostra um diagrama esquemático de um esquema de decodificação de acordo com o segundo aspecto da presente invenção; A figura 2c mostra um diagrama em bloco de um pré-processamento comum preferido da figura 2a; e A figura 2d mostra um diagrama em bloco de um processamento posterior comum preferido da figura 2b; Ά figura 3a ilustra um diagrama em bloco de um esquema de codificação de acordo com um outro aspecto da presente invenção; A figura 3b ilustra um diagrama em bloco de um esquema de decodificação de acordo com um outro aspecto da presente invenção; A figura 3c ilustra uma representação esquemática do aparelho de codificação /método com comutadores em cascata; A figura 3d ilustra uma diagrama esquemático de um aparelho ou método para decodif icação, no qual são usados combinadores em cascata; A figura 3e mostra uma ilustração de um sinal no domínio de tempoe uma representação jzorrespondente ■_ do -sinal· codificado que ilustra regiões de transição cross fade curto que são incluídas em ambos os sinais codificados; A figura 4a ilustra um diagramaem bloco com um comutador posicionado antes dos ramos de codificação; A figura 4b ilustra um diagrama em bloco de um esquema de codificação com o comutador posicionado subseqüente à codificação dos ramos; A figura 4c ilustra um diagramaem bloco para uma concretização de combinador preferida; A figura 5a ilustra uma forma de onda de um segmento de domínio de tempo como um segmento quasi-periódico ou semelhante a impulso; A figura 5b ilustra um espectro do segmento da figura 5a; A figura 5c ilustra um segmento de fala no domínio de tempo de fala sem voz como um exemplo de um segmento semelhante a ruído a ou estacionário; A figura 5d ilustra um espectro da forma de onda no domínio de tempo da figura 5c; A figura 6 ilustra um diagrama em bloco de uma análise por síntese codificador CELP;

As figures 7a a 7d ilustram sinais de excitação com voz/sem voz como um exemplo de sinais semelhantes a impulso ou estacionários; A figura 7e ilustra um estágio LPC no lado do codificador que provê informação de predição a curto prazo e o sinal de erro de predição; _ _ _ _ _ . _ _ =. - - = — =-- A figura 7f ilustra uma outra concretização de um dispositivo LPC para gerar sinal ponderado; A figura 7g ilustra uma implementação para transformação de um sinal ponderado em um sinal de excitação pela aplicação de uma operação de ponderação inversa e uma subseqüente análise de excitação se necessário no conversor 537 da Fig. 2b; A figura 8 ilustra um diagrama em bloco de um algoritmo multi-canal conjunto de acordo com uma concretização da presente invenção; A figura 9 ilustra uma concretização preferida de um algoritmo de extensão de largura de banda; A figura 10a ilustra uma descrição detalhada do comutador quando realiza uma decisão de loop aberto; e A figura 10b ilustra uma ilustração do comutador quando opera um modo de decisão de loop fechado. Ά figura la ilustra uma concretização da invenção na qual existem dois conversores de domínio 510, 410 e o bypass cmutável 50. O bypass comutável 50 é adaptado para ser ativo ou inativo em resposta a um sinal de controle 51, que é aplicadoem uma entrada de controle de comutação do bypass comutável 50. Se o bypass comutável for ativo, o sinal de áudio em uma entrada de sinal de áudio 99, 195 não será conduzido ao primeiro conversor 510 de domínio, mas será conduzido para o bypass comutável 50 de forma que o segundo conversor de domínio 410 receba o sinal de áudio na entrada 99, 195 diretamente. Em uma outra concretização, que será abordada em conexão com as figuras lc e ld, o bypass comutável 50 é alternativamente conectável ao segudo processador 520 sem ser conectado ao segundo _conecto_r de domínio. 4A0=.de forma que o sinal de entrada do bypass comutável 50 seja processado via o segundo processador 520 somente.

Se, porém, o bypass comutável 50 for ajustado em um estado inativo pelo sinal de controle 51, o . sinal de áudio na entrada de sinal de áudio 99 ou 195 será aplicado no primeiro conversor de domínio 510 e , na saída do primeiro conversor de domínio 510, é aplicadoou no segundo conversor de domínio 410 ou no segundo processador 520. A decisão sobre se o sinal de saída do primeiro conversor de domínio será aplicado no Segundo conversor de domínio 410 ou no segundo processador 520 é preferivelmente tomada com base em um sinal de controle de comutador também, porém pode, alternativamente, ser feita através de outros meios tais como metadata ou com base em uma análise de sinal.

Alternativamente, o sinal do primeiro conversor de domínio 510 pode ser até aplicadoem ambos os dispositivos 410, 520 e a seleção, cujo sinal de processo é aplicadona interface de saída para representar o sinal de áudio em uma determinada porção de tempo, é feita através de um comutador conectado entre os processadores e a interface de saída conforme abordado em conexão com a figura 4b. Por outro lado, a decisão sobre se o sinal sera aplicadono fluxo de dados de saída também pode ser tomada dentro da interface de saída 800 propriamente dita.

Conforme ilustrado na figura la, o aparelho inventivo para codificação de um sinal de áudio para obter um sinal de áudio codificado sendo que o sinal de áudio na entrada 99/195 se encontra no primeiro domínio, compreende o primeiro conversor de domínio para converter o sinal de áudio do primeiro domínio para um segundo domínio. Além disso,_é^provido o bypass - comutável 54 para derivar o primeiro conversor de domínio 510 ou para realizar uma conversão do sinal de áudio através do primeiro conversor de domínio em resposta a um sinal de controle do comutador de bypass 51. Desse modo, no estado ativo, o bypass comutável deriva o primeiro conversor de domínio e, no estado não- ativo, o sinal de áudio é aplicadono primeiro conversor de domínio.

Além disso, o Segundo conversor de domínio 410 é provido para converter o sinal de áudio recebido do bypass comutável 50 ou do primeiro conversor de domínio em um terceiro domínio. O terceiro domínio é diferente do segudo domínio. Além disso, é provido um primeiro processador 420 para codificar o sinal de áudio do terceiro domínio de acordo com um primeiro algoritmo de codificação para obter um primeiro sinal processado. Além disso, um Segundo processador 520 para codificar o sinal de áudio recebido do primeiro conversor de domínio de acordo com um segundo algoritmo de codificação é provido, sendo que o segundo algoritmo de codificação é diferente do primeiro algoritmo de codificação. O segundo processador provê o Segundo sinal processado. Particularmente, o aparelho é adaptado para apresentar um sinal de áudio codificado na saída deste para uma porção do sinal de áudio, sendo que este sinal codificado inclui ou o primeiro sinal processado ou o segundo sinal processado.

Naturalmente, podem ser regiões de crossover, mas devido a uma eficiência de codificação melhorada, a meta é manter as regiões de crossover o menor possível e eliminá-las sempre que possível de forma que seja obtida uma compressão com taxa máxima de bits. A figura lb ilustra = um decodificador correspondente ao decodificador na figura Ia em uma concretização preferida. O aparelho para decodificação de um sinal de áudio codificado na figura Fig.lb recebe, como uma entrada, um sinal de áudio codificado que compreende um primeiro sinal processado, que está em um terceiro domínio e um segundo sinal processado que está em um segundo domínio, sendo que o segundo domínio e o terceiro domínio são diferentes um do outro. Particularmente, a entrada de sinal em uma interface de entrada 900 é similar à saída da interface 800 da figura la. 0 aparelho de decodificação compreende um primeiro conversor inverso 430 para o processamento inverso do primeiro sinal processado e um segundo processador inverso 530 para o processamento inverso do segundo sinal processado.

Adicionalmente, é provido um Segundo processador 440 para a conversão de domínio do primeiro sinal processado inverso do terceiro domínio para um domínio diferente. Adicionalmente, é provido um primeiro conversor 540 para converter o Segundo sinal processado inverso em um primeiro domínio ou para converter o primeiro sinal processado inverso no terceiro domínio, quando o domínio diferente não for o primeiro domínio. Isso significa que o primeiro sinal processado inverso é apenas convertido pelo primeiro conversor quando o primeiro sinal processado não estiver já no primeiro domínio, ou seja, em um domínio alvo no qual deve estar o sinal de áudio decodificado ou o sinal de áudio intermediário no caso de um circuito de pré-processamento/pós-processamento. Além disso, o decodificador compreende um bypass 52 para derivar o primeiro conversor 540 quando o domínio diferente for o primeiro domínio. O circuito na figura lb, além disso, compreende um combinador 600 para combinar uma __saí_da jdo^primeiro _ conversor 540 e uma saida de bypass, ou seja, uma saída de sinal pelo bypass 52 para obter um sinal de áudio decodificado combinado 699, que possa ser usado como esteou que possa ser descomprimido utilizando um estágio de pós-processamento comum, como será mais tarde discutido. A figura lc ilustra uma concretização preferida do codificador de áudio inventivo no qual o classificador de sinal em modelo psicoacústico 300 é provido para classificar a entrada de sinal de áudio em um estágio de pré-processamento comum formado por um codificador MPEG Surround 101 e um processador 102 de replicação de banda espectral aperfeiçoado. Além disso, o primeiro conversor de domínio 510 é um estágio de análise LPC e o bypass comutável é conectado entre a entrada e uma saída do estágio de análise LPC 510, que é o primeiro conversor de domínio. O dispositivo LPC emite em geral um sinal no domínio LPC, que pode ser qualquer sinal no domínio LPC tal como o sinal de excitação na figura 7e ou um sinal ponderado na figura 7f ou qualquer outro sinal, que tenha sido gerado mediante aplicação de coeficientes de filtro LPC a um sinal de áudio. Além disso, um dispositivo LPC também pode determinar esses coeficientes e também quantizar/codificar esses coeficientes.

Adicionalmente, é provido um comutador 200 na saída do primeiro conversor de domínio de forma que um sinal na saída comum do bypass 50 e o estágio LPC 510 seja transmitido ou para um primeiro ramo de codificação 400 ou para um segundo ramo de codificação 500. O primeiro ramo de codificação 400 compreende o Segundo conversor de domínio 410 e o primeiro processador 420 da figura la e o segundo ramo de codificação 500 compreende, o ^segundo processador 520 da figura la. Na figura lc concretização de codificador, a entrada do primeiro conversor de domínio 510 é conectada à entrada do bypass comutável 50 e a saída do bypass comutável 50 é conectada à saída do primeiro conversor de domínio 510 para formar uma saída comum e esta saída comum é a entrada no comutador 200, em que o comutador compreende duas saídas, porém pode até compreender saídas adicionais para processadores de codificação adicionais.

Preferivelmente, o Segundo conversor de domínio 410 no primeiro ramo de codificação 400 compreende uma transformada MDCT, que, adicionalmente, é combinada com uma funcinalidade de alinhamento temporal comutável (time-warp (TW)). 0 espectro MDCT é codificado utilizando-se um scalar/quantizador, que realize uma quantização de valores de entrada com base em informação do modelo psicoacústico localizado dentro do bloco classificador de sinal 300. Por outro lado, o segundo processador compreende um codificador de domínio de tempo para a codificação de domínio de tempo do sinal de entrada. Em uma concretização, o comutador 200 é controlado de tal forma que no caso de um bypass ativo/fechado 50, o comutador 200 seja automaticamente ajustado para o ramo de codificação superior 400. Em uma outra concretização, porém, o comutador 200 também pode ser controlado independentemente do bypass comutável 50 mesmo quando o bypass for ativo/fechado de forma que o codificador de domínio de tempo 520 possa receber diretamente o sinal de entrada de áudio no domínio de tempo. A figura ld ilustra um decodificador correspondente em que o bloco de síntese LPC 540 _corresponde„ao_ primeiro conversor da figura lb e pode ser derivado pelo bypass 52, que é preferivelmente um bypass comutável controlado através do de-multiplexador 900 de fluxo de bits. O demultiplexador de fluxo de bits 900 pode gerar este sinal e todos os outros sinais para os ramos de codificação 430, 530 ou o bloco de síntese SBR 701 ou o bloco decodificador MPEG Surround 702de um fluxo de bit de entrada 899 ou pode receber os dados para essas linhas de controle a partir de uma análise de sinal ou de qualquer outra fonte de informação separada. A seguir, será feita uma descrição mais detalhada da concretização na figura lc para o codificador e na Fig. ld para o decodificador. A concretização preferida consiste em um codificador de áudio híbrido, que combina as resistências de bem sucedida tecnologia MPEG tais como AAC, SBR e MPEG com a bem sucedida tecnologia de codificador de fala. O codec resultante compreende um pré-processamento comum para todas as categorias de sinal, consistindo de MPEG Surround e um SBR (eSBR) aperfeiçoado.

Controlado por um modelo psicoacústico e com base na categoria de sinal, é selecionada uma arquitetura de codificador um coletor de dados ou uma arquitetura de codificador derivado de coletor de dados ou de fonte de dados em uma base quadro-por-quadro. O codec proposto usa vantajosamente ferramentas de codificação, do tipo MPEG Surround, SBR e o codificador AAC base. Estes sofreram alterações e aperfeiçoamentos para melhorar o desempenho de fala e a taxas de bita bem baixas. A taxas de bits bem baixas o desempenho de AAC é pelo menos combinado, como o novo codec pode recuar para um modo muito ^próximo ao AAC. Um modo, de codificação sem ruído aperfeiçoado é implementado, o qual provê em média um desempenho de codificação sem ruído ligeiramente melhor.

Para taxas de bits de aprox. 32 kbps e inferiores a esta são ativadas ferramentas adicionais para melhorar o desempenho do codificador de base para fala e outros sinais. Os componentes principais dessas ferramentas são um LPC baseado em configuração de frequência, opções de comprimento de janela mais alternativas para o codificador a base da MDCT e um codificador de domínio de tempo. Uma nova técnica de extensão de largura de banda é usada uma extensão para a ferramenta SBR, que é mais adequado para frequências de crossover e para fala. A ferramenta MPEG Surround prove uma representação paramétrica de um sinal estéreo ou multicanal ao prover uma função down mix e imagem estéreo parameterizada. Para esses casos de teste, ela é usada para codificar sinais stereos apenas, mas também é adequada para sinais de entrada multi-canal fazendo uso da funcionalidade MPEG Surround existente a partir de MPEG-D.

Todas as ferramentas na cadeia codec com exceção do codificador MDCT são preferivelmente usadas a baixas taxas de bits apenas. A tecnologia MPEG Surround é usada para transmitir canais de entrada de áudio N via canais de transmissão de áudio M. Desse modo, o sistema possui inerentemente capacidade multi-canal. A tecnologia MPEG Surround sofreu aperfeiçoamentos para aumentar o desempenho a baixas taxas de bits e para fala semelhante a sinais. O modo de operação básica é a criação de um mono down mix de alta qualidade a partir do sinal de entrada estéreo.

Adicionalmente, é extraído um jogo de parâmetros espaciais. No lado do decodificador, um sinal de saída estéreo é gerado — utilizando o mono down mix decodificado em combinação com os parâmetros espaciais extraídos e transmitidos. Um modo de baixa taxa de bits 2-1-2 foi adicionado aos pontos de operação existentes 5-X-5 ou 7-X-7 em MPEG Surround, utilizando uma estrutura de árvore simples que consiste de uma caixa OTT (um-para-dois) no MPEG Surround upmix. Alguns dos componentes haviam recebido modificações para melhor se adaptar â reprodução de fala. Para taxas de dados mais elevadas, tais como 64 kbps e superiores, o código do núcleo está usando codificação estéreo discreta (Mid/Side ou L/R) , MPEG Surround não é usado para este ponto de operação. A extensão de largura de banda proposta nesta nesta apresentação de tecnologia é baseada na tecnologia MPEG SBR.

0 banco de filtro usado é idêntico ao banco de filtro QMF em MPEG

Surround e SBR, com a possibilidade de compartilhar amostras de domínio QMF entre MPEG Surround e SBR sem síntese/análise adicional. Comparado à ferramenta padronizada SBR, eSBR introduz um algoritmo de processamento aperfeiçoado, que é ideal para ambos, conteúdo de fala e de áudio. Uma extensão para SBR é incluída, que é mais adequado para taxas de bits muito baixas e baixas freqüências de crossover.

Conforme conhecido da combinação de SBR e AAC, essa característica pode ser desativada globalmente, deixando codificação da faixa inteira de freqüência para o codificador de núcleo. __. _ A parte do . codificador de núcleo do sistema proposto pode ser vista como a combinação de um filtro LPC opcional e um codificador de domínio de freqüência comutável /domínio de tempo.

Conforme conhecido de arquiteturas de codificador de fala, o filtro LPC provê a base para um modelo de fonte da fala humana. O processamento LPC pode ser habilitado / desabilitado (derivado) globalmente ou em uma base de quadro-por-quadro.

Seguindo o filtro LPC, o sinal no domínio LPC é codificado utilizando-se ou um domínio de tempo ou transformada com base na arquitetura de codificador de domínio de frequência. Comutação entre esses dois ramos é controlada por um modelo psicoacústico extendido. A arquitetura de codificador de domínio de tempo é baseada na tecnologia ACELP, provendo desempenho de codificação ideal especialmente para sinais de fala a baixas taxas de bits. O domínio de frequência baseado no ramo codec é baseado em uma arquitetura MDCT com quantizador do scalar e codificação por entropia.

Opcionalmente, uma ferramenta de alinhamento temporal (time-warp) é disponibilizada para aperfeiçoar a eficiência de codificação para sinais de fala a taxas de bits mais elevadas (tais como 64 kbps e superiores) através e uma representação de sinal mais compacta. A arquitetura a base de MDCT confere boa qualidade a taxas de bits mais baixas e escalas em direção à transparência conforme conhecido a partir de tecnologias MPEG existentes. Ela pode converger em um modo AAC a taxas de bitas mais elevadas. _ = - Exigências de armazenamento temporário são idênticas a AAC, ou seja, o número máximo de bits no buffer ’ temporário de entrada é 6144 por canal codificador de núcleo: 6144 bits por elemento mono-canal, 12288 bits por elemento par de canal.

Um reservatório de bit é controlado no codificador, que permite adaptação do processo de codificação para a demanda de bit corrente. Características do reservatório de bits são idênticas a AAC. O codificador e decodificador são controláveis para operar em diferentes taxas de bits entre 12 kbps mono e 64 kpbs estéreo. A complexidade do decodificador é especificada em termos de PCU. Para o decodif icador de base é necessária uma complexidade de aprox. 11.7 PCU. Neste caso é usada a ferramenta de alinhamento de tempo (time warp) , como para o modo de teste 64kbps, a complexidade do decodificador é aumentada para 22.2 PCU.

As exigências para RAM e ROM para um decodificador estéreo preferido são: RAM: -24 kWords ROM: -150 kWords Ao notificar o codificador de entropia, pode-se obter um tamanho ROM total de apenas -98 kWords.

Neste caso, é usada a ferramenta de alinhyamento de tempo time-warp, a demanda RAM é aumentada por -3 kWords, a demanda ROM é aumentada por ~40kWords. O retardo algorítmico teórico depende das ferramentas usadas na cadeia codec (por exemplo MPEG________Surround etc.): 0 retardo algorítmico da tecnologia proposta é exibido por ponto de operação na taxa de amostragem codec. Os valores “indicados abaixo não incluem um retardo de quadro, ou seja, o retardo necessário para preencher o armazenamento temporário (buffer) de entrada do decodificador com o número de amostras necessárias para processar o primeiro quadro. Esse retardo de quadro é 2048 amostras para todos os modos de operação especificados. As tabelas subseqüentes contém ambos, o retardo algorítmico mínimo e o retardo para a implementação usada. O retardo adicional para reamostrar arquivos PCM de entrada 48 kHz para a taxa de amostragem codec é especificado em '(·)'· Os principais atributos deste codec podem ser resumidos como segue: A tecnologia proposta vantajosamente usa tecnologia de codificação de áudio e fala estado da técnica, sem sacrificar o desempenho para codificação ou da fala ou do conteúdo musical. Isso resulta em um codec que é capaz de conferir qualidade do estado da técnica para conteúdo de fala, música e mixado para uma faixa de taxa de bits que inicia a taxas mito baixas (12 kbps) e evolui para taxas de dados elevadas tais como 128 kbps e superiores, nas quais o codec atinge qualidade transparente .

Um sinal mono, um sinal estéreo ou um sinal multi-canal é aplicadoem um estágio de pré-processamento comum 100 na figura 2a. O esquema de pré-processamento comum pode apresentar uma funcionalidade estéreo conjunta, uma funcionalidade surround, e/ou uma funcionalidade de extensão de largura de banda. Na saida do bloco 100 existe um canal mono, um canal stereo ou um canal múltiplo que é inserido em um conjunto de bypass 50 e conversor 510 ou conjuntos múltiplos desse tipo. O conjunto de bypass 50 e conversor 510 pode estar presente para cada saida do estágio 100, quando o estágio 100 tiver duas ou mais saídas, ou seja, quando estágio 100 emitir um sinal estéreo ou um sinal multi-canal. Poy exemp_lo,_ o _primeiro _ canal de um sinal estéreo poderia ser um canal de fala e o segundo canal do sinal estéreo poderia ser um canal de música. Nesta “situação, a decisão no estágio de decisão pode ser diferente entre os dois canais para o mesmo instante de tempo. O bypass 50 é controlado por um estágio de decisão 300. O estágio de decisão recebe, como uma entrada, uma entrada de sinal no bloco 100 ou uma saída de sinal pelo bloco 100. Alternativamente, o estágio de decisão 300 também pode receber uma informação adicional que é incluída no sinal mono, o sinal estéreo ou o sinal multi-canal ou é pelo menos associado a um tal sinal, em que existe informação, que foi, por exemplo, gerada ao produzir originalmente o sinal mono, o sinal estéreo ou o sinal multi-canal.

Em uma concretização, o estágio de decisão não controla o estágio de pré-processamento 100, e a seta entre bloco 300 e 100 não existe. Em uma outra concretização, o processamento em bloco 100 é controlado para um determinado grau através do estágio de decisão 300 a fim de ajustar um ou mais parâmetros em bloco 100 com base na decisão. Isso porém não irá influenciar o algoritmo geral no bloco 100 de forma que a principal funcionalidade no bloco 100 seja ativa independentemente da decisão no estágio 300. O estágio de decisão 300 ativa o bypass 50 a fim de alimentar a saída do estágio de pré-processamento comum ou em uma porção de codificação de frequência 400, ilustrada em um ramo superior da figura la ou em um conversor de domínio LPC 510 que pode ser parte da segunda porção de codificação 500 ilustrada em um ramo inferior na figura 2a e que agresenta ..elementos 510, 520. . - Em uma concretização, o bypass deriva um conversor de domínio simples. Em uma outra concretização,podem ser conversores de domínio adicionais para diferentes ramos de codificação tais como um terceiro ramo de codificação ou mesmo um quarto ramo de codificação ou ainda vários ramos de codificação.

Em uma concretização com três ramos de codificação, o terceiro ramo de codificação poderia ser similar ao segundo ramo de codificação, mas poderia incluir um codificador de excitação diferente do codificador de excitação 520 no segundo ramo 500. Nesta concretização, o segundo ramo compreende o estágio LPC 510 e uma tabela baseada no codificador de excitação tal como em ACELP, e o terceiro ramo compreende um estágio LPC e um codificador de excitação que opera em uma representação espectral do sinal de saída do estágio LPC.

Um elemento chave do ramo de codificação de domínio de frequência é o bloco de conversão espectral 410 que é operativo para converter o sinal de saída de estágio de pré- processamento comum em um domínio espectral. O bloco de conversão espectral pode incluir um algoritmo MDCT, um QMF, um algoritmo FFT, análise Wavelet ou um banco de filtro tal como um banco de filtro criticamente amostrado, que apresenta um determinado número de canais de banco de filtro, em que os sinais de subbanda neste banco de filtro podem ser sinais de valor real ou sinais de valor complexo. A saída do bloco de conversão espectral 410 é codificada utilizando-se um codificador de áudio espectral 420, que pode incluir blocos de processamento conforme conhecido a partir do esquema de codificação AAC.

No ramo de codificação inferior 500,. um elemento = chave é um analisador de modelo fonte tal como LPC 510, que é, nesta concretização, o conversor de domínio 510, e que emite dois tipos de sinais. Um sinal é um sinal de informação LPC que é usado para controlar a característica de filtro de um filtro de síntese LPC. Essa informação LPC é transmitida a um decodificador. O outro sinal de saída de estágio LPC 510 é um sinal de excitação ou um sinal no domínio LPC, que é inserido em um codificador 520 de excitação. 0 codificador de excitação 520 pode proceder de qualquer codificador de modelo de filtro fonte tal como um codificador CELP, um codificador ACELP ou qualquer outro codificador que processa um sinal no domínio LPC.

Outra implementação de codificador de excitação preferida e uma codificação de transformada do sinal de excitação ou de um sinal no domínio LPC. Nesta concretização, o sinal de excitação não é codificado utilizando-se um mecanismo ACELP codebook, mas o sinal de excitação é convertido em uma representação espectral e os valores de representação espectral, tais como sinais de subbanda no caso de um banco de filtro ou coeficientes de freqüência no caso de uma transformada, tais como um FFT, são codificados para obter uma compressão de dados. Uma implementação desse tipo de codificador de excitação é o modo de codificação TCX conhecido do AMR-WB+. Esse modo é obtido pela conexão da saída do estágio LPC 510 ao conversor espectral 410. O modo TCX conforme conhecido do 3GPP TS 2 6.2 90 incorre em um processamento de um sinal percentualmente ponderado no domínio de transformada. Um sinal ponderado de transformada Fourier é quantizado utilizando-se uma quantização lattice multi-taxa partida (algebraic VQ) com quantização_ de _fator„ de _ruído.. Uma. transformada é calculada em janelas de amostra 1024, 512, ou 256. 0 sinal de excitação é recuperado mediante filtragem inversa do " sinal ponderado quantizado através de um filtro de ponderação inversa. - Na figura la ou figura lc o bloco LPC 510 é seguido de um codificador de domínio de tempo, que pode ser um bloco ACELP ou um codificador de domínio de transformada, que pode ser um bloco TCX 527. ACELP é descrito em 3GPP TS 26.190 e TCX é descrito em 3GPP TS 26.290. Geralmente, o bloco ACELP recebe um sinal de excitação LPC conforme calculado por um procedimento descrito na Fig. 7e. O bloco TCX 527 recebe um sinal ponderado conforme gerado na Fig. 7f.

No TCX, a transformada é aplicada ao sinal ponderado computado mediante filtragem do sinal de entrada através de um filtro de ponderação baseado em LPC. O filtro de ponderação usado em concretizações preferidas da presente invenção é indicado por (1 - A(z//))/(1 —/zz_1) . Desse modo, o sinal ponderado é um sinal no domínio LPC e sua transformada é um domínio espectral LPC. O sinal processado pelo bloco ACELP 526 é o sinal de excitação e é diferente do sinal processado pelo bloco 527, porém ambos os sinais estão no domínio LPC.

No lado do decodificador, após a transformada espectral inversa, é aplicado o inverso do filtro de ponderação, isto é (1 — μζ~λ)/A(z//) . Em seguida, o sinal é filtrado através (1-A(z)) para ir ao domínio de excitação LPC. Desse modo, a conversão para o domínio LPC e uma operação TCX"1 inclui uma transformada inversa e depois a filtragem através para converter do domínio de sinal ponderado para o domínio de excitação. _ Embora o item 510 ilustre um bloco simples, o bloco 510 pode emitir diferentes sinais desde que esses sinais estejam no domínio LPC. O modo atual do bloco 510 tal como o modo de sinal de excitação ou o modo de sinal ponderado pode depender do estado atual de comutação. Alternativamente, o bloco 510 pode apresentar dois dispositivos de processamento paralelo, em que um dispositivo é implementado de forma similar a figura 7e e o outro dispositivo é implementado como a figura 7f. Portanto, o domínio LPC na saída de 510 pode representar ou o sinal de excitação LPC ou o sinalo ponderado LPC ou qualquer outro sinal no domínio LPC.

No modo LPC, quando o bypass está inativo, ou seja, quando existe uma codificação ACELP/TCX, o sinal é preferivelmente pré-enfatizado através de um filtro 1-0.68z-1 antes da codificação. No decodificador ACELP/TCX o sinal sintetizado é desenfatizado com o filtro 1/(1 — 0.68z_1) . A pré-ênfase pode ser parte do bloco LPC 510 em que o sinal é pré-enfatizado antes da análise LPC e quantização. De forma análoga, a desênfase pode ser parte do bloco de síntese LPC LPC'1 540.

Existem diversos domínios LPC. Um primeiro domínio LPC representa a excitação LPC, e o Segundo domínio LPC representa o sinal ponderado LPC. Isto é, o primeiro sinal no domínio LPC é obtido mediante filtragem através (l-A(z)) para converter ao domínio residual/excitação LPC,enquanto o segundo sinal no domínio LPC é obtido mediante filtragem através do filtro (l-A(z//))/(1-pz~') para converter para o domínio ponderado LPC. — — - — = — = A= deci.são no ^es tágio” de decisão pode ser uma adaptativa de sinal de forma que o estágio de decisão realize uma discriminação música/fala js controla _o bypass 5Ό e se presente, o comutador 200 na Fig. lc de tal maneira que sinais de musica são inseridos no ramo superior 400, e sinais de fala são inseridos no ramo inferior 500. Em uma concretização, o estágio de decisão está alimentando sua informação de decisão para um fluxo de bits de saída de forma que um decodif icador possa usar esta informação de decisão a fim de realizar as operações de decodificação corretas.

Um decodificador desse tipo aparece ilustrado na Fig. 2b. A saída de sinal através do codificador 420 de áudio espectral 420 é, após a transmissão, inserido em um decodificador de áudio espectral 430. A saída do decodificador de áudio espectral 430 é inserida em um conversor de domínio de tempo 440. De forma análoga, a saída do codificador de excitação 520 da Fig. 2a é inserida em um decodif icador de excitação 530 que emite um sinal no domínio LPC. O sinal no domínio LPC é inserido em um estágio de síntese LPC 540, que recebe, como uma outra entrada, a informação LPC gerada pelo estágio de análise correspondente 510. A saída do conversor de domínio de tempo 440 e/ou a saída do estágio de síntese LPC 540 são inseridas em um bypass comutável 52.0 bypass 52 é controlado por um sinal de controle de bypass que foi, por exemplo, gerado pelo estágio de decisão 300, ou que foi externamente provido por exemplo por um criador do sinal mono original, sinal estéreo original ou sinal multi-canal original. A saída do bypass 540 ou estágio 540 inserida no combinador 600 é um sinal mono complete que é, em seguida, inserido em um estágio de pós-processamento comum 700, que pode realizar um processamento estéreo conjunto_ou_um_ processamento de extensão de largura de banda etc. Dependendo da funcionalidade específica do estágio de pós-processamento comum, um sinal mono, um sinal estéreo ou um sinal multi-canal é emitido o qual apresenta, quando o estágio de pós-processamento comum 700 realiza uma operação de extensão de largura de banda, uma largura de banda maior do que a entrada de sinal no bloco 700.

Em uma concretização, o bypass 52 é adaptado para derivar o conversor simples 540. Em uma outra concretização, podem existir conversores adicionais que definem ramos de decodificação adicionais tais como um terceiro ramo adicional de decodificação ou mesmo um quatro ramo adicional de decodificação ou ainda vários ramos de decodificação. Em uma concretização com três ramos de decodificação, o terceiro ramo de decodificação poderia ser similar ao segundo ramo de decodificação, porém incluiría um decodificador de excitação diferente do decodificador de excitação 530 no segundo ramo 530, 540. Nesta concretização, o Segundo ramo compreende o estágio LPC 540 e uma tabela baseada no decodificador de excitação tal como em ACELP, e o terceiro ramo compreende um estágio LPC e um decodificador de excitação que opera uma representação espectral do sinal de saida do estágio LPC 540.

Conforme citado anteriormente, a Fig. 2c ilustra um esquema de codificação preferido de acordo com um segundo aspecto da invenção. O esquema de pré-processamwnto comum em 100 da figura, agora compreende um bloco surround/estéreo conjunto 101 que gera, como uma saída, parâmetros estéreos conjuntos e um sinal de saída mono, que é gerado por mixagem descendente do sinal de entrada que é um sinal que apresenta dois ou mais canais. Em geral, o sinal na saída do bloco 101 também_ podeis er um sinal, que apresenta mais 'canais, mas devido à funcionalidade de mixagem descendente do bloco 101, o número de canais na saída do bloco 101 "deverá ser menor do que o número de canais na entrada para o bloco 101. A saída do bloco 101 é inserida em um bloco de extensão de largura de banda 102 que, no codificador da Fig. 2c, emite um sinal limitado a uma banda tal como o sinal de banda baixa ou o sinal de passa-baixos na sua saída. Além disso, para a banda alta da entrada de sinal no bloco 102, são gerados parâmetros de extensão de largura de banda tais como parâmetros de envelope espectral, parâmetros de filtragem inversa, parâmetros de piso de ruídos etc. conforme conhecidos dos perfis HE-AAC de MPEG- 4 e encaminhados a um multiplexador de fluxo de bits 800.

Preferivelmente, o estágio de decisão 300 recebe a entrada de sinal no bloco 101 ou entrada no bloco 102 a fim de decidir entre, por exemplo, um modo de música ou um modo de fala.

No modo de música, o ramos de codificação superior 400 é selecionado, enquanto no modo de fala, é selecionado o ramo de codificação inferior 500. Preferivelmente, o estágio de decisão controla adicionalmente o bloco estéreo conjunto 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade desses blocos ao sinal específico. Desse modo, quando o estágio de decisão determina que uma determinada porção de tempo do sinal de entrada é do primeiro modo tal como o modo de música, características específicas de bloco 101 e/ou bloco 102 podem ser controladas pelo estágio de decisão 300. Alternativamente, quando o estágio de decisão 300 determina que o sinal está em um modo de fala ou, em geral, em um modo de codificação_do_ domínio LPC, características específicas de blocos 101 e 102 podem ser controladas de acordo com a saída de estágio de decisão. — ~ - Dependendo da decisão do comutador, que pode ser derivado do sinal de entrada 200 de comutador ou de qualquer outra . fonte externa tal como um produtor do sinal de áudio original subjacente à entrada de sinal no estágio 200, o comutador comuta entre o ramo de codificação de freqüência 4 00 e o ramo de codificação LPC 500. O ramo de codificação de frequência 400 compreende um estágio de conversão espectral e um estágio de quantização/codificação conectado em seguida. O estágio de quantização/codificação pode incluir qualquer das funcionalidades conforme conhecidas a de modernos codificadores de domínio de freqüência tal como codificador AAC. Além disso, a operação de quantização no estágio de quantização/codificação pode ser controlada por meio de um módulo psicoacústico que gera informação psicoacústica tal como limiar de mascaramento psicoacústico sobre a freqüência, em que esta informação é inserida no estágio.

Preferivelmente, a conversão espectral é feita com o uso de uma operação MDCT, ainda mais preferivelmente, a operação MDCT com alinhamento de tempo "time-warp", em que a resistência ou, em geral, a resistência a distorção (warping) pode ser controlada entre zero e uma resistência elevada a distorção (warping) . Em uma resistência a warping zero, a operação MDCT em bloco 400 na figura lc é uma operação MDCT simples e direta conhecida no estado da técnica. A resistência a alinhamento de tempo (time warping) junto com informação adicional de alinhamento de tempo pode ser transmitida / inserida no multiplexador de fluxo de bits 800 como informação adicional^ Por consequência,__ se _for - usado TW-MDCT, a informação adicional de alinhamento de tempo deverá ser enviada ao fluxo de bits conforme ilustrado por 424 na Fig. lc, e - no lado do decodificador - a informação de alinhamento de tempo deverá ser recebida do fluxo de bits conforme ilustrado pelo item 434 na Fig. ld.

No ramo de codificação LPC, o codificador de domínio LPC pode incluir um núcleo ACELP que calcula um ganho de pitch, um atraso de pitch e/ou informação de tabela tal como índice de tabela e um ganho de código.

No primeiro ramo de codificação 400, um conversor espectral compreende preferivelmente uma operação MDCT especificamente adaptada apresentando funções de janela seguidas por um estágio de quantização/codificação por entropia que pode ser um estágio de quantização vetorial, porém preferivelmente é um quantizador/codificador similar ao quantizador/codificador no ramo de codificação de domínio de freqüência. A Fig. 2d ilustra um esquema de decodificação correspondente ao esquema de codificação da Fig. 2c. O fluxo de bits gerado por um multiplexador de fluxo de bits é inserido em um demultiplexador de fluxo de bits. Dependendo de uma informação derivada por exemplo do fluxo de bits via um bloco de detecção de modo, um comutador no lado do decodificador é controlado para sinais antecipados do ramo superior ou sinais do ramo inferior para o bloco 701 de extensão de largura de banda. O bloco 701 de extensão de largura de banda recebe, do demultiplexador de fluxo de bits, informação adicional e, com base nessa informação adicional e na saída da decisão de modo, reconstrói a banda alta com base na saída de banda baixa por meio de_ cqmbinadpr _ 600 da Fig. ld, por exemplo. O sinal de banda completa gerado pelo bloco 701 é inseFidõ no estágio 702 de processamento éstereo /surround conjunto, que reconstrói dois canais estéreos ou diversos multi- canais. Em geral, o bloco 702 dará saída a mais canais do que deram entrada nesse bloco. Dependendo da aplicação, a entrada no bloco 702 podem ainda incluir dois canais tais como em um modo estereo e pode ainda incluir mais canais desde que a saída por este bloco apresente mais canais do que a entrada neste bloco. O comutador 200 na Fig. lc foi apresentado para comutar entre ambos os ramos de forma que somente um ramo receba um sinal para processar e o outro ramo não receba um sinal para processar conforme mostrado na figura 4a. Em uma concretização alternativa na Fig. 4b, porém, o comutador pode também ser disposto em seguida a por exemplo o codificador de áudio 420e o codificador de excitação 520, que significa que ambos os ramos 400, 500 processam o mesmo sinal em paralelo. Para não dobrar a taxa de bits, porém, apenas a saída de sinal por um daqueles ramos de codificação 400 ou 500 é selecionada para ser escrita no fluxo de bits de saída. O estágio de decisão irá então operar de forma que o sinal escrito no fluxo de bits minimizará uma determinada função de custo, em que a função de custo pode ser a taxa de bits gerada ou a distoção percentual gerada ou uma função de custo de taxa/distorção combinada. Portanto, neste modo ou no modo ilustrado nas figures, o estágio de decisão também pode operar em um modo de loop fechado a fim de assegurar que finalmente, apenas a saída de ramo de codificação será escrita no fluxo de bits que apresenta para uma dada distorção percentual a_ taxa _de _,bits mais, baixa ou, para uma dada taxa de bits, apresenta a distorção percentual mais baixa. ' ” Em geral, o processamento no ramo 400 é um processamento em uma percepção baseada no modelo ou no modelo de coletor de dados. Assim, esse ramo modela o sistema de auditório humano que recebe som. Em contrapartida, o processamento no ramo 500 deve gerar um sinal no domínio de excitação, residual ou LPC. Em geral, o processamento no ramo 500 é um processamento em um modelo de fala ou um modelo de geração de informação. Para sinais de fala, este modelo é um modelo do sistema de geração de fala/som que gera som. Se, porém, um som de uma fonte diferente que requer um modelo de geração de som diferente tiver que ser codificado, então o processamento no ramo 500 poderá ser diferente.

Embora as figures de la a 4c aparecem ilustradas como diagramas em bloco de um aparelho, essas figuras são simultaneamente uma ilustração de um método, em que as funcionalidades de bloco correspondem às etapas de método. A Fig. 3c ilustra um codificador de áudio para codificação de um sinal de entrada de áudio 195. O sinal de entrada de áudio 195 está presente em um primeiro domínio que pode, por exemplo, ser o domínio de tempo mas que pode ser também qualquer outro domínio tais como domínio de frequência, um domínio LCP, um domínio espectral LPC ou qualquer outro domínio. Em geral, a conversão de um domínio para o outro domínio é realizada por um tipo de um algoritmo de conversão tal como qualquer dos algoritmos de conversão tempo/frequência bem conhecidos ou algoritmos de conversão freqüência /tempo bem conhecidos.

Uma transformada alternativa do domínio de tempo,. por exemplo no domínio LPC é o resultado de filtragem a base de LPC de um sinal no domínio de tempo que resulta em um sinal residual LPC ou sinal de excitação, ou outro domínio LPC.

Quaisquer outras operações de filtragem que produzam um sinal filtrado que apresenta um impacto sobre o número substancial de amostras de sinal antes da transformada, poderão ser usadas como um algoritmo de transformada conforme o caso. Portanto, ponderação de um sinal de áudio utilizando um filtro de ponderação a base de LPC e uma outra transformada, que gera um sinal no domínio LPC. Em uma transformada de tempo/f requência, a modificação de um valor espectral simples terá um impacto em todos os valores de domínio de tempo antes da transformada. De forma análoga, uma modificação de qualquer amostra de domínio de tempo terá um impacto em cada amostra de domínio de frequência. De modo similar, uma modificação de uma amostra do sinal de excitação em uma situação de domínio LPC terá, devido ao comprimento do filtro LPC, um impacto sobre um número substancial de amostras antes da filtragem LPC. De modo similar, uma modificação de uma amostra antes de uma transformação LPC terá um impacto sobre várias amostras obtidas através dessa transformação LPC devido ao efeito de memória inerente do filtro LPC. O codificador de áudio da Fig. 3c inclui um primeiro ramo de codificação 522 que gera um primeiro sinal codificado. Este primeiro sinal codificado pode estar em um quarto domínio que está, na concretização preferida, no domínio espectral de tempo, ou seja, o domínio que é obtido quando um sinal no domínio de tempo é processado através de uma conversão tempo/f requência. _ _ _ _ „ Portanto, o primeiro ramo de codificação 522 para codificação de um sinal de áudio usa um primeiro algoritmo de codificação para obter um primeiro sinal codificado, em que este primeiro algoritmo de codificação pode ou não incluir um algoritmo de conversão tempo/frequência. O codificador de áudio além disso inclui um segundo ramo de codificação 523 para codificação de um sinal de áudio. O segundo ramo de codificação 523 usa um segundo algoritmo de codificação para obter um segundo sinal codificado, que é diferente do primeiro algoritmo de codificação. O codificador de áudio além disso inclui um primeiro comutador 521 para comutação entre o primeiro ramo de codificação 522 e o Segundo ramo de codificação 523, 524 de forma que uma porção do sinal de entrada de áudio, ou o primeiro sinal codificado na saída do bloco 522 ou o segundo sinal codificado na saída do segundo ramo de codificação é incluído em um sinal de saída de codificador. Assim sendo, quando para uma determinada porção do sinal de entrada de áudio 195, o primeiro sinal codificado no quarto domínio for incluído no sinal de saída de codificador, o segundo sinal codificado que é ou o primeiro sinal processado no segundo domínio ou o segundo sinal processado no terceiro domínio, não será incluído no sinal de saída de decodif icador. Isso assegura que este codificador é eficiente em taxa de bits. Em concretizações, quaisquer porções de tempo do sinal de áudio que forem incluídas em dois diferentes sinais codificados são menores em comparação com um comprimento de quadro conforme será abordado em conexão com a figura 3e. Essas porções pequenas são úteis para__.uma fusão encadeada_de_.um sinal codificado_. para outro sinal codificado no caso de um evento de comutação a fim de reduzir artefatos que podem ocorrem sem qualquer fusão encadeada. Portanto, afora a região de fusão encadeada, cada bloco de domínio de tempo é representado por um sinal codificado de apenas um domínio simples.

Conforme ilustrado na Fig. 3c, o Segundo ramo de codificação 523 vem em seguida a um conversor 521 para converter o sinal de áudio no primeiro domínio, ou seja, o sinal 195 em um segundo domínio, e o bypass 50. Além disso, o primeiro ramo de processamento 522 obtém um primeiro sinal processado que está, preferivelmente, também no Segundo domínio de forma que o primeiro ramo de processamento 522 não executa uma mudança de domínio, ou que está no primeiro domínio. O Segundo ramo de codificação 523, 524 converte o sinal de áudio em um terceiro domínio ou um quarto domínio, que é diferente do primeiro domínio e que é também diferente do segundo domínio para obter um segundo sinal processado na saída do segundo ramo de processamento 523, 524.

Além disso, o codificador compreende um comutador 521 para comutar entre o primeiro ramo de processamento 522 e o segundo ramo de processamento 523, 524, em que este comutador corresponde ao comutador 200 da Fig. lc. A Fig. 3d ilustra um decodificador correspondente para decodificar um sinal de áudio codificado gerado pelo codificador da Fig. 3c. Em geral, cada bloco do primeiro sinal de áudio de domínio é representado ou por um Segundo ou primeiro sinal no domínio, por um terceiro ou quarto sinal codificado de domínio com exceção de uma região de fusão encadeada opcional,„gue é, preferivelmente, curta se comparada com o comprimento de um quadro a fim de obter um sistema que esteja o máximo possível no limite de amostragem crítica. O segundo sinal codificado inclui o primeiro sinal codificado,um Segundo sinal codificado, sendo que o primeiro sinal codificado, e o Segundo sinal codificado referem-se a diferentes porções de tempo do sinal de áudio decodificado e sendo que o segundo domínio, o terceiro domínio e o primeiro domínio para um sinal de áudio decodificado são diferentes entre si. O decodificador compreende um primeiro ramo de decodificação para decodificação baseada no primeiro algoritmo de codificação. O primeiro ramo de decodificação aparece ilustrado em 531 na Fig. 3d. O decodificador da Fig. 3d compreende além disso um Segundo ramo de codificação 533, 534, que compreende diversos elementos . O decodificador, além disso, compreende um primeiro combinador 532 para combinação do primeiro sinal processado inverso e o Segundo sinal processado inverso para obter um sinal no primeiro ou no Segundo domínio, em que este sinal combinado é, no primeiro instante de tempo, apenas influenciado pelo primeiro sinal processado inverso e é, em um instante de tempo posterior, apenas influenciado pelo segundo sinal processado inverso. 0 decodificador, além disso, compreende o conversor 540 para converter o sinal combinado para o primeiro domínio e o bypass comutável 52.

Finalmente, o decodificador .ilustrado„na Fig.„3d compreende um Segundo combinador 600 para combinar o primeiro sinal decodificado do bypass 52 e o sinal de saída do conversor 540 para obter um sinal de saída decodificado no primeiro domínio. Novamente, o sinal de saída decodificado no primeiro domínio é, no primeiro instante de tempo, apenas influenciado pela saída de sinal pelo conversor 540 e é, em um instante de tempo posterior, apenas influenciado pelo sinal derivado.

Essa situação aparece ilustrada, a partir de uma perspective de codificador, na figura 3e. A porção superior na Fig. 3e ilustra na representação esquemática, um sinal de áudio no domínio tal como um sinal de áudio no domínio de tempo, em que o índice de tempo aumenta da esquerda para direita e item 3 pode ser considerado como um fluxo de amostras de áudio que representa o sinal 195 na Fig. 3c. Fig. 3e ilustra quadros 3a, 3b, 3c, 3d, que podem ser gerados mediante comutação entre o primeiro sinal codificado e o segundo sinal codificado conforme ilustrado no item 4 na Fig. 3e. O primeiro sinal codificado e o segundo sinal codificado estão todos em diferentes domínios. Para assegurar que a comutação entre os diferentes domínios não resulta em um artefato no lado do decodificador, quadros 3a, 3b, 3c, ... do sinal no domínio de tempo apresentam uma faixa de sobreposição que aparece indicada como uma região de fusão encadeada. Porém, não existe nenhuma região de fusão encadeada entre quadro 3d, 3c o que significa que o quadro 3d também pode ser representado por um sinal no mesmo domínio do sinal precedente 3c, e não existe mudança de domínio entre quadro 3c e 3d.

Portanto, em geral, é preferido não prover uma região de fusão encadeada em que não existe mudanca.de domínio e prover uma região de fusão encadeada, ou seja, uma porção do sinal de áudio que é codificada por dois sinais codificados/processados subsequentes quando existe mudança de domínio, ou seja, uma ação de comutação de um dos dois comutadores.

Na concretização, na qual o primeiro sinal codificado ou o Segundo sinal processado foram gerados por um processamento MDCT que apresenta por exemplo 50% de sobreposição, cada amostra de domínio de tempo é incluída em dois quadros subsequentes. Devido às características do MDCT, porém, isso não resulta em um código extra (overhead) , já que o MDCT é um sistema criticamente amostrado. Neste contexto, criticamente amostrado significa que o número de valores espectrais é o mesmo do número de valores de domínio de tempo. O MDCT é vantajoso pelo fato de o efeito de cruzamento (crossover) é provido sem uma região de crossover específica de forma que seja possibilitado um crossover de um bloco MDCT para o próximo bloco MDCT sem qualquer código extra que possa violar a exigência de amostragem crítica.

Preferivelmente, o primeiro algoritmo de codificação no primeiro ramo de codificação é baseado em um modelo de coletor de dados, e o segundo algoritmo de codificação no segundo ramo de codificação é baseado em uma fonte de dados ou em um modelo SNR. Um modelo SNR é um modelo que não se refere especificamente a um mecanismo de geração de som específico mas é um modo de codificação que pode ser selecionado entre uma pluralidade de modos de codificação baseado por exemplo em uma decisão de loop fechado. Desse modo, um modelo SNR é qualquer modelo de codificação disponível mas que não precisa necessariamente se referir à constituição física do gerador de som mas que é qualquer modelo de codificação parametrizado diferente do modelo de coletor de dados, que pode ser selecionado por uma decisão de loop fechado, e especificamente, mediante comparação de diferentes resultados de diferentes modelos.

Conforme ilustrado na Fig. 3c, é provido um controlador 300, 525. Este controlador pode incluir as funcionalidades do estágio de decisão 300 da Fig. lc. Em geral, o controlador é para controlar o bypass e o comutador 200 na Fig. lc em uma via adaptativa de sinal. O controlador é operativo para analisar uma entrada de sinal no bypass ou saída pelo primeiro ou pelo Segundo ramo de codificação ou sinais obtidos pela codificação e decodificação do primeiro e do segundo ramo de codificação com relação a uma função alvo. Alternativamente, ou adicionalmente, o controlador é operativo para analisar a entrada de sinal no comutador ou saída pelo primeiro ramo de processamento ou pelo segundo ramo de processamento ou obtido pelo processamento e processamento inverso do primeiro ramo de processamento e pelo segundo ramo de processamento, novamente com relação a uma função- alvo.

Em uma concretização, o primeiro ramo de codificação ou o Segundo ramo de codificação compreende um serrilhado que introduz algoritmo de conversão de tempo/freqüência tal como um algoritmo MDCT ou um algoritmo MDST, que é diferente de uma transformada em linha-reta FFT, que não introduz um efeito de serrilhado. Além disso, um ou ambos os ramos compreendem um bloco quantizador/ codificador por entropia. Especificamente, apenas o Segundo ramo de processamento do Segundo ramo de codificação inclui o conversor de tempo/freqüência que introduz uma operação de serrilhado e o primeiro ramo de processamento do segundo ramo de codificação compreende um quantizador e/ou codificador por entropia e não introduz quaisquer efeitos de serrilhado. O serrilhado (aliasing) que introduz conversor de tempo/frequência, compreende preferivelmente um windower para aplicação de uma janela de análise e um algoritmo de transformada MDCT. Especificamente, o windower é operativo para aplicar a função janela a quadros subsequente em uma via de sobreposição de forma que uma amostra de um sinal em janela ocorre em pelo menos dois quadros em janela subsequentes.

Emu ma concretização, o primeiro ramo de processamento compreende um codificador ACELP e um Segundo ramo de processamento compreende um conversor espectral MDCT e o quantizador para, quantização de componentes espectrais para obter componentes espectrais quantizados, em que cada componente espectral quantizado é zero ou é definido por um índice quantizador da pluralidade de diferentes índices quantizador possíveis.

Conforme acima indicado, ambos os ramos de codificação são operativos para codificar o sinal de áudio de modo em bloco, no qual o bypass ou o comutador opera em bloco de forma que ocorra uma comutação ou derivação, no mínimo, após um bloco de um número pré-definido de amostras de um sinal, sendo que o número pré-definido forma um comprimento de quadro para o comutador correspondente. Desse modo, o grânulo para derivação pelo bypass pode ser, por exemplo, um bloco de 2048 ou 1028 amostras, e o comprimento de quadro, baseado no qual o bypass está comutando, pode ser variável, porém, é, preferivelmente fixado para um período bem longo.

Em contrapartida, o comprimento de bloco para o comutador 2Õ0, isto é, quando o comutador 200 comuta de um modo para o outro, PE substancialmente menor do que o comprimento de bloco para o primeiro comutador. Preferivelmente, ambos os comprimentos de bloco para os comutadores são selecionados de tal forma que o comprimento maior de bloco é um múltiplo de um número inteiro do comprimento menor de bloco. Na concretização preferida, o comprimento de bloco do primeiro comutador é 2048 e o comprimento de bloco do segundo comutador é 102 4 ou mais preferivelmente, 512 e ainda mais preferivelmente 256 ou mesmo 128 amostras de forma que, no máximo, o comutador possa comutar 16 vezes quando o bypass muda somente um tempo simples.

Em uma outra concretização, o controlador 300 é operativo para realizar uma discriminação a fala/música para o primeiro comutador de tal forma que uma decisão para fala seja favorecida com relação a uma decisão para música. Nesta concretização, uma decisão para fala ocorre mesmo quando uma porção inferior a 50% de um quadro para o primeiro comutador é fala e a porção superior a 50% do quadro é música.

Além disso, o controlador é operativo para já comutar para o modo de fala, quando uma porção bem pequena do primeir quadro for fala, e especificamente, quando uma porção do primeiro quadro for fala que é 50% do comprimento do quadro menor.

Desse modo, uma decisão de comutação fala/favorecimento já alterna para fala mesmo quando, por exemplo, apenas 6% ou 12% de um bloco correspondente ao comprimento de quadro do primeiro comutador é fala. _ ________ Este procedimento é preferido a fim de explorar totalmente a capacidade de poupar taxa de bits do primeiro ramo de processamento, que apresenta um núcleo de fala com voz em uma concretização e para não perder qualquer qualidade mesmo para o resto do primeiro quadro grande, que é sem-fala devido ao fato de o segundo ramo de processamento incluir um conversor e, portanto, ser útil para sinais de áudio que apresentam sinais sem-fala também. Preferivelmente, esse Segundo ramo de processamento inclui um MDCT de sobreposição, que é criticamente amostrado, e que mesmo em tamanhos pequenos de janela provê uma operação altamente eficiente e livre de serrilhado devido ao processamento de cancelamento de serrilhado no domínio de tempo tal como sobreposição e adição no lado do decodificador. Além disso, seria útil um comprimento grande de bloco para o primeiro ramo de codificação que é preferivelmente um ramo de codificação MDCT do tipo AAC, já que sinais sem-fala normalmente são bastante estacionários e uma longa janela de transformada provê uma alta resolução de freqüência e, portanto, alta qualidade e, adicionalmente, provê uma eficiência de taxa de bits devido a um módulo de quantização controlada psicoacusticamente, que também pode ser aplicado à transformada com base no modo de codificação no segundo ramo de processamento do segundo ramo de codificação.

Com relação à ilustração de decodificador Fig. 3d, é preferido que o sinal transmitido inclua um indicador explicito como informação adicional 4a conforme ilustrado na Fig. 3e. Essa informação adicional 4a é extraída através de um analisador sintático de fluxo de bits não ilustrado na Fig. 3d, a fim de avançar o_ primeiro sinal processado ou o segundo, sinal processado para o processador correto tal como o primeiro ramo de processamento inverso ou o segundo ramo de processamento inverso na Fig. 3d. Portanto, um sinal codificado não apresenta apenas os sinais codificados/processados mas também inclui informação adicional referente a esses sinais. Em outras concretizações, porém, pode existir uma sinalização implícita que permite um analisador de fluxo de bits do lado do decodificador distinguir entre os determinados sinais. Com relação à Fig. 3e, é ressaltado o fato de o primeiro sinal processado ou o segundo sinal processado ser a saída do segundo ramo de codificação e, portanto, o segundo sinal codificado.

Preferivelmente, o primeiro ramo de decodificação e/ou o Segundo ramo de processamento inverso inclui uma transformada MDCT para converter do domínio espectral para o domínio de tempo. Para esse fim, um somador de sobreposição é provido para realizar uma funcionalidade de cancelamento de serrilhado no domínio de tempo que ao mesmo tempo provê um efeito de fusão encadeada a fim de evitar artefatos de bloco. Geralmente, o primeiro ramo de decodificação converte um sinal codificado no quarto domínio para o primeiro domínio, enquanto o Segundo ramo de processamento inverso realiza uma conversão do terceiro domínio para o Segundo domínio e o conversor conectado em seguida ao primeiro combinador provê uma conversão do segundo domínio para o primeiro domínio de forma que na entrada do combinador 600,apenas sinais no primeiro domínio estão lá, que representam na concretização da Fig. 3d, o sinal de saída decodificado. A Fig. 4c ilustra um outro aspecto de uma implementação decodificador preferida. _ Para evitar .artefatos audíveis especificamente na situação em que o primeiro decodificador é um decodificador gerador de sobreposição temporal, ou geralmente indicado um decodificador de domínio de frequência e o segundo decodificador é um dispositivo de domínio de tempo, as bordas entre blocos ou saída de quadros pelo primeiro decodificador 450 e o segundo decodificador 550 não devem ser totalmente contínuas, especificamente em uma situação de comutação. Desse modo, o primeiro bloco do primeiro decodificador 450 é saída e quando para a porção subsequente de tempo, um bloco do Segundo decodificador for saída, é preferido realizar uma operação de fusão encadeada conforme ilustrado pelo bloco de fusão encadeada 607. Para tanto, o bloco de fusão encadeada 607 pode ser implementado conforme ilustrado na Fig. 4c em 607a, 607b e 607c.

Cada ramo pode apresentar um ponderador que apresenta um fator de ponderação mx entre 0 e 1 na escala normalizada, em que o fator de ponderação pode variar conforme indicado no gráfico 609, tal como uma regra de fusão encadeada assegura que seja realizada uma fusão encadeada continua e suave que, adicionalmente, também garante que um usuário não perceba quaisquer variações de volume. Regras de fusão encadeada não linear tal como regra de fusão encadeada sin2, podem ser aplicadas ao invés de um regra de fusão encadeada linear.

Em determinadas circunstâncias, o ultimo bloco do primeiro decodificador foi gerado mediante utilização de uma janela em que a janela realizou atualmente um fade out (desvanecimento progressivo) desse bloco. Neste caso, o fator de ponderação mi no bloco 607a é igual a 1 e, atualmente, não é de modo algum exigida ponderação para este ramo. - - - - Se for feita uma comutação do Segundo decodificador para o primeiro decodificador, e se o Segundo “decodificador incluir uma janela que atualmente desvanece progressivamente a saída da extremidade do bloco, então o ponderador indicado com "m2" não seria necessário ou o parâmetro de ponderação pode ser ajustado para 1 por toda a região de fusão encadeada.

Se o primeiro bloco após uma comutação tiver sido gerado utilizando-se uma operação de enquadramento, e se esta janela realizou atualmente uma operação de fade in (clareamento de tela), então o fator de ponderação correspondente também poderá ser ajustado para 1 de forma que um ponderador não será realmente necessário. Portanto, se o ultimo bloco estiver em janela para desvanecer progressivamente (fade out) através do decodificador e se o primeiro bloco após a comutação estiver em janela utilizando- se o decodificador a fim de prover um aparecimento progressivo (fade in) , então os ponderadores 607a, 607b não serão de forma alguma necessários e será suficiente uma operação de adição por somador 607c.

Neste caso, a porção de desvanecimeto progressivo (fade out) e a porção de aparecimento progressivo (fade in) do quadro seguinte define a região de fusão encadeada indicada no bloco 609. Além disso, é preferido em uma tal situação que o último bloco de um decodificador apresente uma determinada sobreposição de tempo com o primeiro bloco do outro decodificador.

Se uma operação de fusão encadeada não for necessária ou não for possível ou não desejada, e se apenas houver uma comutação por hardware_ de um = decodif icador _ para. o. outro-decodificador, é preferido realizar tal comutação em passagens silentes do sinal de áudio ou pelo menos em passagens do sinal de áudio em que está presente baixa energia, ou seja, que são percebidas silentes ou quase silentes. Preferivelmente, o estágio de decisão 300 assegura em uma tal concretização que o comutador switch 200 é somente ativado quando a porção de tempo correspondente na sequência do evento de comutação apresenta uma energia que é, por exemplo, menor do que a energia média do sinal de áudio e é, preferivelmente, inferior a 50% da energia média do sinal de áudio relacionado a, por exemplo, duas ou mais porções de tempo/quadros do sinal de aúdio.

Preferivelmente, a segunda regra de codificação / regra de decodificação é um algoritmo baseado em LPC. Na codificação de fala a base de LPC, é feita uma diferenciação entre segmentos de sinal de excitação ou porções de sinal de excitação quasi-periódicos do tipo impulso,e segmentos ou porções de sinal de excitação semelhante a ruído. Esta é feita para vocodificadores LPC (2.4 kbps) de taxas de bits muito baixas conforme na Fig 7b.

Porém, codificadores CELP de taxa media, a excitação é obtida para a adição de vetores em escala de uma tabela adaptativa e uma tabela fixado.

Segmentos de sinal de excitação tipo impulso quasi-periódicos, ou seja, segmentos de sinal que apresentam um pitch específico são codificados com mecanismos diferentes do de sinais de excitação tipo ruído. Enquanto sinais de excitação tipo impulso quasi-periódicos são conectados a fala com voz, sinais tipo ruído são referidos a fala sem voz. _A _titulq_ de exemplo, -é -feita— referência -*as- figures 5a a 5d. Neste caso, segmentos de sinal tipo impulso, quasi-periódicos ou porções de sinal e segmentos de sinal tipo ruído ou porções de sinal são abordados a título de exemplo.

Especificamente, uma fala com voz conforme ilustrado na Fig. 5a no domínio de tempo e na Fig. 5b no domínio de frequência é abordada como exemplo de uma porção de sinal tipo impulso quasi-periódico, e um segmento de fala sem voz como exemplo de uma porção de sinal tipo ruído é abordado em conexão com as figuras 5c e 5d. A fala pode em geral ser classificada como fala com voz, fala sem voz, ou fala mista. Os gráficos de domínio de tempo-e-frequência para segmentos com voz amostrados e sem voz amostrados aparecem na figura Fig. 5a a 5d. A fala com voz é quasi periódica no domínio de tempo e harmonicamente estruturada no domínio de frequência, enquanto a fala sem voz é tipo aleatória e banda larga. O espectro de curto-prazo de fala com voz é caracterizado por sua estrutura fina e formante. A estrutura harmônica fina é uma consequência da quase-periodicidade de fala e pode ser atribuída aos acordes vocais vibrantes. A estrutura formântica (envelope espectral) é devido à interação da fonte e de tratos vocais.Os tratos vocais consistem da cavidade faríngea e bucal. O formato do envelope espectral que "ajusta " o espectro de curto prazo de fala com voz é associado com as características de transferência do trato vocal e do tilt espectral (6 dB /Octavo) devido ao pulso glótico. O envelope espectral é caracterizado por um jogo de picos que são chamados formantes. Os formantes são os modos de ressonante do trato vocal. Para o trato vocal médio existem três a cinco formantes abaixo de 5 kHz. As amplitudes e locações dos primeiros três formantes, que usualmente _ ocorre .abaixo „ de 3- kHz- são muito importantes tanto, em síntese de fala com de percepção.

Formantes mais elevados são também importantes para banda larga e representações de fala sem voz. As propriedades de fala referem-se ao sistema de produção de fala física como segue. Fala com voz é produzida mediante excitação do trato vocal com pulsos de ar glóticos quase-periódicos gerados pelos acordes vocais vibrantes. A frequência dos pulsos periódicos refere-se à freqüência fundamental ou pitch fundamental. A fala sem voz é produzida forçando ar através de uma constrição no trato vocal. Sons nasais são devido ao acoplamento acústico do trato nasal para o trato vocal, e sons plosivos são produzidos pela liberação repentina da pressão de ar que estava presente atrás da oclusão no trato.

Desse modo, uma porção tipo ruído do sinal de áudio não mostra nem estrutura de domínio de tempo tipo impulso nem estrutura de domínio de freqüência harmônica conforme ilustrado na Fig. 5c e na Fig. 5d, que é diferente da porção tipo impulso quase-periódica conforme ilustrado por exemplo na Fig. 5a e na Fig. 5b. Conforme a seguir descrito em linhas gerais, porém, a diferenciação entre porções tipo ruído e porções tipo impulso quase-periódicos também pode ser observada após um LPC para o sinal de excitação. O LPC é um método que modela o trato vocal e extrai do sinal a excitação dos tratos vocais.

Além disso, porções tipo impulso quasi-periódicas e porções tipo ruído podem ocorrer em tempo oportuno, isto é, o que significa que uma porção do sinal de áudio no tempo é barulhenta e outra porção do sinal de áudio no tempo é quasi- periódica, isto é, tonal. Alternativamente, ou adicionalmente, a característica de um sinal pode ser diferente em diferentes-bandas de frequência. Desse modo, a determinação, seja o sinal de áudio barulhento ou tonal, também pode ser executada frequência-seletiva — dê forma que uma determinada banda de freqüência ou diversas determinadas bandas de freqüência são consideradas barulhentas e outras bandas de freqüência são consideradas tonais. Neste caso, uma determinada porção de tempo do sinal de áudio pode incluir componentes tonais e componentes barulhentos. A Fig. 7a ilustra um modelo linear de um sistema de produção de fala. Este sistema assume uma excitação de dois estágios, isto é, um trem de impulso para fala com voz conforme indicado na Fig. 7c, e um ruído-aleatório para fala sem voz conforme indicado na Fig. 7d. O trato vocal é modelado como um filtro tipo all-pole (apenas polos) 70 que processa pulsos da Fig. 7c ou Fig. 7d, gerados pelo modelo glótico 72. A partir daí, o sistema da Fig. 7a pode ser reduzido a um modelo de filtro de polo para um modelo de filtro tipo all-pole (apenas pólo) da Fig. 7b que apresenta um estágio de ganho 77, um circuito de avanço 78, um circuito de realimentação 79, e um estágio de adição 80. No circuito de realimentação 79, existe um filtro de predição 81, e todo o sistema de síntese modelo-fonte na Fig. 7b pode ser representado utilizando as seguintes funções de domínio z: S(z)=g/(1-A(z) ) -X(z) , onde g representa o ganho, A(z) é o filtro de predição conforme determinado por uma análise LP, X(z) é o sinal de excitação, e S(z) é a entrada de fala sintetizada.

As figures 7c e 7d fornecem uma descrição de domínio de tempo gráfica de síntese de fala com voz e sem voz utilizando o modelo de sistema de fonte linear. Este sistema, e os - parâmetros de excitação na equação acima não são conhecidos e precisam ser determinados a partir de um conjunto finito de amostras de fala. Os coeficientes de A(z) são obtidos utilizando- se uma predição linear do sinal de entrada e uma quantização dos coeficientes de filtro. Em um preditor linear progressivo da ordem p-th, a presente amostra da sequência de fala é preditada a partir de uma combinação linear de amostras passadas p. Os coeficientes de preditor podem ser determinados por algoritmos bem conhecidos tais como algoritmo de Levinson-Durbin, ou em geral um método de autocorrelação ou um método de reflexão. A Fig. 7e ilustra uma implementação mais detalhada do bloco de LPC 510. O sinal de áudio é introduzido em um bloco de determinação de filtro que determina a informação de filtro A(z). Esta informação é emitida como a informação de predição a curto-prazo exigida para um decodificador. Esta informação é quantizada por um quantizador 81 conforme é conhecido, por exemplo, a partir da especificação AMR-WB+. A informação de predição a curto-prazo é exigida pelo atual filtro de predição 85. Em um subtrator 8 6, uma amostra corrente do sinal de áudio é inserida e um valor preditado da amostra corrente é subtratado de forma que para esta amostra, o sinal de erro de predição seja gerado na linha 84. Uma sequência de amostras de sinal de erro de predição aparece ilustrada bem esquematicamente na Fig. 7c ou 7d. Portanto, as figuras 7c, 7d podem ser consideradas com um tipo de um sinal tipo impulso retificado.

Enquanto a Fig. 7e ilustra uma via preferida para calcular o sinal de excitação, a Fig. 7f ilustra uma via preferida para calcular o sinal ponderado. Ao contrárioda^Fig. 7e, o filtro 85 será diferente, se □ for diferente de 1. Um valor menor do que 1 é preferido para □. Além disso, o bloco 87 está presente, e □ é "pFeferivelmente um número menor do que 1. Em geral, os elementos na Fig. 7e e 7f podem ser implementados como em 3GPP TS 26.190 ou 3GPP TS 26.290. A Fig. 7g ilustra um processamento inverso, que pode ser aplicado no lado do decodificador como no elemento 537 da Fig. 2b. Particularmente, o bloco 88 gera um sinal não ponderado a partir do sinal ponderado e o bloco 89 calcula uma excitação a partir do sinal não ponderado. Em geral, todos os sinais, porém o sinal não ponderado na figura 7g, estão no domínio LPC, mas o sinal de excitação e o sinal ponderado são sinais diferentes no mesmo domínio. O bloco 89 emite um sinal de excitação que pode ser usado junto com a saída de bloco 536. Então, a transformada LPC inversa comum pode ser realizada no bloco 540 da Fig. 2b.

Em seguida, será abordado um codificador CELP de análise-e-síntese, em conexão com a Fig. 6 a fim de ilustrar as modificações aplicadas a este algoritmo. Este codificador CELP é abordado detalhadamente em "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, Outubro de 1994, páginas 1541-1582. O codificador CELP conforme ilustrado na Fig. 6 inclui um componente de predição a longo-prazo 60 e um componente de predição a curto-prazo 62. Além disso, é usado uma tabela indicada em 64. Um filtro de ponderação percentual W(z) é implementado em .66, e um controlador de minimização de erro é provido em 68. s(n) é o sinal de entrada no domínio de tempo. Após ter sido percentualmente ponderado, o sinal ponderado é inserido em um subtrator 69, que calcula o erro entre o sinal de síntese ponderado na saída do bloco 66 e o sinal ponderado original sw(n) .

Em geral, os coeficientes de filtro de predição a curto-prazo A(z) são calculados através de um estágio de análise LP e seus coeficientes são quantizados em Â(z), conforme indicado na Fig. 7e. A informação de predição a longo-prazo AL(z), que inclui o ganho g de predição a longo-prazo e o índice de quantização vetorial, isto é, referências de tabela são calculadas no sinal de erro de predição na saída do estágio de análise LPC referida como 10a na Fig. 7e. Os parâmetros LTP são o retardo/tom e ganho/tom. No CELP este é implementado normalmente como uma tabela adaptativa que contém o sinal de excitação passado (não o residual). O retardo e ganho CB adaptativos são detectados por meio da minimização do erro médio quadrático ponderado (busca de tom em loop fechado). O algoritmo CELP codifica então o sinal residual obtido após as predições a curto-prazo e a longo-prazo utilizando uma tabela de por exemplo sequências de Gaussian. O algoritmo ACELP, onde o "A" representa "Algébrico" apresenta uma tabel designada algebricamente específica.

Uma tabela pode conter mais ou menos vetores, sendo que cada vetor é algumas amostras longo. Um fator de ganho g coloca em escala o vetor de código e o código ganho é filtrado por filtro de síntese de predição a longo-prazo e de predição a curto- prazo. O vetor de código "ótimo" é selecionado de tal forma que o erro médio quadrático ponderado percentualmente é minimizado na saída do subtrator 69. O processo de busca no CELP é feito através de uma otimização de análise-e-síntese conforme ilustrado na Fig. 6. ________________________________________________ _ Para casos específicos, quando um quadro é uma mistura de fala sem voz e fala com voz ou quando ocorre fala sobre música, uma codificação TCX pode ser mais apropriada para codificar a excitação no domínio LPC. A codificação TCX processa o sinal ponderado a no domínio frequência sem que seja feita qualquer adoção de produção de excitação. O TCX é então mais genérico do que a codificação CELP e não é restrito a um modelo de fonte com voz ou um modelo de fonte sem voz da excitação. O TCX é ainda uma codificação modelo arquivador-fonte que utiliza um filtro de predição linear para modelagem dos formantes dos sinais tipo fala.

Na codificação tipo AMR-WB+, é feita uma seleção entre diferentes modos TCX e ACELP como conhecido a partir da descrição AMR-WB+. Os modos TCX são diferentes pelo fato de o comprimento da transformada discreta de Fourier em bloco ser diferente para diferentes modos e o melhor modo poder ser selecionado por uma aproximação análise e síntese ou por um modo direto "pré-alimentação" (feedforward).

Conforme discuido em conexão com as figures 2c e 2d, o estágio de pré-processamento comum 100 inclui preferivelmente um mutli-canal conjunto (dispositivo estéreo conjunto surround/conjunto) 101 e, adicionalmente, um estágio de extensão de largura de banda 102. Correspondentemente, o decodificador inclui um estágio de extensão de largura de banda 701 e um estágio multi-canal conjunto conectado em seguida 702.

Preferivelmente, o estágio multi-canal conjunto 101 é, com relação ao codificador, conectado antes do estágio de extensão de largura de banda 102, e, no lado do decodificador, o estágio de extensão de largura de banda 701 é conectado antes do estágio multi-canal conjunto 702 com relação à direção de processamento de sinal. Alterriàtivamentè,' porém, o estágio de pré-processamento comum pode incluir um estágio multi-canal conjunto sem o estágio de extensão de largura de banda conectado em seguida ou um estágio de extensão de largura de banda sem um estágio multi-canal conjunto.

Um exemplo preferido para um estágio multi-canal conjunto no lado do codificador 101a, 101b e no lado do decodificador 702a e 702b é ilustrado no contexto da figura 8. Um número de canais de entrada originais E é inserido no conversor para baixo (downmixer) 101a de forma que o conversor gere um número de canais transmitidos K, onde o número K é superior ou igual a um e menor ou igual a E.

Preferivelmente, os canais de entrada E são inseridos em um analisador de parâmetro multi-canal conjunto 101b, que gera informação paramétrica. Essa informação paramétrica é preferivelmente codificado por entropia tal como por uma codificação diferente e codificação de Huffman subseqüente ou, alternativamente, codificação subseqüente. A saída de informação paramétrica codificada pelo bloco lOld é transmitida a um decodificador de parâmetros 702b, que pode ser parte do item 702 na Fig. 2b. O decodificador de parâmetros 702b decodifica a informação paramétrica transmitida e encaminha a informação paramétrica decodificada para o conversor para cima (upmixer) 702a. O conversor para cima 702a recebe os canais transmitidos K e gera um número de canais de saída L, onde o número de L é superior ou igual a K e inferior ou igual a E. A informação paramétrica pode incluir diferenças de níveis de inter-canais, diferenças temporais de inter-canais, diferenças de fase de inter-canais e/ou medidas de coerência de inter-canais conforme é conhecido da técnica BCC ou como é conhecido e descrito detalhadamente no padrão MPEG surround. O número de canais transmitidos pode ser um mono canal simples para aplicações de taxa de bits ultra-baixa ou pode incluir uma aplicação estéreo compatível ou pode incluir um sinal estéreo compatível, ou seja, dois canais. Tipicamente, o número de canais de entrada E pode ser cinco ou até mesmo mais elevado. Alternativamente, o número de canais de entrada E também pode ser objetos de áudio E conforme é conhecido no contexto de codificação de áudio espacial (SAOC).

Em uma representação, o conversor para baixo (downmixer) realiza uma adição ponderada e não ponderada dos canais de entrada E originais ou uma adição dos objetos de áudio de entrada E. No caso de objetos de áudio como canais de entrada, o analisador de parâmetros multi-canal conjunto 101b calculará parâmetros de objeto de áudio tais como uma matriz de correlação entre os objetos de áudio preferivelmente para cada porção de tempo e ainda mais preferivelmente para banda de frequência. Para tanto, toda a faixa de frequência pode ser dividida em pelo menos 10 e preferivelmente 32 ou 64 bandas de frequência. A Fig. 9 ilustra uma concretização preferida para a implementação do estágio de extensão de largura de banda 102 na Fig. 2a e o estágio de extensão de largura de banda correspondente 701 na Fig. 2b. No lado do codificador, o bloco 102 de extensão de largura de banda inclui preferivelmente um bloco de filtragem de passa-baixos 102b, um bloco decimador (redutor de taxa de amostragem) "downsampier", que segue o o passa-baixos, ou que é parte do QMF inverso, que age em apenas metade das bandas QMF, e um analisador de banda alta 102a. A entrada de sinal de áudio original no bloco de extensão de largura de banda 102 é submetido ao filtro passa-baixo para gerar o sinal de banda baixa que é em seguida é inserido nos ramos de codificação e/ou comutador. O filtro passa-baixo apresenta a uma frequência de corte que pode estar em uma faixa de 3kHz a 10kHz. Além disso, o bloco de extensão de largura de banda 102 inclui um analisador de banda alta para o cálculo dós parâmetros de extensão de largura de banda tais como informação de parâmetro de envelope espectral, uma informação de parâmetro de ruído de fundo, informação de parâmetro de filtragem inversa, outra informação paramétrica referente a determinadas linhas harmônicas na banda alta e parâmetros adicionais conforme abordados detalhadamente no padrão MPEG-4 no capítulo referente a replicação de banda espectral.

No lado do decodificador, o bloco de extensão de largura de banda 701 inclui um patcher (fluxogramador) 701a, um ajustador 701b e um combinador 701c. O combinador 701c combina o sinal de banda baixa decodificado e a saída de sinal de banda alta reconstruída e ajustada pelo ajustador 701b. A entrada no ajustador 701b é provida de um patcher que é operado para derivar o sinal de banda alta do sinal de banda baixa tal como pela replicação de banda espectral ou, em geral, pela extensão de largura de banda. A fluxogramação "patching" realizada pelo patcher 701a pode ser uma fluxogramação em uma via harmônica ou em uma via não harmônica. 0 sinal gerado pelo patcher 701a é, em ^seguida, .ajustado pelo _ ajustador 701b utilizando a informação de extensão de largura de banda transmitida.

Conforme indicado na Fig. 8 e Fig. 9, os blocos descritos podem apresentar uma entrada de controle de "modo" em uma concretização preferida. Esta entrada de controle de modo é derivada do sinal de saída do estágio de decisão 300. Em uma tal concretização preferida, uma característica de um bloco correspondente pode ser adaptada para a saída de estágio de decisão, ou seja, se em uma concretização preferida, for feita uma decisão para fala ou uma decisão para música para uma determinada porção de tempo do sinal de áudio. Preferivelmente, o controle de modo refere-se apenas a uma ou mais das funcionalidades desses blocos mas não a todas as funcionalidades de blocos. Por exemplo, a decisão pode influenciar apenas o patcher 701a mas não pode influenciar os outros blocos na Fig. 9, ou pode, por exemplo, influenciar apenas o analisador de parâmetros multi-canal conjunto 101b na Fig. 8, mas não os outros blocos na Fig. 8. Esta implementação é preferida de forma que seja obtida uma flexibilidade maior e maior qualidade e sinal de saída de taxa de bits mais baixa provendo-se flexibilidade no estágio de pré- processamento comum. Por outro lado, porém, o uso de algoritmos no estágio de pré-processamento comum para ambos os tipos de sinais permite implementar um esquema eficiente decodificação/decodificação. A Fig. 10a e Fig. 10b ilustram duas diferentes implementações do estágio de decisão 300. Na Fig. 10a, é indicada uma decisão de loop aberto. Neste caso, o analisador de sinal 300a no estágio de decisão apresenta certas regras a fim de decidir se uma determinada porção de tempo ou uma determinada porção de frequência do sinal de entrada apresenta uma característica que requer que esta porção de sinal seja codificada pelo primeiro ramo de codificação 400 ou pelo segundo ramo de codificação 500. Para esta finalidade, o analisador de sinal 300a pode analisar o sinal de entrada de áudio no estágio de pré-processamento comum ou pode analisar o sinal de áudio através do estágio de pré-processamento comum, ou seja, o sinal intermediário de áudio ou pode analisar um sinal intermediário dentro do estágio de pré-processamento comum tal como a saída do sinal de conversão para baixo que pode ser um sinal mono ou que pode ser um sinal que apresenta canais k indicados na Fig. 8. No lado de saída, o analisador de sinal 300a gera a decisão de comutação para controlar o comutador 2 00 no lado de codificador a o comutador correspondente 600 ou o combinador 600 no lado de decodificador.

Alternativamente, o estágio de decisão 300 pode realizar uma decisão de loop fechado, o que significa que os dois ramos de codificação realizam suas tarefas na mesma porção do sinal de áudio e ambos os sinais codificados são decodificados por ramos de decodificação correspondentes 300c, 300d. A saída dos dispositivos 300c e 300d é inserida em um comparador 300b que compara a saída dos dispositivos de decodificação para colocar a porção correspondente do, por exemplo, sinal intermediário de áudio. Então, dependendo de uma função de custo tal como um sinal para razão de ruído por ramo, é feita uma decisão de comutação.

Essa decisão de loop fechado apresenta uma complexidade aumentada em comparação com a decisão de loop aberto, mas esta complexidade existe apenas no lado do codificador, e um decodificador não apresenta qualquer desvantagem deste processo, já que o decodificador pode usar vantajosamente a saída desta decisão de codificação. Portanto, o modo de loop fechado é preferido devido à complexidade e considerações de qualidade em aplicações, nas quais a complexidade do decodificador não é uma questão tal como em aplicações de radiodifusão onde existe apenas um pequeno número de codificadores porém um grande número de decodificadores que além disso, devem ser inteligentes e baratos. A função de custo aplicada pelo comparador 300d pode ser uma função de custo dirigida por aspectos de qualidade ou pode ser uma função de custo dirigida por aspectos de ruído ou pode ser uma função de custo dirigida por seus aspectos de taxa de bits ou pode ser uma função de custo combinada dirigida por qualquer combinação de taxa de bits, qualidade, ruído (introduzido por artefatos de codificação, especificamente, por quantização), etc. . Preferivelmente, o primeiro ramo de codificação ou o Segundo ramo de codificação inclui uma funcionalidade de alinhamento de tempo "time warping" no lado de codificador e correspondentemente no lado de decodificador. Em uma concretização, o primeiro ramo de codificação compreende um modulo alinhador de tempo (time warper) para o cálculo de uma característica de warping variável dependente de uma porção do sinal de áudio, um resampleador para re-sampleamento de acordo com a característica de warping, um conversor de domínio de tempo /domínio freqüência, e um codificador por entropia para conversão de um resultado da conversão de domínio de tempo/domínio de freqüência em uma representação codificada. A característica de warping variável está incluída no sinal de áudio codificado. Esta informação é lida por um ramo de decodificação de alinhamento de tempo e processada para finalmente apresentar um sinal de saída em urna escala de tempo não alinhada. Por exemplo, o ramo de decodificação realiza decodificação por entropia, dequantização e uma conversão a partir do domínio freqüência de volta para o domínio de tempo. No domínio de tempo, o dewarping pode ser aplicado e ser seguido por uma operação de resampleamento correspondente para finalmente obter um discreto sinal de áudio com uma escala de tempo não alinhada.

Dependendo de determinadas exigências de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou software. A implementação pode ser realizada utilizando um meio de armazenagem digital, particularmente, um disco, um DVD ou um CD apresentando sinais de controle eletronicamente legíveis ali armazenados, que co-operam com sistemas de computador programáveis tais como métodos inventivos são realizados. Geralmente, a presente invenção é portanto um produto de programa de computador com um código de programa armazenado em um portador máquina-legível, sendo que o código de programa pode ser operado para realizar os métodos inventivos quando o produto de programa de computador rodar em um computador. Em outras palavras, os métodos inventivos são, portanto,um programa de computador que apresenta um código de programa para realizar pelo menos um dos métodos inventivos quando o programa de computador rodar em um computador. O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenagem digital ou pode ser transmitido em um meio de transmissão^ tal como _um . meio„ de _ transmissão sem fio ou um meio de transmissão a cabo tal como a Internet.

As concretizações acima descritas são meramente ilustrativas quanto aos princípios da presente invenção.

Obviamente que poderão ser feitas modificações e variações dos arranjos e os pormenores descritos aqui são manifestos a outros versados na técnica. Portanto, o objetivo é ser apenas limitado pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados por meio de descrição e explanação das concretizações.

REIVINDICAÇÕES

Claims

1. “ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO COM BYPASS COMUTÁVEL”, caracterizado pelo aparelho para codificação de um sinal de áudio para obter um sinal de áudio codificado, sendo que o sinal de áudio se encontra em um primeiro domínio compreender: um pré-processador comum para comprimir um sinal de entrada para obter o sinal de áudio; um primeiro conversor de domínio (510) para converter o sinal de áudio do primeiro domínio para um segundo domínio; um bypass comutável (50) para derivar o primeiro conversor de domínio (510) ou para promover uma conversão do sinal de áudio pelo primeiro conversor de domínio (510) em resposta a um sinal de controle de comutação de bypass (51); um segundo conversor de domínio (410) para conversão de um sinal de áudio recebido do bypass comutável (50) ou primeiro conversor de domínio (510) em um terceiro domínio, sendo que o terceiro domínio é diferente do segundo domínio; um primeiro processador (420) para codificar o sinal de áudio no terceiro domínio de acordo com um primeiro algoritmo de codificação para adquirir um primeiro sinal processado; e um segundo processador (520) para codificar o sinal de áudio recebido do primeiro conversor de domínio (510) de acordo com um segundo algoritmo de codificação que é diferente do primeiro algoritmo de codificação para obter um segundo sinal processado, sendo que o sinal codificado para uma porção do sinal de áudio ou inclui o primeiro sinal processado ou o segundo sinal processado.

2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de nele o primeiro conversor de domínio (510) compreender um filtro de análise LPC para filtragem LPC do sinal de áudio a fim de obter um sinal residual LPC e dados de parâmetro LPC.

3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de nele o segundo conversor de domínio (410) compreender um conversor de tempo-frequência para a conversão de um sinal de entrada em uma representação espectral do mesmo.

4. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de nele o Segundo processador (520) ser operativo para gerar um sinal de saída codificado de forma que o sinal de saída codificado esteja no mesmo domínio de um sinal de entrada no segundo processador (520).

5. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de nele o primeiro processador (420) compreender um quantizador e um codificador por entropia e nele o segundo processador (520) compreender um codificador de fonte baseado em tabela de códigos.

6. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de nele o primeiro processador (420) ser baseado em um modelo de coletor de dados e o segundo processador (520) ser baseado em um modelo de fonte da dados.

7. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de também compreender um estágio de comutação (200) conectado entre uma saída do primeiro conversor de domínio (510) e uma entrada do segundo conversor de domínio (410) e uma entrada do segundo processador (520), sendo que o estágio de comutação (200) é adaptado para comutar entre a entrada do Segundo conversor de domínio (410) e a entrada do segundo processador (520) em resposta a um sinal de controle de estágio de comutação.

8. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de nele uma saída do bypass comutável (50) ser conectada a uma saída do primeiro conversor de domínio (510) e uma entrada do bypass comutável (50) ser conectada a uma entrada no primeiro conversor de domínio (510).

9. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de compreender também um classificador de sinal para controlar o bypass comutável (50) para uma porção do sinal de áudio em função de um resultado de análise para a porção do sinal de áudio.

10. Aparelho, de acordo com uma das reivindicações anteriores, caracterizado pelo fato o Segundo conversor de domínio (410) ser operativo para converter um sinal de entrada em uma via baseada em bloco e de o segundo conversor de domínio ser operativo para realizar uma comutação baseada em bloco em resposta a uma análise de sinal de áudio de forma que o segundo conversor de domínio (410) seja controlado pelo fato de blocos de diferentes comprimentos serem convertidos em função do conteúdo do sinal de áudio.

11. Método de codificação de um sinal de áudio, para obter um sinal de áudio codificado, sendo que o sinal de áudio se encontra em um primeiro domínio, caracterizado pelo fato de compreender: comprimir um sinal de entrada para obter o sinal de áudio; conversão (510) do sinal de áudio do primeiro domínio para um Segundo domínio; derivação (50) da etapa de conversão (510) do sinal de áudio do primeiro domínio para um Segundo domínio ou promoção de uma conversão do sinal de áudio do primeiro domínio para um segundo domínio em resposta a um sinal de controle de comutação de bypass (51); conversão (410) de um sinal de áudio de bypass (50) ou um sinal de áudio no Segundo domínio para um terceiro domínio, sendo que terceiro domínio é diferente do segundo domínio; codificação (420) do sinal de áudio no terceiro domínio gerado pela etapa de conversão (410) do sinal de áudio derivado (50) ou sinal de áudio no segundo domínio de acordo com um primeiro algoritmo de codificação para adquirir um primeiro sinal processado; e codificação (520) do sinal de áudio no Segundo domínio de acordo com um Segundo algoritmo de codificação que é diferente do primeiro algoritmo de codificação para obter um segundo sinal processado, sendo que o sinal codificado para uma porção do sinal de áudio ou inclui o primeiro sinal processado ou o segundo sinal processado.

12. Aparelho, para decodificação de um sinal de áudio de decodificação, caracterizado pelo sinal de áudio codificado compreender um primeiro sinal processado que está em um terceiro domínio e um segundo sinal processado que está em um segundo domínio, sendo que o segundo domínio e o terceiro domínio são diferentes entre si que compreende: um primeiro processador inverso (430) para o processamento inverso do primeiro sinal processado; um segundo processador inverso (530) para o processamento inverso do segundo sinal processado; um segundo conversor (440) para conversão de dominio do primeiro sinal processado inverso do terceiro domínio para um domínio diferente; um primeiro conversor (540) para a conversão do Segundo sinal processado inverso em um primeiro domínio ou para a conversão do primeiro sinal processado inverso, que foi convertido para um domínio diferente, para o primeiro domínio quando o domínio diferente não for o primeiro domínio; um bypass (52) para a derivação do primeiro conversor (540) quando o domínio diferente for o primeiro domínio; e um pós-processador comum para gerar um sinal de áudio decodificado.

13. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de também compreender um combinador (600) para a combinação de uma saída do primeiro conversor (540) e uma saída do bypass (52) para obter um sinal de áudio decodificado combinado (699) .

14. Aparelho para decodificação, de acordo com qualquer uma das reivindicações 12 ou 13, caracterizado pelo fato de também compreender uma interface de entrada (900) para extração, a partir de um sinal de áudio codificado, do primeiro sinal processado, do segundo sinal processado e do sinal de controle que indica se para um determinado primeiro sinal processado inverso, o primeiro conversor (540) deverá ser derivado pelo bypass ou não.

15. Aparelho para decodificação, de acordo com qualquer uma das reivindicações 12 a 14, caracterizado pelo fato de o primeiro conversor (540) compreender um estágio de síntese de codificação (LPC) de predição, e sendo que o Segundo conversor (440) compreende um conversor de tempo espectral para a conversão de uma representação espectral de um sinal de áudio em uma representação de tempo do sinal de áudio.

16. Aparelho para decodificação, de acordo com qualquer uma das reivindicações 12 a 15, caracterizado pelo fato de o primeiro processador inverso (430) compreender um decodificador por entropia e um dequantizador e de o segundo prcessador inverso (530) compreender o decodificador de fonte baseado em tabela de códigos.

17. Aparelho para decodificação de acordo com qualquer uma das reivindicações de 12 a 16, caracterizado pelo fato do Segundo conversor (440) ser operativo para realizar uma operação de filtragem em síntese tal como uma operação de filtragem de transformada discreta de cosseno modificada, temporalmente alinhada inversa controlável por informação adicional (434) incluída no sinal de áudio codificado.

18. Método de decodificação de um sinal de áudio codificado, caracterizado por compreender o sinal de áudio codificado compreende um primeiro sinal processado que está no terceiro domínio e um segundo sinal processado que está em um segundo domínio, sendo que o segundo domínio e o terceiro domínio são diferentes entre si que compreendem: processamento inverso (430) do primeiro sinal processado; processamento inverso (530) do Segundo sinal processado; conversão de Segundo domínio (440) do primeiro sinal processado inverso do terceiro domínio para um domínio diferente; conversão de primeiro domínio (540) do segundo sinal processado inverso para um primeiro domínio ou conversão do primeiro sinal processado inverso para o primeiro domínio quando o domínio diferente não é o primeiro domínio; e derivação (52) da etapa de conversão de primeiro domínio (540) quando o domínio diferente for o primeiro domínio; e executando um pós-processamento comum para gerar um sinal de áudio decodificado.