BR122020025711B1

BR122020025711B1 - Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum

Info

Publication number: BR122020025711B1
Application number: BR122020025711-3A
Authority: BR
Inventors: Grill Bernhard; Bayer Stefan; Fuchs Guilfaume; Geyersberger Stefan; Geiger Ralf; Hilpert Johannes; Kraemer Ulrich; Lecomte Jeremie; Multrus Markus; Neuendorf Max; Popp Harald; Rettelbach Nikolaus; Nagel Frederik; Disch Sascha; Herre Juergen; Wabnik Stefan; Yokotani Yoshikazu; Hirschfeld Jens; Schuller Gerald
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2021-10-13
Also published as: JP2011527457A; MX2011000383A; US20110200198A1; HK1156723A1; BR122020025776B1; ZA201009209B; CA2730237C; AU2009267432B2; KR20130014642A; EP2311035A1; EP2311035B1; CO6341673A2; WO2010003617A1; KR20110040899A; AU2009267432A1; PL2311035T3; CN102124517A; US8804970B2; RU2483365C2; CA2730237A1

Abstract

um codificador de áudio compreende uma etapa de pré-processamento comum (100), uma ramificação de codificação ba-seada em escoadouro de informações (400) como a ramificação de codificação de domínio espectral, uma ramificação de codificação baseada na fonte de informações (500) como uma ramificação de codificação de domínio lpc e uma chave (200) para alternar entre essas ramificações em entradas nessas ramificações ou saídas dessas ramificações controladas por uma etapa de decisão (300). um decodificador de áudio compreende uma ramificação de decodificação de domínio espectral, uma ramificação de decodificação de domínio lpc, uma ou mais chaves para alternância entre as ramificações e uma etapa de pós-processamento comum para pós-processar um sinal de áudio de domínio de tempo para obter um sinal de áudio pós-processado.

Description

CAMPO DA INVENÇÃO

[0001] A presente invenção está relacionada à codificação de áudio e, em especial, aos esquemas de codificação de áudio com taxa de bits baixa.

FUNDAMENTOS DA INVENÇÃO

[0002] Na arte, esquemas de codificação de dominio defrequência, como MP3 ou AAC são conhecidos. Esses codificadores de dominio de frequência se baseiam em uma conversão de dominio de tempo/dominio de frequência, uma etapa de quantização subsequente, na qual o erro de quantização é controlado usando informações de um módulo psicoacústico, e uma etapa de codificação, na qual os coeficientes espectrais quantizados e as informações secundárias correspondentes são codificadas por entropia usando tabelas de códigos .

[0003] Por outro lado, há codificadores que são muitoadequados ao processamento da fala, como o AMR-WB+, conforme descrito em 3GPP TS 26.290. Tais esquemas de codificação de fala desempenham uma filtragem Preditiva Linear de um sinal de dominio de tempo. Essa filtragem LP (Linear Predictive) é derivada de uma análise de Previsão Linear do sinal de dominio de tempo de entrada. Os coeficientes de filtragem LP resultantes são, então, codificados e transmitidos como informações secundárias. O processo é conhecido como Codificação de Previsão Linear (LPC - Linear Prediction Coding). Na saida do filtro, o sinal residual de previsão ou o sinal de erro de previsão, que também é conhecido como sinal de excitação, é codificado usando as etapas de análise por sintese do codificador ACELP ou, como alternativa, é codificado usando um codificador de transformação, que usa uma transformação de Fourier com uma sobreposição. A decisão entre a codificação ACELP e a codificação de excitação de Transformação Codificada, que também é chamada de codificação TCX (Transform Coded excitation) é realizada usando um loop fechado ou um algoritmo de loop aberto.

[0004] Os esquemas de codificação de áudio de dominio de frequência, como o esquema de codificação AAC de eficiência elevada, que combina um esquema de codificação AAC e uma técnica de re- plicação de largura de banda espectral, também podem ser combinados a um estéreo conjugado ou uma ferramenta de codificação multi- canais, que é conhecida como o termo "MPEG surround".

[0005] Por outro lado, os codificadores de fala como o AMR-WB+ também têm uma etapa de melhoria de alta frequência e uma funcionalidade estéreo.

[0006] Os esquemas de codificação de dominio de frequência são vantajosos no sentido de que mostram uma alta qualidade em taxas de bits baixas para sinais de música. Problemática, no entanto, é a qualidade dos sinais de fala em taxas de bit baixas.

[0007] Os esquemas de codificação de fala mostram uma alta qualidade para sinais de fala, mesmo em taxas de bit baixas, mas demonstram uma baixa qualidade para sinais de música em taxas de bit elevadas.

RESUMO DA INVENÇÃO

[0008] É objetivo da presente invenção fornecer um conceito de codificação aprimorado.

[0009] Esse objetivo é atingido por um codificador de áudio da afirmação 1, um método de codificação de áudio da afirma-ção 13, um decodificador de áudio da afirmação 14, um método de decodificação de áudio da afirmação 24, um programa de computador da afirmação 25 ou um sinal de áudio codificado da afirmação 26.

[00010] Em um aspecto da presente invenção, uma etapa de decisão controlando uma chave é usada para alimentar a saida de uma etapa de processamento comum em uma das duas ramificações. Uma é motivada principalmente por um modelo de fonte e/ou por medições objetivas, como SNR; a outra por um modelo de escoadouro e/ou um modelo psicoacústico, ou seja, pelo mascaramento auditivo. Exemplarmente, uma ramificação tem um codificador de dominio de frequência e a outra ramificação tem um codificador de dominio LPC, como um codificador de fala. Em geral, o modelo de fonte é o pro-cessamento de fala e, portanto, o LPC é comumente usado. Assim, as etapas de pré-processamento tipicas, como um estéreo conjugado ou etapa de codificação multicanais e/ou uma etapa de extensão de largura de banda, são comumente usadas para ambos os algoritmos de codificação, o que economiza uma quantidade considerável de armazenamento, área de chip, consumo de energia, etc., em comparação à situação, onde um codificador de áudio completo e um codificador de fala completo são usados para a mesma finalidade.

[00011] Em uma materialização preferencial, um codificador de áudio compreende uma etapa de pré-processamento comum para duas ramificações, em que uma primeira ramificação é motivada principalmente por um modelo de escoadouro e/ou um modelo psicoacústico, ou seja, pelo mascaramento auditivo, e em que uma segunda ramificação é motivada principalmente por um modelo de fonte e por cálculo SNR segmentais. Preferencialmente, o codificador de áudio tem uma ou mais chaves para alternar entre essas ramificações entradas nessas ramificações ou saldas dessas ramificações controladas por uma etapa de decisão. No codificador de áudio, a primeira ramificação inclui preferencialmente um codificador de áudio psi- coacusticamente baseado e em que a segunda ramificação inclui um analisador LPC e um SNR.

[00012] Em uma materialização preferencial, um decodifi- cador de áudio compreende uma ramificação de decodificação baseada no escoadouro de informações, como uma ramificação de decodificação de dominio espectral, uma ramificação de decodificação baseada na fonte de informações, como uma ramificação de decodificação de dominio LPC, uma chave para alternar entre as ramificações e uma etapa de pós-processamento para o pós-processamento de um sinal de áudio de dominio de tempo para obter um sinal de áudio pós- processado.

[00013] Um sinal de áudio codificado de acordo com outro aspecto da invenção compreende um primeiro sinal de saida da ramificação de codificação, representando uma primeira parte de um sinal de áudio codificado de acordo com um primeiro algoritmo de codificação, o primeiro algoritmo de codificação tendo um modelo de escoadouro de informações, o primeiro sinal de saida da ramificação de codificação tendo informações espectrais codificadas representando o sinal de áudio; um segundo sinal de saida de ramificação de codificação, representando uma segunda parte de um sinal de áudio, que é diferente da primeira parte do sinal de saida, a segunda parte sendo codificada de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informações, o segundo sinal de saida da ramificação de codificação tendo parâmetros codificados para o modelo de fonte de informações representando o sinal intermediário; e parâmetros comuns de pré-processamento, representando diferenças entre o sinal de áudio e uma versão expandida do sinal de áudio.

DESCRIÇÃO RESUMIDA DAS FIGURAS

[00014] As materializações preferenciais da presente invenção são descritas subsequencialmente com relação às ilustrações anexadas, nas quais:

[00015] Fig. la é um diagrama de bloco de um esquema decodificação de j acordo com um primeiro aspecto da presente inven-ção;

[00016] Fig. lb é um diagrama de bloco de um esquema de decodificação de acordo com o primeiro aspecto da presente inven-ção;

[00017] Fig. 2a é um diagrama de bloco de um esquema dedecodificação de acordo com um Segundo aspecto da presente invenção;

[00018] Fig. 2b é um diagrama esquemático de um esquemade decodificação de acordo com o segundo aspecto da presente invenção;

[00019] Fig. 3a ilustra um diagrama de blocos de um es-quema de codificação de acordo com outro aspecto da presente in-venção;

[00020] Fig. 3b ilustra um diagrama de blocos de um es-quema de decodificação de acordo com outro aspecto da presente in-venção;

[00021] Fig. 4a ilustra um diagrama de blocos com uma chave posicionada antes das ramificações de codificação;

[00022] Fig. 4b ilustra um diagrama de blocos de um esquema de codificação com a chave posicionada subsequentemente à codificação das ramificações;

[00023] Fig. 4c ilustra um diagrama de blocos de uma ma-terialização preferencial de um mecanismo de combinação;

[00024] Fig. 5a ilustra uma forma de onda de um segmento de fala de dominio de tempo, como um segmento de sinal quasi- periódico ou semelhante a impulso;

[00025] Fig. 5b ilustra um espectro do segmento da Fig. 5a;

[00026] Fig. 5c ilustra um segmento de fala de dominio de tempo de fala muda como um exemplo de um segmento estacionário e semelhante a ruido;

[00027] Fig. 5d ilustra um espectro da forma de onda do dominio de tempo da Fig. 5c;

[00028] Fig. 6 ilustra um diagrama de bloco de uma análise pelo codificador CELP de sintese;

[00029] Figs. 7a a 7d ilustram sinais de excitação de voz/mudos como um exemplo de sinais semelhantes a impulso e esta- cionários/semelhantes a ruido;

[00030] Fig. 7e ilustra uma etapa LPC do codificador, fornecendo informações preditivas em curto prazo e o sinal de erro de previsão;

[00031] Fig. 8 ilustra um diagrama de blocos de um algoritmo multicanais conjugado de acordo com uma materialização da presente invenção;

[00032] Fig. 9 ilustra uma materialização preferencial de um algoritmo de extensão de largura de banda;

[00033] Fig. 10a ilustra uma descrição detalhada da chaveao desempenhar uma decisão de loop aberto; e

[00034] Fig. 10b ilustra uma materialização da chave aooperar em um modo de decisão de loop fechado.

[00035] Descrição Detalhada ou Materializações Preferenciais

[00036] Um sinal mono, um sinal estéreo ou um sinal mul-ticanais é inserido em uma etapa de pré-processamento comum 100 na Fig. la. O esquema de pré-processamento comum poderá ter uma funcionalidade de estéreo conjugado, uma funcionalidade surround e/ou uma funcionalidade de extensão de largura de banda. Na saida do bloco 100, há um canal mono, um canal estéreo ou vários canais, que são inseridos em uma chave 200 ou várias chaves de tipo 200.

[00037] A chave 200 pode estar presente em cada saida daetapa 100, quando a etapa 100 tiver duas ou mais saidas, ou seja, quando a etapa 100 produzir um sinal estéreo ou um sinal multica- nais. Exemplarmente, o primeiro canal de um sinal estéreo poderia ser um canal de fala e o Segundo canal do sinal estéreo poderia ser um canal de música. Nesse caso, a decisão na etapa de decisão pode ser diferente entre os dois canais para o mesmo instante de tempo.

[00038] A chave 200 é controlada por uma etapa de decisão300. A etapa de decisão recebe, como uma entrada, um sinal de entrada no bloco 100 ou uma saida de sinal pelo bloco 100. Como alternativa, a etapa de decisão 300 também poderá receber informações secundárias, que são incluídas no sinal mono, no sinal estéreo ou no sinal multicanais ou pelo menos são associadas a tal si- nal, onde as informações estão presentes, que foram, por exemplo, geradas durante a produção original do sinal mono, do sinal estéreo ou do sinal de multicanais.

[00039] Em uma materialização, a etapa de decisão não controla a etapa de pré-processamento 100 e a seta entre o bloco 300 e 100 não existem. Em outra materialização, o processamento no bloco 100 é controlado até um determinado grau pela etapa de decisão 300 para definir um ou mais parâmetros no bloco 100 com base na decisão. No entanto, isso não influenciará o algoritmo geral no bloco 100 de forma que a funcionalidade principal no bloco 100 esteja ativa independentemente da decisão na etapa 300.

[00040] A etapa de decisão 300 aciona a chave 200 para alimentar a saida da etapa de pré-processamento comum em uma parte de codificação de frequência 400, ilustrada em uma ramificação superior da Fig. la ou uma parte de codificação de dominio LPC 500 ilustrada em uma ramificação inferior na Fig. la.

[00041] Em uma materialização, a chave 200 alterna entre as duas ramificações de codificação 400 e 500. Em outra materialização, pode haver ramificações de codificação adicionais, como uma terceira ramificação de codificação ou mesmo uma quarta ramificação de codificação, ou ainda mais ramificações de codificação. Em uma materialização com três ramificações de codificação, a terceira ramificação de codificação poderia ser semelhante à segunda ramificação de codificação, mas poderia incluir um codificador de excitação diferente do codificador de excitação 520 na segunda ra-mificação 500. Nessa materialização, a segunda ramificação compreende a etapa LPC 510 e um codificador de excitação baseado em códigos, como em ACELP, e a terceira ramificação compreende uma eta- pa LPC e um codificador de excitação operando em uma representação espectral do sinal de saida da etapa LPC.

[00042] Um elemento-chave da ramificação de codificação de dominio de frequência é um bloco de conversão espectral 410, que é operante para converter o sinal de saida da etapa de prepro- cessamento comum em um dominio espectral. O bloco de conversão espectral poderá incluir um algoritmo MDCT, um QMF, um algoritmo FFT, análise de Wavelet ou um banco de filtragem, como um banco de filtragem severamente sampleado tendo um determinado número de canais de banco de filtragem, onde os sinais de banda secundária nesse banco de filtragem poderão ser sinais com valores reais ou sinais com valores complexos. A saida do bloco de conversão espectral 410 é codificada usando um codificador de áudio espectral 420, que poderá incluir blocos de processamento conforme conhecidos a partir do esquema de codificação AAC.

[00043] Na ramificação de codificação inferior 500, um elemento-chave é um analisador do modelo de fonte, como LPC 510, que gera dois tipos de sinais. Um sinal é um sinal de informações LPC que é usado para controlar a característica de filtragem de um filtro de sintese LPC. Essas informações LPC são transmitidas a um decodificador. O outro sinal de saida 510 da etapa LPC é um sinal de excitação ou um sinal de dominio de LPC, que é inserido em um codificador de excitação 520. O codificador de excitação 520 poderá partir de qualquer codificador do modelo de filtro de fonte como um codificador CELP, um codificador ACELP ou qualquer outro codificador que processe um sinal de dominio LPC.

[00044] Outra implementação preferencial do codificador de excitação é uma codificação de transformação do sinal de exci tação. Nessa materialização, o sinal de excitação não é codificado usando um mecanismo de códigos ACELP, mas o sinal de excitação é convertido em uma representação espectral e os valores da representação espectral, como sinais de banda secundária, no caso de um banco de filtragem, ou de coeficientes de frequência, no caso de uma transformação como um FFT, que são codificados para obter uma compactação de dados. Uma implementação desse tipo de codificador de excitação é o modo de codificação TCX conhecido a partir de AMR-WB+.

[00045] A decisão da etapa de decisão pode ser adaptada ao sinal de forma que a etapa de decisão desempenhe uma discriminação entre música e fala, e controle a chave 200 de tal maneira que os sinais de música sejam inseridos na ramificação superior 400 e os sinais de fala sejam inseridos na ramificação inferior 500. Em uma materialização, a etapa de decisão está alimentando suas informações de decisão em um fluxo de bits de saida para que um decodificador possa usar as informações dessa decisão para desempenhar as operações de decodificação corretas.

[00046] Tal decodif icador está ilustrado na Fig. 1b. O sinal produzido pelo codificador de áudio espectral 420 é, depois da transmissão, inserido em um decodificador de áudio espectral 430. A saida do decodificador de áudio espectral 430 é inserida em um conversor de dominio de tempo 440. Analogamente, a saida do codificador de excitação 520 da Fig. la é inserida em um decodificador de excitação 530, que gera um sinal de dominio de LPC. O sinal de dominio de LPC é inserido em uma etapa de sintese de LPC 54 0, que recebe, como outra entrada, as informações de LPC geradas pela etapa de análise de LPC correspondente 510. A saida do conversor de dominio de tempo 440 e/ou da saida da etapa de sintese de LPC 540 é inserida em uma chave 600. A chave 600 é controlada por meio de um sinal de controle de chave que foi, por exemplo, gerado pela etapa de decisão 300 ou que foi fornecido externamente, como por um mecanismo de criação do sinal mono, do sinal estéreo ou do sinal multicanais original.

[00047] A saida da chave 600 é um sinal mono completo que é, subsequentemente, inserido em uma etapa de pós-processamento comum 700, que poderá desempenhar um processamento estéreo conjugado ou um processamento de extensão de largura de banda, etc. Como alternativa, a saida da chave também poderia ser um sinal estéreo ou mesmo um sinal multicanais. Trata-se de um sinal estéreo, quando o preprocessamento incluir uma redução de canais para dois canais. Poderá até mesmo se tratar de um sinal multicanais, quando uma redução de canais para três canais ou nenhuma redução de canais de forma alguma, mas somente uma replicação de banda espectral for desempenhada.

[00048] Dependendo da funcionalidade especifica da etapa de pós-processamento comum, um sinal mono, um sinal estéreo ou um sinal multicanais é produzido que tem, quando a etapa de pós- processamento comum 700 desempenha uma operação de extensão de largura de banda, uma largura de banda maior que a entrada do sinal no bloco 700.

[00049] Em uma materialização, a chave 600 alterna entre as duas ramificações de decodificação 430, 440 e 530, 540. Em outra materialização, pode haver ramificações de decodificação adicionais, como uma terceira ramificação de decodificação ou até uma quarta ramificação de decodificação ou mais ramificações de deco- dificação. Em uma materialização com três ramificações de decodi- ficação, a terceira ramificação de decodificação poderia ser semelhante à segunda ramificação de decodificação, mas poderia incluir um decodificador de excitação diferente a partir do decodificador de excitação 530 na segunda ramificação 530, 540. Nessa materialização, a segunda ramificação compreenderá a etapa LPC 540 e um de-codificador de excitação baseado em códigos, como em ACELP, e a terceira ramificação compreende uma etapa LPC e um decodificador de excitação operando em uma representação espectral no sinal de saida 540 da etapa de LPC.

[00050] Conforme afirmado anteriormente, a Fig. 2a ilustra um esquema de codificação preferencial de acordo com um segundo aspecto da invenção. 0 esquema de processamento comum em 100 da Fig. la agora compreende um bloco surround/estéreo conjugado 101, que gera, como uma saida, parâmetros de estéreo conjugado e um sinal de saida mono, que é gerado pelo down-mix do sinal de entrada, que é um sinal que tem dois ou mais canais. Em geral, o sinal na saida do bloco 101 também pode ser um sinal que tem mais canais, mas devido à funcionalidade de down-mix do bloco 101, o número de canais na saida do bloco 101 será menor do que o número de canais inseridos no bloco 101.

[00051] A saida do bloco 101 é inserida em um bloco de extensão de largura de banda 102 que, no codificador da Fig. 2a, gera um sinal limitado por banda, como o sinal de banda baixa ou o sinal de transmissão baixa em sua saida. Além disso, para a banda elevada da entrada do sinal no bloco 102, os parâmetros de extensão de largura de banda, como parâmetros de envelope espectral, parâmetros de filtragem reversa, parâmetros de solo com ruido, etc., são conhecidos a partir do perfil HE-AAC de MPEG-4, e são gerados e encaminhados a um multiplexador de fluxo de bits 800.

[00052] Preferencialmente, a etapa de decisão 300 recebe a entrada do sinal no bloco 101 ou a entrada no bloco 102 para decidir entre, por exemplo, um modo de música e um modo de fala. No modo de música, a ramificação da codificação superior 400 é selecionada, enquanto, no modo de fala, a ramificação da codificação inferior 500 é selecionada. Preferencialmente, a etapa de decisão controla também o bloco de estéreo conjugado 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade desses blocos ao sinal especifico. Assim, quando a etapa de decisão determinar que um periodo de tempo especifico do sinal de entrada seja a partir do primeiro modo, como o modo de música, então recursos específicos do bloco 101 e/ou do bloco 102 poderão ser controlados pela etapa de decisão 300. Como alternativa, quando a etapa de decisão 300 determinar que o sinal está em um modo de fala ou, em geral, em um modo de codificação de dominio LPC, então os recursos específicos dos blocos 101 e 102 poderão ser controlados de acordo com a saida da etapa de decisão.

[00053] Dependendo da decisão da chave, que pode ser derivada do sinal de entrada 200 da chave ou de qualquer fonte ex-terna, como um produtor do sinal de áudio original subjacente à entrada do sinal na etapa 200, a chave alternará entre a ramificação da codificação de frequência 400 e a ramificação da codificação LPC 500. A ramificação da codificação de frequência 400 compreende uma etapa de conversação espectral 410 e uma etapa de quantização/codificação conectada subsequentemente 421 (conforme mostrado na Fig. 2a) . A etapa de quantização/codificação pode in cluir quaisquer funcionalidades conforme informado a partir dos codificadores de dominio de frequência modernos, como o codificador AAC. Além disso, a operação de quantização na etapa de quanti- zação/codificação 421 pode ser controlada por meio de um módulo psicoacústico que gera informações psicoacústicas, como limite de mascaramento psicoacústico sobre a frequência, onde essas informações são inseridas na etapa 421.

[00054] Preferencialmente, a conversação espectral é feita usando uma operação MDCT que, de maneira mais preferencial ainda, é a operação MDCT de periodo distorcido, onde a potência ou, em geral, a potência de distorção pode ser controlada entre zero e uma potência de distorção elevada. Em uma potência de distorção zero, a operação MDCT no bloco 411 é uma operação MDCT simples conhecida na arte. A potência de distorção de tempo juntamente com as informações secundárias sobre a distorção de tempo podem ser transmitidas/inseridas no multiplexador de fluxo de bits 800 como informações secundárias. Portanto, se TW-MDCT for usado, as informações secundárias sobre a distorção de tempo devem ser enviadas ao fluxo de bits conforme ilustrado por 424 na Fig. 2a, e - no de- codificador - as informações secundárias sobre distorção de tempo devem ser recebidas a partir do fluxo de bits conforme ilustrado pelo item 434 na Fig. 2b.

[00055] Na ramificação de codificação LPC, o codificador de dominio LPC poderá incluir um núcleo ACELP calculando o ganho de afastamento, um atraso no afastamento e/ou informações de códigos, como um indice de códigos e um ganho de códigos.

[00056] Na primeira ramificação de codificação 400, um conversor espectral compreende, de forma preferencial, uma opera- ção MDCT adaptada especificamente, tendo determinadas funções de janela seguidas por uma etapa de codificação de quantiza- ção/entropia, que pode ser uma etapa de quantização de vetores, mas preferencialmente é um quantizador/codificador conforme indicado para o quantizador/codificador na ramificação de codificação de dominio de frequência, ou seja, no item 421 da Fig. 2a.

[00057] A Fig. 2b ilustra um esquema de decodificação correspondente ao esquema de codificação da Fig. 2a. O fluxo de dados gerado pelo multiplexador de fluxo de bits 800 da Fig. 2a é inserido em um demultiplexador de fluxo de bits 900. Dependendo das informações derivadas, por exemplo, do fluxo de bits por meio de um bloco de detecção de modo 601, uma chave do decodificador 600 é controlada para encaminhar sinais da ramificação superior ou sinais da ramificação inferior para o bloco de extensão de largura de banda 701. O bloco de extensão de largura de banda 701 recebe, do demultiplexador de fluxo de bits 900, Informações secundárias e, com base nelas e na saida da detecção do modo 601, reconstrói a banda elevada com base na saida de banda baixa pela chave 600.

[00058] O sinal de banda completo gerado pelo bloco 701 é inserido na etapa de processamento de estéreo conjugado/surround 702, que reconstrói dois canais estéreos ou vários multicanais. Em geral, o bloco 702 gerará mais canais do que foram inseridos nesse bloco. Dependendo da aplicação, a inserção no bloco 702 poderá até incluir dois canais, como um modo estéreo e mais canais, desde que a saida desse bloco tenha mais canais do que a inserção nesse bloco .

[00059] Geralmente, há um decodificador de excitação 530. O algoritmo implementado no bloco 530 é adaptado ao algoritmo cor respondente usado no bloco 520 no codificador. Embora a etapa 431 gere um espectro derivado de um sinal de dominio de tempo, que é convertido no dominio de tempo usando o conversor de frequên- cia/tempo 440, a etapa 530 gerará um sinal de dominio LPC. Os dados de saida da etapa 530 são transformados novamente no dominio de tempo usando uma etapa da sintese LPC 540, que é controlada por meio das informações de LPC geradas e transmitidas pelo codificador. Em seguida, subsequente ao bloco 540, ambas as ramificações têm informações de dominio de tempo que são alternadas de acordo com um sinal de controle de chaves para finalmente obter um sinal de áudio, como um sinal mono, um sinal estéreo e um sinal multica- nais.

[00060] A chave 200 foi mostrada para alternar entre ambas as ramificações, de forma que somente uma ramificação receba um sinal para processar e a outra ramificação não receba um sinal para processar. Em uma materialização alternativa, porém, a chave também pode ser disposta subsequentemente a, por exemplo, o codificador de áudio 420 e ao codificador de excitação 520, o que significa que ambas as ramificações 400 e 500 processam o mesmo sinal em paralelo. Para não duplicar a taxa de bits, no entanto, somente a saida do sinal por meio de uma dessas ramificações de codificação 400 ou 500 é selecionada para ser registrada no fluxo de bits de saida. A etapa de decisão será acionada, para que o sinal registrado no fluxo de bits minimize uma determinada função de custos, onde a função de custos poderá ser a taxa de bits gerada ou a distorção perceptual gerada ou uma função de custos combinada de taxa/distorção. Portanto, nesse modo ou no modo ilustrado nas Figuras, a etapa de decisão também poderá funcionar em um modo de loop fechado para se certificar de que, finalmente, somente a saida de ramificação de codificação seja registrada no fluxo de bits que tem, para uma determinada distorção perceptual, a menor taxa de bits ou, para uma determinada taxa de bits, a menor distorção perceptual.

[00061] Em geral, o processamento na ramificação 400 é um processamento no modelo baseado na percepção ou no modelo de escoadouro de informações. Assim, essa ramificação modela o som de recepção do sistema auditivo humano. Em contrapartida, o processamento na ramificação 500 é para gerar um sinal na excitação, residual ou de dominio LPC. Geralmente, o processamento na ramificação 500 é um processamento em um modelo de fala ou em um modelo de geração de informações. Para sinais de fala, esse modelo é um modelo do sistema de geração de fala humana/som que está gerando som. Se, no entanto, um som de uma fonte diferente exigindo um modelo diferente de geração de som tiver de ser codificado, então o processamento na ramificação 500 poderá ser distinto.

[00062] Embora as Figs, la até 2b sejam ilustradas como diagramas de bloco de um aparato, essas figuras, simultaneamente, são uma ilustração de um método, onde as funcionalidades do bloco correspondem às etapas do método.

[00063] A Fig. 3a ilustra um codificador de áudio para gerar um sinal de áudio codificado em uma saida da primeira rami-ficação de codificação 400 e uma segunda ramificação de codificação 500. Além disso, o sinal de áudio codificado inclui preferencialmente informações secundárias, como parâmetros de pré- processamento a partir da etapa de preprocessamento comum ou, conforme discutido com relação às Figs. Anteriores, informações de controle de alternância.

[00064] Preferencialmente, a primeira ramificação de co-dificação está operante para codificar um sinal intermediário de áudio 195 de acordo com um primeiro algoritmo de codificação, em que o primeiro algoritmo de codificação tem um modelo de escoadouro de informações. A primeira ramificação de codificação 400 gera o primeiro sinal de saida do codificador, que é uma representação das informações espectrais codificadas do sinal intermediário de áudio 195.

[00065] Além disso, a segunda ramificação de codificação 500 é adaptada para codificar o sinal intermediário de áudio 195 de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informações e gerando, em um primeiro sinal de saida do codificador, parâmetros codificados para o modelo da fonte de informações representando o sinal de áudio intermediário.

[00066] O codificador de áudio compreende ainda a etapa de preprocessamento comum para pré-processar um sinal de entrada de áudio 99 para obter o sinal intermediário de áudio 195. De forma especifica, a etapa de preprocessamento comum está operante para processar o sinal de entrada de áudio 99 para que o sinal intermediário de áudio 195, ou seja, a saida do algoritmo de pré- processamento comum uma versão compacta do sinal de entrada de áudio.

[00067] Um método preferencial de codificação de áudio para a geração de um sinal de áudio codificado compreende uma etapa de codificação 400 de um sinal intermediário de áudio 195 de acordo com um primeiro algoritmo de codificação, o primeiro algo- ritmo de codificação tendo um modelo de escoadouro de informações e gerando, em um primeiro sinal de saida, informações espectrais codificadas representando o sinal de áudio; uma etapa de codificação 500 de um sinal intermediário de áudio 195 de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informações e gerando, em um segundo sinal de saida, parâmetros codificados para o modelo da fonte de informações representando o sinal intermediário 195 e uma etapa de pré-processamento comum 100 de um sinal de entrada de áudio 99 para obter o sinal intermediário de áudio 195, em que, na etapa de pré-processamento comum, o sinal de entrada de áudio 99 é processado de forma que o sinal intermediário de áudio 195 seja uma versão compacta do sinal de entrada de áudio 99, em que o sinal de áudio codificado inclui, para uma determinada parte do sinal de áudio, o primeiro sinal de saida ou o segundo sinal de saida. O método preferencialmente inclui a outra etapa codificando uma determinada parte do sinal intermediário de áudio usando o primeiro algoritmo de codificação ou usando o segundo algoritmo de codificação ou codificando o sinal usando ambos os algoritmos e gerando, em um sinal codificado, o resultado do primeiro algoritmo de codificação ou o resultado do segundo algoritmo de codificação.

[00068] Geralmente, o algoritmo de codificação de áudiousado na primeira ramificação de codificação 400 reflete e modela a situação em um escoadouro de áudio. O escoadouro de uma informação de áudio normalmente é o ouvido humano. O ouvido humano pode ser modelado como um analisador de frequência. Portanto, a primeira ramificação de codificação gera informações espectrais codificadas. Preferencialmente, a primeira ramificação de codificação inclui ainda um modelo psicoacústico para aplicar também um limite de mascaramento psicoacústico. Esse limite de mascaramento pscico- acústico é usado ao quantizer valores espectrais de áudio onde, preferencialmente, a quantizaçâo é desempenhada de forma que um ruido de quantizaçâo seja introduzido ao quantizer os valores de áudio espectrais, que estão ocultos abaixo do limite de mascaramento psicoacústico.

[00069] A segunda ramificação de codificação representa um modelo de fonte de informações, que reflete a geração do som de áudio. Portanto, os modelos de fonte de informações poderão incluir um modelo de fala que é refletido por uma etapa LPC, ou seja, ao transformar um sinal de dominio de tempo em um dominio de LPC e, subsequentemente, ao processar o sinal residual de LPC, ou seja, o sinal de excitação. Modelos alternativos de fonte de som, porém, são modelos de fonte de som para representar um determinado instrumento ou quaisquer outros geradores de som, como uma fonte de som especifica existente no mundo real. Uma seleção entre dife-rentes modelos da fonte de som estão disponíveis, com base em um cálculo SNR, ou seja, com base em um cálculo no qual os modelos de fonte são os mais adequados para a codificação de uma determinada parte de tempo e/ou parte de frequência de um sinal de áudio. No entanto, preferencialmente, a alternância entre as ramificações de codificação é desempenhada no dominio de tempo, ou seja, uma determinada parte de tempo é codificada usando um modelo e uma determinada parte de tempo diferente do sinal intermediário é codificada usando a outra ramificação de codificação.

[00070] Os modelos de fonte de informação são representados por determinados parâmetros. Considerando o modelo de fala, os parâmetros são parâmetros LPC e parâmetros de excitação codificados, quando um codificador de fala moderno como AMR-WB+ é considerado. O AMR-WB+ compreende um codificador ACELP e um codificador TCX. Nesse caso, os parâmetros de excitação codificados podem ser ganho global, solo com ruido e códigos de comprimento variável.

[00071] Em geral, todos os modelos da fonte de informações permitirão a configuração de um parâmetro definido que refli-ta o sinal de áudio original com bastante eficiência. Portanto, a saida da segunda ramificação de codificação será os parâmetros codificados para o modelo da fonte de informações representando o sinal intermediário de áudio.

[00072] A Fig. 3b ilustra um decodificador correspondendo ao codificador ilustrado na Fig. 3a. Em geral, a Fig. 3b ilustra um decodificador de áudio para decodificar um sinal de áudio codificado para obter o sinal de áudio decodificado 799. O decodificador inclui a primeira ramificação de decodificação 450 para decodificar um sinal codificado, codificado de acordo com o primeiro algoritmo de codificação tendo um modelo de escoadouro de informações. O decodificador de áudio inclui ainda uma segunda ramificação de decodificação 550 para decodificar um sinal de informações codificadas codificado de acordo com um segundo algoritmo de codificação tendo um modelo da fonte de informações. O decodificador de áudio inclui ainda um mecanismo de combinação para combinar sinais de saida da primeira ramificação de decodificação 450 e da segunda ramificação de decodificação 550 para obter um sinal combinado. O sinal combinado que é ilustrado na Fig. 3b como o sinal intermediário de áudio codificado 699 é inserido em uma etapa de pós-processamento comum para pós-processar o sinal intermediário de áudio decodificado 699, que é o sinal combinado gerado pelo mecanismo de combinação 600 para que um sinal de saida da etapa de pré-processamento comum seja uma versão expandida do sinal combinado. Assim, o sinal de áudio decodificado 799 tem um conteúdo de informações aprimoradas em comparação ao sinal intermediário de áudio decodificado 699. Essa expansão de informações é fornecida pela etapa de pós-processamento comum com a ajuda dos parâmetros de pré-/pós-processamento que podem ser transmitidos de um codificador para um decodificador, ou que podem ser derivados do próprio sinal intermediário de áudio decodificado. Porém, preferencialmen-te, os parâmetros de pré/pós-processamento são transmitidos a partir de um codificador para um decodificador, desde que o procedimento permita uma qualidade aprimorada do sinal de áudio decodificado .

[00073] As Figs. 4a e 4b ilustram duas materializações distintas, que diferem no posicionamento da chave 200. Na Fig. 4a, a chave 200 é posicionada entre uma saida da etapa de pré- processamento comum 100 e uma entrada das duas ramificações codificadas 400, 500. A materialização da Fig. 4a assegura que o sinal de áudio seja inserido em apenas uma única ramificação de codificação e a outra ramificação de codificação, que não está conectada à saida da etapa de preprocessamento comum, não opera e, portanto, está desativada ou está em um modo de descanso. Essa materializa-ção é preferível no sentido de que a ramificação de codificação não ativa não consome força nem recursos computacionais, que são úteis principalmente para aplicações de celulares, que são alimentados por bateria e, portanto, têm a limitação geral do consumo de força.

[00074] Por outro lado, porém, a materialização da Fig. 4b poderá ser preferível quando o consumo de força não for um problema. Nessa materialização, ambas as ramificações de codificação 400, 500 estarão ativas o tempo todo e somente a saida da ramificação de codificação selecionada para uma determinada parte de tempo e/ou uma determinada parte de frequência é encaminhada para o formatador do fluxo de bits, que poderá ser implementado como um multiplexador de fluxo de bits 800. Portanto, na materialização da Fig. 4b, ambas as ramificações de codificação estarão ativas o tempo todo e a saida de uma ramificação de codificação que é selecionada pela etapa de decisão 300 é inserida no fluxo de bits de saida, enquanto a saida da outra ramificação de codificação não selecionada 400 é descartada, ou seja, não é inserida no fluxo de bits de saida, ou seja, o sinal de áudio codificado.

[00075] A Fig. 4c ilustra outro aspecto de uma implementação do decodificador preferencial. Para evitar artefatos audíveis principalmente na situação em que o primeiro decodificador é um decodificador de geração de pseudotempo ou, em geral, informado como um decodificador de dominio de frequência e o segundo decodi- ficador é um dispositivo de dominio de tempo, os limites entre os blocos ou estruturas gerados pelo primeiro decodificador 450 e o segundo decodificador 550 não devem ser totalmente contínuos, especificamente em uma situação de alternância. Dessa forma, quando o primeiro bloco do primeiro decodificador 450 for gerado e, quando para a parte de tempo subsequente, um bloco do segundo decodificador for gerado, será preferível desempenhar uma operação de fade cruzado conforme ilustrado pelo bloco de fade cruzado 607. Para esse fim, o bloco de fade cruzado 607 poderá ser implementado conforme ilustrado na Fig. 4c em 607a, 607b e 607c. Cada ramificação poderá ter um mecanismo de ponderação apresentando um fator de ponderação mi entre 0 e 1 na escala normalizada, onde o fator de ponderação poderá variar conforme indicado no esboço 609, de forma que a regra de fade cruzado assegure a ocorrência de um fade cruzado continuo e perfeito que, também, garantirá que um usuário não irá perceber nenhuma variação na sonoridade.

[00076] Em determinadas instâncias, o último bloco do primeiro decodificador foi gerado usando uma janela onde a janela realmente desempenhou um fade desse bloco. Nesse caso, o fator de ponderação mj. no bloco 607a é igual a 1 e, na verdade, nenhuma ponderação é exigida para essa ramificação.

[00077] Quando uma alternância do segundo codificador para o primeiro decodificador ocorrer, e quando o segundo decodifi-cador incluir uma janela que, na verdade, realiza fade in da saida na extremidade do bloco, então o mecanismo de ponderação indicado por "m2" não seria exigido ou o parâmetro de ponderação poderá ser definido como 1 em toda a região de fade cruzado.

[00078] Quando o primeiro bloco depois que uma chave foi gerada usando uma operação de janela e quando essa janela realmente tiver desempenhado uma operação de fade, então o fator de ponderação correspondente também poderá ser definido como 1 para que um mecanismo de ponderação não seja realmente necessário. Portanto, quando o último bloco for intercalado para realizar fade out pelo decodificador e quando o primeiro bloco depois da chave for intercalado usando o decodificador para fornecer uma ação de fade in, então os mecanismos de ponderação 607a, 607b não serão exigidos de forma alguma e uma operação extra realizada pelo mecanismo de adição 607c será suficiente.

[00079] Nesse caso, a parte de fade out da última estrutura e a parte de fade in da estrutura seguinte definem a região de fade cruzado indicada no bloco 609. Além disso, em uma situação como essa, é preferível que o último bloco de um decodificador tenha uma determinada sobreposição de tempo com o primeiro bloco do outro decodificador.

[00080] Se uma operação de fade cruzado não for exigida ou não for possivel nem desejado, e se houver somente uma chave rigida de um decodificador para outro, será preferível desempenhar tal alternância em etapas silenciosas do sinal de áudio ou, pelo menos, em etapas do sinal de áudio onde há pouca energia, ou seja, que são percebidas como silenciosas ou quase silenciosas. Preferencialmente, a etapa de decisão 300 assegura que, em tal materialização, a chave 200 será ativada somente quando a parte de tempo correspondente que se segue ao evento de alternância tiver uma energia que seja, por exemplo, menor do que a energia média do sinal de áudio e seja, preferencialmente, menor que 50% da energia média do sinal de áudio relacionado a, por exemplo, duas ou mais partes de tempo/estruturas do sinal de áudio.

[00081] Preferencialmente, a segunda regra de codifica- ção/decodificação é um algoritmo de codificação baseado em LPC. Na codificação de fala baseada em LPC, é feita uma diferenciação entre segmentos ou partes de sinal de excitação quasi-periódicos semelhantes a impulsos, e segmentos ou partes de sinal de excitação semelhantes a ruidos.

[00082] Os segmentos de sinais de excitação quasi- periódicos semelhantes a ruidos, ou seja, segmentos de sinal tendo um passo especifico são codificados com mecanismos diferentes dos sinais de excitação semelhantes a ruidos. Enquanto os sinais de excitação quasi-periódicos semelhantes a ruidos são conectados à fala com voz, os sinais semelhantes a ruidos são relacionados à fala muda.

[00083] Exemplarmente, a referência é feita às Figs. 5a a 5d. Aqui, segmentos ou partes de sinais quasi-periódicos semelhantes a impulsos são exemplarmente abordados. De forma especifica, uma fala com voz conforme ilustrada na Fig. 5a no dominio de tempo e na Fig. 5b no dominio de frequência é abordada como um exemplo para uma parte de sinal quasi-periódico semelhante a impulsos e um segmento de fala muda, como um exemplo para uma parte de sinal semelhante a ruido, é abordado com relação às Figs. 5c e 5d. Em geral, a fala pode ser classificada como com voz, muda ou mixada. Os esboços de dominio de tempo e frequência para segmentos sampleados com voz e mudos são mostrados na Fig. 5a a 5d. A fala com voz é quasi-periódica no dominio de tempo e harmonicamente estruturada no dominio de frequência, enquanto a fala muda é semelhante à ale- atoriedade e com banda larga. Além disso, a energia dos segmentos com geralmente é maior do que a energia dos segmentos sem voz. O espectro em curto prazo da fala com voz é caracterizado por sua estrutura fina e de formação. A estrutura harmônica fina é uma consequência da quasi-periodicidade da fala e poderá ser atribuída às cordas vocálicas vibratórias. A estrutura de formação (envelope espectral) se deve à interação da fonte e dos tratos vocálicos. Os tratos vocálicos consistem na faringe e na cavidade bucal. O formato do envelope espectral que "se encaixa" ao espectro em curto prazo da fala com voz é associado às características de transfe rências do trato vocálico e da inclinação espectral (6 dB / Oitava) devido ao pulso glotal. O envelope espectral é caracterizado por um conjunto de picos que são chamados de formações. As formações são os modos ressonantes do trato vocálico. Para o trato vocálico médio, há de três a cinco formações abaixo de 5 kHz. As amplitudes e as localizações das três primeiras formações, normalmente ocorrendo abaixo de 3 kHz, são bastante importantes na síntese e na formação da fala. As formações mais elevadas também são importantes para representações de banda larga e fala muda. As propriedades da fala estão relacionadas ao sistema de produção de fala fisica conforme a seguir. A fala com voz é produzida ao excitar o trato vocálico com pulsos de ar glotais quasi-periódicos ge-rados pelas cordas vocálicas vibratórias. A frequência dos pulsos periódicos é chamada de frequência fundamental ou passo. A fala muda é produzida forçando-se o ar por meio de uma constrição no trato vocálico. Os sons nasais se devem ao acoplamento acústico do trato nasal ao trato vocálico, e sons plosivos são produzidos liberando-se abruptamente a pressão de ar que foi acumulada atrás do fechamento no trato.

[00084] Assim, uma parte semelhante ao ruido do sinal de áudio não mostra uma estrutura de dominio de tempo semelhante a impulsos nem uma estrutura de dominio de frequência harmônica conforme ilustrado na Fig. 5c e na Fig. 5d, que é diferente da parte quasi-periódica semelhante a impulsos conforme ilustrado, por exemplo, na Fig. 5a e na Fig.5b. Conforme será descrito posteriormente, no entanto, a diferenciação entre as partes semelhantes a ruidos e as partes quasi-periódicas semelhantes a impulsos pode ser observada após um LPC para o sinal de excitação. O LPC é um método que modela o trato vocálico e realiza a extração a partir do sinal de excitação dos tratos vocálicos.

[00085] Além disso, partes quasi-periódicas semelhantes a impulsos e partes semelhantes a ruidos podem ocorrer de forma oportuna, ou seja, isso significa que uma parte do sinal de áudio no tempo é ruidosa e outra parte do sinal de áudio no tempo é qua- si-periódica, ou seja, tonal. Como alternativa, ou adicionalmente, a característica de um sinal pode ser diferente em bandas de frequência distintas. Assim, a determinação de se o sinal de áudio é ruidoso ou tonal também pode ser desempenhada com relação à seleção de frequência, de forma que uma determinada banda de frequência ou várias bandas de determinada frequência sejam consideradas ruidosas ou outras bandas de frequência sejam consideradas tonais. Nesse caso, uma determinada parte de tempo do sinal de áudio poderá incluir componentes tonais e componentes ruidosos.

[00086] A Fig. 7a ilustra um modelo linear de um sistema de produção de fala. Esse sistema considera uma excitação de duas etapas, ou seja, um trem de impulso para fala com voz conforme indicado na Fig. 7c, e um ruido aleatório para voz muda conforme indicado na Fig. 7d. O trato vocal é modelado como um filtro com todos os polos 70 que processa pulsos ou ruido da Fig. 7c ou Fig. 7d, gerados pelo modelo glotal 72. A função de transferência de todos os polos é formada por uma cascata de um número pequeno de ressonadores com dois polos representando as formações. O modelo glotal é representado como um filtro de transferência baixa de dois polos e o modelo de radiação extrema 74 é representado por L(z)=l-z-1. Finalmente, um fator de correção espectral 76 é incluído para compensar os efeitos de baixa frequência dos polos mais elevados. Nas representações de fala individuais, a correção espectral é omitida e o 0 da função de transferência de radiação extrema é praticamente cancelado por um dos polos glotais. Portanto, o sistema da Fig. 7a pode ser reduzido para um modelo de filtro de todos os polos da Fig. 7b, tendo uma etapa de ganho 77, um caminho de direcionamento 78, um caminho de feedback 7 9 e uma etapa de acréscimo 80. No caminho de feedback 79, há um filtro de previsão 81 e o sistema de sintese de todos os modelos de fonte ilustrado na Fig. 7b pode ser representado usando as funções de dominio Z conforme a seguir:

[00087] S(z)=g/(1-A(z))•X(z),

[00088] onde g representa o ganho, A(z) é o filtro deprevisão conforme determinado por uma análise de LPC, X(z) é o sinal de excitação e S(z) é a saida de fala de sintese.

[00089] As Figs. 7c e 7d fornecem uma descrição gráficado dominio de tempo de sintese de fala com voz e muda usando o modelo do sistema de fonte linear. Esse sistema e os parâmetros de excitação na equação acima são desconhecidos e devem ser determinados a partir de um conjunto finito de amostras de fala. Os coeficientes de A(z) são obtidos usando uma análise de previsão linear do sinal de entrada e uma quantizaçâo dos coeficientes de filtragem. Em um mecanismo de previsão linear de direcionamento de ordem p-th, a amostra presente da sequência de fala é prevista a partir de uma combinação linear das amostras transmitidas p. Os coeficientes do mecanismo de previsão podem ser determinados por algoritmos bastante conhecidos, como o algoritmo de Levinson- Durbin ou, em geral, por um método de autocorrelação ou um método de reflexão. A quantizaçâo dos coeficientes de filtragem obtidos normalmente é desempenhada por uma quantização de vetores de várias etapas no dominio LSF ou ISP.

[00090] A Fig. 7e ilustra uma implementação mais detalhada de um bloco de análise de LPC, como 510 da Fig. la. O sinal de áudio é inserido em um bloco de determinação de filtragem, que determina as informações de filtragem A(z). Essas informações são geradas como as informações de previsão em curto prazo exigidas para um decodificador. Na materialização da Fig. 4a, ou seja, as informações de previsão em curto prazo poderão ser exigidas para o sinal de saida do codificador de impulsos. Quando, no entanto, somente o sinal de erro de previsão na linha 84 for exigido, as informações de previsão em curto prazo não terão de ser geradas. Contudo, as informações de previsão em curto prazo são exigidas pelo filtro de previsão real 85. Em um mecanismo de subtração 86, uma amostra atual do sinal de áudio será inserida e um valor pre- ditivo da amostra atual será subtraído de forma que, para essa amostra, o sinal de erro de previsão seja gerado na linha 84. Uma sequência de tais amostras de sinal de erro de previsão está ilustrada de forma bastante esquematizada na Fig. 7c ou 7d, onde, para fins de esclarecimento, quaisquer problemas referentes aos componentes AC/DC, etc. não foram ilustrados. Portanto, a Fig. 7c pode ser considerada como um tipo de sinal retificado semelhante a impulsos .

[00091] Subsequentemente, um codificador CELP de análise por sintese será abordado com relação à Fig. 6 para ilustrar as modificações aplicadas a esse algoritmo, conforme ilustrado nas Figs. 10 a 13. Esse codificador CELP é abordado em detalhes em "Speech Coding: A Tutorial Review", Andreas Spaniels, Proceedings of the IEEE, Vol. 82, No. 10, de outubro de 1994, páginas 15411582. O codificador CELP, conforme ilustrado na Fig. 6, inclui um componente de previsão em longo prazo 60 e um componente de previsão em curto prazo 62. Além disso, códigos são usados, conforme indicado em 64. Um filtro de ponderação perceptual W(z) é implementado em 66 e um controlador de minimização de erros é fornecido em 68. s (n) é o sinal de entrada do dominio de tempo. Depois de ter sido perceptualmente ponderado, o sinal ponderado é inserido em um mecanismo de subtração 69, que calcula o erro entre o sinal de sintese ponderado na saida do bloco 66 e o sinal ponderado original sw(n). Em geral, a previsão em curto prazo A(z) é calculada e seus coeficientes são quantizados por uma etapa de análise de LPC conforme indicado na Fig. 7e. As informações de previsão em longo prazo AL(z), incluindo o ganho de previsão em longo prazo g e o indice de quantização de vetores, ou seja, as referências de códigos são calculadas no sinal de erro de previsão na saida da etapa de análise de LPC indicadas como 10a na Fig. 7e. Em seguida, o algoritmo CELP codifica o sinal residual obtido após as previsões em curto prazo e em longo prazo usando códigos de, por exemplo, sequências Gaussian. O algoritmo ACELP, onde "A" significa "Algebraic"tem um código especifico criado algebricamente.

[00092] Um código poderá conter mais ou menos vetores, onde cada vetor tem algumas amostras de comprimento. Um fator de ganho g escala o vetor de código e o código ganho é filtrado pelo filtro de síntese de previsão em longo prazo e pelo filtro de sín- tese de previsão em curto prazo. O vetor de código "ideal" é sele- cionado de tal forma que o erro da média quadrada ponderada per- ceptualmente na saída do mecanismo de subtração 69 seja minimiza- do. O processo de busca em CELP é realizado por meio de uma otimi- zação de análise por sintese conforme ilustrado na Fig. 6.

[00093] Para casos específicos, quando uma estrutura for uma mistura de fala muda e com voz, ou quando ocorrer fala sobre música, uma codificação TCX poderá ser mais apropriada para codificar a excitação no dominio LPC. A codificação TCX processa diretamente a excitação no dominio de frequência sem fazer nenhuma hipótese da produção de excitação. Em seguida, o TCX é mais genérico do que a codificação CELP e não está limitado a um modelo de fonte com voz ou mudo da excitação. O TCX ainda é uma codificação do modelo de filtragem de fonte usando um filtro preditivo linear para a modelação das formações dos sinais semelhantes à fala.

[00094] Na codificação semelhante a AMR-WB+, uma seleção entre diferentes modos de TCX e ACELP ocorre conforme informado pela descrição AMR-WB+. Os modos TCX são diferentes no sentido de que o comprimento de Fast Fourier Transform referente ao bloco é diferente para modos distintos e o melhor modo pode ser selecionado por uma abordagem de análise por sintese ou por um modo "feedforward"direto.

[00095] Conforme abordado com relação às Figs. 2a e 2b, a etapa de pré-processamento comum 100 inclui preferencialmente um multicanal conjugado (dispositivo surround/estéreo conjugado) 101 e, além disso, uma etapa de extensão de largura de banda 102. De modo correspondente, o decodificador inclui uma etapa de extensão de largura de banda 701 e uma etapa multicanal conjugada conectada subsequentemente 702. Preferencialmente, a etapa multicanal conjugada 101 é, com relação ao codificador, conectada antes da etapa de extensão da largura de banda 102 e, no decodificador, a etapa de extensão de largura de banda 701 é conectada antes da etapa de multicanal conjugada 702 com relação à direção de processamento do sinal. Como alternativa, porém, a etapa de pré-processamento comum pode incluir uma etapa multicanal conjugada sem a etapa de extensão de largura de banda conectada subsequentemente ou uma etapa de extensão de largura de banda sem uma etapa multicanal conjugada conectada.

[00096] Um exemplo preferencial para uma etapa multicanal conjugada no codificador 101a, 101b e no decodificador 702a e 702b é ilustrado no contexto da Fig. 8. Um número de canais de entrada original E é inserido no down-mixer 101a de forma que este gere um número de canais transmitidos K, onde o número K é maior ou igual a um ou é menor que E.

[00097] Preferencialmente, os canais de entrada E são inse-ridos em um analisador de parâmetros multicanais conjugado 101b que gera informações paramétricas. Essas informações paramétricas são preferencialmente codificadas por entropia como por uma codificação diferente e uma codificação Huffman subsequente ou, como alternativa, uma codificação aritmética subsequente. As informações paramétricas codificadas geradas pelo bloco 101b são transmitidas a um decodificador de parâmetros 702b que poderá fazer parte do item 702 na Fig. 2b. O decodificador de parâmetros 702b decodifica as informações paramétricas transmitidas e encaminha as in-formações paramétricas decodificadas no up-mixer 702a. O up-mixer 702a recebe os canais transmitidos K e gera uma série de canais de saida L, onde o número de L é maior que K e menor ou igual a E.

[00098] As informações paramétricas poderão incluir dife-renças no nivel de canais internos, diferenças no tempo de canais internos, diferenças de fases de canais internos e/ou medidas de coerência de canais internos conforme apresentado a partir da técnica BCC ou apresentado e descrito detalhadamente no padrão de surround MPEG. O número de canais transmitidos poderá ser um único canal mono para aplicações de taxas de bit ultrabaixas ou poderá incluir uma aplicação de estéreo compatível ou um sinal de estéreo compatível, ou seja, dois canais. Normalmente, o número de canais de entrada E poderá ser cinco ou talvez até mais. Como alternativa, o número de canais de entrada E também poderá ser objetos de áudio E, conforme é conhecido no contexto de codificação de objeto de áudio espacial (SAOC - spatial audio object coding).

[00099] Em uma implementação, o down-mixer desempenhará uma adição ponderada ou não ponderada dos canais de entrada E originais ou uma adição dos objetos do áudio de entrada E. No caso de objetos de áudio como canais de entrada, o analisador de parâmetros multicanais conjugado 101b calculará parâmetros de objeto de áudio como uma matriz de correlação entre os objetos de áudio preferencialmente para cada parte de tempo e ainda mais preferencial para cada banda de frequência. Para esse fim, o alcance de frequência total poderá ser dividido em pelo menos 10 e preferencialmente 32 ou 64 bandas de frequência.

[000100] A Fig. 9 ilustra uma materialização preferencial para a implementação da etapa de extensão de largura de banda 102 na Fig. 2a e a etapa de extensão de largura de banda correspondente 701 na Fig. 2b. No codificador, o bloco de extensão de largura de banda 102 inclui preferencialmente um bloco de filtragem de transmissão baixa 102b e um analisador de banda elevada 102a. A entrada do sinal de áudio original no bloco de extensão de largura de banda 102 é filtrada por transmissão baixa para gerar o sinal de banda baixa que, em seguida, é inserido nas ramificações de codificação e/ou na chave. O filtro de transmissão baixa tem uma frequência de corte que normalmente está em um intervalo de 3 kHz a 10 kHz. Usando SBR, esse intervalo pode ser ultrapassado. Além disso, o bloco de extensão de largura de banda 102 também inclui um analisador de banda alta para calcular os parâmetros de extensão de largura de banda, como as informações de parâmetros de en-velope espectral, informações de parâmetros de solo com ruido, informações de parâmetros de filtragem de inversão, outras informações paramétricas relacionadas a determinadas linhas harmônicas detalhadamente no padrão MPEG-4 no capitulo relacionado à replica- ção de bandas espectrais (ISO/IEC 14496-3:2005, Parte 3, Capitulo 4.6.18) .

[000101] No decodificador, o bloco de extensão de largura de banda 701 inclui um mecanismo de correção 701a, um mecanismo de ajuste 701b e um mecanismo de combinação 701c. O mecanismo de combinação 701c combina o sinal de banda baixa decodificado e o sinal de banda alta reconstruído e ajustado gerados pelo mecanismo de ajuste 701b. A entrada no mecanismo de ajuste 701b é fornecida por um mecanismo de ajuste que é operado para derivar o sinal de banda alta a partir do sinal de banda baixa, como pela replicação de bandas espectrais ou, em geral, pela extensão da largura de banda. A correção desempenhada pelo mecanismo de correção 701a poderá ser uma correção desempenhada de forma harmônica ou desarmônica. O sinal gerado pelo mecanismo de correção 701a é, subsequentemente, ajustado pelo mecanismo de ajuste 701b usando as informações transmitidas da extensão da largura de banda paramétrica.

[000102] Conforme indicado na Fig. 8 e na Fig. 9, os blocos descritos poderão ter um controle de modo inserido em uma ma-terialização preferencial. Essa entrada de controle de modo é derivada do sinal de saida da etapa de decisão 300. Em tal materialização preferencial, uma característica de um bloco correspondente poderá ser adaptada à saida da etapa de decisão, ou seja, se, em uma materialização preferencial, uma decisão de fala ou de música for feita para uma determinada parte de tempo do sinal de áudio. Preferencialmente, o controle de modo é relacionado somente a uma ou mais das funcionalidades desses blocos, mas não a todas as funcionalidades dos blocos. Por exemplo, a decisão poderá influenciar somente o mecanismo de correção 701a, mas não poderá influenciar os outros blocos na Fig. 9, ou poderá, por exemplo, influenciar somente o analisador de parâmetros multicanais conjugado 101b na Fig. 8, mas não os outros blocos na Fig. 8. Essa implementação é preferível, de forma que uma maior flexibilidade e uma maior qualidade, e um sinal de saida de taxa de bits inferiores sejam obtidos fornecendo flexibilidade na etapa de pré-processamento comum. Por outro lado, porém, o uso de algoritmos na etapa de pré- processamento comum para ambos os tipos de sinais permite a implementação de um esquema eficiente de codificação/decodificação.

[000103] A Fig. 10a e a Fig. 10b ilustram duas implementações diferentes da etapa de decisão 300. Na Fig. 10a, uma decisão de loop aberto está indicada. Aqui, o analisador de sinais 300a na etapa de decisão tem determinadas regras para decidir se a parte de tempo especifica ou uma parte de frequência especifica do sinal de entrada tem uma característica que requer que essa parte do sinal seja codificada pela primeira ramificação de codificação 400 ou pela segunda ramificação de codificação 500. Para esse fim, o analisador de sinais 300a poderá analisar o sinal de entrada de áudio na etapa de pré-processamento comum ou poderá analisar a saida do sinal de áudio pela etapa de pré-processamento comum, ou seja, o sinal intermediário de áudio ou poderá analisar um sinal intermediário dentro da etapa de pré-processamento comum de forma que a saida do sinal de down-mix poderá ser um sinal mono ou um sinal tendo canais k indicados na Fig. 8. Na saida, o analisador de sinais 300a gera a decisão de alternância para controlar a chave 200 no codificador e a chave correspondente 600 ou o mecanismo de combinação 600 no decodificador.

[000104] Como alternativa, a etapa de decisão 300 poderá desempenhar uma decisão de loop fechado, o que significa que ambas as ramificações de decodificação desempenham suas tarefas na mesma parte do sinal de áudio e ambos os sinais codificados são decodificados pelas ramificações de decodificação correspondentes 300c, 300d. A saida dos dispositivos 300c e 300d é inserida em um mecanismo de comparação 300b que compara a saida dos dispositivos de decodificação com a parte correspondente do sinal intermediário de áudio, por exemplo. Em seguida, dependendo de uma função de custo como um sinal para a proporção de ruido por ramificação, é tomada uma decisão de alternância. Essa decisão de loop fechado tem uma maior complexidade comparada à decisão de loop aberto, mas essa complexidade é a única existente no codificador e um decodificador não tem nenhuma desvantagem nesse processo, já que o decodificador pode usar, de forma vantajosa, a saida dessa decisão de codificação. Portanto, o modo de loop fechado é preferencial devido às considerações de complexidade e qualidade nas aplicações, nas quais a complexidade do decodificador não é um problema como nas aplicações de transmissões onde há apenas um pequeno número de codificadores, mas um número grande de decodificadores que, além disso, têm de ser inteligentes e baratos.

[000105] A função de custo aplicada pelo mecanismo de com-paração 300b poderá ser uma função de custo acionada pelos aspectos de qualidade ou poderá ser uma função de custo acionada pelos aspectos de ruido ou poderá ser uma função de custo acionada por qualquer combinação da taxa de bits, qualidade, ruido (introduzido pelos artefatos de codificação, especificamente, pela quantiza- ção), etc.

[000106] Preferencialmente, a primeira ramificação de co-dificação e/ou a segunda ramificação de codificação inclui uma funcionalidade de distorção de tempo no codificador e, correspondentemente, no decodificador. Em uma materialização, a primeira ramificação da codificação compreende um módulo de mecanismo de distorção de tempo para calcular uma característica de distorção variável dependendo de uma parte do sinal de áudio, um resampler para samplear novamente de acordo com a característica de distorção determinada, um mecanismo de conversão de dominio de tem- po/dominio de frequência e um codificador de entropia para converter um resultado da conversão de dominio de tempo/dominio de fre-quência em uma representação codificada. A característica de distorção variável está incluída no sinal de áudio codificado. Essas informações são lidas por uma ramificação de decodificação aprimoradas da distorção de tempo e processadas para, finalmente, ter um sinal de saida em uma escala de tempo não distorcido. Por exemplo, a ramificação de decodificação desempenha a decodificação de en- tropia, a dequantização e uma conversão do dominio de frequência de volta ao dominio de tempo. No dominio de tempo, a eliminação da distorção pode ser aplicada e poderá ser seguida por uma operação correspondente de ressampleamento para finalmente obter um sinal de áudio distinto com uma escala de tempo não distorcida.

[000107] Dependendo de determinados requisitos de imple-mentação dos métodos inventivos, os métodos inventivos podem ser implementados em hardwares ou softwares. A implementação pode ser desempenhada usando um meio de armazenamento digital, em especial, um disco, um DVD ou um CD tendo sinais de controle legiveis eletronicamente armazenados nele, que cooperam com sistemas computacionais programáveis de forma que os métodos inventivos sejam desempenhados. Em geral, a presente invenção é, portanto, um produto de programa de computador com um código de programa armazenado em um portador legivel pela máquina, o código do programa sendo operado para desempenhar os métodos inventivos quando o produto do programa de computador for executado em um computador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador tendo um código de programa para desempenhar, pelo menos, um dos métodos inventivos quando o programa de computador é executado em um computador.

[000108] O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão conectado, como a Internet.

[000109] As materializações descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende- se que as modificações e as variações das disposições e dos deta- lhes descritos aqui serão aparentes para outros que tenham habilidade na arte. Portanto, tem-se como objetivo estar limitado somente pelo escopo das solicitações de patente iminentes e não pelos detalhes específicos apresentados por meio da descrição e da explicação das materializações nesse documento.

Claims

1. Decodificador de áudio para decodificar um sinal de áudio codificado caracterizado por compreender:uma primeira ramificação de decodificação (430, 440) para decodificar um sinal codificado, codificado de acordo com um primeiro algoritmo de codificação tendo um modelo de escoadouro de informações;uma segunda ramificação de decodificação (530, 540) para decodificar um sinal de áudio codificado, co-dificado de acordo com um segundo algoritmo de codificação tendo um modelo de fonte de informações;um mecanismo de combinação (600) para combinar sinais de saída da primeira ramificação de decodificação (430, 440) e da segunda ramificação de decodificação (530, 540) para obter um sinal combinado (699); euma etapa de pós-processamento comum (700) para processar o sinal combinado (699) para que um sinal de saída decodificado (799) da etapa de pós-processamento comum (700) seja uma versão expandida do sinal combinado (699),em que o mecanismo de combinação (600) com-preende um mecanismo de fading cruzado (607) para realizar fading cruzado, no caso de um evento de alternância, entre uma saída de uma ramificação de decodificação (450, 550) da primeira e da segunda ramificações de decodificação e uma sa-ída da outra ramificação de decodificação (450, 550) da pri-meira e da segunda ramificações de decodificação dentro de uma região de fading cruzado de domínio de tempo.

2. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo mecanismo de combinação (600) compreender uma chave para alternar os sinais decodifi-cados da primeira ramificação de decodificação (450) e da se-gundaramificação de decodificação (550) de acordo com uma indicação de modo explícita ou implícita incluída no sinal de áudio codificado para que o sinal de áudio combinado (699) seja um sinal de domínio de tempo distinto contínuo.

3. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo mecanismo de fading cru-zado (607) ser operante para ponderar pelo menos um dos si-nais de saída da ramificação de decodificação dentro da regi-ão de fading cruzada e para adicionar pelo menos um sinal ponderado a um sinal ponderado ou não ponderado da outra ra-mificação de codificação (607c), em que as ponderações usadas para a ponderação em pelo menos um sinal (607a, 607b) são va-riáveis na região de fading cruzado.

4. Decodificador de áudio, de acordo com qualquer uma das reivindicações 1, 2 ou a 3, caracterizado pela etapa de pós-processamento comum (700) compreender pelo menos um decodificador multicanal conjugado (101) ou um pro-cessador de extensão de largura de banda (102).

5. Decodificador de áudio, de acordo com a reivindicação 4,caracterizado pelo decodificador multicanal conjugado (702) compreender um decodificador de parâmetros (702b) e um upmixer (702a) controlados por uma saída do deco- dificador de parâmetros (702b).

6. Decodificador de áudio, de acordo com a reivindicação 5,caracterizado pelo processador de extensão de largura de banda (702) compreender um mecanismo de correção (701a) para criar um sinal de banda alta, um mecanismo de ajuste (701b) para ajustar o sinal de banda alta e um meca-nismo de combinação (701c) para combinar o sinal de banda al-ta ajustado e um sinal de banda baixa para obter um sinal es-tendido de largura de banda.

7. Decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pela primeira ramificação de decodificação (450) incluir um deco- dificador de áudio de domínio de frequência, e pela segunda ramificação de decodificação (550) incluir um decodificador de fala de domínio de tempo.

8. Decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pela primeira ramificação de decodificação (450) incluir um deco- dificador de áudio de domínio de frequência, e pela segunda ramificação de decodificação (550) incluir um decodificador baseado em LPC.

9. Decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 8,caracterizado pela etapa de pós-processamento comum ter um número específico de funcionalidades (700, 701, 702) e em que pelo menos uma funcionalidade é adaptável por uma função de detecção de modo (601) e em que pelo menos uma funcionalidade é não adaptável.

10. Método de decodificação de áudio de um sinal de áudio codificado caracterizado por compreender:decodificação (450) de um sinal codificado, codificado de acordo com um primeiro algoritmo de codificação tendo um modelo de escoadouro de informações;decodificação (550) de um sinal de áudio co-dificado, codificado de acordo com um segundo algoritmo de codificação tendo um modelo de fonte de informações;combinação (600) de sinais de saída da pri-meiraramificação de decodificação (430, 440) e da segunda ramificação de decodificação (530, 540) para obter um sinal combinado (699); epós-processamento comum (700) do sinal combi-nado (699) de forma que um sinal de saída decodificado (799) do pós-processamento comum seja uma versão expandida do sinal combinado (799),em que a combinação (600) compreende um fading cruzado (607), no caso de um evento de alternância, entre uma saída da decodificação (450, 550) do sinal codificado, codificado de acordo com o primeiro algoritmo de codificação, e uma saída da decodificação (550) do sinal de áudio codificado, codificado de acordo com o segundo algoritmo de codificação dentro de uma região de fading cruzado de domínio de tempo.

11. Mídia de armazenamento não transitória tendo gravadas instruções lidas por um computador, caracterizada por compreender instruções que quando executadas realizam o método da reivindicação 10.