BRPI0910529A2 - "esquema de codificação/decodificação de áudio de baixa taxa de bits que apresenta comutadores em cascata" - Google Patents

"esquema de codificação/decodificação de áudio de baixa taxa de bits que apresenta comutadores em cascata" Download PDF

Info

Publication number
BRPI0910529A2
BRPI0910529A2 BRPI0910529-8A BRPI0910529A BRPI0910529A2 BR PI0910529 A2 BRPI0910529 A2 BR PI0910529A2 BR PI0910529 A BRPI0910529 A BR PI0910529A BR PI0910529 A2 BRPI0910529 A2 BR PI0910529A2
Authority
BR
Brazil
Prior art keywords
signal
domain
branch
encoding
audio
Prior art date
Application number
BRPI0910529-8A
Other languages
English (en)
Inventor
Bernhard. Grill
Ralf. Geiger
Johannes. Hilpert
Ulrich Kraemer
Jérémie. Lecomte
Markus Multrus
Max Neuendorf
Harald Popp
Nikolaus Rettelbach
Roch Lefebvre
Bruno. Bessette
Lapierre Jimmy
Philippe. Gournay
Redwan Salami
Stefan. Bayer
Guillaume Fuchs
Stefan. Geyersberger
Original Assignee
Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V.
Voiceage Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09002271A external-priority patent/EP2144230A1/en
Application filed by Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V., Voiceage Corporation filed Critical Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V.
Publication of BRPI0910529A2 publication Critical patent/BRPI0910529A2/pt
Publication of BRPI0910529B1 publication Critical patent/BRPI0910529B1/pt

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO DE BAIXA TAXA DE BITS QUE APRESENTA COMUTADORES EM CASCATA. O presente invento se refere à codificação de áudio, e particularmente, a esquemas de codificação de áudio de baixa taxa de bit.

Description

"j;ú>"" "ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO DE BAIXA TAXA DE BITS QUE APRESENTA COMUTADORES EM CASCATA"
CAMPO DA INVENÇÃO A presente invenção se refere à codificação de 5 áudio, e particularmente, a esquemas de codificação de áudio de baixa taxa de bit.
FUNDAMENTOS DA INvEN!áo Na técnica, são conhecidos e s quemas de codificação de domínio de frequência como q MP3 ou AAC . Esses 10 codificadores de domínio de frequência têm como base uma conversão de tempo-domínio/frequência-domínio, um estágio de quantízação subsequente, no qual o erro de quantízação é controj-ado "" utili"zaiido-"se infõ"rmações de um'" módulo psíwoacústico, _e_'um estágio_ de codificação, no qual os coeficientes de espec'tro quantizados e 15 _ = as in.formações secundárias c9rresp2ndent£=s sã± . cod!L£icado2 por _ entropia com uso de tabelas de códigos.
Por outro lado, existem codificadores que são bastante adequados ao processamento de fala, como por exemplo, o AMR-WB-F, conforme descrito em 3GPP TS 26.290. Esses esquemas de p 20 codificação de fala realizam uma filtragem Linear Preditiva de um sinal de domínio de tempo. Essa filtragem LP se origina de uma análise de Previsão Linear do sinal de domínio de tempo de entrada. Os coeficientes de filtro LP resultantes são então quantizados/codificados e transmitidos como informação secundária.
25 O processo é conhecido como Codificação de Previsão Linear (LPC).
Na saída do filtro, o sinal resi.dual de previsão ou sinal de erro de previsão, que também é conhecido como sínal de excitação, é codificado com uso dos estágíos de análise-por-síntese do y( 2 .yS codificador ACELP, ou de maneira alternativa, é codificado com uso de um codificador de transformação, que utiliza uma transformação de Fourier com urna sobreposição. A decisão entre a codificação ACELP e a codificação de Excitação de Transformação Codificada, 5 que também é denominada codificação TCX, é feita usando-se um loop fechado ou um algoritmo de loop aberto.
Esquemas de codificação de áudio de domínio de frequência, como o esquema de codifícação AAC de alta eficiência, que combina urri esquerna de codificação AAC e uma técnica de 10 replicação de banda de espectro podem também ser combinados a um estéreo associado ou uma ferramenta de codificação de multícanais ' que é conhecida pelo termo "MPEG surround" .
Por outro lã'do, "Codifí"":adore5"' dé" fàlã",' 'comò c) AMR-WB+, também apresentam um estágio de intensificação de alta 15 frequência e uma fu_ncionalidade de _estére,o.
O esquemas decodificação de domínío de frequência são vantajosos por apresentarem alta qualidade em baixas taxas de bits para sinaís musicais. No entanto, a qualidade dos sinais de fala é problemática em baixas taxas de bits.
P 20 Os esquemas de codificação de fala apresentam alta qualidade para sinais de fala, mesmo em baixas taxas de bits; porém, apresentam má qualidade para sinais musicais em baixas taxas d= bits.
SUMÁRIO DA INVENÇÃO 25 o objeto da presente invenção é prover um conceito de codificação/decodificação aperfeiçoado.
Esse objetivo é atingido por um codificador de áudio, de acordo com a reivindícação 1, um método de codificação
K( 3 ,Ç^ de áudio, de acordo com a reivindicação 15, um decodificador, de acordo com a reivindicação 16, um método de decodificação, de acordo com a reivindicação 23, um sínal codificado, de acordo com a reivindicação 24, ou um prograrna de cornputador, de acordo com a 5 reivindicação 25.
Um aspecto da presente invenção é um codificador de áudio para codificar um sinal de entrada de áudio, estando c) sinal de entrada de áudio em um primeiro domínio, compreendendo: um primeiro ramal de codificação para codificar um sinal de áudío 10 uti.lizando um primeiro algoritmo de codificação para obter um primeiro sinal codificado; um segundo ramal de codificação para codificar um sinal de áudio utilizando um segundo algoritmo" de " coáíficação "para obfer "üin "Sèguíiào "simr coài f i CâdoT onde _0 primeiro algoritmo de codificação é diferente do segundo algoritmo _15 _ de codificação; e um _ primeiro _ com.utado,r pa.ra t,rans_feri _: en.tre _0 primeiro ramal de codificação e o segundo ramal de codificação,, de maneira que, para uma parte do sinal de entrada de áudio, seja o primeiro sinal codificado ou o segundo sinal codificado, esteja em um sinal de saida do codificador, onde o segundo ramal de p 20 codificação compreende: um conversor para converter o sinal de áudio em um segundo domínio díferente do primeiro domínio, um primeiro ramal de processamento para processar um sinal de áudio no segundo domínio, para obter um primeiro sinal processado; um segundo ramal de processamento para converter um sinal em um 25 terceiro domínio, diferente do primeiro domínío e do segundo domínio, e para processar o sinal no terceiro dornínio para obter um segundo sinal processado: e um segundo comutador para transferir entre o primeiro ramal de processamento e o segundo
,C 4
N ramal de processamento, de maneira que, para uma parte da entrada de sinal de áudio no segundo ramal de codificação, ou o primeiro sinal processado ou o segundo sinal processado, esteja no segundo sinal codificado.
5 Um outro aspecto é um decodificador para decQdificar um sinal de áudio codificado, sendo que o sinal de áudio codificado compreende um primeiro sinal codíficado, um primeiro sinal processado em urn segundo domínio, e um segundo
C sinal processado em um terceiro domínio, oncie o primeiro sinal 10 .codificado, o primeiro ¶sína1 processado, e o segundo sinal processado estão relacionados a diferentes partes de tempo de um sinal de áudio decodificado, e onde um primeíro domínio, o segundo domínio e o terceiro domínio são "ãiféYenté"s "uhs do""S outroS, compreendendo: um primeiro ramal de decodificação para decodificar — 1-5 o- primeiro-- sinal codifícado_ com_ bas,e. no_ pri.meirp,. algorit.mo de _ codificação; uin segundo ramal de decodificação para decodificar o primeiro sinal processado ou o segundo sinal processado, onde o segundo ramal de decodificação compreende um primeiro EaÍrla1 de processamento inverso para processar inversamente q primeiro sinal è 20 processado para obter um primeiro sinal processado inverso no segundo domínio; um segundo ramal de processamento inverso para processar inversamente o segundo sinal processado para obter um segundo sinal processado inverso no segundo domínio; um prirneiro combinador para combinar o primeiro sinal processado inverso e o 25 segundo sinal processado inverso para obter um sinal cornbinado no segundo domínío; e um conversor para converter o sinal combinado ao primeiro domínio; e um segundo cordbinador para combínar o sinal convertido no primeiro domínio e a saída do primeiro sinal
C^ 5 convertido pelo primeíro ramal de decodíficação para obter um sinal de saída decodificado no primeiro domínio.
Em uma configuração preferida da presente imvenção, são providos dois comutadores em ordem sequencial, onde 5 um primeiro comutador decide entre codificação no domínio de espectro usando um codificador de domínio de frequência e codifícação no dominio de LPC, isto é, processamento do sínal na saída de um estágio de análise de LPC. O segundo comutador é provido para transferir no domínio de LPC, a fim de codificar o
10. sinal de domínio de LPC, ou no dornínio de LPC de maneira a utilizar um codificador de ACELP ou codificando o sinal de dominio de LPC ern um domínio de espectro de LPC, que demanda um conversor para converter o sinal de domínio de LPC em um domínio de espéctro de LPC, que é diferente de um domínio de espectro, pois o domínio 15 de espectro de LPC apresenta o.- espectro de_ um _sina1 filtra.do' de LPC e não o espectro do sinal de domínío de "tempo.
O primeiro comutador decide entre dois ramais de processamento, onde um ramal é principalmente motivado por um modelo de depósito e/ou um modelo psicoacústico, isto é, por è' 20 mascaramento auditivo, e o outro é principalmente motivado por um modelo fonte e por cálculos de segmentos SNR. Por exemplo, um ramal tem um codificador de domínio de frequêncía e o outro rainal tem um codificador à base de LPC, como um codificador de fala. O modelo fonte é errt geral o processamento de fala e, portanto, a LPC 25 é usada comumente.
O segundo cornutador decide novamente entre dois ramai s de processamento; porém, em um dominío diferente do primeiro domínio de ramal "externo" . E novamente , um rarnal é^ "interno" é principalmente motivado por um modelo fonte ou por cálculos de SNR, e o outro ramal "ínterno" pode ser motivado por um modelo de depósito e/ou um modelo psicoacústico, isto é, por meio do mascararnento ou pelo menos incluindo aspectos de código de 5 dominio de frequência/de espectro. Por exemplo, um ramal "interno"' tem um conversor de codificador/de espectro de domínio de frequência, e o outro ramal tem uma codificação de codificador no outro domínio, como por exemplo, o dominio de LPC, onde este codificador é, por exernplo, um quantizador/escalonador CELP ou .10 ACELP que processamrn sinal de entrada sem.conversão de espectro...
Uma outra configuração preferida é urn codificador de áudio compreendendo um primeiro ramal de codíficação _ " ' — .
direcionado por" depÕsito" de" informaçÔes , " como por exempl"o, um ramal de codificação de domínio de espectro, uma segunda fonte de —.. 15— informações ou r.amal de codi flicação di-recionado_- por_ SNR, como por exemplo, um ramal de codificação de domínio de LPC, e um comuta-dor para transferir entre o primeiro ramal de codificação e o segundo ramal de codificação, onde o segundo ramal de codificação compreende um conversor erri um domínio específico, diferente do g 20 domínio de tempo, como por exemplo, um estágio de análise de LPC que gera um sinal de excitação, e onde o segundo ramal de codificação compreende ainda um dornínio especifico, como o ramal de processamento de domínio de LPC, e um domínio de espectro específico, como o ramal de processamento de domínío de espectro 25 de LPC, e um comutador adicional para transferír entre o ramal de codificação de domínio específico e o ramal de codificação de domínio de espectro específico.
Uma outra configuração da invenção é um r" decodificador de áudio que inclui uni primeiro domínio, como por exemplo, um ramal de decodificação de domínio de espectro, um segundo domínio, corno por exemplo, um ramal de decodificação de domínio de LPC para decodificar um sinal, como por exemplo, um 5 sinal de excitação no segundo domínio, e um terceiro domínio, como por exemplo, um ramal de decodificador de espectro de LPC para decodificar um sinal, como um sinal de excítação, em um terceiro domínio, como um domínio de espectro de LPC, onde o terceiro domínio é obtido realizando-se uma conversão de frequência a . 10 partir do segundo,,dominio, onde um primeiro comutador para o sirjal do segundo dorninio e o sinal do terceíro dominio é provido, e onde um segundo comutador para alte-rnar 'entre o prímeíro d(e"c'9'd.i.fiqa"dQF "ãe" " domín io e o ' de=di f í cador para rseijunaó ' dom"íhi o "bii t:eíSSéi bõ " ' dominio é provido.
— 15 BREVE DESCRIÇÃO- DOS -DEsEmQ'S,, —-d - _ . t--% Configurações preferídas da p"re.se.nte ínve'nção são descritas subsequentemente em relação aos desenhos anexos, nos qua1s : A Fig. la é um diagrama de bloco de um esquema de " 20 codificação, de acordo com um primeiro aspecto da presente invenção; A Fig. lb é um diagrama de bloco de um esquema de decodificação, de acordo coiti o primeiro aspecto da presente invenção; 25 A Fig. lc é um diagrama de bloco de um esquema de codificação, de acordo com um outro aspecto da presente invenção; A Fig. 2a é um diagrama de bloco de um esqueina de codificação, de acordo com um segundo aspecto da presente
<"" invenção; A Fig. 2b é um diagrama esquemático de um esquema de decodificação, de acordo com o segundo aspecto da presente invenção; 5 A Fig. 2c é urn diagrama de bloco de um esquema de codificação, de acordo com um outro aspecto da presente invenção; A Fig. 3a ílustra um diagrama de bloco de um esquema de codificação, de acordo com um outro aspecto da presente
L invenção; 10 A Fig . 3b ilustra um diagrama de bl-oco de um esquema de decodificação, de acordo com o outro aspecto da presente invenção; A Fig . 3c ilustra uma represen€ação '"esiqueinátEa do equipamento/método de codificação com comutadores em cascata; A Fig. 3d i1ustra_um diagrama esquemático_de um _ —. 15 - equipamento ou método para decodificação, no qual são utiliza'dos combinadores em cascata; A Fig. 3e mostra uma ilustração de um sinal de domínio de tempo e uma representação correspondente do sinal ' 20 codificado que ilustra regiões de fusão de transmissão curtas que estão incluídas em arríbos os sinais codificados; A Fig. 4a ilustra um diagrama de bloco com urn comutador posicionado antes dos ramais de codificação: A Fig. 4b ilustra um diagrama de bloco de um 25 esquema de codificação com o comutador posicionado subsequente à codificação dos ramais: A Fig. 4c ilustra um diagrama de bloco para uma configuração preferida de combinador;
à b 9 C" A Fig. 5a ilustra uma forma de onda de um segrnento de fala de dominio de tempo como um segmento de sirial semelhante ao periódico ou do tipo de impulso; A Fig. 5b ilustra um espectro do segmento da Fig.
5 5a; A Fig. 5c ilustra um segmento de fala de domínio de tempo de fala sern voz como exemplo de um segmento do tipo de ruído: A Fig. 5d ilustra um espectro da forrna de oMa do 10 domínio de tempo da Fig.. 5c; A Fig. 6 ilustra um diagrama de bloco de uma análise por codifícador CELP de síntese; As Figs. 7a a 7d ilustram sinaís de excitação com voz/sem voz como exemplo de sinais do tipo de ímpulso; _ 15 A Fig-.—7e ilus-tra .um estágio de L.PC do lado. do codíficador provendo informações de prevísão de curto prazo e o sinal de erro de previsão (excitação); A Fig. 7f ilustra uma outra configuração de um dispositivo de LPC para gerar um sinal ponderado; ' 20 A Fig . 7g ilustra uma implementação para transformar um sinal ponderado em um sinal de excitação aplicando- se uma operação de ponderação inversa e uma análise de excitação subsequente, conforme exigido no conversor 537 da Fig. 2b; A Fig . 8 ilustra um diagrama de bloco de um 25 algoritmo de multicanais associado, de acordo com uma configuração da presente invenção; A Fig. 9 ilustra uma configuração preferida de um algoritrno de extensão de largura de banda;
lO J" A Fig. lOa ilustra uma descrição detalhada do comutador ao executar uma decisão de Ioop aberto; e A Fig. lOb mostra uma ilustração do comutador ao operar em um modo de decisão de loop fechado.
5 DESCRI£ÃO DETALHADA DAS CONFIGURAÇÕES PREFERI,DAS, A Fig. la ilustra uma configuração da invenção corn dois comutadores em cascata. Um sinal mono, um sinal estéreo ou um sinal multicanais é inserido em um comutador 200. O comutador 200 é controlado por um estágio de decisão 300. O 10 estágio de decisão recebe, como-uma entrada, uma entrada de sinal no bloco 200. Alternativamente, o estágio de decisão 300 pode também receber uma informação secundária que é incluída no sinal mono, no sinal estéreo ou no sinal de multicanais, ou é pelo menos associada a esse sinal, onde existem as informações , que foram, 15 por exemplo, —ger-adas- na -pr.odução- orig.inal do sinal—mono, do si.nal—- — - estéreo ou do sinal de multicanais.
O estágio de decisão 300 aciona o comutador 200 para alimentar um sinal em uma parte de codificação de frequência 400 ilustrada em um ramal superior da Fig. la ou em uma parte de ' 20 codificação de dornínio de LPC 500 ilustrada em um ramal inferior na Hg. la. Um elemento importante do ramal de codificação de domínio de frequência é um bloco de conversão de espectro 410 que é operante para converter um sinal de saída de estágio de pré- processamento cornum (conforme será discutido posteriormente) em um 25 domínio de espectro. O bloco de eonversão de espectro pode incluir um algoritmo MDCT, um QMF, um algoritmo FFT, uma análise Wavelet ou um banco de filtros, como por exemplo, um banco de filtros criticamente amostrado com um determinado número de canais de
F" banco de filtros, onde os sinais de sub-banda deste banco de filtros podem ser sinais de valor real ou sínaís de valor complexo. A saida deste bloco de conversão de espectro 410 é codificada com o uso de um codificador de áudio de. es'pectro 421, 5 que pode incluir blocos de processarnento como eles. são conhecidos pelo esquema de codificação de AAC.
Em geral, o processamento no ramal 400 é um processamento em um modelo à base de percepção ou modelo de depósito de informações . Assim, esse modelo representa o sistema "" 10 auditivo humano_ recebendo som. Contrariamente a isso, -o processarnento no ramal 500 serve para gerar um sinal no domínio,de excitação, residual ou de LPC. Em geral, o processamento no ramal 500 é um processamento em um modelo de fala ou um modelo de geração de informações. Pa.ra sínais de fala, esse modelo é um —- 15 —modelo do sistema de geração de —fala/som humano que gera o —s.om. — Se, no entanto, um som de uma fonte diferente que demanda um modelo de geração de som diferente for codificado, então o processamento no ramal 500 pode ser diferente.
No ramal de codificação inferior 500, um elemento " 20 fundamental é urn dispositivo de LPC 510, que produz uma informação de LPC que é usada para controlar as características de urri filtro de LPC. Esta informação de LPC é transmitida a um decodificador. O sinal de saída do estágio de LPC 510 é um sinal de domínio de t,pç que é corriposto de um sinal de excitação e/ou um sínal ponderado.
25 O dispositivo de LPC em geral produz um sinal de domínio de LPC, que pode ser qualquer sinal no domínio de LPC, como o sinal de excitação da Fig. 7e ou um sinal ponderado da Fig.
7f, ou qualquer outro sinal, que tenha sido gerado por meio da
ÈP aplícação de coeficientes de filtro LPC a um sinal de áudio. Aléni disso, um dispositivo de LPC pode também determinar esses coeficientes, e pode ainda quantizar/decodificar esses coeficientes.
5 A decisão no estágio de decisão pode ser adaptativa ao sinal, de maneira que o estágio de decisão execute uma discriminação de música/fala e controle o comutador 200 de tal maneira que sinais de rrtúsica sejam inseridos no ramal superior 400, e sinais de fala sejam inseridos no ramal inferior 500. Em 10 uma configuEação, o estágio de decisão está alimentando suas informações de decisão em um fluxo de bits de saída de maneira que um decodificador possa utilizar essas inforrnações de decisão p:ara —,= executar as operações de decodificação corretas.
Esse decodificador está ilustrado na Fig. lb. a — 15 saída de sin-al pelo codificador de áudio d4espectro_421. é,, apõs a _ transmissão, inserida em um decodíficador de áudio de espectro
431. A saida do decodifícador de áudio de espectro 431 é inserida em um conversor de domínio de tempo 440. Analogamente, a saída do ramal de codificação de domínio de LPC 500 da Fig. la recebida no " 20 lado do decodificador e processada pelos elementos 531, 533, 534 e 532 para obtenção de um sinal de excitação de LPC. O sinal de excitação de LPC é inserido em um estágio de síntese de LPC 540, que recebe, como uma outra entrada, as informações de LPC geradas pelo estágio de análise de LPC correspondente 510. A saída do 25 conversor de domínio de tempo 440 e/ou a saída do estágio de síntese de LPC 540 são inseridas em um comutador 600. O comutador 600 é controlado por meio de um sinal de controle de comutador que foi, por exemplo, gerado pelo estágio de decisão 300, ou que foi externamente provido, como por exemplo, por um criador do sinal mono, sinal estéreo ou sinal de multicanais original. A saída do comutador 600 é um sinal mono, sinal estéreo ou sinal de multicanais completo.
5 O sinal de entrada no comutador 200 e o estágio de decisão 300 podem ser um sinal mono, um sinal estéreo, um sinal de multicanais ou em geral um sinal de áudio. Dependendo da decisão que pode ser derivada do sinal de entrada do comutador 200 ou de qualquer fonte externa, como por exemplo um produtor do 10 sinal"de áudio original subjacente à entrada de sirral no estágio 200, o comutador transfere entre o ramal de codificação de frequência 400 e o ramal de codificação de LPC 500 . O ramal de codificação de frequência 400 inclui um estágio de conversão de espectro 410 e um estágio de quantização/e.odífi.cação conectado 15 subsequentemente 421. —O. -estágio—de quanLização/codíf icação —pode incluir quaisquer das funcionalidades conhecidas de çodificadores de frequência-domínio modernos, como por exemplo, o codificador AAC. Além disso, a operação de quantização no estágio de quantização/codificação 421 pode ser controlada por meio de um " 20 módulo psicoacústico que gera informações psicoacústicas, como limíte de mascaramento psicoacústico sobre a frequência, onde essas informações são inserídas no estágio 421.
No ramal de codificaçào de LPC, o sinal de saída do comutador é processado através de um estágio de análise de LPC 25 510 que gera informações secundárias de LPC e um sinal de domínio de LPC. O codificador de excitação inventivamente inclui um outro comutador para transferir o processamento adicional do sinal de dominio de LPC entre uma operação de quantização/codificação 522 no domínio de LPC ou um estágio de quantização/codificação 524, que está processando valores no domínio de espectro de LPC. Para essa finalidade, um conversor de espectro 523 é provido na entrada do estágio de quantização/codifícação 524. O comutador 521 é 5 controlado em modo de loop aberto ou em modo de loop fechado, dependendo de confígurações específícas, como por exemplo as descritas na específicação técnica do AMR-WB-F.
Para o rnodo de controle de -Zoop fechado, q codificador inclui também um quantizador/codificador ínverso 531 -~-- " ' fo para o sinal de domriio de lpc, um quantizadòr/codificador inversò" 533 para o sinal de domínio de espectro de LPC e um conversor de es,pectro, inverso 534 par_a_ a . saída do i_t_em 533 . Tanto os sinais codificados como os decodificados novamente nos ramais de processamento do segundo ramal de codificação são inserídos no í--5 dispositivo de contrele de comutador 52-5 . No dísposi=Éivo—:de controle de comutador 525, esses dois sínais de saída são comparados um ao outro e/ou a uma função-alvo, ou uma função—alvo é calculada, que possa ter como base uma comparação da distorção em aMbos os sinais, de maneira que o sinal com a distorção " 20 inferior seja usado para decidír qual posição o comutador 521 deve ocupar. Alternativamente, caso ambos os ramais provejam taxas de bits não constantes, o ramal que provê a taxa de bits inferior pode ser selecionado mesmo quando a relação sinal-ruído desse ramal for inferior à relação sinal—ruído do outro ramal.
25 Alternativamente, a função-alvo poderia utilizar como entrada a relação sinal-ruído de cada sinal e uma taxa de bits de cada sinal, e/ou outros critérios, para encontrar a melhor decisão para um objetivo específico. Se, por exemplo, o objetivo for tal que a taxa de bits deva ser a mais baixa possível, a função-alvo dependeria muito da taxa de bits da saída de dois sinais pelos elementos 531, 534. No entanto, quando o objetivo principal é ter a rnelhor qualidade para uma determinada taxa de bits, o controle
5 de comutador 525 pode, por exemplo, descartar cada sinal- que esteja acima da taxa de bits permitida, e quando ambos os sinais estiverem abaixo da taxa de bits permitida, o controle de comutador selecíonaria o sinal com a melhor relação sinal-ruído,
isto é, com as menores distorções de quantização/codificação. = .«=.- + "' 10 'O esquema de decocjiíficação, de acordo com a presente invenção está, conforme já foi informado, ilustrado na
Fig. 1b.
Para cada um dos três tipos possíveis de sinal de saída,
existe um estágio de decodificação/requantização específico 431,
531 ou 533. Enquanto o estágio 431 produzir um espectro de ternpo
— 15 — que é convertid.o no - domín-io de- temp.o usando -o con-ver-so4p— de —
frequência/tempo 440, o estágio 531 produz um sinal de domínio" de
LPC, e o item 533 produz um espectro de LPC.
Para garantir que os sinais de entrada no comutador 532 estejam ambos no domínio de
LPC, é provido o espectro de LPC/conversor de LPC.
Os dados de
" 20 saída do comutador 532 são transformados novaInente no domínio de tempo, com uso de um estágio de síntese de LPC 540, que é controlado através de informações de LPC geradas no lado do codificador e transmitidas.
Depois, subsequente ao bloco 540,
ambos os ramai s têm informações de domínio de tempo que são
25 alternadas de acordo com um sínal de controle de alternância, a fim de finalmente obter um sinal de áudío, como por exemplo, um sinal mono, um sinal estéreo ou um sinal de multicanais, o que depende da entrada de sinal no esquema de codificação da Fig. la.
A Fig. lc ilustra uma outra configuração com uma disposição diferente do cornutador 521, semelhante ao princípio da Fig. 4b.
A Fig. 2a ilustra um esquema de codificação 5 preferido, de acordo com um segundo aspecto da invenção. Um esquema de pré-processamento comum conectado à entrada do comutador 200 pode incluir um bloqueío de estéreo surround/associado 101 que gere, como saida, parâmetros de estéreo conjuntos e um sinal mono de saída, que é gerado por meio de j" .- '-+4- 5 , ^ 10_ downmix do sinal de entrada,' que '"é um sinal com "àois ou mais canais. Erri geral, o sinal na saída do bloco 101 pode também ser um sinal com mais canais, porém, devido à funcionalidade por meio' de downmix o bloco 101, o número de canais na saída do bloco 101 será menor que o núrnero de canais inseridos no bloco 101.
15 - O esquema de—pré -pi:oces s a.mento -comum -pode in-cj-ui r — alternativamente ao bloco 101 ou adicionalrnente ao bloco 101,. um estágio de extensão de largura de banda 102. Na configuração da Fig. 2a, a saida do bloco 101 é inserida no bloco de extensão de largura de banda 102, que, no codificador da Fig. 2a, produz um " 20 sinal limitado de banda corno o sinal de banda baixa ou o sinal de baixa frequência em sua saída. Preferivelmente, esse sinal é reduzido (por exemplo, por um fator de dois) também. Além disso, para a banda alta da entrada de sinal no bloco 102, os parâmetros de extensão de largura de banda como os parâmetros de envelope de 25 espectro, parâmetros de filtragem inversa, parâmetros de piso de ruído, etc. como os conhecidos pelo perfil HE-AAC de MPEG-4 são gerados e encaminhados a um multiplexor de fluxo de bits 800.
preferivelmente, o estágio de decisão 300 recebe a entrada de sinal no bloco 101 ou entrada no bloco 102, para decidir entre, por exemplo, um modo de música ou um modo de fala.
No modo de música, o ramal de codificação superior 400 é selecionado, enquanto no modo de fala, o ramal de codificação 5 inferior 500 é selecionado. Preferivelmente, o estágio de decisão controla também o bloco de estéreo conjunto 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade desses blocos ao sinal específico. Assirn, quando o estágio de decisão determina que uma determinada parte de tempo do sinal de como por exerriplo '3 -+ · g! % " 10 entrada é do primeiro modo, 'o modo de música) características específicas do bloco 101 e/ou bloco 102 podem ser controladas pel_o e_s_tágio de decisão 300 . A1te_r,na_tivame_n_te.m q.uando.,,_.
·- de o estágio de decisão 300 determinar que o sinal está em um modo voz ou, em geral, em um segundo modo de domínio de LPC, —: 15 -características espec-íficas dos blocos —101 e— 102 —-podem- ser— controladas de acordo com a saida do estágio de decisão.
Preferivelmente, a conversão de espectro do ramal de codificação 400 é feita usando-se uma operação de MDCT, a qual, ainda mais preferivelmente, é a operação de MDCT com distorção ' 20 temporal, onde a potência ou, em geral a potência de distorção pode ser controlada entre zero e alta potência de distorção. Em uma potência de dístorção zero, a operação de MDCT no bloco 411 é uma operação de MDCT direta conhecida na técnica. A potência de distorção de tempo com a informação secundária de distorção de 25 tempo podem ser transmitidas / inseridas no multíplexor de fluxo de bits 800 como informações secundárias.
No ramal de codificação LCP, o codificador de domínio de LPC pode incluir um núcleo de ACELP 526 que calcula um ganho de altura, um retardo de altura e/ou informações de livro de códígos, como por exeniplo, índice e ganho de livro de códigos. O modo TCX conhecido do 3GPP TS 26.290 incorre em um processamento de um sinal perceptualmente ponderado no domínio de transformação.
5 Um sinal ponderado de transformação de Fouríer é quantizado usando-se uma quantização em treliça de taxa múltipla dividida (VQ algébrico) com quantização de fator de ruido. Uma trans forníação é calculada em 1024, 512 ou 256 janelas de amostra. O sinal de excítação é recuperado ao filtrar inversamente o sinal ponderado 10 quantizado através de um filtro de ponderação inversa. No primeiro ramal de codificação 400, um conversor de espectro preferivetmente inclu_i_. urria op_e_ração de _ mdct a_d_aptada ¶spêcif icaInenÊe" M · 'com determinadas funções de janela seguidas de um es'tágíõ de codificação de quantização/entropia, que po.de ser compo'sto de um — 1.5 —.único— está-gio de- quanOi zação-- d.e —v'etor-,—= ma s -—pre fe-M:ve1men"t-e —é-" um .— '"=: codificador de quantizador/entropia escalar combinado s eIuel:h'a1n't e- ao quantizador/codificador do ramal de codificação de domíttiô de frequência, isto é, no item 421 da Fíg. 2a.
No segundo ramal de codificação, exíste o bloco " 20 de LPC 510 seguido de urn comutador 521, novamente seguido de um bloco de ACELP 526 ou um bloco de TCX 527. O ACELP é descrito no 3GPP TS 26.190 e a TCX é descrito no 3GPP TS 26.290. Em geral, o bloco de ACELP 526 recebe um sinal de excitação de LCP calculado por um procedimento descrito na Fig. 7e. O bloco de TCX 527 recebe 25 um sinal ponderado gerado da maneira que mostra a Fig. 7f.
No TCX, a transforrnação é aplicada ao sinal ponderado computado filtrando-se o sinal de entrada através de um filtro de ponderação à base de LPC. As configurações preferidas do filtro de ponderação usado são dadas por (1-A(z/y) ) / (1-µz"') .
Assim, o sinal ponderado é um sinal de domínio de LPC e sua transformação é um domínio de espectro de LPC. O sinal processado pelo bloco de ACELP 526 é o sinal de excitação, e é 5 diferente do sinal processado pelo bloco 527, porém, ambos os sinais estão no domínio de LPC.
No lado do decodificador ilustrado na Fig. 2b, depois da transformação de espectro inversa no bloco 537, o inverso do filtro de ponderação é aplicado, isto é, (1-µZ"1)/(1- 10 A(z/y)). Depois, o sinal é filtrado por (1-a(z)) para ir para o domínio de excitação de LPC. Assim, a conversão para o bloco de domínio _,de LPC 534 e o bloco TCX"1 5_37 inc1_u_em trans formação inversa e depois filtragem por (l-µz"1)/(1-A(z/Y)) (1-A(Z)) para converter do domínio ponderado para o domínío de excítação.
—15 —Embora—o 'item—510- das—Fig. la', 1c,—2a, 2c—i-lus.tr+ um único bloco, o bloco 510 pode produzir diferentes sinais, contanto que esses sinais estejam no domínio de LPC. O modo real do bloco 510, como por exemplo, o modo de sinal de excitação ou o modo de sinal ponderado podem depender da condição real do " 20 comutador. Alternativamente, o bloco 510 pode ter dois dispositivos de processamento paralelos, onde um dispositivo é implerríentado de maneira semelhante à Fig. 7e e o outro dispositivo é implementado como na Fig. 7f . Logo, o domínio de LPC na saída de 510 pode representar o sinal de excitação de LPC ou o sinal 25 ponderado de LPC, ou qualquer outro sinal de domínio de LPC.
No segundo ramal de codificação (ACELP/TCX) da Fig. 2a ou 2c, o sinal é preferivelmente pré-enfatizado através de um filtro 1-0,68z"' antes da codíficação. No decodificador
ACELP/TCX da Fig. 2b o sinal sintetizado é desenfatizado com o filtro 1/ (1-0,68z"') . A pré-ênfase pode fazer parte do bloco de LPC 510 onde o sinal é pré-enfatizado antes da análise e quantização de LPC. De rnaneira semelhante, a desenfatização pode ser parte do 5 bloco de sintese de LPC LPC"' 540.
A Fig. 2c ilustra uma outra configuração para a implementação da Fig. 2a, porém com uma disposição diferente do comutador 521, semelhante ao princípio da Fig. 4b.
Eitl uma configuração preferida, o primeiro 10 comutador 200 (vide Fig. la ou 2a) é controlado através de uma - decisão de Ioop aberto (como na Fig. 4a), e o segundo comutador é controlado através de uma decisão de Ioop fechado (como na figura 4b) .
Por exemplo, a Fi g . 2c tem o segundo comutador 15 eolocado- depois dos ramaís d'e ACEL-P- e' TCX, c.omo—na Eig-. 4b. ~Então,— no primeiro ramal de processamento, o primeiro domínio de LPC representa a excitação de LPC, e no segundo ramal de processamento, o segundo dominio de LPC representa o sinal ponderado de LPC. Isto é, o primeiro sinal de domínio de LPC é ' 20 obtido por filtragem através de (1-a(z)) para converter para o domínio residual de LPC, enquanto o segundo sinal de domínio de LPC é obtido filtrando-se pelo filtro (1-A(z/y))/(l-µz"') para converter para o domínio ponderado de LPC.
A Fig. 2b ilustra um esquema de decodificação 25 correspondente ao esquema de codificação da Fig. 2a. O fluxo de bits gerado pelo multiplexor de fluxo de bits 800 da Fig. 2a é inserido em um desmultiplexor de fluxo de bits 900. Dependendo de uma informação originada, por exemplo, de um fluxo de dados através de urn bloco de detecção de inodo 601, urn comutador do Iado do decodificador 600 é controlado ou para sinais para frente do ramal superior ou para sinais do ramal mais baixo para o bloco de extensão de largura de banda "701. O bloco de extensão de largura 5 de banda 701 recebe, do desmultiplexor de fluxo de bits 900, ínformações secundárías e, com base nessas informações secundárias e na. saída da decisão de modo 601, reconstroi a banda alta com base na saída de banda baíxa pelo cornutador 600.
O sinal de banda completo gerado pelo bloco 701 é 10 inserido no estágio de processamento surround/estéreo associado 702, que reconstroi dois canais estéreos ou vários multicanaís. Em . _ge,ral_ o bloc,o_ 702 _produzirá. mais_ canais que _ os_ que _ fo.ram inseridos neste bloco. Dependendo da aplicação, a entrada no bloco 702 pode até incluír dois canais, como por 'êxemplo , em um modo _1"'5 estére'o, e "pode-até incluir mais canais-,- con.tanto-.que—a saída por esse bloco tenha mais canais que a entrada nesse bloco.
Foi demonstrado que o comutador 200 alterna entre ambos os ramais, de maneira que somente um ramal receba um sinal para processar e o outro ramal não receba um sinal para processar.
' 20 Em uma configuração al-ternativa, no entanto, o comutador pode também ser disposto subsequente, por exemplo, ao codificador de áudio 421 e ao codíficador de excitação 522, 523, 524, o que significa que amíbos os ramais 400, 500 processam o mesmo sinal em paralelo. Para não dobrar a taxa de bits, no entanto, somente a 25 saída de sinal por um desses ramais de codíficação 400 ou 500 é selecionada para ser gravada no fluxo de bits de saída. O estágio de decisão operará então de maneira que o sinal gravado no fluxo de bits minimize uma determinada função de custo, onde a função de custo pode ser a taxa de bits gerada ou a distorção perceptual gerada, ou uma função de custo de taxa/distorção combinadas.
Portanto, seja neste modo ou no modo ilustrado nas Figuras, o estágio de decisão pode também operar em um modo de loop fechado, 5 para garantir que, por fim, somente a saída do ramal de codificação seja gravada no fluxo de bits, o qual possui para uma determinada distorção perceptual a taxa de bits maís baixa ou, para urn determinado fluxo de bits, possui a distorção perceptual mais baixa. No inodo de Ioqp fechado, a entrada de feedback pode 10 ser derivada de saídas dos três blocos quantizadores/escalares 421, 522 e 424, da Fig. la.
Na implementação com dois comutadores, ísto é, o primeiro comutador 200 e o segundo comutador 521, é preferido que a resolução de tempo para o primeiro comutador seja mais baixa que 15 a _ resolução Ae tempo pa.ra -o segundo comutador .- —Em--out-ras—palavras, os blocos do sinal de entrada no primeiro comutador, que podem ser alternados através de uma operação do comutador, são maiores que os blocos alternados pelo segundo comutador que funciona no domínio de lpc. Por exemplo, o comutador de dominio de "" 20 frequência/dornínio de LPC 200 pode alternar blocos de uma extensão de 1024 amostras, e o segundo comutador 521 pode alternar blocos eom 256 amostras cada.
Apesar de algumas das Fig. la a lOb estarem ilustradas corno diagramas de bloco de urn equipamento, essas 25 figuras são simultaneamente uma ilustração de um método, onde as funcíonalidades de bloco correspondern às etapas do método.
A Fig. 3a ilustra um codificador de áudio para gerar uín sinal de áudio codificado como saída do primeiro ramal de à 23 codificação 400 e um segundo ramal de codificação 500. Além disso, o sinal de áudio codificado preferivelmente inclui informações secundárias, como por exemplo, os parâmetros de pré-processamento pelo estágio de pré-processamento comum ou, conforme foi discutido 5 em relação às Figuras anteriores, informações de controle de comutador .
Preferivelmente , o primeiro ramal de codificação é operacional, para codificar um sinal intermediário de áudio 195 de acordo com um pri.meiro algoritmo de codifícação, onde o 10 primeiro algoritíno de codificação possui um modelo de depósíto de informação. O primeiro ramal de codificação 400 gera o orimeiro sinal de saída do codificador, que é uma representação_ de _ infôrmação de e'spectrÒ codif icada do sinal intermediário de áudio
195.
15 Além disso,. o segundo ra-ma.l .de c-od-ifica'ção- 500 é adaptado para codificar o sinal intermediário de áudío 195 de acordo com um segundo algoritmo de codíficação, sendo que o segundo algoritmo de codificação possui um modelo de fonte de informação e gera, em um segundo sinal de saída do codificador, ' 20 parâmetros codificados para o modelo de fonte de informação que representa o sinal de áudio intermediário.
O codificador de áudio ínclui ainda o estágio de pré-processamento comurn para pré-processar um sinal de entrada de áudio 99, para obter o sinal intermediárío de áudio 195.
25 Especificarnente, O estágio de pré-processamento .comum é operacional para processar o sinal de entrada de áudio 99 de maneira que o sinal íntermediário de áudio 195, isto é, a saída do algoritmo de pré-processamento corrium, seja uma versão condensada à 24 do sinal de entrada de áudio.
Um método preferido de codificação de áudio para gerar um sinal de áudio codificado inclui uma etapa de codificação 400 de um sínal intermediário de áudio 195, de acordo com um 5 primeiro algoritmo de codificação, sendo que o primeiro algoritmo de codificação possui um modelo de depósito de informação e gera, em um primeiro sinal de saída, informações de espectro codificadas que representam o sinal de áudio; uma etapa da codificação 500 de um sinal intermediário de áudio 195, de acordo corn um segundo 10 algoritmo de codificação, sendo que o segundo algoritmo de codificação possui um modelo de fonte de informação e gera, em um segundo sinal de saída, parâmetros codificados para o modelo de fõíite de itformação que representa o sinal íntermediário 195, e uma etapa de pré-processamento 100 comum de um sinal de entrada de 15 á,udio 99_ para obter o sinal intermedíário de áudi-o=LL95,—-onde, na etapa de pré-processamento comurn, o sinal de entrada de áudio 99 é processado de maneira que o sinal intermediário de áudio 195 seja uma versão condensada do sinal de entrada de áudio 99, onde o sinal de áudio codificado inclui, para uma determinada parte do " 20 sinal de áudio, o primeiro sinal de saida ou o segundo sinal de saída. O método preferivelmente inclui a outra etapa que codifica urna determinada parte do sinal intermediário de áudio, seja usando o primeiro algoritmo de codificação ou usando o segundo algoritmo de codificação, ou codificando o sinal usando-se ambos os 25 algoritmos e produzindo em um sinal codificado o resultado do primeiro algoritmo de codificação ou o resultado do segundo algoritmo de codificação- Em geral, o algoritmo de codificação de áudio usado no primeiro ramal de codificação 400 reflete e representa a situação em um depósito de áudio. O depósito de uma informação de áudio é norrnalmente o ouvido humano. O ouvido humano pode ser representado como urn analisador de frequência. Portanto, o 5 primeiro ramal de codificação produz informações de espectro codificadas . Preferivelmente, o primei ro ramal de codificação inclui ainda um modelo psicoacústico para aplicar também um límite de mascaramento psicoacústico. Esse limite de mascaramento psicoacústico é usado ao se quantizar valores de espectro de áudio 10 onde, preferivelmente, a quantização é realízada de maneira que um ruído de quantização seja introduzido quantizando-se os valores de áudio de espectro, que ficam ocultos abaixo do limíte de mascararnento psicoacústico.
O segundo ramal de codifícação representa um _1 5 modelo- de fonte- de info-rmaçãQ , que r-e-fleÈe-:-- a ger-ação de sem- de áudio. Portanto, os modelos de fonte de inforrrtação podem incluir um modelo de fala que é refletido por um estágio de análise de LPC, ísto é, pela transformação de um sinal de domínio de tempo em um dominio de LPC, e pelo subsequente processamento do sinal " 20 residual de LPC, isto é, o sinal de excitação. Modelos alternativos de fonte de som, no entanto, são modelos de fonte de som para representar um determinado instrumento ou qualquer outro gerador de som, como por exemplo, uma fonte de som específica que existe no mundo real . Uma seleção entre diferentes modelos de 25 fonte de som pode ser feita quando vários modelos de fonte de som estiverem disponíveis, por exemplo, com base em um ,cá1culo SNR, isto é, COHl base em um cálculo, qual dos modelos de fonte é o mais adequado para codificar uma determinada parte de tempo e/ou parte de frequência de um sinal de áudio. Preferivelmente, no entanto, a alternância entre os ramais de codificação é feita no domínio de tempo, isto é, uma determinada parte de tempo é codificada usando- se um modelo e uma determinada parte de tempo diferente do sinal 5 intermediário é codificada usando-se o outro ramal de codificação.
Os modelos de fonte de informação são representados por determinados parâmetros. Em relação ao modelo de fala , os parâmetros são parâmetros de LPC e parâmetros de excitação codificados, quando urn codificador de fala moderno como 10 a AMR-WB+ é considerado. A AMR-WB+ inclui um codificador ACELP e um codificador TCX. Neste caso, os parâmetros de excitação codificados podem ser ganho_ global, piso de. ruido .e. cód,i_gos de —-. - extensões varíáveis .
A Fig. 3b ilustra um decodificador que 15 — corresponde-- ao codi f icador ilustrade- na Fig . 3= .Em geraj= a Fig .
3b ilustra um decodificador de áudio para decodificar um sinal de áudio codificado para obter-se um sinal de áudio decodificado 799.
O decodificador inclui o primeiro ramal de decodifícação 450 para decodificar um sinal codificado que foi codificado de acordo com " 20 um primeiro algoritmo de codificação corn um modelo de depósito de informação. O decodificador de áudio inclui ainda um segundo ramal de decodificação 550 para decodificar um sinal de inforrnação codificado que foi codificado de acordo com um segundo al-goritmo de codificação com um modelo de fonte de informação. O 25 decodificador de áudio incluí ainda um corríbinador para combínar sinais de saída do primeiro ramal de decodificação 450 e do segundo rarrial de decodificação 550, para obter um sinal combinado.
O sinal combinado que está ilustrado na Fig. 3b como sinal lj 27 intermediário de áudio decodificado 699 é inserido em um estágio de pós-processamento comum para pós-processar O sinal intermediário de áudio decodificado 699, que é a saída de sinal combinado pelo combinador 600, de maneira que um sinal de saída do 5 estágío de pré-processamento comum seja uma versão expandida do sinal corríbinado. Assim, o sinal de áudio decodificado 799 possui um teor de informação intensificado, em comparação ao sinal intermediário de áudio decodificado 699. Essa expansão de informação é provída pelo estágio de pós-processamento comum com o 10 auxílio dos parâmetros de pré/pós-processamento que podem ser transmitidos de um codificador para um decodificador, ou que podem se;r derivados do própFi_o._ sinal in_t_errne_d_iário _ _ _de.. áudio ' " " decodi f icado . Preferivelmente , no entanto, os parâmetros de p.ré/p"ós-processamento são transmitidos de um codi ficador para um -- , , 15 —.de:c)odi.fica-dQE,=-pois es-se .procedirnenÈo- permite uma -melhor -q-ualidade do sinal de áudío decodificado.
A Fig. 3c ilustra um codificador de áudio para codificar um sinal de entrada de áudio 195, que pode ser igual ao sinal de áudio intermediário 195 da Fig. 3a de acordo com a " 20 configuração preferida da presente invenção. O sinal de entrada de áudio 195 está pre3ente em urn primeiro dominio que pode , por exemplo, ser o domínio de tempo, rnas que pode também ser qualquer outro domínio, como por exemplo, um domí ni o de frequência, um dominio de LPC, um domínio de espectro de LPC ou qualquer outro 25 domínio. Em geral, a conversão de um domínio para o outro domínio é feita por um algoritmo de conversão como qualquer um dos algoritmos de conversão de tempo/frequência ou algoritmos de conversão de frequência/tempo bem conhecidos.
Uma transformação alternativa do dominío de tempo, por exemplo no domínio de LPC, é o resultado de filtragem por LPC de um sinal de dominio de ternpo que resulta eni um sinal residual de LPC ou sinal de excitação. Qualquer outra operação de 5 filtragem que produza um sinal fíltrado que tenha um impacto sobre um número substancial de amostras de sinal antes da transformação pode ser usada como um algoritmo de transformação se for o caso.
Portanto, a ponderação de um sinal de áudio com uso de um filtro de ponderação à base de LPC é uma outra transformação, que gera um lO sinal no domínio de LPC. Em uma transformação de tempo/frequência, a modificação de um único valor de espectro terá um impacto sobre todos os valores de domínio de tempo antes da transformação.
Analogamente, uma modificação de qualquer amostra de domínio de ternpo terá um impacto sobre cada amos'tra de domínio de frequência .
15 De maneira semelhan.te,—uma rnodi ficação—de—uma amostra do sinal—de-- excitação ern uma situação de domínio de LPC terá, devido à extensão do f iltro de LPC, um impacto em um número substancial de amostras antes da filtração de LPC. De maneira semelhante, uma modificação de uma amostra antes de uma transformação de LPC terá " 20 um impacto sobre rriuitas amostras obtidas por essa transformação de LPC, devido ao efeito de memória inerente do filtro de LPC.
O codificador de áudio da Fig. 3c inclui um primeiro ramal de codificação 400 que gera um primeiro sinal codificado. Esse primeiro sinal codificado pode estar em um quarto 25 domínio que é, na configuração preferida, o doininio de espectro de tempo, isto é, o domínio que é obtido quando um sínal de domínio de tempo é processado de uma conversão de tempo/frequência.
q 29 Portanto, o primeiro rarnal de codificação 4 00 para codificar um sinal de áudio utiliza um prímeiro algoritmo de codificação para obter um primeiro sinal codificado, onde o primeiro algoritmo de codificação pode incluir ou não um algoritmo 5 de conversão tempo/frequência.
O codificador de áudio inclui ainda um segundo ramal de codificação 500 para codificar um sinal de áudio. O segundo ramal de codíficação 500 utilíza um segundo algoritmo de codificação para obter um segundo sinal codificado, que é 10 diferente do primeiro algori"tmo de codifi-cação.
O codíficador de áudío inclui, ainda, urn primeiro comutador 200 para altern.a7 entre o pjrimeiro ramal de cod.jficação 400 e o segundo ramal de codificação 500, de maneira que para uma parte do sinal de entrada de áudio, ou o primeíro sínal codificado 15-—na saída do—.bloco 400—ou o segtmde-·sina1 cod-í-fícado na—saída do segundo ramal de codificação está i-ncluído em um sinal de saida do codificador . Assim, quando para uma determinada parte do sinal de entrada de áudio 195, o primeiro sinal codificado no quarto dominio for incluído no sinal de saída do codificador, o segundo ' 20 sinal codificado que é ou o primeiro sinal processado no segundo domínio ou o segundo sinal processado no terceiro domínio, não será incluído no sinal de saída do codificador. Isso garante que esse codificador é eficiente em terrnos de taxa de bits. Em configurações, quaisquer partes de tempo do sinal de áudio que 25 forem incluídas em dois sinaís codíficados diferentes são pequenas, ern comparação a urna extensão de estrutura de um estrutura, como será discutido em relação à Fig. 3e. Essas partes pequenas são úteis para uma fusão de transmissão de um sinal codificado para outro sinal codificado, no caso de um evento de alternância, para reduzir artefatos que possarn ocorrer sem nenhurna fusão de transmissão. Portanto, sern contar a região da fusão de transmissão, cada bloco de domínio de tempo é representado por um 5 sinal codificado de somente um único domínio.
Como ilustra a Fig. 3c, c) segundo ramal de codificação 500 inclui um conversor 510 para converter o sinal de áudio do primeiro domínio, isto é, sinal 195 em um segundo domínio. Além disso, o segundo ramal de codificação 500 inclui um 10 primeiro ramal de processamento 522 para processar um sinal de áudio no segundo domínio, para obter um primeiro sinal processado que está, preferive1mente,___tarnbém _ no s,e,gundo domín.io, de maneira _= que o primeiro ramal de processamento 522 não execute uma mudança de domínio .
O segundo ramal de codÈ£-icação—500—i-nclui ,' ainda, _ 15 um segundo ramal de processamento 523, 524, que converte o sinal de áudio do segundo domínío em um terceiro domínio, que é diferente do primeiro domínio, e que é também diferente do segundo domínio, e que processa o sinal de áudio no terceiro domínio para " 20 obter um segundo sinal processado na saída do segundo ramal de processamento 523, 524.
Alérri disso, o segundo ramal de codificação inclui um segundo comutador 521 para transferir entre o prímeiro ramal de processamento 522 e o segundo ramal de processarnento 523, 524, de 25 maneira que, para uma parte da entrada do sinal de áudío no segundo ramal de codificação, ou o primeiro sinal processado no segundo dominio ou o segundo sinal processado no terceiro domínio fica no segundo sinal codificado.
q 31 A Fig. 3 ilustra um decodificador correspondente para decodificar um sinal de áudio codificado gerado pelo codificador da Fig. 3c. Em geral, cada bloco do sinal de áudio de prirrieiro domínio é representado por um sinal de segundo domínio, 5 ou um sinal de terceiro dominio, um sinal codificado de quarto domínio, além de uma região de fusão de transmissão opcional que é preferivelmente curta, em comparação à extensão de uma estrutura , para que se obtenha um sisterna que esteja tanto quanto possível no limite crítico de amostragem. O sinal de áudio codificado inclui o 10 prirneiro sinal codificado, um segundo sinal codificado em um segundo domínio e um terceiro sinal codificado em um terceiro domínio, onde o primeiro sinal codificado, o segundo,_ sina.l ""'" codífiCado e o terceiro sinal codificado estão todos relacionados a diferentes partes de tempo do sinal de áudio decodificado, e 15 _ onde .o segundo domínio, o terceiro—dominio e o primeiro domí-n-i-o—de um sinal de áudio decodificado são diferentes uns dos outros.
O decodificador inclui urn primeiro ramal de decodifícação para decodificar com base no primeiro algoritmo de codificação. O prímeiro ramal de decodificação é ilustrado em 431, " 20 440 na Fig . 3d, e inclui preferivelmente um conversor de frequência/tempo. O primeiro sinal codificado está preferivelmente em um quarto domínio e é convertido no primeiro domínio, que é o domínio para o sinal de saída decodificado.
O decodificador da Fig. 3d inclui ainda um 25 segundo ramal de decodificação que inclui vários elementos. Esses elementos são um primeiro ramal de processamento inverso 531 para processar inversamente o segundo sinal codificado, para obter um primeiro sinal processado inverso no segundo domínio, na saída do
4 l 0P 32 bloco 531. O segundo ramal de decodificação inclui ainda urn segundo ramal de processamento inverso 533, 534, para processar inversamente um terceiro sinal codificado, para obter um segundo sinal processado inverso'no segundo domínio, onde o segundo ramal 5 de processamento inverso inclui um conversor para converter do terceiro domínio no segundo domínio.
O seg'undo ramal de decodificação inclui ainda um prirneiro cornbinador 532 para combinar o primeiro sinal processado inverso e o segundo sinal processado inverso para obter um sinal 10 no segundo domínio, onde esse sinal combínado é, em um primeiro rnomento, influenciado somente pelo primeiro sinal processado inverso e é, posteriormente,influenciado somente pelo segundo R . · sinal processado inverso.
O segundo ramal de decodificação inclui ainda um 15 conversor 540 para converter, o_-sina.1 combinado ao primeiro domíni o .
Por fim, o decodificador ilustrado na Fig. 3d inclui um segundo combinador 600 para combinar o primeiro sinal decodificado do bloco 431, 440 e o sinal de saída do conversor · 20 540, para obter um sinal de saída decodificado no primeiro dominio. Novainente, o sinal de saída decodificado do primeiro domínio é, em um primeiro momento, ínfluenciado somente pela saida de sinal pelo conversor 540, e é, posteriormente, influenciado somente pela saída do primeiro sinal decodificado pelo bloco 431, 25 440.
Essa situação é ilustrada, de uma perspectiva do codificador, na Fig. 3e. A parte superior da Fig. 3e ilustra, na representação esquemática, um sinal de áudio do primeíro domínio,
como por exernplo, um sinal de áudio do dominío de tempo, onde o índice de tempo aumenta da esquerda para a direita e o item 3 pode ser considerado um fluxo de amostras de áudio que representa o sinal 195 na Fig. 3c. A Fig. 3e ilustra as estruturas 3a, 3b, 3c, 5 3d, que podem ser geradas alternando-se entre o primeiro sinal codificado e o primeiro sinal processado e o segundo sinal processado, conforme ilustrado no item 4 da Fig. 3e. O priíneiro sinal codificado, o primeiro sinal processado e segundo sinal processado estão todos em domínios diferentes, e para garantir que 10 o comutador entre os diferentes domínios não resulte em um artefato no lado do decodificador, as estruturas 3a, 3b do sinal do domínio de tempo apresentam uma faixa de sobreposição que _é,_ Zndicadã""como urna regiãõ" de fusão de transmissão, e essa região de fusão de transrnissão está presente nas estruturas 3b e 3c. No 15 entanto, não exi,ste es_s.a regiã-o de fusão de—transmj-s-sãQ e+itre as— estruturas 3d, 3c, o que significa que a estrutura 3d é também representada por um segundo sinal processado, isto é, um sinal no terceiro domínio, e não há nenhuma, mudança de domínio entre as estruturas 3c e 3d. Portanto, em geral, é preferido não prover uma " 20 região de fusão de transmissão onde não houver mudança de domínio, e prover uma região de fusão de transmissão, isto é, uma parte do sinal de áudio que é codificada por dois sinais subsequentes codificados/processados quancio não existir uma mudança de domínio, isto é, uma ação de alternância de nenhum dos dois comutadores.
25 Preferivelwente, as fusões de transmissões são executadas para outras mudanças de domínio.
Na configuração, na qual o primeiro sinal codificado ou o segundo sinal processado tiver sido gerado por um processainento de MDCT com, por exemplo, sobreposição de 50%, cada amostra de domínio de tempo é incluída em duas estruturas subsequentes. Nc) entanto, devido às características da MDCT, isso não resulta em suspensão, pois a MDCT é um sistema amostrado 5 criticamente. Nesse contexto, amostrado criticamente significa que o número de valores de espectro é o rnesmo que o número de valores de dornínio de tempo. a MDCT é vantajosa porque o efeito de passagem é provído sem uma região de passagem específica, de maneira que uma passagem de um bloco de MDCT para o próximo bloco 10 de MDCT é provida sem nenhuma suspensão, que violaria a exigência de amostragem crítica.
Preferivelmente, O primeiro algoritmo ,_de --codi-f icação " do" prijnei":o )Famal cíe codificação baseia-se ern urn modelo de depósito de informação, e o segundo algoritmo de 15 codi f icação do segundo _:amal de codi f.icação ba-seia-se em—uma_ f'on'te =" de informação ou em um modelo SNR. Um'modelo SNR é um modelo que não está especificamente relacionado a um mecanismo de geração de som específico, rnas que é um modo de codificação que pode ser selecionado entre uma pIuralidade de modos de codificação com " 20 base, por exemplo, em uma decisão de Ioop fechado. Assim, um modelo SNR é qualquer modelo de codificação disponível, mas que não necessariamente tem que estar relacionado à constituição fisica do gerador de som, mas que é qualquer modelo de codificação parametrizada diferente do modelo de depósito de informação, que 25 pode ser selecionado por uma decisão de Ioop fechado e, especificarnente, comparando-se diferentes resultados de SNR de diferentes modelos.
Conforme ilustra a Fig. 3c, um controlador 300,
525 é provido. Esse controlador pode incluir as funcionalidades do estágio de decisão 300 da Fig. la e adicionalmente, pode incluir a funcionalidade do dispositivo de controle de alternância 525 da Fig. la. Em geral, o controlador é para controlar o primeiro 5 comutador e o segundo comutador de maneira adaptativa ao sinal. O controlador é operante para analisar uma entrada de sinal no primeiro comutador ou saída pelo primeiro ou segundo ramal de codificação ou sinais obtidos por codificação e decodificação pelo primeiro e pelo segundo ramal de codificação, em relação a uma 10 função-alvo. Alternativamente, ou adicionalmente, o controlador é operante para analisar a entrada de sinal no segundo comutador ou saída pelo primeiro ramal de processamento ou pe1Q segundo- -ramal - —-.
— — - - — de 'processamento", "ou" õbtído por processamento e processamento inverso do primeiro ramal de processamento e do segundo ramal de 15 processamento , novamente _ em rela-ção a- uma —fun-ção'—alvo"." " " " " " = Erri uma configuração, o primeiro ramal de codificação ou o segundo ramal de codíficação incluem um aliasing que introduz um algoritmo de conversão de tempo/frequência como uma MDCT ou um algorítmo de MDCT, que é diferente de uma · 20 transformação de FFT direta, a qual não introduz um alíasing. Além disso, um ou amibos os ramaís incluem um bloco de codifícador quantizador/de entropia. Especificamente, somente o segundo ramal de processamento do segundo ramal de codificação inclui o conversor de tempo/frequência que introduz uma operação de 25 aliasing, e o primeiro ramal de processamento do segundo ramal de processamento inclui um quantizador e/ou codificador de entropia, e não introduz nenhum aliasing. O conversor de tempo/frequência introdutor do aliasing inclui uma formação de janela para aplicar uma janela de análise e um algoritmo de transformação de MDCT.
Especificamente, a formação de janela é operante para aplícar a função de janela a estruturas subsequentes de maneira sobreposta, de modo que uma amostra de um sinal com j anela ocorra em pelo 5 menos duass estruturas com janela subsequentes.
Em uma configuração, o primeiro rarnal de processamento inclui um codificador ACELP e um segundo ramal de processamento inclui um conversor de espectro de MDCT e o quantizador para quantizar componentes de espectro para obter 10 componentes de espectro quantízados, onde cada componente de espectro quantízado "é zero, ou é definido por um índíce de quantizador da pluralidade de diferentes indices de quantizador possíveis .
Além disso, é preferído que o primeiro comutador 1-5 200 opere em modo de loop- áberto e 0_- segundo comutador ope_re em modo de loop fechado.
Conf orme já foi informado, ambos os ramai s de codificação são operantes para codificar o sinal de áudio em blocos, onde o primeiro comutador ou o segundo comutador ' 20 transferem ern blocos, de maneira que ocorra uma ação de transferêncía, no mínimo, após um bloco de um número pré-definido de amostras de um sinal, sendo que o número pré—definido forma uma extensão de estrutura para c) comutador correspondente. Assim, o grânulo para alternar pelo primeiro comutador pode ser, por 25 exemplo, um bloco de 2048 ou 1-028 amostras, e a extensão da estrutura, com base no qual o primeiro comutador 200 está alternando, pode ser variável, mas é, preferivelmente, fika a esse período berri longo.
C) 37 Contrariamente a isso, a extensão de bloco para o segundo comutador 521, isto é, quando o segundo comutador 521 alterna de um modo para outro, é substancialmente menor que a extensão de bloco para o primeiro comutador. Preferivelmente, 5 ambas as extensões de bloco para os comutadores são selecionadas de maneira que a extensão de bloco mais longa seja um múltíplo integral da extensão de bloco maís curta. Na configuração preferida, a extensão do bloco do primeiro comutador é .2048 ou 1024, e a extensão do bloco do segundo comutador é 1024 ou mais 10 preferivelmente, 512, e ainda mais preferivelmente, 256, e ainda mais preferivelmente, 128 arnostras, de maneira que, no máximo, o ,segundo comutador possa alternar 16 vezes quando o primeiro "C €S CoÂutador alternar somente uma únità vez. Uma proporção de "" extensão de bloco máxíma preferida, é, no entanto, 4:1.
,,15 = ,. = Em_uma outra confíguração, o controlador 300 , 52 5 é .operante para executar uma discriminação de fala/rnúsíca para c) primeiro comutador de maneira que uma decisão para fala seja favorecida em relação a uma decisão para música. Nessa configuração, uma decisão para fala é tomada me srno quando uma " 20 parte de menos de 50% de uma estrutura para o primeiro comutador seja fala e a parte de mais de 50% da estrutura seja música.
Além disso, o controlador é operante para já alternar para o modo de fala, quando uma parte bem pequena do prinieiro estrutura for fala e, especificamente, quando uma parte 25 do primeiro estrutura for fala, o que é 50% da extensão do segundo estrutura menor. Assim, uma decisão de alternância de fala/favorecimento preferida já alterna para fala, mesmo quando, por exemplo, somente 6% ou 12% de um bloco correspondente à t eà 38 extensão do estrutura do primeiro comutador for fala.
Esse procedimento serve preferivelmente para explorar totalmente a capacidade de salvar taxa de bits do primeiro ramal de processamento, o qual possui um núcleo de fala 5 com voz em uma configuração, e para não perder nenhuma qualidade, rriesmo para o resto da primeira estrutura grande, que é sem fala, devido ao fato do segundo ramal de processamento incluir um conversor e, assim, ser útil para sinais de áudio que possuern sinais sem fala também . Preferivelmente, esse segundo ramal de 10 processamento inclui uma MDCT sobreposta, que é criticamente aínostrada, e que mesmo em tamanhos de janela pequenos, provê uma operação altamente eficiente e operação sem aliasing, devido ao processamento de cancelamento de aliasíng do domínio de tempo, como por exemplo, sobreposição e adição no Iado do decodificador.
15 -Além di-sso, uma exte-ns.ão de bloco-rgrande- pa-ra—o; primeiro ramal de—- codificação, que é preferívelmente um ramal de codi ficação de MDCT do tipo AAC, é útil, pois sínais sem fala são normalmente bem fixos e uma janela de transformação longa provê uma resolução de alta frequêncía e, portanto, alta qualídade e, além disso, provê " 20 uma eficiência de taxa de frequência devida a um módulo de quantização controlado psicoacusticamente, que pode também ser aplicado ao modo de codificação à base de transformação no segundo ramal de processamento do segundo ramal de codificação.
Em relação à ilustração do decodificador da Fig.
25 3d, é preferido que o sinal transmitido inclua um indicador explícito como informação secundária 4a, conforme ilustra a Fig.
3e. Essa informação secundária 4a é extraída por um divisor de fluxo de bits não ilustrado na Fig. 3d, para encaminhar o primeiro
« (7 39 sinal codificado correspondente, primeiro sinal processado ou segundo sinal processado ao processador correto, corno por exemplo o primeiro ramal de decodificação, o primeiro ramal de processamento inverso OLl o segundo ramal de processamento inverso 5 da Fig. 3d. Portanto, um sinal codificado não só possui os sinais codificados/processados, mas também inclui informações secundárias relacionadas a esses sinais. Errt outras configurações, no entanto, pode haver uma sinalização implicita que permita um divísor de
E fluxo de bits do lado do decodificador, para distinguír entre os 10 sinais deterrriinados. Em relação à Fig. 3e, é estabelecido que o primeiro sinal processado ou o segundo sinal processado é a saída do segundo ramal de codifícação e, portanto, " o segundo sinal codificado.
Preferivelmente, O primei-ro ramal de 15 decodificação e/ou o _segun.do-.rama1 de process-amento in-verso—i-nc-íui - uma transformação de MDCT para converter do domínio de espec'tro para o dominio de tempo. Para essa finalidade, é provido um adicionador de sobreposição, para executar uma funcionalidade de cancelamento de aliasing de dominio de tempo que, ao mesmo tempo, " 20 provê urn efeíto de fusão de transrnissão para evitar artefatos de bloqueio. Em geral, o primeiro ramal de decodificação converte um sinal codificado no quarto dominio no primeiro domínio, enquanto o segundo ramal de processamento inverso realiza uma conversão do terceiro domínio para o segundo domínio, e o conversor 25 subsequentemente conectado ao primeiro combinador provê uma conversão do segundo domínio para o primeiro domínío, de ínaneira que na entrada do combinador 600, existam somente sinais de primeiro dominio, os quais representam, na configuração da F'ig.
l KK 40 3d, o sinal de saída decodificado.
As Figs. 4a e 4b ilustram duas configurações diferentes, que diferem no posicionarnento do comutador 200. Na Fig. 4a, o comutador 200 está posicionado entre uma saída do 5 estágio de pré-processamento comum 100 e a entrada dos dois rarnais codificados 400, 500. A configuração da Fíg. 4a garante que o sinal de áudio seja inserido em somente um único ramal de codificação, e o outro ramal de codifícação, que não está conectado à saída do estágio de pré-processamento comum não C.
10 funciona e, portanto, é desligado ou fíca em modo de suspensão.
Essa configuração é preferivel porque o ramal de codificação não ativo não con_s_ome energia _ e ,, recursos do ..co.mputador, o que é ,úti.l para aplicações rrtóveis em particular, que sejam movidas a bateria e, portanto, tenham a limitação geral de consumo de energia .
15 Por -o-utro lado, no entant-o"T" " a configuração da_ " Fig. 4b pode ser preferível quando o consumo de energia não for problema. Nessa configuração, ambos os ramais de codificação 400, 500, estão ativos o tempo todo, e somente a saída do ramal de codificação selecionado para uma determinada parte de tempo e/ou " 20 uma determinada parte de frequência é encaminhada ao formatador de fluxo de bits, que pode ser implementado como um multiplexor de fluxo de bits 800. Portanto, na configuração da Fig. 4b, ambos os ramais de codificação ficam ativos o tempo todo, e a saida de um ramal de codificação que é selecionado pelo estágio de decisão 300 25 é inserida no fluxo de bits de saída, enquanto a saida do outro ramal de codificação não selecionado 400 é descartada, isto é, não é inserida no fluxo de bits de saída, isto é, o sinal de áudio codificado.
Ó 41 A Fig. 4c ilustra uní outro aspecto de uma implernentação de decodificador preferida. Para evitar artefatos audíveis específicamente na situação, na qual o primeiro decodificador é um decodificador que gera alíasing de tempo, ou em 5 resumo, um decodificador de domínio de frequência, e o segundo decodificador é um disposítivo de domínío de tempo , os limites entre os blocos ou estruturas produzidos pelo primeiro decodificador 450 e pelo segundo decodificador 550 não devem ser totalmente contínuos, especificamente em uma situação de 10 alternância. Assim, quando o primeiro bloco do primeiro decodificador 450 é produzido e, quando para a parte de tempo subsequente, um bloco do segundo decodificador é produzido, é "u)referiao executar uma operação de fusão de transmissão conforme ilustra o bloco de fusão de transmissão 607. Com essa finalida.de, 15 ,,, ,0 bloco de fusão de tr-ansmissão 607 -pode seF—implementado "conforme"_ ilustra a Fig. 4c em 607a, 607b e 607C. Cada ramal pode ter.' um ponderador com um fator de ponderação m entre 0 e 1 na escala normalizada, onde o fator de ponderação pode variar conforme indica o plot 609, essa regra de fusão de transmissão garante que e 20 ocorra um fusão de transmissão contínuo e suave, o qual-, além disso, garante que o usuário não perceba nenhuma variação de sonoridade. Regras de fusão de transmissão não Iinear como uma regra de fusão de transmissão de seno' podem ser aplicadas no lugar de urria regra de fusão de transmissão linear.
25 Ern determinados casos, o último bloco do primeiro decodificador foi gerado utilizando-se uma janela onde a janela realmente executou um desvanecimento desse bloco. Nesse caso, o fator de ponderação m do bloco 607a é igual a 1 e, na verdade,
não é necessária nenhuma ponderação para esse ramal.
Quando ocorre uma alternãncia do segundo decodificador para o primeiro decodificador, e quando o segundo decodificador inclui uma janela que realmente desvanece a saída 5 para o final do bloco, então o ponderador indicado por "m2"" não seria necessário, ou o parâmetro de ponderação pode ser estabelecido para 1 ao longo de toda a região de fusão de transmissão.
Quando o primeiro bloco após um comutador tiver 10 sido gerado. ccm uso de uma operação de formação de janela, e quando essa janela realmente tiver executado um desvanecimento' em operação, então o fator de ponderação,,corresponde]nte pode.t.ambém ,h— _, ser" estabelecido como 1, de maneira que um ponderador não seja realmente necessário. Portanto, quando o último bloco formar uma 15_ j anela para desvaneci-ment-o pelo decodi f i-ca-dor e quando o príineiro bloco após o comutador formar uma janela com uso do decodificador para prover uma intensificação, então os ponderadores 607a, 607b não serão necessários, e uma operação de adição pelo adicionador 607C é suficiente.
C 20 Neste caso, a parte de desvanecimento da última estrutura e a parte de intensificação da próxima estrutura definem a região de fusão de transmissão indicada no bloco 609. Além disso, é preferido nessa situação que o último bloco de um decodificador tenha uma deterrninada sobreposição de tempo com o 25 primeiro bloco do outro decodificador.
Se uma operação de fusão de transmissão não for necessária ou não for possível ou não for desejada, e se existir soínente uma alternância fixa de um decodificador para o outro ít .
43 decodificador, é preferido executar essa alternância em passagens silenciosas do sinal de áudio, ou pelo menos em passagens do sinal de áudio onde existe energia baixa, ísto é, aue são percebidas ^ como silenciosas ou quase silenciosas. Preferivelmente, o estágio 5 de decisão 300 garante nessa configuração que o comutador 200 seja ativado sornente quando a parte de tempo correspondente que seguir o evento de alternância tiver uma energia que seja, por exemplo, mais baixa que a energia média do sinal de áudio, e seja, g h preferivelmente, mais baixa que 50% da energia média do sinal de 10 áudio relacionado, por exemplo, a duas ou até maLs partes/estruturas de tempo do sinal de áudio.
Preferivelmente, a segunda , regra de "códi"ficàção/regra àe decodificação é um algoritmo de codificação à base de LPC. Na codificação de fala à base de LPC, é feita uma _ 15 _ dife,Fenciação , entre segmentos de si-nal -ou partes de" sinal dê =" excitação semelhantes ao periódico do tipo de impulso e segmentos de sinal ou partes de sinal de excitação do tipo de ruído. Isso é realizado para vocoderes LPC (2,4 kbps) de taxa de bits rnuito baixa, como na Fig. 7b. No entanto, em codificadores CELP de taxa " 20 média, a excitação é obtida para adição de vetores escalonados de um livro de códigos adaptativo e um livro de códigos fíxo.
Segmentos de sinal de excitação semelhantes ao periódico e do tipo de impulso, isto é, segmentos de sinal com uma altura especifica, são codíficados com rnecanismos diferentes dos 25 sinais de excitação do tipo de ruido. Enquanto os sinais de excitação semelhantes ao periódico e do tipo de impulso são conectados à fala com voz, os sinais do tipo de ruído estão relacionados à fala sern voz.
Por exemplo, com referência às Fig. 5a a 5d.
Aqui, segmentos de sinal ou partes de sinal semelhantes ao periódico e do tipo de impulso e segmentos de sinal ou partes de sinal do t1po de ruído são discutidos como exemplo .
5 Especificamente, uma fala com voz conforme ilustra a Fig. 5a no domínio de tempo e na Fig . 5b no domínio de frequência, é discutida como exemplo para uma parte de sinal semelhante ao periódico e do tipo de irripulso, e um segmento de fala sem voz como
Á m exemplo de uma parte de sinal do tipo de ruído é discutida em 10 relação às Fig. 5c e 5d. A fala pode ser errt geral classificada como com vo z , sem vo z ou mista. PIOts de domínio de tempo-e- frequência para segmentos com voz e s em vo z amostrados s-ão = ' — " mõSt radSs nas Fig . 5a a 5d. A fala com voz é semelhante ao periódico no domínio de tempo e harmonicamente estruturada no 15 domínio _ de frequência, -enquan.to a—fa.la--sem voz é—do típo aí_eatótia " e de banda larga. O espectro de curto prazo da fala com voz é caracterizado por sua estrutura de formante harmônica fina. A estrutura harmônica fina é uma consequência da semelhança à periodicidade da fala, e pode ser atribuída às cordas vocais ' 20 vibrantes. A estrutura do formante (envelope de espectro) é devida à interação da fonte e dos tratos vocais. Os tratos vocais são compostos da faringe e da cavidade bucal. O formato do envelope de espectro que "'se encaixa'" no espectro de curto prazo de fala com voz está associado às características de transferência do trato 25 vocal e da inclinação de espectro (6 c1B/oitava), devido ao pulso glotal. O envelope de espectro é caracterizado por um conjunto de picos, que são chamados formantes . Os forrnantes são os modos ressonantes do trato vocal. Para o trato vocal ínédio existem de três a cinco formantes abaixo de 5 KHz. As arnplitudes e locais dos primeiros três formantes, que em geral ocorrem abaixo de 3 KHz são muito importantes, tanto em síntese corno em percepção de fala.
Formantes inais altos tambérn são importantes para representações de 5 banda larga e fala sem voz. As propríedades de fala estão relacionadas ao sistema físico de produção de fa1a,como segue.
Excitar o trato vocal com pulsos de ar glotais semelhantes ao periódico gerados pelas cordas vocais em vibração produz fala com b voz. A frequência dos pulsos periódicos é denominada frequência 10 fundamental ou altura. Forçar o ar através de uma constrição no trato vocal produz fala sem voz. Sons nasais são devidos' ao acoplamento acústico do trato . nasal _com._. o _trato vocal, e sems - "" plosi"voS "são'"produzidos liberando-se abruptamente a pressão de ar, que foi acumulada atrás do fechamento do trato.
15 _ Assiín, - uma - pa-rte —do "_tipo de ruído" do" sinal "de " " áudio não deinonstra nenhuma estrutura de dorriínio de tempo do tipo de. impulso, nem uma estrutura de domínio de frequência harmônica, conforme ilustrado na Fig. 5c e na Fig. 5d, que é diferente da parte do tipo de impulso semelhante ao periódico, conforme ' 20 ilustrado, por exemplo, na Fig. 5a e na Fig. 5b. Como será explicado posteriormente, no entanto, a diferenciação entre partes do tipo de ruído e partes do tipo de impulso semelhante ao periódico também podem ser observadas depois de uma LPC para o sinal de excitação. A LPC é um método que modela o trato vocal e 25 extrai do sinal a excitação dos tratos vocais.
Além disso, partes do tipo de impulso semelhantes ao periódico e partes do tipo de ruido podem ocorrer de maneira oportuna, isto é, o que significa que uma parte do sinal de áudio q 46 no tempo é ruidosa e a outra parte do sinal de áudio no tempo é semelhante ao periódico, isto é, tonal. Alternativamente, ou além disso, a característica de um sinal pode ser diferente em diferentes bandas de frequência. Assim, a determinação se o sinal 5 de áudio é ruidoso ou tonal tardbém pode ser feita com seleção de frequêncía, de maneira que uma determinada banda de frequêncía ou várias determinadas bandas de frequência sejam consideradas ruidosas e outras bandas de frequência sejam consideradas to-nais. ;, Neste caso, uma determinada parte de tenipo do sinal de áudio pode IO incluír componentes tonais e componentes ruidosos.
A Fig . 7a ilustra um modelo Iinear de um sistema de produção de fala . Esse sistema presume uma excitação de dois- " "estágios, "isto é, uma sequência de impulsos para fala com voz conforme indica a Fi.g. 7c, e um ruído aleatório para fala s-em voz 15 conforme indica- a Fig. 7d. O trato—vocat—é representado"como"um filtro de todos os pólos 70 que processa os pulsos da Fig. 7c' ou Fig. 7d, gerados pelo modelo glotal 72. Por conseguinte, o sistema da Fig. 7a pode ser reduzido a um modelo de filtro de todos os pólos da Fig. 7b com um estágio de ganho 77, uma via de avanço 78, · 20 uma via de retorno 79, e um estágio de adição 80. Na via de retorno 79, existe um filtro de previsão 81, e o sistema completo de síntese do modelo de fonte ilustrado na Fig. 7b pode ser representado usando—se funções de domínio z como segue: S(z)=g/(1-A(z))"X(z), 25 onde g representa o ganho , A(z) é o filtro de previsão, conforme determinado por uma análise de LP , X(z) é o sinal de excitação, e S(z) é a saída de fala de síntese.
As Figs. 7c e 7d dão uma descrição do domínio de tempo gráfico da síntese de fala com voz e sem voz, usando o modelo de sistema de fonte linear. Esse sistema e os parâmetros de excitação da equação acima são desconhecidos e devem ser determinados a partir de um conjunto fínito de amostras de fala.
5 Os coeficientes de A(z) são obtidos usando-se uma previsão linear do sinal de entrada e uma quantização dos coeficientes de filtro.
Em um prevísor línear avançado de ordem p, a amostra presente da sequência de fala é prevista a partir de uma comibinação linear de
C amostras passadas por p. Os coeficíentes previsores podem ser 10 determinados por algoritmos bem conhecidos, como o algorítmo de Levinson-Durbin, ou em geral um método de autocorrelação ou um método de reflexão. -— - — -. ~ "" " ÃJ Fig . 7e ílustra uma implementação mais detalhada do bloco de análise de LPC 510. O sinal de áudio é %+ 15 inserido em um bloco_de—determínação de filtro que "detérmína "ás informações A(z) do filtro. Essas informações são produzidas como as inforrnações de previsão de curto prazo necessárias para urn decodificador. As informações de previsão de curto prazo são exigidas pelo filtro de previsão real 85. Em um subtraendo 86, uma · 20 amostra atual do sinal de áudio é inserida, e um valor previsto para a amostra atual é subtraido, de maneira que para essa amostra, o sinal de erro de previsão é gerado na línha 84. Uma sequência dessas amostras de sinal de erro de previsão é muito esquematicamente ilustrada na Fig. 7c ou 7d. Portanto, a Fig. 7a, 25 7b pode ser considerada um tipo de sinal do tipo de impulso retificado.
Enquanto a Fig. 7e ilustra uma maneira preferida para calcular o sinal de excitação, a Fig- 7f ilustra uma maneira
'k 48 preferida para calcular o sinal ponderado. Em comparação à Fig.
7e, o filtro 85 é diferente, quando y for diferente de 1. Um valor menor que 1 é preferido para y. Além disso, o bloco 87 está presente, e para µ é preferível um número rnenor que 1. Em geral, 5 os elementos das Figs . 7e e 7 f podem ser implernentados como em 3GPP TS 26.190 ou 3GE'P TS 26.290.
A Fig. 7g ilustra um processamento inverso, que pode ser aplicado no lado do decodificador, como por exemplo, no 'l elemento 537 da Fig. 2b. Particularrnente, o bloco 88 gera um sinal 10 não ponderado a partir do sinal ponderado, e o bloco 89 calcula uma excitação a partir do sinal não ponderado. Em geral, todos os sinais, com exceção do sinal não ponderado da Fig. .7g, estão no " " "domínio de LT:: mas o sinal de excitação e o sinal ponderado são sinais diferentes no mesmo domínio. O bloco 89 produz um sinal de 15 _ , excitação que pode então ser util-i-zado =com a saída do- bloco_ 53 6. " Então, a transformação de LPC i-nversa comum pode ser executada" no bloco 540 da Fig. 2b.
Subsequentemente, um codíficador CELP de análise- por-síntese será discutido em relação à Fig. 6, para ilustrar as " 20 modificações aplicadas a esse algoritmo. Esse codificador de CELP é discutido em detalhe ern "Speech Coding: A tutorial review'", Andreas Spanias, Proceedings of IEEE, vol. 82, No. 10, October 1994, pp. 1541-1582. O codificador de CELP ilustrado na Fig. 6 inclui um componente de previsão de longo prazo 60 e um cornponente 25 de previsào de curto prazo 62. Além disso, é utilizado um livro de códigos que está indicado em 64. Um filtro de ponderação perceptual W(z) é implementado em 66, e um controlador de minimização de erro é provido em 68. s(n) é o sinal de entrada de dominio de tempo. Depois de ter sido perceptualmente ponderado, o sinal ponderado é inserido em um subtraendo 69, que calcula o erro entre o sinal de síntese ponderado na saída do bloco 66 e o sinal ponderado real sw(n). Em geral, os coeficientes de fíltro de 5 previsão de curto prazo A(z) é calculada por um estágio de análíse de LP, e seus coeficientes são quantizados em A(z) conforme indicado na Fig. 7e. As informações de previsão de longo prazo A[j (Z) que incluem o ganho g de previsão de longo prazo e o índice \ de quantização de vetor, isto é, as referências do livro de 10 códigos são calculadas no sinal de erro de previsào na saída do estágio de análise de LPC mencionada como lOa na Fig. 7e.- Os parâmetros de LTP são o retardo e o ganho de al.tura, Na CELP isso ': - é~"em' _geral ijmp1ê"mentãdo como um livro de códígos àdaptatívo que contém o sinal de excitação passado (não o residual). O retardo e 15 ganho_ de. _ CB _ adaptativo W são- encontra-dos miním"i z"andò-Ge "õ efro ponderado ao quadrado médio (busca de altura de Ioop feehado).
O algoritmo de CELP c-odifica, então, o sinal residual obtido após as previsões de curto prazo e longo prazo, utilizando um livro de códigos de, por exemplo, sequências de 20 Gaussian. O algoritmo de ACELP, onde o "A" significa "'Algébrico" possui um livro de códigos específíco elaborado algebricamente.
Um livro de códigos pode conter maís ou menos vetores, onde cada vetor tem a extensão de algumas amostras. Um fator de ganho g escala o vetor de código e o código ganho é 25 filtrado pelo filtro de síntese de previsão de Iongo prazo e pelo filtro de sintese de previsão de curto prazo. O vetor de código "ideal'" é selecionado de maneira que o erro de quadrado rnédio perceptualmente ponderado na saída do subtraendo 69 seja minimizado. O processo de busca na CELP é feito por uma otimização de análise—por-síntese conforme ilustra a Fig. 6.
Para casos especificos, quando uma estrutura for uma mistura de fala sem voz e com voz, ou quando ocorre fala sobre 5 música, uma codificação TCX pode ser mais adequada para codificar a excitação no domínio de LPC. A codificação TCX processa um sinal ponderado no domínio de frequência sem fazer nenhuma pressuposição de produção de excitação. A TCX é então mais genérica que a \, codificação CELP, e não está restrita a uin modelo de fonte com voz
Á Ú. 10 ou sem voz da excítação. A TCX é ainda uma codificação de modelo registradora de amostra que utiliza um filtró previsor linear para rep.r.esentar os formantes dos sinais do tipo de fala. . ; — — - ~ ~ " " " "Na " cõãi ficação" do tipo do AMR-WB+ , ocorre uma s{e.le'ção entre diferentes modos de TCX e ACELP, conforme é 15: couhe ci do pel_a _des,crição do _AMR-W.B+ .— . Qs —modos_ de "TCX" São ~ = — '+ diferentes porque a extensão da Transformação de FQuríer discreta em'blocos é diferente para diferentes modos, e o melhor modo pode ser selecionado por uma abordagem de análise por síntese ou por um modo direto de "avanço"'.
C 20 Conforme foi discutido em relação às Figs. 2a e 2b, O estágio de pré-processamento comum 100 ínclui preferivelmente um multicanal conj unto (dispositivo surround/estéreo associado) 101 e, além desse, um estágío de extensão de Iargura de banda 102. De maneira correspondente, o 25 decodificador inclui um estágio de extensão de largura de banda 701 e um estágio multicanal conjunto conectado subsequentemente
702. Preferivelmente, o estágio multicanal conjunto 101 é, em relação ao codificador, conectado antes do estágío de extensão de largura de banda 102 e, no lado do decodificador, o estágio de extensão de largura de banda 701 é conectado antes do estágio multicanal conjunto 702 ern relação à direção de processamento de sinal . Alternativamente, no entanto, O estágio de pré- 5 processamento comum pode incluir um estágio multicanal conjunto sem o estágio de extensão de largura de banda conectado subsequentemente ou um estágío de extensão de largura de banda sem um estágio multicanal conjunto conectado.
i " 10 conjunto no lado Urri exemplo preferido para um estágio multicanal do codificador lOla, lOlb e no lado do decodificador 702a e 702b está ilustrado no contexto da Fig. 8. Um número de canais de entrada originais E é inserido no downmixer = . _ ,1O1a_ de- maneira 'que o dôWnmizler" Sère" íím número de canais transnii ticios K, onde o número K é maior que ou igual a um e é 15 menor que ou igual a E.
Preferivelmente, os canais de entrada E são inseridos em um analisador de parâmetro multicanal associado lOlb que gera informações paramétricas. Essas informações paramétricas são preferivelmente codificadas por entropia, como por exemplo, · 20 por uma codificação de diferença e subsequente codificação de Huffman, ou alternativamente, codifícação aritmética subsequente .
A saída de informações paramét'ricas codificada pelo bloco lOlb é transmitida a um decodificador de parârnetro 702b que pode fazer parte do item 702 da Fig. 2b. O decodificador de parâmetro 702b 25 decodifica as inforrnações paramétricas transmitidas e encaminha as informações paramétricas decodificadas ao upmixer 702a. O upmixer 702a recebe os canais transmitidos K e gera um número de canais de saída L, onde o número de L é inaior que ou igual a K e mais baixo q) íy 52 que ou igual a E.
As informações paramétricas podem incluir diferenças de nível entre os canais, diferenças de tempo entre os canais, diferenças de fase entre os canais e/ou rnedidas de 5 coerência entre os canais, como é conhecido pela técnica de BBC ou como é conhecido e é descrito em detalhe no padrão surround de MPEG. O número de canais transmitidos pode ser um único canal mono para aplicações de taxa de bits ultra-baixas, ou pode incluir uma
K ! aplicação estéreo compatível, ou pode íncluir um sinal estéreo '" 10 compatível, isto é, dois canais. Tipicamente, o número de canais de entrada E pode ser cinco ou talvez ainda mais alto.
Alternativamente, o número de canais de entrada E pode também ser _ . objetos ~de_ áudio-E, como -é "corrhecido "nò" cbntexto de codificação de objeto de áuciio espacíal (SAOC) .
15 Em uma implementação , _ o ,downmíxer - reali za - uma" " " + adição ponderada ou não ponderada dos canais de entrada originais E, ou uma adição dos objetos de áudio de entrada E. No caso de objetos de áudio como canais de entrada, o analisador de parâmetro multicanal cor.junto lôib calcula parâmetros de objeto de áudio, 20 como por exemplo, uma rnatriz de correlação entre os objetos de áudio,preferivelmente para cada parte de tempo , e maLs preferivelmente ainda para cada banda de frequência. Com essa finalidade, toda a faixa de frequência pode ser dívidida em pelo menos 10 e preferivelmente 32 ou 64 bandas de frequência.
25 A Fig. 9 ílustra uma configuração preferida para a implernentação do estágio de extensão de largura de banda 102 na Fig. 2a, e o estágio de extensão de largura de banda correspondente 701 na Hg. 2b. No lado do codificador, o bloco de q 53 extensão de Iargura de banda 102 preferivelmente inclui um bloco de filtragem de baixa frequência 102b, um bloco de sub-amostrador, que segue q filtro de baixa frequência, ou que faz parte do QMF inverso, que funciona somente na metade das bandas de QMF, e um 5 analisador de banda alta 102a. A entrada de sinal de áudio original no bloco de extensão de largura de banda 102 é filtrada com baixa frequência, gerando o sinal de banda baixa que é então inserido nos ramais de codificação e/ou no comutador. O filtro de i baixa frequência apresenta uma frequência de corte que pode estar "? 10 em uma faixa de 3 KHz a 10 kHz. Além disso, o bloco de extensão de largura de banda 102 inclui ainda um analisador de banda alta para calcular os parâmetros de extensão de largura de banda, como por exemplo uma in,formação- .de -parâmetro " de" envê1op"e " ãe espectro, uma informação de parâníe^cro de piso de ruído, uma informação de 15 parâmetro de filtragem inversa, outras ,informações -paramétricas" = """" " " relacionadas a determinadas linhas harmônicas na banda alta. e outros parâmetros discutidos eni detalhe no padrão de MPEG-4, no .capítulo relacionado à replicação de banda de espectro.
No lado do decodificador, c) bloco de extensão de ' 20 largura de banda 701 inclui um atualizador 701a, um regulador 701b e um combinador 701C. O combinador 701C combina o sinal de banda baixa decodificado e o sinal de banda alta reconstruído e regulado produzido pelo regulador 701b. A entrada no regulador 70lb é provida por um atualizador que é operado para derivar o sinal de 25 banda alta do sinal de banda baixa, como por exemplo por replicação de banda de espectro, ou em geral, por extensão de largura de banda. A atualização executada pelo atualizador 70la pode ser uma atualização executada de maneira harmônica ou de q 54 maneira não harrnônica. O sinal gerado pelo atualizador 701a é, subsequentemente, regulado pelo regulador 701b com uso da informações paramétricas transmitidas de extensão de largura de banda .
5 Conforme indicado na Fig. 8 e Fig. 9, os blocos descritos podern ter uma entrada de controle de modo em uma configuração preferida. Essa entrada de controle de modo é derivada do sinal de saída do estágio de decisão 300. Nessa l configuração preferida, uma de um bloco .1/ 10 correspondente pode ser adaptada à saída do estágio de decisão, isto é, se, em urna configuração preferida, uma decisão de fala ou uma decisão de música é feita para uma determinada parte de tempo do siml de -áudio ou não . Preferive-lmente," "ò " Controle de modo relaciona-se somente a LLT.à ou mais das funcionalidades desses 15 blocos, mas não a todas as funcionalidades de b1ocos_.. Por exemplo, " --- a-decisãó"Bode""inf1uenciar somente o atualizador 70la, mas pode não influenciar os outros blocos da Fig. 9, ou pode, por exernplo, influenciar somente o analisador de parâmetro multicanal conjunto lOlb da Fíg. 8, mas não os outros biocos da Fig. 8. Essa 20 implernentação é preferívelmente de modo que uma flexibilidade mais alta e uma qualidade rnais alta e sinal de saída de fluxo de bits mais baixo sejam obtidos provendo-se flexibilidade no estágio de pré-processamento comum. Por outro lado, no entanto, o uso de algoritmos no estágio de pré-processamento comum para ambos os 25 tipos de sinais permite implementar um e s qu ema de codificação/decodificação eficiente.
A Fig. lOa e a Fig . lOb ilustram duas implementações díferentes do estágio de decisão 300. Na Fig. lOa,
a 55 é indicada uma decisão de loop aberto. Aqui, o analisador de sinal 30Oa do estágio de decisão tem determinadas regras para decidir se uma determinada parte de tempo ou uma determinada parte de frequência do sinal de entrada tem uma caracte-rística que requer 5 que essa parte de sinal seja codificada pelo primeiro ramal de codificação 400 ou pelo segundo ramal de codificação 500. Com essa finalidade, o analisador de sinal 30Oa pode analísar o sinal de entrada de áudio no estágio de pré-processamento comum ou pode ( analisar a saída de sinal de áudio pelo estágio de pré- 10 processamento comum, isto é, o s inal intermediário de áudio, ou pode analisar um sinal intermediário dentro do estágio de pré- processamento comum, como por exemplo a saída do sinal de downmíx , que pode ser um s inal mono , ou que pode- se'r "uin "S"i"na1 com canais k indicados na Fig. 8. No lado da saída, o analisador de sínal 30Oa 15 gera a decisão de alternância para controlaü = o , çomutador- -200 no ' "' @ = -lado " dô Còdi f"icador· e o comutador correspondente 60 0 ou' o coinbinador 600 no lado do decodificador.
Apesar de não discutido em detalhe para o segundo comutador 521, deve-se enfati-zar que o segundo comutador 521 pode 20 ser posicionada de maneira semelhante à do primeiro comutador 200, conforme discutido em relação às Figs. 4a e 4b. Assim, uma posição alternativa do comutador 521 na Fig. 3c é na saída de ambos os ramais de processamento 522, 523, 524, de maneira que ambos os ramais de processamento funcionem em paralelo, e somente a saída 25 de um ramal de processamento seja gravada em um fluxo de bi ts através de um formador de fluxo de bits que não está ilustrado na Fig. 3c.
Além disso, o segundo combinador 600 pode ter uma g 56 funcionalidade específica de fusão de transmissão discutida na Fig. 4c. Alternativarnente ou adicionalmente, o prirneiro combinador 532 pode ter a mesma funcionalidade de fusão de transmissão. Além disso, ambos os combinadores podem ter a mesma funcionalidade de 5 fusão de transmíssão, ou podem ter diferentes funcionalidades de fusão de transmissão, ou podem não ter nenhuma funcionalidade de fusão de transrnissão, de maneira que ambos os combínadores sejam comutadores sem nenhuma funcionalídade de fusão de transmissão adi cíonal .
Conforme foi discutido anteriormente, ambas as ccmutadores podem ser controladas através de uma decisão de loop abe.rto ou de uma decisão de loop fechado, conforme discutido em relação_ à Fig. lOa e à Fig. W- 1Oh,_ onde =0 cont"rõl"á"dòr " 30"0, = S25 da Fig. 3c pode ter funcionalidades íguais ou diferentes para ambas as comutadores. > * u & F- ' - = W " W = @ = * % = 7 W P- Além disso, uma funcíonalidade de distQrção de tempo que é adaptativa ao sinal pode exísti-r não só no primeír"Q ramal de codificação ou no primeiro ramal de decodificação, mas pode também existir no segundo rarrtal de processamento do segundo ramal de codificação do lado do codificador, bem como no lado do decodificador. |p" 0 " ®" *0 do sinal processado, arríbas as funcionalidades de distorção de tempo podem ter a mesma informação de distorção de tempo, , de maneira que a mesma distorção de tempo seja aplicada aos sinais no priineiro domínio e no segundo domínio.
Isso economiza carga de processamento e pode ser útil em alguns casos, em casos em que blocos subsequentes têm uma característi-ca de tempo de distorção de terrtpo semelhante. Em configurações alternativas, no entanto, é preferido ter avalíadores de distorção
9} 57 de tempo independentes para o primeiro ramal de codificação e para o segundo ramal de processamento no segundo ramal de codificação.
O sinal de áudío codificado inventivo pode ser armazenado em um meio de armazenamento digital, ou pode ser 5 transmitido em um meio de transmissão, como por exemplo um meio de transmissão s em f io ou um meio de transmissão com fío , como a Internet .
Em uma configuração diferente, o comutador 200 da Fig. la ou 2a alterna entre os dois ramais de codificação 400, 10 500. Em uma outra configuração, pode haver outros ramais de codificação, como por exemplo um terceiro ramal de codificação,- ou mesmo um quarto ramal de codificação, ou até mais ramais de codif'icação. No lado do decodi f icador, =0 -c0mu'tador " 600 "da" Èig. 1b ou- 2b * " alterna entre os doi-s ramais úe decodificação 431, 440 e 15' 531p 532, 533, 534, 54 0 . Em uma outra conf iguração ,, , pode- ha-ve-r --" _ == = W . = ,. ,= ,, , = = %..W_ -Qu.trDçs ramaís" de "decoaif icação, como por exemplo um terceiro ramal ' . de ídecodificação, ou até mesmo um quarto ramal de decodífícação, ou até rnesmo mais ramais de decodificação. De maneira semelhante, os outros comutadores 521 ou 532 pode-n alternar entre mais de dois 20 algoritmos de codificação diferentes, quando esses ramaís de codificação/decodificação adicionais forem providos.
As configurações descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende- se que modificações e variações das disposições e os detalhes 25 descritos no presente documento serão evidentes para outros técnicos no assunto. Portanto, a intenção é Iimitar-se somente pelo escopo das reívindicações da patente apresentadas a seguir, e não pelos detalhes específicos apresentados através de descrição e
¶ 58 explicação das configurações do presente documento.
Dependendo de determínados B " e ' 0W de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode 5 ser realizada utilizando-se um meio de armazenamento digital, em particular, um disco, um DVD ou um CD corn sinais de controle eletronicamente legíveis armazenados neles, que cooperem com sistemas de computador programáveis de maneira que o respectivo método seja executado. Em geral, a presente invenção é portanto, um produto de programa de computador com um código de programa armazenado em um portador legível em máquína, sendo o código de programa operado para executar os métodos inventivos quando o produto de prograrna de computador for executado - em um " coMp"u"tador .
" Em outras palavras, os métodos irn"entiv"os são , portanto, um programa de computador com um código de programa PaFa= executar - - ;¶ = = , ,pelo menos" um° dcj's""mètiodos inventivos quando o programa de computador for executado em um computador.

Claims (8)

\ I' .' -- '' REIVINDICAÇÕES
1. "ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO DE BAIXA TAXA DE BITS QUE APRESENTA COMUTADORES EM CASCATA" , onde o Codificador de áudio para codificar um sinal de entrada de áudio 5 (195), estando o sinal de entrada de áudio em um primeiro domínio, é caracterizado por compreender: um primeiro ramo de codificação (400) para codi- ficar um sinal de áudio utilizando um primeiro algoritmo de codi- ficação para obter um primeiro sinal codificado; 10 um segundo ramo de codificação (500) para codifi- ' car um sinal de áudio utilizando um segundo algoritmo de codifica- ção para obter um segundo sinal codificado, onde o primeiro algo- ritmo ~c::le codificaÇão é difere~nte do segundo algor-i~Fmo de codifica- ção; e 15 ~El primeiro~çomutador" .(200) para~a,lternar entre o primeiro ramo de codificação e o segundo rafuo de codificação, de maneira que, para uma parte do sinal de entrada de áudio, o pri- meiro sinal codificado ou o segundo sinal codificado estejam em um sinal de saída de codificador, 20 onde o segundo ramo de codificação compreende: um conversor (510) para converter o sinal de áu- dio em um segundo domínio diferente do primeiro domínio, um primeiro ramo de processamento (522) para pro- cessar um sinal de áudio no segundo domínio para obter um primeiro 25 sinal processado; um segundo ramo de processamento (523, 524), para converter um sinal em um terceiro domínio diferente do primeiro domínio e do segundo domínio, e para processar o sinal no terceiro domínio para obter um segundo sinal processado; e um segundo comutador (521) para alternar entre o primeiro ramo de processamento (522) e o segundo ramo de processa- mento (523, 524) de maneira que, para uma parte da entrada de si- 5 nal de áudio no segundo ramo de codificação, ou o primeiro sinal processado ou o segundo sinal processado esteja no segundo sinal codificado.
2. Codificador de áudio, de acordo com a reivin- dicação 1, caracterizado pelo fato de que o primeiro algoritmo de codificação do primeiro ramo de codificação (400) se baseia em um modelo de depósito de informação, ou onde o segundo algoritmo de codificação do segundo ramo de codificação (500) se baseia em uma fonte de informações ou em um modelo de relação sinal-ruído (S~R) .
3. Codificador de áudio, de acordo com a reivin- ~d-iG::ação 1 ou 2, caracterizado-pelo fato de que o primeiro~ramo~de codificação compreende um conversor ( 410) para converter o sinal de entrada de áudio em um quarto domínio diferente do primeiro do- mínio, do segundo domínio e do terceiro domínio.
4. Codificador de áudio, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de que o pri- meiro domínio é o domínio de tempo, o segundo domínio é um domínio -------~de __ LPC obtido _p_or uma fil traç.3_Q__qo sinal do primeiro domínio pelo LPC, o terceiro domínio é um domínio de espectro de LPC obtido ao converter um sinal filtrado por LPC em um domínio de espectro, e o quarto domínio é um domínio de espectro obtido pela conversão do domínio de freqüência do primeiro sinal de domínio.
5. Codificador de áudio, de acordo com uma das reivindicações anteriores, caracterizado por compreender ainda um controlador (300, 525), para controlar o primeiro comutador (200) ou o segundo comutador (521) de maneira adaptativa de sinal, onde o controlador é operante para analisar uma entrada de sinal no primeiro comutador (200) ou saída pelo primei- S ro ramo de codificação ou pelo segundo ramo de codificação, ou um sinal obtido decodificando-se um sinal de saída do primeiro ramo de codificação ou do segundo ramo de codificação em relação a uma função-alvo, ou onde o controlador (300, 525) é operante para a- 1O nalisar uma entrada de sinal no segundo comutador ( 521) ou saída pelo primeiro ramo de processamento ou pelo segundo ramo de pro- cessamento, ou sinais obtidos por sinais de saída de processamento inverso pelo pr.iinelro ramo de processamento ( 522) e pelo segundo ramo de processamento (523, 524), em relação a uma função-alvo.
6. Codificador de áudio, de aco~rdo com uma~ das rei vindicações anteriores, caracterizado pelo fato de que o pri-_ meiro ramo de codificação (400) ou o segundo ramo de processamento (523, 524) do segundo ramo de codificação (500) compreendem um conversor de tempo/frequência introdutor de aliasing e um estágio de codificador de quantizador/entropia (421), onde o primeiro ramo de processamento do segundo ramo de codificação inclui um estágio de codificação de__ quanti zago~ ou _entr()p_j.a ( 522) sem conversão de introdução de aliasing.
7. Codificador de áudio, de acordo com a reivin- dicação 6, caracterizado pelo fato de que o conversor de tem- po/frequência introdutor de aliasing compreende dispositivo de ja- nelamento para aplicação de uma janela de análise e um algoritmo de transformação de cosseno discreta modificada (MDCT), o disposi-
tivo de janelamento sendo operado para aplicar a função de janela a estruturas subsequentes de maneira sobreposta, de modo que uma amostra de um sinal de entrada no dispositivo de janelamento ocor- ra em pelo menos duas estruturas subsequentes.
5
8. Codificador de áudio, de acordo com uma das reivindicações anteriores, caracterizado pelo fato de que o pri- meiro ramo de processamento (522) compreende a codificação de ex- citação de LPC de um codificador de previsão linear excitada de código algébrico (ACELP) , e o segundo ramo de processamento com- 10 preende um conversor de espectro de MDCT e um quantizador para ·< c quantizar componentes de espectro para obter componentes de espec- tro quantizados, onde cada componente de espectro quantizado é ze- ro ou é definido por um índice de quantização de uma pluralidade de índices de quantização.
15 - 9 .~ ~GoEi-i-ficador- de áudio, de acordo com a rei v in- dicação 5, caracterizado pelo fato de que o controlador é operado para controlar o primeiro comutador (200) em modo de loop aberto e para controlar o segundo comutador (521) em modo de loop fechado.
10. Codificador de áudio, de acordo com uma das 20 reivindicações anteriores, caracterizado pelo fato de que o pri- meiro ramo de codificação e o segundo ramo de codificação são ope- .. rados _}2ara __ç_od_i_fi_c_a.:c_ Q sinal de áudio em blocos, onde o primeiro comutador ou o segundo comutador alternam em blocos, de maneira que ocorra uma ação de alternância, no mínimo, após um bloco de 25 número pré-definido de amostras de um sinal, sendo que o número pré-definido de amostras foram uma extensão de estrutura para o comutador correspondente (521, 200).
11. Codificador de áudio, de acordo com a reivin-
dicação 10, caracterizado pelo fato de que a extensão de estrutura para o primeiro comutador é pelo menos o dobro do tamanho da ex- tensão de estrutura do segundo comutador.
12. Codificador de áudio de acordo com a reivin- 5 dicação 5, caracterizado pelo fato de que o controlador é operado para realizar uma discriminação de fala/música de maneira que uma decisão para fala seja favorecida em relação a uma decisão para música, de maneira que uma decisão para fala seja tomada mesmo quando uma parte de menos de 50% de uma estrutura para o primeiro comutador seja fala e a parte de mais de 50% da estrutura seja mú- sica.
13. Codificador de áudio, de acordo com a reivin- Liicação y ou 12' caracteriúido pelo fato de que uma estrutura para o segundo comutador é menor que uma estrutura para o primeiro co- ~!flutador, y:; onde o controlador ( 525, -~300) é operado pa±"a- tomar ~uma decisão para fala somente quando é estabelecido que uma parte da primeira estrutura que tem uma extensão que é de mais de 50% da extensão da segunda estrutura inclui música.
14. Codificador de áudio, de acordo com a uma das reivindicações anteriores, caracterizado pelo fato de que o pri- meiro ramo de codificação (400) ou o segundo ramo de processamento do segundo ramo de codifica__ção inclui uma funcionalidade de dis- torção de tempo variável.
15. Método de codificação de um sinal de entrada de áudio (195), estando o sinal de entrada de áudio em um primeiro domínio, caracterizado por compreender: codificação (400) de um sinal de áudio utilizando um primeiro algoritmo de codificação para obter um primeiro sinal codificado; codificação (500) de um sinal de áudio utilizando um segundo algoritmo de codificação para obter um segundo sinal codificado, onde o primeiro algoritmo de codificação é diferente 5 do segundo algoritmo de codificação; e alternância (200) entre a codificação que utiliza o primeiro algoritmo de codificação e a codificação que utiliza o segundo algoritmo de codificação de maneira que, para uma parte do sinal de entrada de áudio, o primeiro sinal codificado ou o segun- do sinal codificado esteja em um sinal de saída codificado, onde a codificação (500) que utiliza o segundo algoritmo de codificação compreende: conversão {510) do sinal de áudio em um segundo domínio diferente do primeiro domínio, processamento ( 522 )~ de um. sinal -de áudiG~no se-~ gundo domínio para obter um primeiro sinal processado; conversão (523) de um sinal em um terceiro domí- nio diferente do primeiro domínio e do segundo domínio, e proces- samento (524) do sinal no terceiro domínio para obter um segundo sinal processado; e alternância (521) entre processamento (522) do sinal de áudio e conversão L523) e _process~mento (524) de maneira_ que, para uma parte do sinal de áudio codificada utilizando o se- gundo algoritmo de codificação, o primeiro sinal processado ou o segundo sinal processado esteja no segundo sinal codificado.
16. Decodificador para decodificar um sinal de áudio codificado, caracterizado pelo sinal de áudio codificado compreender um primeiro sinal codificado, um primeiro sinal pro-
cessado em um segundo domínio, e um segundo sinal processado em um terceiro domínio, onde o primeiro sinal codificado, o primeiro si- nal processado e o segundo sinal processado estão relacionados a diferentes partes de tempo de um sinal de áudio decodificado, e 5 onde um primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, compreendendo: um primeiro ramo de decodificação (431, 440) para decodificar o primeiro sinal codificado com base no primeiro algo- ritmo de codificação; um segundo ramo de decodificação para decodificar o primeiro sinal processado ou o segundo sinal processado, onde o segundo ramo de decodificação compreende - um -primeiro ramo de processamento inverso (531) para processar inversamente o primeiro sinal processado para obter um primeiro sin§l pr9ces~ado :i.nverso no segundo ~domírüo; um segundo ramo de processamento inverso (533, 534) para processar inversamente o segundo sinal processado para obter um segundo sinal processado inverso no segundo domínio; um primeiro combinador (532) para combinar o pri- meiro sinal processado inverso e o segundo sinal processado inver- so para obter um sinal combinado no segundo domínio; e um conversor (54 O) _pa!a converter o sinal combi-_ nado ao primeiro domínio; e um segundo combinador (600) para combinar o sinal convertido no primeiro domínio e a saída do primeiro sinal decodi- ficado pelo primeiro ramo de decodificação para obter um sinal de saída decodificado no primeiro domínio.
17. Decodificador, de acordo com a reivindicação
16, caracterizado pelo fato de que o primeiro combinador (532) ou o segundo combinador (600) compreende um comutador com uma funcio- nalidade de fusão de transmissão.
18. Decodificador, de acordo com a reivindicação 5 16 ou 17, caracterizado pelo fato de que o primeiro domínio é um domínio de tempo, o segundo domínio é um domínio de LPC, o tercei- ro domínio é um domínio de espectro de LPC, ou o primeiro sinal codificado é codificado em um quarto domínio, que é um domínio de espectro de tempo obtido por conversão de tempo/frequência de um sinal do primeiro domínio.
19. Decodificador, de acordo com qualquer das reivindicações 16 a 18, caracterizado pelo fato de que o primeiro ramo de decodificação (431, 440) compreende um codificador inverso e um desquantizador, e um conversor de domínio de frequên- cia/domínio de tempo ( 44 O) , 0u o segundo ramo de decodificação compreende um co- dificador inverso e um desquantizador no primeiro ramo de proces- samento inverso ou um codificador inverso e um desquantizador e um domínio de espectro de LPC para conversor de domínio de LPC (534) no segundo ramo de processamento inverso.
20. Decodificador, de acordo com a reivindicação 1_~, caracterizado_pelo fato _Qe que_ o_ p_:c_imeir_o ramo de decodifica- ção ou o segundo ramo de processamento inverso compreende um adi- cionador de sobreposição para realizar uma funcionalidade de can- celamento de aliasing de domínio de tempo.
21. Decodificador, de acordo com uma das reivin- dicações de 16 a 20, caracterizado pelo fato de que o primeiro ra- mo de decodificação ou o segundo ramo de processamento inverso compreende um reversor de distorção controlado por uma caracterís- tica de distorção incluída no sinal de áudio codificado.
22. Decodificador, de acordo com uma das reivin- dicações de 16 a 21, caracterizado pelo fato de que o sinal codi- 5 ficado inclui, como informações paralelas (4a), uma indicação se um sinal codificado deve ser codificado por um primeiro ramo de codificação ou por um segundo ramo de codificação, ou um primeiro ramo de processamento do segundo ramo de codificação ou um segundo ramo de processamento do segundo ramo de codificação, e que compreende ainda um analisador para analisar o sinal codificado para determinar, com base nas informações para- lelas (4a), se um sinal codificado deve ser processado pelo pri- meiro ramo de decodificação, ou pelo segundo ramo de decodifica- ção, ou pelo primeiro ramo de processamento inverso do segundo ra- mo de decodificação ou ~pelo segundo ramo de~processamento inve-Eso do segundo ramo de decodificação.
23. Método de codificação de um sinal de áudio codificado, caracterizado pelo o sinal de áudio codificado compre- ender um primeiro sinal codificado, um primeiro sinal processado em um segundo domínio, e um segundo sinal processado em um tercei- ro domínio, onde o primeiro sinal codificado, o primeiro sinal processado e ()___segundo sinal processado estª-o relacionados a dife- rentes partes de tempo de um sinal de áudio decodificado, e onde um primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, compreendendo: decodificação (431, 440) do primeiro sinal codi- ficado com base em um primeiro algoritmo de codificação; decodificação do primeiro sinal processado ou do segundo sinal processado, onde a decodificação do primeiro sinal processado ou do segundo sinal processado compreende: processamento inverso (531) do primeiro sinal 5 processado para obter um primeiro sinal processado inverso no se- gundo domínio; processamento inverso (533, 534) do segundo sinal processado para obter um segundo sinal processado inverso no se- gundo domínio; combinação (532) do primeiro sinal processado in- verso e do segundo sinal processado inverso para obter um sinal combinado no segundo domínio; e co-nversão ( 54ô) do sinal combinado ao primeiro domínio; e c~mbiQação (600) ~do sinal conve:r:tido do~ pr~mei~.J?o domínio e do primeiro sinal decodificado para obter um sinal de saída decodificado no primeiro domínio.
24. Sinal de áudio codificado, caracterizado por compreender: um primeiro sinal codificado ou a ser decodifica- do utilizando um primeiro algoritmo de codificação, um p~imei.r:o s~n<?-1_ p_r~ces~ado em um segundo domí- nio, e um segundo sinal processado em um terceiro domínio, onde o primeiro sinal processado e o segundo sinal processado são codifi- cactos utilizando um segundo algoritmo de codificação, onde o primeiro sinal codificado, o primeiro si- nal processado e o segundo sinal processado estão relacionados a diferentes partes de tempo de um sinal de áudio decodificado,
onde um primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, e informações paralelas (4a) que indicam se uma parte do sinal codificado é o primeiro sinal codificado, o primei- 5 ro sinal processado ou o segundo sinal processado.
25. Programa de computador, caracterizado por ser para realizar o método de codificação de um sinal de áudio, de a- cordo com a reivindicação 15, ou o método de decodificação de um sinal de áudio codificado, de acordo com a reivindicação 23, quan- 10 do executado em um computador.
. '•
BRPI0910529-8A 2008-07-11 2009-06-26 Esquema de codificação/decodificação de áudio de baixa taxa de bits queapresenta comutadores em cascata BRPI0910529B1 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US7985408P 2008-07-11 2008-07-11
US61/079,854 2008-07-11
EP08017663.9 2008-10-08
EP08017663 2008-10-08
EP09002271A EP2144230A1 (en) 2008-07-11 2009-02-18 Low bitrate audio encoding/decoding scheme having cascaded switches
EP09002271.6 2009-02-18
PCT/EP2009/004652 WO2010003564A1 (en) 2008-07-11 2009-06-26 Low bitrate audio encoding/decoding scheme having cascaded switches

Publications (2)

Publication Number Publication Date
BRPI0910529A2 true BRPI0910529A2 (pt) 2020-08-18
BRPI0910529B1 BRPI0910529B1 (pt) 2021-02-23

Family

ID=72242880

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0910529-8A BRPI0910529B1 (pt) 2008-07-11 2009-06-26 Esquema de codificação/decodificação de áudio de baixa taxa de bits queapresenta comutadores em cascata

Country Status (1)

Country Link
BR (1) BRPI0910529B1 (pt)

Also Published As

Publication number Publication date
BRPI0910529B1 (pt) 2021-02-23

Similar Documents

Publication Publication Date Title
US11682404B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
EP2311035B1 (en) Low bitrate audio encoding/decoding scheme with common preprocessing
ES2391715T3 (es) Esquema de codificación/decodificación de audio que tiene una derivación conmutable
BRPI0910529A2 (pt) &#34;esquema de codificação/decodificação de áudio de baixa taxa de bits que apresenta comutadores em cascata&#34;

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: suspension of the patent application procedure
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/14

Ipc: G10L 19/008 (2013.01), G10L 19/18 (2013.01)

B09A Decision: intention to grant
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 23/02/2021, OBSERVADAS AS CONDICOES LEGAIS.