BR122017006701B1

BR122017006701B1 - Codificador e decodificador de áudio estereofônico

Info

Publication number: BR122017006701B1
Application number: BR122017006701-0A
Authority: BR
Inventors: Heiko Purnhagen; Kristofer Kjoerling
Original assignee: Dolby International Ab
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2022-03-03
Also published as: CN116741188A; BR112015025080B1; BR122017006701A2; CN110010140A; US9570083B2; US20230245667A1; KR20230020553A; EP2981960B1; JP2016519786A; BR112015025080A2; BR122021009025B1; US11631417B2; RU2690885C1; EP3528249A1; CN110010140B; HK1214882A1; CN116741187A; KR20190134821A; EP4300488A2; EP2981960A1

Abstract

codificador e decodificador de áudio estereofônico a presente divulgação fornece métodos, dispositivos e produtos de programa de computador para a codificação e decodificação de um sinal de áudio estereofônico baseado em um sinal de entrada. de acordo com a divulgação, uma aproximação híbrida de usar a codificação estereofônica paramétrica e uma representação discreta do sinal de áudio estereofônico é usada, o que pode melhorar a qualidade do áudio codificado e decodificado para determinados bitrates.

Description

[001] Dividido do BR112015025080-7, depositado em 04.04.2014.

CAMPO TÉCNICO DA INVENÇÃO

[002] A divulgação neste documento geralmente refere-se à codificação de áudio estereofônica. No detalhe refere-se a um decodifica- dor e a um codificador para a codificação híbrida que compreende uma mistura de áudio (downmix) e uma codificação estereofônica discreta.

ANTECEDENTES DA INVENÇÃO

[003] Na codificação de áudio estereofônica convencional, os esquemas de codificação possíveis incluem as técnicas de codificação estereofônicas paramétricas que são usadas em aplicações de bitrate baixo. Em taxas intermediárias, a codificação estereofônica em forma de onda Esquerda/Direita (L/R) ou Meio/Lado (M/S) é muitas vezes usada. Os formatos de distribuição existentes e as técnicas de codificação associadas podem ser melhorados a partir do ponto de vista de sua eficiência de largura de banda, especialmente nas aplicações com um bitrate entre o bitrate baixo e o bitrate intermediário.

[004] Uma tentativa de melhorar a eficiência da distribuição de áudio em um sistema de áudio estereofônico é realizada no padrão de formato de compressão de áudio USAC (Unified Speech and Audio Coding). O padrão USAC introduz uma codificação estereofônica baseada na codificação em forma de onda com largura de banda baixa em combinação com as técnicas de codificação estereofônicas paramétricas.Entretanto, a solução proposta por USAC utiliza os parâmetrosestereofônicos paramétricos para direcionar a codificação estereofônica ao domínio de transformação de cosseno discreto modificado (MDCT: Modified Discrete Cosine Transform) a fim fazer algo mais efi- ciente do que apenas a codificação M/S ou L/R. A desvantagem com a solução é que pode ser difícil conseguir o melhor da codificação estereofônica baseada nas formas de onda com largura de banda baixa no domínio de MDCT baseado nos parâmetros estereofônicos paramétricosextraídos e calculados em um domínio de filtros de espelho em quadratura (QMF: Quadrature Mirror Filters).

[005] Levando em conta o acima, a melhoria adicional pode ser necessária para resolver ou pelo menos reduzir uma ou várias das desvantagens discutidas acima.

BREVE DESCRIÇÃO DAS FIGURAS

[006] As modalidades de exemplo serão agora descritas tendo como referência as figuras de acompanhamento, em que: A figura 1 é um diagrama de blocos generalizado de um sistema de decodificação de acordo com uma modalidade de exemplo; a figura 2 ilustra uma primeira parte do sistema de decodifi- cação na figura 1; a figura 3 ilustra uma segunda parte do sistema de decodi- ficação na figura 1; a figura 4 ilustra uma terceira parte do sistema de decodifi- cação na figura 1; a figura 5 é um diagrama de blocos generalizado de um sistema de codificação de acordo com uma primeira modalidade de exemplo; a figura 6 é um diagrama de blocos generalizado de um sistema de codificação de acordo com uma segunda modalidade de exemplo;

[007] Todas as figuras são esquemáticas e geralmente mostram somente as partes que são necessárias a fim de elucidar a divulgação, visto que outras partes podem ser omitidas ou meramente sugeridas. A menos que indicado de outra maneira, os números de referência semelhantes referem-se às partes semelhantes nas figuras diferentes.

DESCRIÇÃO DETALHADA I. VISÃO GERAL - DECODIFICADOR

[008] Conforme usado neste documento, a codificação esquerda- direita significa que os sinais estereofônicos de esquerda (L) e direita (R) são codificados sem realizar a transformação entre os sinais.

[009] Conforme usado neste documento, a codificação de soma e diferença significa que a soma M dos sinais estereofônicos de esquerda e direita são codificados como um único sinal (soma) e a diferença S entre o sinal estereofônico de esquerda e direita são codificados como um único sinal (diferença). A codificação de soma e diferença pode também ser denominada de codificação de meio-lateral. A relação entre a forma de esquerda-direita e a forma de soma-diferença é portanto M=L+R e S=L-R. Pode-se anotar que normalizações ou esca- lamento diferentes são possíveis ao transformar os sinais estereofônicos de esquerda e direita na forma de soma e diferença e vice versa, contanto que a transformação em ambas as direções corresponda-se. Nesta divulgação, M=L+R e S=L-R são usados principalmente, mas um sistema que utiliza um escalamento diferente, por exemplo, M=(L+R)/2 e S=(L-R)/2 funciona igualmente bem.

[0010] Conforme usado neste documento, a codificação de downmix complementar (dmx/comp) significa a sujeitação do sinal estereofônico de esquerda e direita a uma multiplicação de matriz dependendo de um parâmetro de ponderação a antes de codificação. A codificação de dmx/comp pode, portanto, também ser denominada de codificação de dmx/comp/a. A relação entre a forma de downmix complementar, a forma de esquerda-direita e a forma de soma-diferença é tipicamente dmx = L+R = M e comp = (1-a)L - (1+a)R = -aM+S. Notavelmente, o sinal de downmix na representação de downmix complementar é assim equivalente ao sinal M de soma da representação de soma e diferença.

[0011] Conforme usado neste documento, um sinal de áudiopode ser um sinal de áudio puro, uma parte de áudio de um sinal audiovisual ou sinal de multimídia ou qualquer um destes em combinação com metadados.

[0012] De acordo com um primeiro aspecto, as modalidades de exemplo propõem métodos, dispositivos e produtos de programa de computador para a decodificação de um sinal de áudio de canal estereofônica baseado em um sinal de entrada. Os métodos, os dispositivos e os produtos de programa de computador propostos podem geralmente ter as mesmas características e vantagens.

[0013] De acordo com modalidades de exemplo, um decodificador para a decodificação de dois sinais de áudio é fornecido. O decodifica- dor compreende um estágio de recepção configurado para receber um primeiro sinal e um segundo sinal que correspondem a um quadro de tempo dos dois sinais de áudio, em que o primeiro sinal compreende um primeiro sinal codificado em forma de onda que compreende os dados espectrais que correspondem às frequências até uma primeira frequência de interseção e um sinal de downmix codificado em forma de onda que compreende os dados espectrais que correspondem às frequências acima da primeira frequência de interseção e em que o segundo sinal compreende um segundo sinal codificado em forma de onda que compreende os dados espectrais que correspondem às frequências até a primeira frequência de interseção;

[0014] O decodificador ainda compreende um estágio de mistura à jusante do estágio de recepção. O estágio de mistura é configurado para verificar se o primeiro e segundo sinal codificado em forma de onda estão em uma forma de soma e diferença para todas as frequênciasaté a primeira frequência de interseção e caso contrário, transformar o primeiro e segundo sinal codificado em forma de onda em uma forma de soma e diferença de modo que o primeiro sinal seja uma combinação de um sinal de soma codificado em forma de onda que compreende os dados espectrais que correspondem às frequências até a primeira frequência de interseção e o sinal de downmix codificado em forma de onda que compreende os dados espectrais que correspondemàs frequências acima da primeira frequência de interseção e o segundo sinal que compreende um sinal de diferença codificado em forma de onda que compreende os dados espectrais que correspondemàs frequências até a primeira frequência de interseção.

[0015] O decodificador ainda compreende um estágio de upmix a jusante do estágio de mistura configurado para misturar (upmix) o primeiro e o segundo sinal a fim de gerar um canal de esquerda e direita de um sinal estereofônico, em que para as frequências abaixo da primeirafrequência de interseção o estágio de upmix é configurado para realizar uma transformação inversa de soma e diferença do primeiro e segundo sinal e para as frequências acima da primeira frequência de interseção o estágio de upmix é configurado para realizar o upmix paramétricodo sinal de downmix do primeiro sinal.

[0016] Uma vantagem de ter as frequências mais baixas codificadas puramente em forma de onda, isto é, uma representação discreta do sinal de áudio estereofônico, pode ser que o ouvido humano é mais sensível à parte do áudio que tem frequências baixas. Por meio de codificar esta parte com uma qualidade melhor, a impressão total do áudio decodificado pode aumentar.

[0017] Uma vantagem de ter uma parte codificada estereofônica paramétrica do primeiro sinal, isto é, o sinal de downmix codificado em forma de onda e a representação discreta mencionada do sinal de áudioestereofônico é que isto pode melhorar a qualidade do sinal de áudio decodificado para determinados bitrates em comparação com a utilização de uma aproximação estereofônica paramétrica convencio- nal. Para os bitrates em torno de 32-40 quilobits por segundo (kbps), o modelo estereofônico paramétrico pode saturar, isto é, a qualidade do sinal de áudio decodificado é limitada pelas falhas do modelo paramétrico e não por falta de bits para a codificação. Consequentemente, para os bitrates em torno de 32 kbps, pode ser mais benéfico o uso de bits em frequências mais baixas em forma de ondas codificadas. Ao mesmo tempo, a aproximação híbrida de usar a parte codificada estereofônica paramétrica do primeiro sinal e a representação discreta do sinal de áudio estereofônico distribuído é que isto pode melhorar a qualidade do áudio decodificado para determinados bitrates, por exemplo, abaixo de 48 kbps, em comparação com o uso de uma apro-ximação onde todos os bits são usados em frequências mais baixas em forma de ondas codificadas e o uso de uma replicação de banda espectral (SBR: Spectral Band Replication) para as frequências restantes.

[0018] O decodificador é usado assim vantajosamente para a de- codificação de um sinal de áudio estereofônico de dois canais.

[0019] De acordo com outra modalidade, a transformação do primeiro e do segundo sinal codificado em forma de onda em uma forma de soma e diferença no estágio de mistura é realizada em um domínio de transformação de janela sobreposta. O domínio de transformação de janela sobreposta pode, por exemplo, ser um domínio de transformação de cosseno discreto modificado (MDCT). Isto pode ser vantajosojá que a transformação de outros formatos de distribuições de áudio disponíveis, tais como uma forma de esquerda/direita ou uma forma de dmx/comp, para a forma de soma e diferença é fácil de conseguir no domínio MDCT. Consequentemente, os sinais podem ser codificados usando formatos diferentes pelo menos para um subconjunto de frequências abaixo da primeira frequência de interseção dependendo das características do sinal que está sendo codificado. Isto pode permitir uma qualidade de codificação e eficiência de codificação melhoradas.

[0020] De acordo com ainda outra modalidade, a mistura (upmix) do primeiro e segundo sinal no estágio de upmix é realizada em um domínio de filtros de espelho em quadratura, QMF. O upmix é realizado para gerar um sinal de esquerda e um sinal de direita estereofônicos.

[0021] De acordo com outra modalidade, o sinal de downmix codificado em forma de onda compreende os dados espectrais que correspondemàs frequências entre a primeira frequência de interseção e uma segunda frequência de interseção. Os parâmetros de reconstrução de alta frequência (HFR: high frequency reconstruction) são recebidos pelo decodificador, por exemplo, no estágio de recepção e enviadosentão a um estágio de reconstrução de alta frequência para estender o sinal de downmix do primeiro sinal a uma faixa de frequência acima da segunda frequência de interseção por meio de realizar a reconstrução de alta frequência usando os parâmetros de reconstrução de alta frequência. A reconstrução de alta frequência pode, por exemplo, compreender a realização a replicação de banda espectral, SBR.

[0022] Uma vantagem de ter um sinal de downmix codificado em forma de onda que compreende somente os dados espectrais que correspondemàs frequências entre a primeira frequência de interseção e uma segunda frequência de interseção é que a taxa de transmissão de bit exigida para o sistema estereofônico pode ser diminuída. Alternativamente, os bits salvos por meio de ter uma banda passar pelo sinal de downmix filtrado são usados em frequências mais baixas em forma de ondas codificadas, por exemplo, a quantização para aquelas frequências pode ser mais fina ou a primeira frequência de interseção pode ser aumentada.

[0023] Já que, conforme mencionado acima, o ouvido humano é mais sensível à parte do sinal de áudio que tem frequências baixas, frequências altas, tais como a parte do sinal de áudio que tem frequências acima da segunda frequência de interseção, pode ser recreada por reconstrução de alta frequência sem reduzir a qualidade de áudio percebida do sinal de áudio decodificado.

[0024] De acordo com uma modalidade adicional, o sinal de downmix do primeiro sinal é estendido a uma faixa de frequência acima da segunda frequência de interseção antes que a mistura (upmix) do primeiro e segundo sinal seja realizada. Isto pode ser vantajoso já que o estágio de upmix terá um sinal de soma de entrada com os dados espectrais que correspondem a todas as frequências.

[0025] De acordo com uma modalidade adicional, o sinal de downmix do primeiro sinal é estendido a uma faixa de frequência acima da segunda frequência de interseção após a transformação do primeiro e segundo sinal codificado em forma de onda em uma forma de soma e diferença. Isto pode ser vantajoso já que, tendo em conta que, o sinal de downmix corresponde ao sinal de soma na representação de soma e diferença, o estágio de reconstrução de alta frequência terá um sinal de entrada com os dados espectrais que correspondem às frequências até a segunda frequência de interseção representada na mesma forma, isto é, na forma de soma.

[0026] De acordo com outra modalidade, o upmix no estágio de upmix é realizado com uso de parâmetros de upmix. Os parâmetros de upmix são recebidos pelo decodificador, por exemplo, no estágio de recepção e enviados ao estágio de upmix. A versão descorrelacionada do sinal de downmix é gerada e o sinal de downmix e a versão descor- relacionada do sinal de downmix são sujeitos a uma operação de matriz. Os parâmetros da operação de matriz são dados pelos parâmetros de upmix.

[0027] De acordo com uma modalidade adicional, o primeiro e segundo sinal codificado em forma de onda, recebidos no estágio de re- cepção, são codificados por formas de onda em uma forma de esquerda-direita, uma forma de soma-diferença e/ou em uma forma de downmix-complementar, em que o sinal complementar depende de um parâmetro de ponderação a sendo adaptável ao sinal. Os sinais codificado em forma de ondas podem, portanto, ser codificados em formas diferentes dependendo das características dos sinais e ainda ser decodificáveispelo decodificador. Isto pode permitir uma qualidade de codificação melhorada e assim uma qualidade melhorada do sinal de áudio estereofônico decodificado dado algum bitrate do sistema. Em uma modalidade adicional, o parâmetro de ponderação aé de função real. Isto pode simplificar o decodificador já que nenhum estágio extra que aproxima a parte imaginária do sinal é necessário. Uma vantagem adicional é que a complexidade computacional do decodificador pode ser diminuída, o que pode também levar a uma atrasa/latência de de- codificação diminuída do decodificador.

[0028] De acordo com ainda outra modalidade, o primeiro e segundo sinal codificado em forma de onda, recebidos no estágio de recepção, são codificados por formas de onda em uma forma de soma- diferença. Isto significa que o primeiro e segundo sinal pode ser codificado usando a transformação de janelas sobrepostas com janelas independentes para o primeiro e o segundo sinal, respectivamente, e ainda ser decodificável pelo decodificador. Isto pode permitir uma qualidade de codificação melhorada e assim uma qualidade melhorada do sinal de áudio estereofônico decodificado dado algum bitrate do sistema. Por exemplo, se um transiente for detectado no sinal de soma mas não no sinal de diferença, o codificador em forma de onda poderá codificar o sinal de soma com janelas mais curtas enquanto que para o sinal de diferença, as janelas mais longas por defeito poderão ser mantidas. Isto pode fornecer uma eficiência mais elevada de codificação em comparação de se o sinal lateral for codificado também com a sequência mais curta da janela.

II. VISÃO GERAL - CODIFICADOR

[0029] De acordo com um segundo aspecto, as modalidades de exemplo propõem métodos, dispositivos e produtos de programa de computador para a codificação de um sinal de áudio de canal estereofônica baseado em um sinal de entrada.

[0030] Os métodos, os dispositivos e os produtos de programa de computador propostos podem geralmente ter as mesmas características e vantagens.

[0031] As vantagens a respeito das características e das instalações conforme apresentadas na visão geral do decodificador acima podem geralmente ser válidas para as características e as instalações correspondentes para o codificador.

[0032] De acordo com as modalidades de exemplo, um codificador para a codificação de dois sinais de áudio é fornecido. O codificador compreende um estágio de recepção configurado para receber um primeiro sinal e um segundo sinal, correspondendo a um quadro de tempo dos dois sinais a serem codificados.

[0033] O codificador ainda compreende um estágio de transformação configurado para receber o primeiro e segundo sinal do estágio de recepção e para transformá-los em um primeiro sinal transformado que é um sinal de soma e um segundo sinal transformado que é um sinal de diferença.

[0034] O codificador ainda compreende um estágio de codificação por formas de onda configurado para receber o primeiro e segundo sinal transformado do estágio de transformação e codificá-los por formas de onda em um primeiro e um segundo sinal codificado em forma de onda, respectivamente, em que para as frequências acima de uma primeira frequência de interseção o estágio de codificação por formas de onda é configurado para codificar por formas de onda o primeiro sinal transformado, e em que para as frequências até a primeira frequência de interseção o estágio de codificação por formas de onda é configurado para codificar por formas de onda o primeiro e segundo sinal transformado.

[0035] O codificador ainda compreende um estágio de codificação estereofônica paramétrica configurada para receber o primeiro e segundo sinal do estágio de recepção e para sujeitar o primeiro e segundo sinal à codificação estereofônica paramétrica a fim de extrair os parâmetros estereofônicos paramétricos permitindo a reconstrução de dados espectrais do primeiro e do segundo sinal para as frequências acima da primeira frequência de interseção;

[0036] O codificador ainda compreende um estágio de geração de fluxo de bits configurado para receber o primeiro e segundo sinal codificado em forma de onda do estágio de codificação por formas de onda e os parâmetros estereofônicos paramétricos do estágio de codificação estereofônica paramétrica, e para gerar um fluxo de bits que compreende o primeiro e o segundo sinal codificado em forma de onda e os parâmetros estereofônicos paramétricos.

[0037] De acordo com outra modalidade, a transformação do primeiro e segundo sinal no estágio de transformação é realizada no domínio de tempo.

[0038] De acordo com outra modalidade, pelo menos para um subconjunto das frequências abaixo da primeira frequência de interseção, o codificador pode transformar o primeiro e segundo sinal codificado em forma de onda em uma forma de esquerda/direita por meio de realizar uma transformação inversa de soma e diferença.

[0039] De acordo com outra modalidade, pelo menos para um subconjunto das frequências abaixo da primeira frequência de interseção, o codificador pode transformar o primeiro e segundo sinal codificado em forma de onda em uma forma de downmix/complementar por meio de realizar uma operação de matriz no primeiro e segundo sinal codificado em forma de onda, a operação de matriz dependendo de um parâmetro de ponderação a. O parâmetro de ponderação a pode então ser incluído no fluxo de bits no estágio de geração de fluxo de bits.

[0040] De acordo com ainda outra modalidade, para as frequências acima da primeira frequência de interseção, a codificação por formas de onda do primeiro e segundo sinal transformado no estágio de transformação compreende a codificação por formas de onda do primeiro sinal transformado para as frequências entre a primeira frequência de interseção e uma segunda frequência de interseção e a configuração do primeiro sinal codificado em forma de onda a zero acima da segunda frequência de interseção. Um sinal de downmix do primeiro sinal e segundo sinal pode então ser sujeitado a uma codificação de reconstrução de alta frequência em um estágio de reconstrução de alta frequência a fim gerar parâmetros de reconstrução de alta frequência permitindo a reconstrução de alta frequência do sinal de downmix. Os parâmetros de reconstrução de alta frequência podem então ser incluídos no fluxo de bits no estágio de geração de fluxo de bits.

[0041] De acordo com uma modalidade adicional, o sinal de downmix é calculado com base no primeiro e segundo sinal.

[0042] De acordo com outra modalidade, a sujeição do primeiro e segundo sinal à codificação estereofônica paramétrica no estágio de codificação estereofônica paramétrica é realizada primeiramente por meio de transformar o primeiro e segundo sinal em um primeiro sinal transformado que é um sinal de soma e um segundo sinal transformado que é um sinal de diferença, e sujeitando então o primeiro e segundo sinal transformado à codificação estereofônica paramétrica, em que o sinal de downmix que é sujeito à codificação de reconstrução de alta frequência é o primeiro sinal transformado.

III. MODALIDADES EXEMPLARES

[0043] A figura 1 é um diagrama de blocos generalizado de um sistema de decodificação 100 que compreende três partes conceptuais 200, 300, 400 que serão explicadas em mais detalhes em conjunto com as figuras 2-4 abaixo. Na primeira parte conceptual 200, um fluxo de bits é recebido e decodificado em um primeiro e segundo sinal. O primeiro sinal compreende um primeiro sinal codificado em forma de onda que compreende os dados espectrais que correspondem às frequências até uma primeira frequência de interseção e um sinal de downmix codificado em forma de onda que compreende os dados es-pectrais que correspondem às frequências acima da primeira frequência de interseção. O segundo sinal compreende somente um segundo sinal codificado em forma de onda que compreende os dados espectrais que correspondem às frequências até a primeira frequência de interseção.

[0044] Na segunda parte conceptual 300, caso as partes em forma de ondas codificadas do primeiro e segundo sinal não sejam em uma forma de soma e diferença, por exemplo, em uma forma de M/S, as partes em forma de ondas codificadas do primeiro e segundo sinal são transformadas à forma de soma e diferença. Após isso, o primeiro e segundo sinal é transformado no domínio de tempo e então ao domínio de filtros de espelho em quadratura, QMF. Na terceira parte conceptual 400, o primeiro sinal é uma reconstrução de alta frequência (HFR). O primeiro e segundo sinal é então misturado (upmix) para criar uma saída de sinal de esquerda e direita estereofônico que tem coeficientes espectrais correspondendo à banda de frequência inteira do sinal codificado que está sendo decodificado pelo sistema de deco- dificação 100.

[0045] A figura 2 ilustra a primeira parte conceptual 200 do sistema de decodificação 100 na figura 1. O sistema de decodificação 100 compreende um estágio de recepção 212. No estágio de recepção 212, um quadro de fluxo de bits 202 é decodificado e desquantizado em um primeiro sinal 204a e um segundo sinal 204b. O quadro de fluxo de bits 202 corresponde a um quadro de tempo dos dois sinais de áudio que estão sendo decodificados. O primeiro sinal 204a compreende um primeiro sinal codificado em forma de onda 208 que compreende os dados espectrais que correspondem às frequências até uma primeira frequência de interseção ky e um sinal de downmix codificado em forma de onda 206 que compreende os dados espectrais que correspondemàs frequências acima da primeira frequência de interseção ky. Por meio de exemplo, a primeira frequência de interseção ky é de 1,1 kHz.

[0046] De acordo com algumas modalidades, o sinal de downmix codificado em forma de onda 206 compreende os dados espectrais que correspondem às frequências entre a primeira frequência de interseção ky e uma segunda frequência de interseção kx. Por meio de exemplo, a segunda frequência de interseção kx fica dentro da faixa de 5,6-8 kHz.

[0047] O primeiro e segundo sinais codificado em forma de onda 208, 210 recebidos podem ser codificados por formas de onda em uma forma de esquerda-direita, uma forma de soma-diferença e/ou em uma forma de downmix-complementar, em que o sinal complementar depende de um parâmetro de ponderação a sendo adaptável ao sinal. O sinal de downmix codificado em forma de onda 206 corresponde a um downmix adequado para o estéreo paramétrico que, de acordo com o acima, corresponde a uma forma de soma. Entretanto, o sinal 204b não tem nenhum índice acima da primeira frequência de interseção ky. Cada um dos sinais 206, 208, 210 é representado em um domínio de transformação de cosseno discreto modificado (MDCT).

[0048] A figura 3 ilustra a segunda parte conceptual 300 do sistema de decodificação 100 na figura 1. O sistema de decodificação 100 compreende um estágio de mistura 302. O projeto do sistema de de- codificação 100 requer que a entrada ao estágio reconstrução de alta frequência, que será descrito em mais detalhes abaixo, necessite estar em um formato de soma. Consequentemente, o estágio de mistura é configurado para verificar se o primeiro e segundo sinal codificado em forma de onda os sinais 208, 210 estão em uma forma de soma e diferença. Se o primeiro e segundo sinal codificado em forma de ondas os sinais 208, 210 não estão em uma forma de soma e diferença para todas as frequências até a primeira frequência de interseção ky, o estágio de mistura 302 transformará o sinal codificado em forma de onda inteiro 208, 210 em uma forma de soma e diferença. Caso que pelo menos um subconjunto das frequências dos sinais de entrada 208, 210 ao estágio de mistura 302 esteja em uma forma de downmix complementar, o parâmetro de ponderação aestá requerido como uma entrada ao estágio de mistura 302. Pode-se anotar que os sinais de entrada 208, 210 podem compreender um subconjunto de várias frequências codificadas em uma forma de downmix complementar e que nesse caso cada subconjunto não precisa ser codificado com o uso do mesmo valor do parâmetro de ponderação a. Neste caso, vários parâmetros de ponderação asão requeridos como uma entrada ao estágio de mistura 302.

[0049] Conforme mencionado acima, o estágio de mistura 302 sempre tem uma saída de representação de soma e diferença dos sinais de entrada 204a-b. Para poder transformar os sinais representados no domínio MDCT para a representação de soma e diferença, o janelamento (windowing) dos sinais codificados MDCT necessitam ser os mesmos. Isto implica que, caso que o primeiro e segundo sinal codificado em forma de ondas os sinais 208, 210 sejam em uma forma de L/R ou downmix complementar, o janelamento para o sinal 204a e o janelamento para o sinal 204b não podem ser independentes.

[0050] Consequentemente, caso que o primeiro e segundo sinal codificado em forma de ondas os sinais 208, 210 sejam em uma forma de soma e diferença, o janelamento para o sinal 204a e o janelamento para o sinal 204b pode ser independente.

[0051] Após o estágio de mistura 302, o sinal de soma e diferença é transformado para o domínio de tempo por meio de aplicar um domínio de transformação de cosseno discreto modificado inverso (MDCT-1) 312.

[0052] Os dois sinais 304a-b são analisados então com os dois bancos de QMF 314. Já que o sinal de downmix 306 não compreende as frequências mais baixas, não há nenhuma necessidade de analisar o sinal com um banco de filtros Nyquist para aumentar a resolução da frequência. Isto pode ser comparado aos sistemas onde o sinal de downmix compreende frequências baixas, por exemplo, a decodifica- ção estereofônica paramétrica convencional tal como o estéreo paramétricoMPEG-4. Naqueles sistemas, o sinal de downmix necessita ser analisado com o banco de filtros Nyquist a fim de aumentar a resolução da frequência além de o que é alcançado por um banco de QMF e para melhor combinar assim a seletividade da frequência do sistema auditório humano, conforme por exemplo, representado pela faixa de frequência Bark.

[0053] O sinal de saída 304 dos bancos de QMF 314 compreende um primeiro sinal 304a que é uma combinação de um sinal de soma codificado em forma de onda 308 que compreende os dados espectrais que correspondem às frequências até a primeira frequência de interseção ky e o sinal de downmix codificado em forma de onda 306 que compreende os dados espectrais que correspondem às frequências entre a primeira frequência de interseção ky e a segunda frequên- cia de interseção kx. O sinal de saída 304 ainda compreende um segundo sinal 304b que compreende um sinal de diferença codificado em forma de onda 310 que compreende os dados espectrais que correspondemàs frequências até a primeira frequência de interseção ky. O sinal 304b não tem nenhum índice acima da primeira frequência de interseção ky.

[0054] Conforme será descrito mais tarde, um estágio de reconstrução de alta frequência 416 (mostrado em conjunto com a figura 4) usa frequências mais baixas, isto é, o primeiro sinal codificado em forma de onda 308 e o sinal de downmix codificado em forma de onda 306 do sinal de saída 304, para a reconstrução das frequências acima da segunda frequência de interseção kx. É vantajoso que o sinal no qual o estágio de reconstrução de alta frequência 416 funciona é um sinal de tipo similar ao longo das frequências mais baixas. A partir desta perspectiva é vantajoso ter o estágio de mistura 302 para sempre ter uma saída de representação de soma e diferença do primeiro e se-gundo sinal codificado em forma de onda os sinais 208, 210 já que isto implica que o primeiro sinal codificado em forma de onda 308 e o sinal de downmix codificado em forma de onda 306 do primeiro sinal de saída 304a são de caráter similar.

[0055] A figura 4 ilustra a terceira parte conceptual 400 do sistema de decodificação 100 na figura 1. O estágio de reconstrução de alta frequência (HRF) 416 está estendendo o sinal de downmix 306 do primeiro sinal de sinal de entrada 304a a uma faixa de frequência acima da segunda frequência de interseção kx por meio de realizar a reconstrução de alta frequência. Dependendo da configuração do estágio de HFR 416, a entrada ao estágio de HFR 416 é o sinal inteiro 304a ou apenas o sinal de downmix 306. A reconstrução de alta frequência é realizada usando os parâmetros de reconstrução de alta frequência que podem ser recebidos pelo estágio de reconstrução de alta frequência 416 em qualquer maneira apropriada. De acordo com uma modalidade, a reconstrução de alta frequência realizada compreende a realização de replicação de banda espectral, SBR.

[0056] A saída do estágio de reconstrução de alta frequência 314 é um sinal 404 que compreende o sinal de downmix 406 com a extensão de SBR 412 aplicada. O sinal reconstruído de alta frequência 404 e o sinal 304b são alimentados então em um estágio de upmix 420 para gerar um sinal estereofônico de esquerda L e de direita R 412a-b. Para os coeficientes espectrais que correspondem às frequências abaixo da primeira frequência de interseção ky o upmix compreende a realização de uma transformação inversa de soma e diferença do primeiro e segundo sinal 408, 310. Isto simplesmente significa que indo de uma representação de meio-lado a uma representação de esquerda-direita conforme estabelecido antes. Para os coeficientes espectrais que correspondem às frequências acima da primeira frequência de interseção ky, o sinal de downmix 406 e a extensão de SBR 412 são alimentados com um decorrelador 418. O sinal de downmix 406 e a extensão de SBR 412 e a versão decorrelada do sinal de downmix 406 e a extensão de SBR 412 é misturado (upmix) então usando parâmetros de mistura paramétricos para reconstruir os canais de esquerda e de direita 416, 414 para as frequências acima da primeira frequência de interseção ky. Qualquer procedimento de upmix paramétrico conhecido na técnica pode ser aplicado.

[0057] Deve-se anotar que na modalidade exemplar 100 de cima do codificador, mostrado nas figuras 1-4, a reconstrução de alta frequência é necessária já que o primeiro sinal 204a recebido compreende somente os dados espectrais que correspondem às frequências até a segunda frequência de interseção kx. Em modalidades adicionais, o primeiro sinal recebido compreende os dados espectrais que correspondem a todas as frequências do sinal codificado. De acordo com esta modalidade, a reconstrução de alta frequência não é necessária. A pessoa versada na técnica compreende como adaptar o codificador exemplar 100 neste caso.

[0058] A figura 5 mostra por meio de exemplo um diagrama de blocos generalizado de um sistema de codificação 500 de acordo com uma modalidade.

[0059] No sistema de codificação, um primeiro e segundo sinal 540, 542 para serem codificados são recebidos por um estágio de recepção (não mostrado). Estes sinais 540, 542 representam um quadro de tempo dos canais de áudio estereofônicas de esquerda 540 e de direita 542. Os sinais 540, 542 são representados no domínio de tempo. O sistema de codificação compreende um estágio de transformação 510. Os sinais 540, 542 são transformados em um formato de soma e diferença 544, 546 no estágio de transformação 510.

[0060] O sistema de codificação ainda compreende um estágio de codificação por formas de onda 514 configurado para receber o primeiro e o segundo o sinal 544, 546 transformados do estágio de transformação 510. O estágio de codificação por formas de onda funciona tipicamente em um domínio de MDCT. Devido a esta razão, os sinais transformados 544, 546 são sujeitos a uma transformação de MDCT 512 antes do estágio de codificação por formas de onda 514. No estágio de codificação por formas de onda, o primeiro e segundo sinal transformado 544, 546 são codificados por formas de onda em um primeiro e segundo sinal codificado em forma de onda 518, 520, res-pectivamente.

[0061] Para as frequências acima de uma primeira frequência de interseção ky, o estágio de codificação por formas de onda 514 é configurado para a codificação por formas de onda do primeiro sinal 544 transformado em um sinal codificado em forma de onda 552 do primeiro sinal codificado em forma de onda 518. O estágio de codificação por formas de onda 514 pode ser configurado para definir o segundo sinal codificado em forma de onda 520 para zero acima da primeira frequência de interseção ky ou para não codificar estas frequências de modo algum. Para as frequências acima de uma primeira frequência de interseção ky, o estágio de codificação por formas de onda 514 é configurado para a codificação por formas de onda do primeiro sinal 544 transformado em um sinal codificado em forma de onda 552 do primeiro sinal codificado em forma de onda 518.

[0062] Para as frequências abaixo da primeira frequência de interseção ky, uma decisão é tomada no estágio de codificação por formas de onda 514 de usar qual tipo de codificação estereofônica para os dois sinais 548, 550. Dependendo das características dos sinais transformados 544, 546 abaixo da primeira frequência de interseção ky, decisões diferentes podem ser tomadas para subconjuntos diferentes do sinal codificado em forma de onda 548, 550. A codificação pode ser de codificação de Esquerda/Direita, de codificação Meio/Lado, isto é, a codificação de soma e de diferença, ou a codificação de dmx/comp/a. No caso dos sinais 548, 550 sendo codificados por formas de onda por uma codificação de soma e diferença no estágio de codificação por formas de onda 514, os sinais codificado em forma de ondas 518, 520 podem ser codificados usando a transformação de janelamento sobreposto com janelas independentes para os sinais 518, 520, respectivamente.

[0063] Uma primeira frequência de interseção ky exemplar é de 1,1 kHz, mas esta frequência pode ser variada dependendo da taxa de transmissão de bit do sistema de áudio estereofônico ou dependendo das características do áudio a ser codificado.

[0064] Pelo menos dois sinais 518, 520 são produzidos assim do estágio de codificação por formas de onda 514. No caso de vários subconjuntos, ou a banda de frequência inteira, dos sinais abaixo da primeira frequência de interseção ky são codificados em uma forma de downmix/complementar por meio de realizar uma operação de matriz, dependendo do parâmetro de ponderação a, este parâmetro é produ-zidotambém como um sinal 522. No caso de vários subconjuntos sendo codificados em uma forma de downmix/complementar, cada subconjuntonão precisa ser codificado com o uso do mesmo valor do parâmetro de ponderação a. Neste caso, vários parâmetros de ponderação estão produzidos como o sinal 522.

[0065] Estes dois ou três sinais 518, 520, 522, são codificados e quantizados 524 em um único sinal de compósito 558.

[0066] Para conseguir a reconstrução dos dados espectrais do primeiro e segundo sinal 540, 542 para as frequências acima da primeirafrequência de interseção em um lado do decodificador, os parâmetrosestereofônicos paramétricos 536 necessitam ser extraídos dos sinais 540, 542. Para esta finalidade, o codificador 500 compreende um estágio de codificação estereofônica paramétrica (PS: Parametric Stereo) 530. O estágio de codificação de PS 530 funciona tipicamente em um domínio de QMF. Consequentemente, antes de serem introduzidos ao estágio de codificação de PS 530, o primeiro e segundo sinal 540, 542 são transformados a um domínio de QMF por um estágio de análise de QMF 526. O estágio de codificação de PS 530 é adaptado para extrair somente os parâmetros estereofônicos paramétricos 536 das frequências acima da primeira frequência de interseção ky.

[0067] Pode-se anotar que os parâmetros estereofônicos paramétricos 536 estão refletindo as características do sinal que é codificado estereofônico paramétrico . São assim de frequência seletiva, isto é, cada parâmetro dos parâmetros 536 pode corresponder a um subconjunto das frequências do sinal de entrada de esquerda ou de direita 540, 542. O estágio de codificação de PS 530 calcula os parâmetros estereofônicos paramétricos 536 e quantiza estes em uma forma uni forme ou não uniforme. Os parâmetros são, conforme mencionados acima, de frequência seletiva calculada, onde a faixa de frequência inteira dos sinais de entrada 540, 542 é dividida em, por exemplo, 15 bandas de parâmetro. Estas podem ser espaçadas de acordo com um modelo da resolução de frequência do sistema auditório humano, por exemplo, uma escala de bark.

[0068] Na modalidade exemplar do codificador 500 mostrado na figura 5, o estágio de codificação por formas de onda 514 é configurado para a codificação por formas de onda do primeiro sinal transformado 544 para as frequências entre a primeira frequência de interseção ky e uma segunda frequência de interseção kx e definindo o primeiro sinal codificado em forma de onda 518 para zero acima da segunda frequência de interseção kx. Isto pode ser realizado para ainda reduzir a taxa de transmissão requerida do sistema de áudio em que o codificador 500 faz parte. Para conseguir a reconstrução do sinal acima da segunda frequência de interseção kx, os parâmetros de reconstrução de alta frequência 538 necessitam ser gerados. De acordo com esta modalidade exemplar, isto é realizado por meio de downmix dos dois sinais 540, 542, representados no domínio de QMF, em um estágio de downmix 534. O sinal de downmix resultante, que é por exemplo igual à soma dos sinais 540, 542, é sujeito então à codificação de reconstrução de alta frequência em uma reconstrução de alta frequência, HFR, do estágio de codificação 532 a fim de gerar os parâmetros de reconstrução de alta frequência 538. Os parâmetros 538 podem, por exemplo, incluir um envelope espectral das frequências acima da segundafrequência de interseção kx, das informações de adição de ruído, etc. como bem conhecido pela pessoa versada na técnica.

[0069] Uma segunda frequência de interseção kx exemplar é de 5,6-8 kHz, mas esta frequência pode ser variada dependendo da taxa de transmissão de bit do sistema de áudio estereofônico ou depen- dendo das características do áudio a ser codificado.

[0070] O codificador 500 ainda compreende um estágio de geração de fluxo de bits, isto é, multiplexador de fluxo de bits 524. De acordo com a modalidade exemplar do codificador 500, o estágio de geração de fluxo de bits é configurado para receber o sinal codificado e quantizado 544, e os dois sinais dos parâmetros 536, 538. Estes são convertidos em um fluxo de bits 560 pelo estágio de geração de fluxo de bits 562, para serem ainda distribuídos no sistema de áudio estereofônico.

[0071] De acordo com outra modalidade, o estágio de codificação por formas de onda 514 é configurado para a codificação por formas de onda do primeiro sinal transformado 544 para todas as frequências acima da primeira frequência de interseção ky. Neste caso, o estágio de codificação de HFR 532 não é necessário e consequentemente nenhumparâmetro de reconstrução de alta frequência 538 é incluído no fluxo de bits.

[0072] A figura 6 mostra por meio de exemplo um diagrama de blocos generalizado de um sistema de codificação 600 de acordo com outra modalidade. Esta modalidade difere da modalidade mostrada em figura 5 em que os sinais 544, 546 que são transformados pelo estágio de análise de QMF 526 estão em um formato de soma e diferença. Consequentemente, não há nenhuma necessidade para um estágio de downmix separado 534 já que o sinal de soma 544 já está na forma de um sinal de downmix. O estágio de codificação de SBR 532 assim necessita somente funcionar no sinal de soma 544 para extrair os parâmetros de reconstrução de alta frequência 538. O codificador de PC 530 é adaptado para funcionar no sinal de soma 544 e o sinal de diferença 546 para extrair os parâmetros estereofônicos paramétricos 536.

EQUIVALENTES, EXTENSÕES, ALTERNATIVAS E VARIAÇÕES

[0073] As modalidades adicionais da presente divulgação tornar- se-ão aparentes a uma pessoa versada na técnica após ter estudado a descrição acima. Embora a presente descrição e figuras divulguem modalidades e exemplos, a divulgação não é restringida a estes exemplos específicos. As modificações e as variações numerosas podem ser realizadas sem partir do âmbito da presente divulgação, que é definida pelas reivindicações anexas. Quaisquer sinais de referência que aparecem nas reivindicações não devem ser compreendidas como limitar seu âmbito.

[0074] Adicionalmente, as variações para as modalidades divulgadas podem ser compreendidas e efetuadas pela pessoa versada na técnica em praticar a divulgação, a partir de um estudo das figuras, a divulgação, e as reivindicações anexas. Nas reivindicações, a palavra, "compreender"não exclui outros elementos ou etapas, e o artigo "um" ou "uma"não exclui uma pluralidade. O mero fato que determinadas medidas são relatadas nas reivindicações dependentes mutuamente diferentes não indica que uma combinação destas medidas não pode ser usada à vantagem.

[0075] Os sistemas e métodos divulgados acima podem ser implementados como software, hardware, firmware, ou suas combinações. Em uma implementação de hardware, a divisão das tarefas entre as unidades funcionais consultadas na descrição acima não corresponde necessariamente à divisão em unidades físicas; pelo contrário, um componente físico pode ter funcionalidades múltiplas, e uma tarefa pode ser realizada por diversos componentes físicos em cooperação. Determinados componentes ou todos os componentes podem ser executados como software executado por um processador ou por um microprocessador de sinal digital, ou podem ser executados como hardware ou como um circuito integrado de aplicação específica. Tal software pode ser distribuído num meio legível por computador, que pode compreender meios de armazenamento do computador (ou mei- os não transitórios) e meios de comunicação (ou meios transitórios). Como é bem conhecido por uma pessoa versada na técnica, o termo meios de armazenamento do computador inclui os meios voláteis e não voláteis, removíveis e irremovíveis executados em qualquer método ou tecnologia para o armazenamento de informações tal como as instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados. Os meios de armazenamento de computador incluem, mas não estão limitados a, RAM, ROM, EEPROM, memória flash ou outra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) ou outro armazenamento óptico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio o qual pode ser usado para armazenar as informações desejadas e as quais podem ser acessadas pelo computador. Adicionalmente, é bem conhecido pela pessoa versada que os meios de comunicação incorporam tipicamente as instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal modulado de dados como uma onda de transporte ou o outro mecanismo de transporte e inclui quaisquer meios de entrega de informações.

Claims

1. Método para decodificar um fluxo de bits de áudio codificado em um sistema de processamento de áudio, o método caracterizado pelo fato de que compreende: extrair do fluxo de bits de áudio codificado um primeiro sinal codificado em forma de onda contendo dados espectrais correspondentes a frequências apenas até uma primeira frequência de cruzamento para um primeiro período de tempo; extrair do fluxo de bits de áudio codificado um segundo sinal codificado em forma de onda contendo dados espectrais correspondentes a apenas um subconjunto de frequências acima da primeira frequência de cruzamento para o primeiro período de tempo; realizar reconstrução de alta frequência em uma faixa de reconstrução para o primeiro período de tempo para gerar um sinal reconstruído contendo conteúdo espectral apenas acima de uma segunda frequência de cruzamento, em que a segunda frequência de cruzamento está acima da primeira frequência de cruzamento e a reconstrução de alta frequência usa parâmetros de reconstrução derivados do fluxo de bits de áudio codificado para gerar o sinal reconstruído; combinar o segundo sinal codificado em forma de onda, o sinal reconstruído e o primeiro sinal codificado em forma de onda para produzir um sinal combinado para o primeiro período de tempo; e emitir o sinal combinado, em que a primeira frequência de cruzamento depende de uma taxa de transmissão de bits do fluxo de bits de áudio codificado.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a combinação compreende adicionar o segundo sinal codificado em forma de onda com o sinal reconstruído e o primeiro sinal codificado em forma de onda.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que (i) a combinação é realizada em um domínio de frequência, ou (ii) a reconstrução de alta frequência é realizada em um domínio de frequência.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os parâmetros de reconstrução incluem uma representação de um envelope espectral ou informação de adição de ruído para uma faixa de frequência do sinal reconstruído.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a reconstrução de alta frequência de execução compreende a replicação de banda espectral (SBR).

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda receber um sinal de controle usado durante a combinação para produzir o sinal combinado.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o sinal de controle indica como combinar o segundo sinal codificado em forma de onda com o sinal reconstruído, especificando uma faixa de frequência para a combinação.

8. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que um primeiro valor do sinal de controle indica que a intercalação é realizada para uma respectiva região de frequência.

9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a combinação é realizada após a execução.

10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sistema de processamento de áudio é um decodificador híbrido que realiza decodificação em forma de onda e decodificação paramétrica.

11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro sinal codificado em forma de onda e o segundo sinal codificado em forma de onda compartilham um reservatório de bit comum usando um modelo psicoacústico.

12. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a execução e a combinação são integradas em um único estágio ou operação.

13. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro sinal codificado em forma de onda e o segundo sinal codificado em forma de onda são sinais que representam uma forma de onda de um sinal de áudio em um domínio de frequência.

14. Um decodificador de áudio para decodificar um fluxo de bits de áudio codificado, o decodificador de áudio compreendendo: um demultiplexador para extrair do fluxo de bits de áudio codificado um primeiro sinal codificado em forma de onda contendo dados espectrais correspondentes a frequências apenas até uma primeira frequência de cruzamento para um primeiro período de tempo; um reconstrutor de alta frequência operando em uma faixa de reconstrução para gerar um sinal reconstruído contendo conteúdo espectral apenas acima de uma segunda frequência de cruzamento para o primeiro período de tempo, em que a segunda frequência de cruzamento está acima da primeira frequência de cruzamento e da alta frequência o reconstrutor usa parâmetros de reconstrução derivados do fluxo de bits de áudio codificado para gerar o sinal reconstruído; um desmultiplexador para extrair do fluxo de bits de áudio codificado um segundo sinal codificado em forma de onda com dados espectrais correspondentes a apenas um subconjunto de frequências acima da primeira frequência de cruzamento para o primeiro período de tempo; e um sintetizador para combinar o sinal reconstruído, o primeiro sinal codificado em forma de onda e o segundo sinal codificado em forma de onda, em que a primeira frequência de cruzamento depende de uma taxa de transmissão de bits do fluxo de bits de áudio codificado.

15. Meio legível por computador não transitório, caracterizado pelo fato de que compreende instruções que, quando executadas por um processador, executam o método como definido na reivindicação 1.