BR122020007937B1 - Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída - Google Patents

Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída Download PDF

Info

Publication number
BR122020007937B1
BR122020007937B1 BR122020007937-1A BR122020007937A BR122020007937B1 BR 122020007937 B1 BR122020007937 B1 BR 122020007937B1 BR 122020007937 A BR122020007937 A BR 122020007937A BR 122020007937 B1 BR122020007937 B1 BR 122020007937B1
Authority
BR
Brazil
Prior art keywords
signal
frequency domain
stage
stereo
domain representation
Prior art date
Application number
BR122020007937-1A
Other languages
English (en)
Inventor
Heiko Purnhagen
Pontus Carlsson
Lars Villemoes
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Priority claimed from BR112012025868-0A external-priority patent/BR112012025868B1/pt
Publication of BR122020007937B1 publication Critical patent/BR122020007937B1/pt

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

a invenção refere-se a métodos e dispositivos para codificação/ decodificação estérea usando predição complexa no domínio de frequência. em uma modalidade, um método de decodificação para obter uma saída de sinal estéreo a partir de um sinal estéreo de entrada codificado pela codificação de predição complexa compreendendo primeiras representações de domínio de frequência de dois canais de entrada, compreende as etapas de mistura ascendente: (i) computar uma segunda representação de domínio de frequência do primeiro canal de entrada; e (ii) computar um canal de saída com base nas primeira e segunda representações de domínio de frequência do primeiro canal de entrada; na primeira representação de domínio de frequência do segundo canal de entrada e em um coeficiente de predição complexa o método compreende realizar modificações domínio de frequência seletivamente antes ou depois da mistura ascendente.

Description

[001] Dividido do BR112012025868-0 depositado em 06 de abril de 2011.
Campo Técnico
[002] A presente invenção descrita nesta, refere-se geralmente a uma codificação de áudio estéreo, e, mais precisamente, a técnicas de codificação estéreo, usando predição complexa no domínio de frequência.
Antecedente da Invenção
[003] A codificação conjunta de canal esquerdo (L) e canal direito (R) permite uma codificação mais eficiente em relação a uma codificação independente L e R. Uma solução comum para a codificação estéreo conjunta é uma codificação média/ lateral (M/S). Aqui, um sinal médio (M) é formado adicionando sinais L e R, por exemplo, o sinal M pode ter a forma:
Figure img0001
[004] Ademais, um sinal lateral (S) é formado subtraindo os dois canais L e R, por exemplo, o sinal S pode ter a forma
Figure img0002
[005] No caso de codificação M/S, os sinais M e S são codificados ao invés de sinais L e R.
[006] Em MPEG (Moving Picture Expert Group) AAC (Advanced Audio Coding Standard) (ver Documento de Standard IEC/IEC 138187), as codificações estéreo L/R e M/S podem ser escolhidas de maneira variável em tempo ou variável em frequência. Assim, o codificador estéreo pode aplicar uma codificação L/R para algumas bandas de frequência do sinal estéreo, enquanto a codificação M/S é usada para codificar outras bandas de frequência de sinal estéreo (frequência variável). Ademais, o codificador pode alternar ao longo do tempo entre as codificações L/R e M/S (variável em tempo). Em MPEG AAC, a codificação estéreo é executada no domínio de frequência, mais particularmente em um domínio MDCT (Transformação Cosseno Discreta Modificado), que permite escolher adaptativamente uma codificação quer codificação L/R ou M/S de maneira variável em frequência e tempo
[007] A codificação paramétrica estéreo é uma técnica para codificar de modo eficiente um sinal de áudio estéreo, como sinal monaural, mais uma pequena quantidade de informação lateral para parâmetros estéreo (parte do padrão de áudio MPEG-4) (ver Documento Standard ISO/IEC 14496-3). O sinal monaural pode ser codificado usando qualquer codificador de áudio. Os parâmetros de estéreo podem ser incorporados na parte auxiliar do fluxo de bit mono, assim, conseguindo compatibilidade entre avanço e retorno. No decodificador, o sinal monaural é o primeiro decodificado, e, em seguida, o sinal estéreo é reconstruído com ajuda dos parâmetros estéreo. Uma versão descorrelacionada do sinal mono decodificado, que tem correlação cruzada zero com o sinal monaural, é gerada com um descorrecionador, i.e. um filtro passa-tudo, incluindo uma ou mais linhas de atraso. Essencialmente, o sinal decorrelacionado tem a mesma distribuição de energia temporal e espectral que o sinal mono. O sinal monaural junto com o sinal decorrelacionado é introduzido no processo de mistura ascendente (upmix), controlado por parâmetros estéreo, e que reconstroem o sinal estéreo. Para mais informações ver "Low complexity Stereo Coding in MPEG-4 H" de Purnhagen, Proc, da 7aconferência Internacional de Efeitos de Áudio Digital (DAFx'04), Nápoles, Itália, em 5 de outubro de 2004, páginas 163-168.
[008] MPEG surround (MPS; ver IS/ IEC 23003-1, e "MPEG Surround ISO/ MPEG Standard for Efficient and Compatible Multi Channel Audio Coding " de J Herre et al - Audio Engineering Convention, Paper 7084, 122oConvenção, de 5 de Maio de 2007) permitem combinar os princípios de codificação estéreo paramétrica com a codificação residual, substituindo o sinal decorrelacionado com um residual transmitido, para melhorar a qualidade de percepção. A codificação residual pode ser conseguida procedendo a de mistura descendente de um sinal multicanal, e, opcionalmente, extraindo informações espaciais. Durante o processo de mistura descendente, sinais residuais que representam sinais de erro, são computados, codificados, e transmitidos, podem substituir sinais decorrelacionados no decodificador. Em uma solução híbrida, os sinais residuais podem substituir os sinais decorrelacionados em certas bandas de frequência, preferivelmente em bandas relativamente baixas.
[009] De acordo com sistema de Fala Unificada MPEG e Codificação de Áudio (USAC), de quais a figura 1mm dois exemplos, o decodificador compreende um banco de filtro espelho de quadratura de valor complexo (QMF) localizado a jusante do decodificador principal. A representação QMF obtida como saída do banco de filtro é complexo - sobreamostrada de um fator de dois - e pode ser arranjada como sinal de mistura descendente (ou equivalentemente um sinal médio M) e sinal residual D, ao qual uma matriz de mistura ascendente com entradas complexas é aplicada. Sinais L e R (no domínio QMF) são obtidos como segue:
Figure img0003
onde, g é o fator de ganho em valor real e α o coeficiente de predição em valor complexo. Preferivelmente, α é escolhido de modo que a energia no sinal residual D seja minimizada. O fator de ganho pode ser determinado por normalização, i.e. para garantir que a potência do sinal da soma seja igual à soma das potências dos sinais direito e esquerdo. As partes imaginárias dos sinais, L e R são mutuamente redundantes - em princípio, cada uma delas pode ser computada com base na outra - mas é vantajoso permitir a subsequente aplicação de decodificador de replicação de banda espectral (SBR) sem ocorrer serrilhados. Uma representação de sinal sobreamostrado também, por razão similar, pode ser escolhida com objetivo de impedir haver artefatos conectados com outro processamento de sinal adaptativo de frequência ou tempo (não mostrado), tal como de mistura ascendente mono-para-estéreo. Deve ser notado que representação de banda limitada QMF do sinal permite o uso de técnicas residuais limitadas por banda e técnicas de preenchimento residual, que podem ser integradas em decodificadores deste tipo.
[0010] A estrutura de codificação acima é adequada para taxas de bit baixas, tipicamente abaixo de 80 kb/s, mas não-ótima para taxas de bit mais altas, com respeito a complexidade computacional. Mais precisamente, em taxas de bit mais altas, a ferramenta SBR tipicamente não é usada, porque não melhora a eficiência de codificação. Então, em um decodificador sem estágio SBR, apenas a matriz de mistura ascendente de valor complexo motiva a presença do banco de filtro QMF, que é computacionalmente requerida, e introduz um atraso (em um comprimento de quadro de 1024 amostras, o banco de filtro de análise/ síntese QMF introduz um atraso de 961 amostras). Isto claramente indica a necessidade de uma estrutura de codificação mais eficiente.
Sumário da Invenção
[0011] É um objetivo de a invenção prover métodos e aparelhos para codificação estéreo, que são computacionalmente eficientes em taxas de bit altas.
[0012] A invenção atende este objetivo, provendo codificador e decodificador, métodos de codificação e decodificação, e produtos de programa de computador para codificar/ decodificar respectivamente.
[0013] Em um primeiro aspecto, a invenção compreende um sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa, o sistema decodificador compreendendo: uma mistura ascendente adaptada para gerar o sinal estéreo baseado em uma primeira representação de domínio de frequência de um sinal de mistura descendente (M) e sinal residual (D), cada uma das primeiras representações de domínio de frequência compreendendo primeiros componentes espectrais, representando o conteúdo espectral do correspondente sinal expresso em um primeiro subespaço de um espaço multidimensional, o estágio de mistura ascendente compreendendo: um módulo para computar uma segunda representação de domínio de frequência do sinal de mistura descendente, com base na primeira representação de domínio de frequência do mesmo, a segunda representação de domínio de frequência compreendendo segundos componentes espectrais, representando o conteúdo espectral do sinal expresso em um segundo subespaço do espaço multidimensional, que inclui uma porção do espaço multidimensional não incluído no primeiro subespaço; um somador ponderado para computar sinal lateral (S) com base nas primeira e segunda representações de domínio de frequência do sinal de mistura descendente, a primeira representação de domínio de frequência do sinal residual e o coeficiente de pesa (α) codificado no sinal de fluxo de bit; e um estágio de soma-e-diferença para computar sinal estéreo com base na primeira representação de domínio de frequência dos sinal de mistura descendente e sinal lateral, sendo que o estágio de mistura ascendente é adicionalmente operável no modo passante, onde os citados sinais de mistura descendente e lateral são supridos diretamenteà soma-e-diferença.
[0014] Em um segundo aspecto, a invenção provê um sistema codificador para codificar um sinal estéreo com um sinal de fluxo de bit por codificação estéreo de predição complexa incluindo: um estimador para estimar um coeficiente de predição complexa; um estágio de codificação operável para: (a) transformar o sinal estéreo em uma representação de domínio de frequência de sinais de mistura descendente e residual, em uma relação determinada pelo valor do coeficiente de predição complexa, e um multiplexador para receber a saída do estágio de codificação e estimador e codificá-la pelo citado sinal fluxo de bit
[0015] Nos terceiro e quarto aspectos da invenção, provêem-se métodos para codificar um sinal estéreo em um fluxo de bit, e decodificar o fluxo de bit em pelo menos um sinal estéreo. Os componentes técnicos de cada método são análogos àqueles do sistema codificador e sistema decodificador, respectivamente. Nos quinto e sexto aspectos, a invenção adicionalmente provê um produto de programa de computador, contendo instruções para executar cada um dos métodos em um computador.
[0016] A invenção se beneficia das vantagens da codificação estéreo unificada no sistema MPEG USAC. Estas vantagens são preservadas também em taxas de bit mais altas, na qual BBR é tipicamente não-utilizada, sem um significativo aumento na complexidade computacional que acompanha a solução baseada em QMF. Isto é possível porque a transformação MDCT criticamente amostrada, que é a base do sistema codificador MPEG USAC, pode ser usada para codificação estéreo de predição complexa, como provida pela invenção pelo menos nos casos em que as larguras de banda de áudio de código do de mistura descendente e residual canais são iguais, e o processo de mistura ascendente inclui decorrelação. Isto significa que uma transformação QMF adicional deixa de ser requerida. Uma implementação preferida da codificação estéreo de predição complexa em domínio QMF aumenta efetivamente o número de operações per unidade de tempo significativamente em relação ao estéreo L/R ou M/S tradicional. Assim, o aparelho codificador, de acordo com a invenção, parece ser competitivo em tais taxas de bit, provendo alta qualidade de áudio com uma demanda computacional moderada.
[0017] Como aqueles habilitados na técnica perceberão, o fato de o estágio de mistura ascendente ser adicionalmente operável em modo passante, permite que o decodificador adaptativamente decodifique de acordo com uma codificação direta ou conjunta convencional e codificação de predição complexa, determinada no lado codificador. Então, nestes casos, onde o decodificador não pode aumentar positivamente o nível de qualidade além da codificação estéreo L/R direta ou M/S conjunta convencional, o decodificador pode, pelo menos, garantir que o mesmo nível seja mantido. Assim, um decodificador de acordo com este aspecto da invenção, pode, a partir do ponto de vista funcional, ser considerado como um sobreconjunto em relação à técnica anterior.
[0018] Uma vantagem com respeito a estéreo codificado por predição com base em QMF reside no fato de a reconstrução perfeita do sinal ser possível (a parte de erros de quantização, que podem ser providos arbitrariamente pequenos).
[0019] Assim, a invenção provê um aparelho codificador para codificação estéreo com base em uma transformação por predição complexa. Preferivelmente, um aparelho de acordo com a invenção não se limita ao regime de codificação estéreo por predição complexa ou regime de codificação estéreo M/S conjunta, de acordo com a técnica anterior, de modo que seja possível selecionar o método de codificação mais adequado para uma particular aplicação, ou durante um particular período de tempo.
[0020] Uma representação sobre-amostrada (i.e. complexa) do sinal, incluindo os citados primeiro e segundo componentes espectrais, é usada como base para a predição complexa, de acordo com a invenção, e então módulos para computar tal representação sobre- amostrada são arranjados no sistema codificador e sistema decodificador, de acordo com a invenção. Os componentes espectrais se referem a primeiro e segundo subespaços de espaço multidimensional, que podem ser conjuntos de funções que dependem do tempo em um intervalo de uma dada extensão (isto é, uma predeterminada extensão de quadro de tempo) amostrado em uma frequência de amostragem finita. É bem conhecido que funções deste particular espaço multidimensional podem ser aproximadas por uma soma ponderada finita das funções de base.
[0021] Como aqueles habilitados na técnica deverão apreciar, um codificador adaptado para cooperar com um decodificador é equipado com módulos equivalentes para prover uma representação sobreamostrada, na qual a conexão de predição se baseia, de modo a permitir uma reprodução fiel do sinal codificado. Tais módulos equivalentes podem ser módulos idênticos ou similares, tendo características de transferência idênticas ou similares, Em particular, os módulos no codificador e decodificador podem ser unidades de processamento, quer similares ou dissimilares, que executam os respectivos programas de computador, que realizam conjuntos equivalentes de operações matemáticas.
[0022] Em algumas modalidades do sistema codificador ou sistema decodificador, os componentes espectrais têm valores reais expressos em um primeiro subespaço, e os segundos componentes espectrais têm valores imaginários expressos em segundo subespaço. Os primeiro e segundo componentes espectrais juntos formam uma representação espectral complexa do sinal. O primeiro subespaço pode ser a extensão linear de um primeiro conjunto de funções base, enquanto o segundo subespaço pode ser uma extensão linear de um conjunto de segundas funções base, algumas das quais linearmente independentes do primeiro conjunto de funções base.
[0023] Em uma modalidade, o módulo para computar a representação complexa é uma transformação real-para-imaginário, isto é, um módulo para computar partes imaginárias de um espectro de sinal de tempo discreto com base na representação espectral do sinal. A transformação pode se basear em relações matemáticas exatas ou aproximadas, tais como fórmulas a partir de análise de harmônicos ou relações heurísticas.
[0024] Em algumas modalidades do sistema decodificador ou sistema codificador, os primeiros componentes espectrais são obteníveis por uma transformação de domínio de tempo-para- frequência, preferivelmente uma transformação Fourier de um sinal de domínio de tempo discreto, tal como uma transformação cosseno discreta (DCT), transformação cosseno discreta modificada (MDCT), transformação seno discreta (MDST), e uma transformação seno discreta modificada (MDST), transformação Fourier rápida (FFT), algoritmo Fourier com base em um fator primário, ou similar. Nos primeiros quatro casos, os segundos componentes espectrais são obteníveis por DST, MDST, DCT, MDCT, respectivamente. Como bem conhecido, a extensão linear dos cossenos que são periódicos no intervalo de unidade forma um subespaço, não inteiramente contido na extensão linear do senos periódicos no mesmo intervalo. Preferivelmente, os primeiros componentes espectrais são obteníveis por MDCT e os segundos componentes espectrais obteníveis por MDST.
[0025] Em uma modalidade, o sistema decodificador inclui pelo menos um módulo conformador de ruído temporal TNS (de Temporal Noise Shapping) (módulo TNS ou filtro TNS), que é arranjado a montante do estágio de mistura ascendente. De modo geral, o uso de TNS aumenta a qualidade percebida de áudio com respeito a sinais com componentes tipo transiente, e isto se aplica a modalidades do sistema decodificador da invenção, empregando TNS. Em uma codificação convencional estéreo L/R e M/S, o filtro TNS pode ser aplicado como uma última etapa de processamento no domínio de frequência diretamente antes da transformação inversa. No caso de codificação estéreo de predição complexa, no entanto, é frequentemente vantajoso aplicar filtro TNS de sinais de mistura descendente e residual, ou seja antes da matriz de mistura ascendente. Em outras palavras, o TNS se aplica a combinações lineares dos canais direito e esquerdo, com diversas vantagens. Primeiro, pode resultar que, em uma dada situação, o TNS seja vantajoso apenas para o sinal de mistura descendente. Então, a filtragem TNS pode ser suprimida ou omitida para o sinal residual, que significa um uso mais econômico da largura de banda disponível, e que os coeficientes de filtro TNS precisam apenas ser transmitidos para o sinal de mistura descendente. Segundo, a computação da representação sobreamostrada do sinal de mistura descendente (i.e. dados MDST derivados de dados MDCT, de modo a formar uma representação domínio de frequência), requerido na codificação de predição complexa, pode requerer que a representação de domínio de tempo do sinal de mistura descendente seja computável, que, por sua vez, significa que o sinal de mistura descendente seja preferivelmente disponível como sequência de tempo de espectro MDCT, obtido de maneira uniforme. Se o filtro TNS fosse aplicado ao decodificador depois da matriz de mistura ascendente que converte uma representação de mistura descendente/ residual para uma representação esquerda/ direita, apenas uma sequência de espectro MDCT residual TNS do sinal de mistura descendente seria disponível, que tornaria o cálculo eficiente do espectro MDST correspondente muito desafiador, especialmente se o canal esquerdo e canal direito usarem filtros TNS com diferentes características.
[0026] Deve ser enfatizado que a disponibilidade de uma sequência de tempo do espectro MDCT não se trata de um critério absoluto para obter um ajuste de representação MDST, para servir como base para codificação de predição complexa. Em adição à evidência experimental, este fato pode ser explicado pelo fato de o TNS ser geralmente aplicado apenas em frequências mais altas, i.e. acima de poucos kHz, de modo que o sinal residual filtrado por TNS corresponda aproximadamente a um sinal residual não-filtrado para frequências mais baixas. Assim, a invenção pode ser configurada como decodificador para codificação estéreo de predição complexa, onde os filtros TNS são colocados em uma posição diferente que a posição a montante do estágio de mistura ascendente, como indicado abaixo.
[0027] Em uma modalidade, o sistema decodificador inclui pelo menos um módulo TNS adicional localizado a jusante do estágio de mistura ascendente, isto é, por meio de um arranjo seletor, quaisquer dos módulos TNS a montante do estágio de mistura ascendente, ou módulos TNS a jusante do estágio de mistura descendente. Em certas circunstâncias, a computação da representação domínio de frequência complexa não requer que a representação domínio de tempo do sinal de mistura descendente seja computável. Ademais, como acima, o decodificador pode ser seletivamente operável em um modo de codificação direta ou conjunta, sem aplicar o coeficiente de predição complexa, e, então, pode ser mais adequado aplicar a localização convencional dos módulos TNS, i.e., como uma das últimas etapas de processamento no domínio de frequência.
[0028] Em uma modalidade, o sistema decodificador é adaptado para economizar recursos de processamento, e possivelmente energia, desativando o módulo para computar uma segunda representação de domínio de frequência do sinal de mistura descendente, quando este último não é necessário. Supõe-se que o sinal de mistura descendente seja particionado em sucessivos blocos de tempo, cada um deles associado a um valor do coeficiente de predição complexa. Este valor pode ser determinado por uma decisão tomada para cada bloco de tempo por um codificador cooperando com o decodificador. Ademais, nesta modalidade, o módulo, para computar uma segunda representação domínio de frequência do sinal de mistura descendente, é adaptado para se desativar, por um dado bloco de tempo, se o valor absoluto da parte imaginária do coeficiente de predição complexa for zero, ou menor que uma predeterminada tolerância. A desativação do módulo pode implicar que nenhuma segunda representação de domínio de frequência do sinal de mistura descendente seja computada para este bloco de tempo. Se a desativação não ocorrer, a segunda representação de domínio de frequência (i.e. conjunto de coeficientes MDST) é multiplicada por zero, ou por um número substancialmente da mesma ordem de magnitude que o épsilon da máquina (unidade de arredondamento) do decodificador, ou algum outro valor limite adequado.
[0029] Em um desenvolvimento adicional da modalidade precedente, a economia de recursos de processamento é conseguida em subnível de bloco de tempo, no qual o sinal de mistura descendente é particionado. Por exemplo, tal subnível em um bloco de tempo pode ser uma banda de frequência, onde o codificador determina um valor de coeficiente de predição complexa para cada banda de frequência. Similarmente, o módulo para produzir uma segunda representação de domínio de frequência é adaptado para suprimir sua operação para uma banda de frequência em um bloco de tempo, no qual o coeficiente de predição complexa é zero ou tem magnitude menor que uma certa tolerância.
[0030] Em uma modalidade, os primeiros componentes espectrais são coeficientes de transformação, arranjados em um ou mais blocos de tempo de coeficientes de transformação, cada um deles gerado pela aplicação de uma transformação para um segmento de tempo de um sinal de domínio de tempo. Ademais, o módulo para computar uma segunda representação de domínio de frequência do sinal de mistura descendente é adaptado para: • derivar um ou mais primeiros componentes intermediários a partir de pelo menos alguns dos primeiros componentes espectrais; • formar uma combinação dos citados um ou mais componentes espectrais, de acordo com pelo menos uma porção de uma ou mais respostas de impulso, para obter um ou mais segundos componentes intermediários; e • derivar os citados um ou mais segundos componentes espectrais a partir do citado um ou mais segundos componentes intermediários.
[0031] Este procedimento provê uma computação da segunda representação de domínio de frequência diretamente da primeira representação de domínio de frequência, como descrito na U.S. No 6.980.933 B2, notavelmente nas colunas 8 a 28, e na particular equação 41 na mesma. Como aqueles habilitados na técnica deverão perceber, a computação não é realizada via domínio de tempo, em oposição, por exemplo, à transformação inversa seguida de uma transformação diferente.
[0032] Para uma modalidade exemplar da codificação estéreo de predição complexa, de acordo com a presente invenção, estimou-se que a complexidade computacional aumenta apenas ligeiramente (significativamente menos que o aumento causado pela codificação estéreo de predição complexa no domínio QMF) em relação a estéreo L/R ou M/S tradicional. Uma modalidade deste tipo, incluindo computação exata dos segundos componentes espectrais, introduz um atraso, tipicamente apenas pouco porcento mais longo que aquele introduzido por uma implementação baseada em QMF (assumindo que o comprimento de bloco de tempo seja 1014 amostras, e comparando com o atraso do banco de filtro de análise / síntese QMF híbrido de 961 amostras).
[0033] Adequadamente, em pelo menos algumas modalidades anteriores, as respostas de impulso são adaptadas para uma transformação através da qual a primeira representação de domínio de frequência é obtenível, e, mais precisamente, de acordo com suas características de resposta de frequência.
[0034] Em algumas modalidades, a primeira representação de domínio de frequência do sinal de mistura descendente é obtida pela transformação que está sendo aplicada em conexão com funções de janela de análise (funções de recorte, por exemplo, janela retangular, janela senoidal, janela derivada Kaiser-Bessel), cujo objetivo é prover uma segmentação temporal, sem introduzir uma quantidade danosa de ruído, ou mudar o espectro de maneira indesejável. Possivelmente, tais funções de janela são parcialmente sobrepostas. Então, preferivelmente, as características de resposta de frequência da transmissão dependem das características das citadas uma ou mais funções de janela de análise
[0035] Ainda com referência às modalidades empregando computação da segunda representação de domínio de frequência dentro do domínio de frequência, é possível diminuir a carga computacional envolvida, usando uma segunda representação de domínio de frequência aproximada. Tal aproximação pode ser conseguida, não requerendo informação completa na qual basear a computação. Pelos ensinamentos constantes na U.S. No6.980.933B2, por exemplo, os primeiros dados de domínio de frequência, a partir de três blocos de tempo, são requeridos para calcular exatamente a segunda representação de domínio de frequência do sinal de mistura descendente em um bloco, especificamente, o bloco contemporâneo com o bloco de saída, bloco precedente e bloco subsequente. Para o propósito de codificação de predição complexa, de acordo com a presente invenção, aproximações adequadas podem ser obtidas omitindo ou substituindo por zero os dados emitidos do bloco subsequente (através do que operação do módulo pode se tornar causal, ou seja, não contribui para atraso) e/ou a partir do bloco precedente, de modo que a computação da segunda representação de domínio de frequência se baseie em dados provindos de um ou dois blocos de tempo apenas. Deve ser notado que mesmo embora a omissão dos dados de entrada implique em definir uma nova escala para a segunda representação de domínio de frequência, no sentido que - i.e. deixe de representar potência igual - ainda seja usada como base para codificação de predição complexa, desde que seja computada de maneira equivalente em ambas extremidades de codificador e decodificador. Na verdade, uma possível redefinição de escala deste tipo pode ser compensada por uma correspondente mudança do valor do coeficiente de predição.
[0036] Ainda outro método aproximado para computar um componente espectral da segunda representação de domínio de frequência dos sinais de mistura descendente combina a combinação de pelo menos dois componentes a partir da primeira representação de domínio de frequência. O último componente pode ser adjacente com respeito a tempo e/ou frequência. Alternativamente, eles podem ser combinados por filtragem de resposta de impulso finito (FIR) com relativamente poucos degraus (taps). Por exemplo, em um sistema aplicando um tamanho de bloco de tempo 1024, tais filtros FIR podem incluir 2, 3, 4..etc. degraus. Descrições de métodos de computação aproximada desta natureza podem ser encontradas, por exemplo, na U.S 2005/0197831A1. Se for usada uma função de janela, conferindo pesos relativamente menores para as proximidades de cada limite de bloco de tempo, por exemplo, pode ser conveniente que uma função não-retangular se baseie nos segundos componentes espectrais no mesmo bloco de tempo, implicando que uma quantidade diferente de informação seja disponível para os componentes mais extremos. O erro de aproximação possivelmente introduzida por tal prática, em alguma extensão é suprimido pela forma da função de janela.
[0037] Em uma modalidade de um decodificador, que é projetado para produzir um sinal estéreo de domínio de tempo, é incluída a possibilidade de alternar entre uma codificação estéreo direta ou conjunta e codificação de predição complexa. Isto é conseguido provendo: • uma chave seletivamente operável, quer como estágio passante (sem modificar os sinais) ou como transformação de soma-e- diferença; • um estágio de transformação inversa, para realizar transformação de frequência- para-tempo; e • um arranjo seletor para suprir o estágio de transformação inversa quer com um sinal codificado diretamente (ou conjuntamente) ou com um sinal codificado por predição complexa.
[0038] Como aqueles habilitados na técnica perceberão, tal flexibilidade na parte do decodificador confere liberdade ao codificador para escolher entre codificação direta ou conjunta convencional e coeficiente de predição complexa. Então, nos casos onde o nível de qualidade de codificação estéreo M/S conjunta ou codificação estéreo L/R direta convencional não pode ser ultrapassada, esta modalidade pode pelo menos garantir que o mesmo nível seja mantido. Assim, o decodificador, de acordo com esta modalidade, pode ser considerado sobreconjunto, com respeito à técnica relacionada.
[0039] Outro grupo de modalidades de sistema decodificador efetua computação dos segundos componentes espectrais via domínio de tempo. Mais precisamente, o inverso da transformação, através da qual os primeiros componentes espectrais foram obtidos (ou são obteníveis), é aplicado e seguido de uma transformação diferente, tendo como saída os segundos componentes espectrais. Em particular, um MDCT inverso pode ser seguido de um MDST. Para reduzir o número de transformações e transformações inversas, a saída do MDST, em tal modalidade, pode ser suprida a ambos MDST e terminais de saída (possivelmente precedidas de etapas adicionais de processamento) do sistema decodificador.
[0040] Para uma implementação exemplar de codificação estéreo predição complexa, de acordo com invenção, estimou-se que a complexidade computacional aumenta apenas ligeiramente (ainda significativamente menos que o aumento causado pela codificação estéreo de predição complexa no domínio QMF) em relação ao estéreo L/R ou M/S convencional.
[0041] Como desenvolvimento adicional da modalidade relativa ao parágrafo anterior, o estágio de mistura ascendente pode compreender um estágio de transformação inversa adicional para processar o sinal lateral. Então, o estágio soma-e-diferença é suprido com a representação de domínio de frequência do sinal lateral gerada pelo citado estágio de transformação inversa adicional, e representação de domínio de tempo do sinal de mistura descendente gerada pelo estágio de transformação inversa, como mencionado acima. Deve ser lembrado que vantajosamente, a partir do ponto de vista de complexidade computacional, o último sinal é suprido a ambos estágio de soma-e- diferença e o citado estágio de transformação diferente, também mencionado acima.
[0042] Em uma modalidade, um decodificador projetado para produzir um sinal estéreo de domínio de tempo inclui a possibilidade de alternar entre codificação estéreo L/R direta ou conjunta, e codificação estéreo de predição complexa. Isto é conseguido provendo: • uma chave operável, como um estágio passante ou um estágio de soma-e-diferença; • um estágio de transformação inversa adicional para computar uma representação de domínio de frequência do sinal lateral; • um arranjo seletor para conectar os estágios de transformação inversa a ambos um estágio de soma-e-diferença conectado a um ponto a montante do estágio de mistura ascendente e a jusante da chave (preferivelmente, quando a chave foi atuada para funcionar como filtro de passagem, como pode ser o caso na decodificação de um sinal estéreo gerado por codificação de predição complexa) ou uma combinação de sinal de mistura descendente a partir da chave, e sinal lateral a partir do somador ponderado (preferivelmente, quando a chave é atuada para funcionar como estágio de soma-e- diferença, como pode ser o caso na decodificação de um sinal estéreo codificado diretamente). como aqueles habilitados na técnica deverão perceber, isto confere liberdade ao codificador para escolher entre codificação direta ou conjunta convencional e codificação de predição complexa, que significa que pode ser garantido um nível de qualidade pelo menos equivalente àquela da codificação direta ou conjunta.
[0043] Em uma modalidade, o sistema codificador, de acordo com segundo aspecto da presente invenção, pode compreender um estimador para estimar o coeficiente de predição complexa, com objetivo de reduzir ou minimizar a potência de sinal ou a potência de sinal média do sinal residual. A minimização pode ocorrer em um intervalo de tempo, preferivelmente em um segmento de tempo ou bloco de tempo ou quadro de tempo do sinal a ser codificado. O quadrado da amplitude pode ser tomado como medida da potência de sinal momentâneo e a integral em um intervalo de tempo da amplitude quadrada (forma de onda) podem ser tomadas como medida da potência de sinal média naquele intervalo. Adequadamente, o coeficiente de predição complexa é determinado com base no bloco de tempo e banda de frequência, ou seja, seu valor é colocado de modo a reduzir a potência média (energia total) do sinal residual naquele bloco de tempo e banda de frequência. Em particular, módulos para estimar parâmetros de codificação de estéreo, tal como IID ICC e IPD ou similares, podem prover uma saída, na qual o coeficiente de predição complexa pode ser computado, de acordo com relações matemáticas bem conhecida por aqueles habilitados na técnica.
[0044] Em uma modalidade, o estágio de codificação do sistema decodificador é adicionalmente operável para funcionar como estágio passante, de modo a permitir codificação estéreo direta. Selecionando a codificação estérea direta, em situações onde se espera prover alta qualidade, o sistema codificador pode garantir que o sinal estéreo codificado tenha pelo menos a mesma qualidade que aquele obtido na codificação direta. Similarmente, em situações onde um maior esforço computacional incorrido pelo coeficiente de predição complexa não é motivado por um significativo aumento de qualidade, uma opção de economizar recursos computacionais é prontamente disponível ao sistema codificador. A decisão entre codificação conjunta, direta, predição real, e complexa no codificador em geral se baseia na razão taxa:otimização de distorção.
[0045] Em uma modalidade, o sistema decodificador pode compreender um modo para computar uma segunda representação de domínio de frequência diretamente (ou seja, sem aplicar uma transformação inversa ao domínio de tempo e sem usar dados de domínio de tempo do sinal) baseado nos primeiros componentes espectrais. Em relação às correspondentes modalidades do sistema decodificador descritas acima, este módulo pode ter estrutura análoga, especificamente compreender operações de processamento análogas, mas em ordem diferente, de modo que o codificador seja adaptado para produzir dados adequados para entrada no lado decodificador. Para ilustrar esta modalidade, assume-se que o sinal estéreo a ser codificado compreenda canal médio e canal lateral, ou seja transformado nesta estrutura, e o estágio de codificação seja adaptado para receber uma primeira representação de domínio de frequência. O estágio de codificação compreende um módulo para computar uma segunda representação de domínio de frequência do canal médio. (Aqui, as primeira e segunda representações de domínio de frequência são como definidas acima, em particular as primeiras representações de domínio de frequência podem ser representações MDCT e a segunda representação de domínio de frequência representação MDST). O estágio de codificação, adicionalmente, compreende um somador ponderado, para computar um sinal residual como combinação linear, a partir do sinal lateral e das duas representações de domínio de frequência do sinal médio ponderadas pelas partes real-para-imaginário, respectivamente, do coeficiente de predição complexa. O sinal médio, ou adequadamente a primeira representação de domínio de frequência do mesmo, pode ser usado diretamente como sinal de mistura descendente. Nesta modalidade, adicionalmente, o estimador determina o valor do coeficiente de predição complexa com objetivo de minimizar a potência ou potência média do sinal residual. A operação final (otimização) pode ser efetuada quer por controle de retorno, onde o estimador pode receber o sinal residual obtido pelos valores de coeficiente de predição complexa a serem ajustados posteriormente, se necessário, ou a maneira de avanço, pela computação efetuada diretamente nos canais esquerdo/ direito de um sinal estéreo original ou canais médio/ lateral. O método de avanço é preferido, através do qual o coeficiente de predição complexa é determinado diretamente (particularmente de maneira não-interativa ou de não-retorno) nas primeira e segunda representações de domínio de frequência do sinal médio e primeira representação de domínio de frequência do sinal lateral. Deve ser notado que a determinação do coeficiente de predição complexa pode ser seguida de uma decisão com respeito à aplicação de codificação direta, conjunta, predição real ou predição complexa, onde a qualidade resultante (preferivelmente, levando em conta a qualidade de percepção isto é, efeito sinal-para- máscara) de cada opção é considerada; assim as declarações acima não devem ser construídas no sentido de não existir nenhum mecanismo de retorno no codificador.
[0046] Em uma modalidade, o sistema decodificador compreende módulos para computar uma segunda representação de domínio de frequência do sinal médio (ou sinal de mistura descendente) via domínio de tempo. Deve ser entendido que os detalhes da implementação relativos a esta modalidade, pelo menos na extensão da computação da segunda representação de domínio de frequência, são similares, ou podem ser a justados analogamente às modalidades de decodificador correspondentes. Nesta modalidade, o estágio de codificação compreende: • um estágio de soma-e-diferença, para converter o sinal estéreo em uma forma compreendendo canal médio e canal lateral. • um estágio de transformação, para prover representação de domínio de frequência de canal lateral e representação de domínio de frequência de valor complexo (então sobre-amostrado) do canal médio; e • um somador ponderado para computar um sinal residual, onde o coeficiente de predição complexa é usado como peso.
[0047] Aqui, o estimador pode receber o sinal residual, e determinar, possivelmente no modo de controle de retorno, o coeficiente de predição complexa, de modo a reduzir ou minimizar a potência ou média do sinal residual. Preferivelmente, no entanto, o estimador recebe o sinal estéreo a ser codificado, e determina o coeficiente de predição baseado nisto. É vantajoso do ponto de vista de economia computacional usar a representação de domínio de frequência amostrada do canal lateral, porque esta não será submetida a uma multiplicação por um número complexo nesta modalidade. Adequadamente, o estágio de transformação compreende estágios MDCT e MDST, arranjados em paralelo, ambos tendo a representação de domínio de frequência do canal médio como entrada. Assim, são produzidas uma representação de domínio de frequência sobre- amostrada do canal médio e representação de domínio de frequência criticamente amostrada do canal médio.
[0048] Deve ser notado que os métodos e aparelhos descritos nesta seção podem ser aplicados, depois de modificações apropriadas dentro da capacidade daqueles habilitados na técnica, incluindo explicação de rotina, para codificar sinais tendo mais que dois canais. As modificações na operabilidade multicanal podem avançar ao longo das linhas das seções 4 e 5 no trabalho de J.Herre et al, citado acima.
[0049] Componentes de duas ou mais modalidades delineadas acima podem ser combinados, a menos que claramente complementares em modalidades posteriores. O fato de dois componentes serem declarados em duas concretizações, não isenta que também possam ser combinados com vantagem. Similarmente, em modalidades posteriores, também pode ser provida a omissão de certos componentes não-necessários ou não-essenciais ao propósito desejado. Por exemplo, o sistema decodificador, de acordo com a invenção, pode ser configurado sem estágio de quantização, em casos onde o sinal codificado, a ser processado, não é quantizado ou já está disponível em forma adequada, para processamento no estágio de mistura ascendente.
Breve Descrição dos Desenhos
[0050] A invenção será agora ilustrada pelas modalidades descritas na seção que se segue com referência aos desenhos anexos nos quais:
[0051] a figura 1 consiste de dois diagramas de blocos generalizados, mostrando decodificadores baseados em QMF de acordo com a técnica anterior;
[0052] a figura 2 é um diagrama de blocos generalizado de um sistema decodificador estéreo baseado em MDCT com predição complexa, de acordo com uma modalidade da presente invenção, na qual a representação complexa de um canal do sinal a ser decodificado é computada no domínio de frequência;
[0053] a figura 3 é um diagrama de blocos generalizado de um sistema decodificador estéreo baseado em MDCT com predição complexa, de acordo com uma modalidade da presente invenção, na qual a representação complexa de um canal do sinal a ser decodificado é computada no domínio de tempo;
[0054] a figura 4 mostra uma modalidade alternativa do sistema decodificador da figura 2, na qual é selecionável a localização do estágio TNS ativo;
[0055] a figura 5 compreende diagramas de blocos generalizados mostrando sistemas codificadores estéreo baseados em MDCT de predição complexa, de acordo com modalidades de outro aspecto da presente invenção;
[0056] a figura 6 é um diagrama de blocos generalizado de um codificador estéreo baseado em MDCT de predição complexa, de acordo com uma modalidade da presente invenção, no qual uma representação complexa de um canal do sinal a ser codificado é computada com base na representação do domínio de tempo do mesmo;
[0057] a figura 7 mostra uma modalidade alternativa do sistema codificador da figura 6, operável também no modo de codificação L/R direta;
[0058] a figura 8 é um diagrama de blocos generalizado de um sistema decodificador estéreo baseado MDCT de predição complexa, de acordo com uma modalidade da presente invenção, no qual uma representação complexa do canal de sinal a ser codificado é computada com base na primeira representação de domínio de frequência, qual sistema decodificador é operável também no modo de codificação L/R direta;
[0059] a figura 9 mostra uma modalidade alternativa de um sistema codificador da figura 7, que adicionalmente inclui um estágio TNS arranjado a jusante do estágio codificador;
[0060] a figura 10 mostra modalidades alternativas da porção denominada A nas figuras 2 e 8;
[0061] a figura 11 mostra uma modalidade alternativa do sistema codificador da figura 8, que adicionalmente inclui dois dispositivos modificadores de domínio de frequência, respectivamente arranjados a jusante e a montante do estágio de codificação;
[0062] a figura 12 é uma representação gráfica dos resultados de teste de audição em 96 Kb/s, a partir de seis elementos, mostrando diferentes opções de compromisso de qualidade-complexidade para computação ou aproximação do espectro MDST, onde os pontos de dados colocados como "+" se referem a referência oculta, "x" se refere a uma ancoragem limitada por banda de 3,5 kHz, "*" se refere a um estéreo tradicional USAC (M/S ou L/R); "□" se refere a uma codificação estéreo unificada de domínio MDCT por predição complexa, com a parte imaginária do coeficiente de predição desabilitada (i.e. predição valorizada real, que não requer MDST), "■" se refere a codificação estéreo unificado de domínio MDCT usando o quadro MDCT corrente, para computar uma aproximação de MDCT, "O" se refere a uma codificação estéreo unificada de domínio MDCT por predição complexa, usando quadros MDCT corrente e prévios para computar uma aproximação da MDCT; e "•" se refere à codificação estéreo unificada de domínio MDCT, usando quadros MDCT corrente, prévios, e subsequentes para computar MDCT;
[0063] a figura 13 representa os dados da figura 12, no entanto, como escores diferenciais em relação à codificação estéreo unificada de domínio MDCT de predição complexa, usando um quadro corrente MDCT para computar uma aproximação de MDCT;
[0064] a figura 14 compreende diagramas de blocos generalizados, mostrando três modalidades de um sistema decodificador, de acordo com modalidades da presente invenção;
[0065] a figura 15 é um fluxograma mostrando um método de decodificação, de acordo com uma modalidade da presente invenção; e
[0066] a figura 16 é um fluxograma mostrando um método de codificação, de acordo com uma modalidade da presente invenção.
Descrição Detalhada das Modalidades I - Sistemas Decodificadores
[0067] A figura 2 mostra, na forma de um diagrama de blocos generalizado, um sistema decodificador para decodificar um fluxo de bit compreendendo pelo menos um valor de coeficiente de predição complexa α= αR + iα1 e representação MDCT de um sinal estéreo tendo canais de mistura descendente M e residual D. Partes real-para- imaginário α R e αI do coeficiente de predição foram quantizadas e/ou codificadas conjuntamente. Preferivelmente, no entanto, as partes real- para-imaginário são quantizadas independentemente e uniformemente, tipicamente com um tamanho de degrau de 0,1 (número adimensional). A resolução de banda de frequência usada para o coeficiente de predição complexa não é necessariamente a mesma que a resolução para bandas de fator de escala (sfb; i.e. um grupo de linhas MDCT que estão usando o mesmo tamanho de degrau de quantização MDCT e faixa de quantização), de acordo com standard MPEG. Em particular, a resolução de banda de frequência para o coeficiente de predição pode ser um que seja psico-acusticamente justificado, tal como escala Bark. Um desmultiplexador 201 é adaptado para extrair estas representações MDCT e o coeficiente de predição (parte de Control Information, como indicado na figura) a partir do fluxo de bit, que é suprido ao mesmo. Na verdade, mais informações de controle, que meramente o coeficiente de predição complexa, podem ser codificadas no fluxo de bit, por exemplo, instruções com respeito a se o fluxo de bit deve ser codificado em um modo de predição ou não-predição, informação TNS, etc. A informação TNS pode incluir valores de parâmetros TNS a serem aplicados a filtros TNS (síntese) do sistema decodificador. Se conjuntos idênticos de parâmetros TNS devem ser usados para diversos filtros TNS, tais como para ambos canais, é econômico receber estas informações na forma de bit, indicando a identidade dos conjuntos de parâmetros, ao invés de receber dois conjuntos de parâmetros independentemente. Informações também podem ser incluídas com respeito a se aplicar TNS antes ou depois do estágio de mistura ascendente, como apropriado, com base, por exemplo, em uma avaliação psico-acústico das duas opções disponíveis. Ademais, então, as informações de controle podem indicar larguras de banda individualmente limitadas para sinais de mistura descendente e residual. Para cada canal, as bandas de frequência acima de um limite de largura de banda não serão decodificadas, mas ajustadas em zero. Em certos casos, as bandas de frequência mais altas têm um conteúdo de energia tão baixo que já se encontram quantizadas em zero. A prática normal (cf parâmetro max_cfb no standard MPEG) tem sido usar a mesma limitação de largura de banda para ambos sinal de mistura descendente e sinal residual. No entanto, o sinal residual em extensão maior que o sinal de mistura descendente, tem seu conteúdo de energia localizado nas bandas de frequência mais baixas. Por conseguinte, colocar um limite de largura de banda superior dedicado no sinal residual, possibilita uma redução de taxa de bit sem uma perda significativa de qualidade. Por exemplo, isto pode ser governado por dois parâmetros independentes max_sfb, codificados no fluxo de bit, um para sinal de mistura descendente e um para sinal residual.
[0068] Nesta modalidade, a representação MDCT do sinal estéreo é segmentada em sucessivos quadros de tempo (ou blocos de tempo) compreendendo um número fixo de pontos de dados (i.e. 1024 pontos), um de diversos números fixos de pontos de dados (i.e. 128 ou 1024 pontos) ou um número variável de pontos. Como conhecido por aqueles habilitados na técnica, o MDCT é criticamente amostrado. A saída do sistema decodificador, indicada na parte direita do desenho, é um sinal estéreo de domínio de tempo tendo canais L (Left) Esquerdo e R (Right) Direito. Os módulos de dequantização 202 são adaptados para lidar com a entrada de fluxo de bit no sistema decodificador ou, onde apropriado, dois fluxos de bit obtidos depois da desmultiplexação de um fluxo de bit original, e correspondendo a cada um de canais de mistura descendente e residual. Os sinais de canal dequantizados são providos para um conjunto de chave 203, que são operáveis por modo passante ou modo de soma-e-diferença, correspondendo às respectivas matrizes de transformação.
Figure img0004
[0069] Como será adicionalmente discutido no próximo parágrafo, o sistema decodificador inclui um segundo conjunto de chaveamento 205. Ambos conjuntos de chaveamento 203 e 205, como a maioria das outras chaves e conjuntos de chaveamento nesta modalidade e nas modalidades a ser descrita, são operáveis em um modo seletivo de frequência. Isto permite uma grande variedade de modos de decodificação, i.e. modo de decodificação que depende de frequência, decodificação L/R e M/S, como conhecido na técnica relacionada. Então, o decodificador de acordo com a invenção pode ser pode ser considerado um sobreconjunto em relação à técnica relacionada.
[0070] Assumindo por agora que o conjunto de chaveamento 203 se encontre no modo passante, os sinais de canal dequantizados são passados. Nesta modalidade, através dos respectivos filtros TNS 204. Os filtros TNS 204 não são essenciais para a operação do sistema decodificador e podem ser substituídos por elementos passantes. Depois disto, o sinal é suprido para o segundo conjunto de chaveamento 205 de mesma funcionalidade que o conjunto de chaveamento 203 a montante. Quando sinais a montante de entrada como previamente descrito e com o segundo conjunto de chaveamento 205 ajustado em seu modo passante, a saída do primeiro é sinal de canal de mistura descendente e sinal de canal residual. O sinal de mistura descendente ainda representado pelo espectro MDCT em um tempo sucessivo é suprido a uma transformação real-para-imaginário 206, adaptada para computar com base no espectro MDCT do sinal de mistura descendente. Nesta modalidade, um quadro MDST se baseia em três quadros MDCT dos quadros precedente, corrente (ou contemporâneo), e subsequente. É indicado simbolicamente (Z-1, Z) que o lado de entrada da transformação real-para-imaginário 206 compreende componentes de atraso.
[0071] A representação MDST do sinal de mistura descendente obtida da transformação real-para-imaginário 206 é ponderada pela parte imaginária αI do coeficiente de predição e adicionada à representação MDCT do sinal de mistura descendente ponderado pela parte real αR do coeficiente de predição e representação MDCT do sinal residual. As duas adições e multiplicações são realizadas pelos multiplicadores e somadores 210, 211 formando (funcionalmente) um somador ponderado, que é suprido com o valor do coeficiente de predição complexa α codificado no fluxo de bit inicialmente recebido uma vez a cada quadro de tempo. Também pode ser determinado mais frequentemente, tal como, uma vez a cada banda de frequência em um quadro, as bandas de frequência são uma partição motivada psico- acusticamente. Isto também pode ser determinado menos frequentemente, como será discutido abaixo em conexão com sistemas codificadores de acordo com a invenção. A transformação real-para- imaginário 206 é sincronizada com o somador ponderado, de maneira que o quadro corrente MDST do sinal de canal de mistura descendente se combine com quadros MDCT contemporâneos de cada sinal de quadro de mistura descendente e sinal de canal residual. A soma destes três sinais resulta um sinal lateral S= Re [αM] + D. Nesta expressão, M inclui ambas representações MDCT e MDST do sinal de mistura descendente, especificamente M = MMDCT - iMMDS, enquanto D= DMDCT em valor real. Assim, obtém-se um sinal estéreo tendo canal de mistura descendente e canal lateral, através do que uma transformação de soma-e-diferença 207 restaura os canais esquerdo e direito, como segue:
Figure img0005
[0072] Estes sinais são representados no domínio MDCT. A última etapa do sistema decodificador consiste na aplicação de um MDCT 209 inverso a cada um dos canais, obtendo uma representação de domínio de frequência do sinal de estéreo esquerdo direito.
[0073] Uma implementação possível da transformação real-para- imaginário 206 possível é adicionalmente descrita no Pedido de Patente U.S. No6.980.933 B2 como indicado acima. Com a fórmula 41 nesta, a transformação pode ser expressa como filtro de resposta de impulso finito, i.e. para pontos pares,
Figure img0006
onde S(2v) é 2v ésimo ponto de dado MDST, XI, XII, XIII são dados MDCT de cada um dos quadros, e N o comprimento do quadro. Ademais, hI,III e hII são respostas de impulso, que dependem da função de janela aplicada e, por conseguinte, são determinadas para cada escolha de função de janela, tal como retangular, senoidal, e derivada de Kaiser- Bessel, e para cada comprimento de quadro. A complexidade desta computação pode ser reduzida omitindo as respostas de impulso que tenham um conteúdo de energia relativamente pequeno, e contribui relativamente menos para dados MDST. Alternativamente ou adicionalmente a esta simplificação, as próprias respostas de impulso podem ser encurtadas, isto é, do comprimento de total do quadro N para um número menor de pontos. Por exemplo, o comprimento de resposta de impulso pode ser diminuído de 1024 pontos (degraus) para 10 pontos, e um encurtamento ainda maior pode ser considerado.
Figure img0007
outras soluções podem ser encontradas na US 2005/ 0197831.
[0074] É adicionalmente possível reduzir a quantidade de dados de entrada na qual a computação se baseia. Para ilustrar, a transformação real-para-imaginário 206, e suas conexões a montante, como indicada como a porção "A" no desenho, pode ser substituída por variantes simplificadas, das quais A' e A"estão mostradas na figura 10. A variante A'não provê uma representação imaginária aproximada do sinal. Aqui, uma computação MDST apenas leva em conta o quadro corrente e quadro anterior. Com respeito à fórmula acima neste parágrafo, isto pode ser efetuado estabelecendo XIII (p ) = 0 para p = 0,...., N-1 - onde índice III denota o quadro de tempo subsequente. Pelo fato de a variante A' não requerer o espectro MDCT do quadro de tempo subsequente como entrada, o cálculo de MDST não incorre em qualquer atraso de tempo. Claramente; esta aproximação reduz em alguma extensão a precisão do sinal MDST obtido, mas também pode implicar no fato de a energia do sinal ser reduzida; que pode ser compensado por um aumento de α em consequência da natureza da codificação de predição.
[0075] Como também mostrado na figura 10, a variante A, que usa como entrada somente o dado MDCT para o quadro de tempo corrente. A variante A questionavelmente produz como entrada uma representação MDST menos precisa que a variante A', por outro lado, opera com atraso zero, exatamente como a variante A', e tem uma menor complexidade computacional. Como mencionado acima, as propriedades de codificação de forma de onda não são afetadas, desde que a mesma aproximação seja usada tanto no sistema codificador quanto no sistema decodificador.
[0076] Deve ser notado que independente de qual variante A, A', A'' ou qualquer desenvolvimento destas seja usada, apenas aquelas porções do espectro MDST precisam ser computadas, para quais a parte imaginária do coeficiente de predição complexa é diferente de zero, αi # 0. Em circunstâncias práticas, isto significa que o valor absoluto Iα1I da parte imaginária do coeficiente de predição complexa é maior que um predeterminado valor limite, que pode ser relacionado a uma unidade arredondada do hardware usado. No caso de a parte imaginária do coeficiente for zero para todas as bandas de frequência em um quadro de tempo, não há necessidade de computar qualquer dado MDST para aquele quadro. Assim, adequadamente, a transformação real-para-imaginário 206 é adaptada para responder a ocorrências de valores Iα1I muito pequenos, sem gerar saída MDST, o que economiza recursos computacionais. Em modalidades onde mais quadros que meramente o quadro corrente são usados para produzir um quadro de dado MDST, no entanto, qualquer unidade a montante da transformação 206 deve adequadamente continuar operando, mesmo que nenhum espectro MDST seja necessário - em particular, o segundo conjunto de chaveamento 205 deve continuar enviando espectro MCT, de modo que dados de entrada suficientes já se encontrem disponíveis para transformação real-para-imaginário 206, quando do próximo quadro de tempo associado a um coeficiente de predição diferente de zero; que, com certeza, pode ser o próximo bloco de tempo.
[0077] Voltando para a figura 2, a função do sistema decodificador foi descrita assumindo que ambos conjuntos de chaveamento 203, 205 se encontram em seus respectivos modos passantes. Como será discutido aqui, o sistema decodificador pode também decodificar sinais não-codificados por predição. Para este uso, o segundo conjunto de chaveamento 205 será estabelecido no modo de soma-e-diferença, e adequadamente, como indicado nos desenhos, um arranjo seletor 208 será estabelecido em sua posição mais baixa, daí garantindo que os sinais sejam supridos diretamente à transformação inversa 209 a partir de um ponto fonte entre filtros TNS 204 e o segundo conjunto de chave 205. Para garantir uma decodificação correta, o sinal adequadamente tem forma L/R no ponto de fonte. Por conseguinte, para garantir que a transformação real-para-imaginário seja suprida com o sinal médio correto (isto é, de mistura descendente) em todos os instantes (ao invés digamos intermitentemente por um sinal esquerdo), o segundo conjunto de chaveamento 205 é preferivelmente ajustado em seu modo de soma- e-diferença durante decodificação do sinal estéreo de codificação por não-predição. Como deve ser notado a partir disto, a codificação por predição pode ser substituída por uma codificação direta ou conjunta convencional para certos quadros baseados, por exemplo, em uma decisão com respeito a taxa de dados versus qualidade de áudio, cujo resultado pode ser comunicada do codificador para o decodificador de vários meios, i.e. pelo valor de um bit indicador em cada quadro, ou pela ausência/ presença de um valor do coeficiente de predição. Estabelecidos estes fatos, o papel do primeiro conjunto de chaveamento 203 pode ser facilmente realizado. Na verdade, no modo de codificação de não-predição, o sistema decodificador pode processar ambos sinais de acordo com codificação estéreo direta (L/R) ou codificação conjunta (M/S), e operando um primeiro conjunto de chaveamento 203 quer em modo passante ou modo de soma-e-diferença, é possível garantir que o ponto de fonte seja sempre provido com sinal de codificado diretamente. Claramente, o conjunto de chaveamento 203, funcionando como estágio de soma-e-diferença, converte um sinal de entrada na forma M/S em sinal de saída (suprido para filtros TNS opcionais) na forma L/R.
[0078] O sistema decodificador recebe um sinal com respeito a se um particular quadro de tempo deve ser decodificado pelo sistema decodificador em um modo de codificação por predição ou não-predição. O modo de codificação por não-predição pode ser sinalizado pelo valor de um bit indicador dedicado em cada quadro ou pela ausência (ou valor zero) do coeficiente de predição. O modo de predição pode ser comunicado analogamente. Uma implementação particularmente vantajosa, que permite redução reversa (fallback) sem qualquer supervisão, faz uso de um quarto valor reservado do campo de dois bits ms_mask_present (ver MPEG -2AAC O Documento ISO/IEC 13818-7) transmitido per quadro de tempo, e definido como segue:
Figure img0008
[0079] Redefinindo o valor 11 para significar "codificação de predição complexa", o codificador pode ser operado em todos os modos disponíveis, particularmente codificação M/S e L/R, sem penalizar a taxa de bit, e ainda sendo capaz de receber um sinal indicando o modo de codificação de predição complexa para aqueles quadros relevantes.
[0080] A figura 4 mostra um sistema decodificador de mesma estrutura geral que aquela mostrada na figura 2, mas incluindo, no entanto, pelo menos duas estruturas diferentes. Primeiro, o sistema da figura 4 inclui chaves 404, 411 que permitem aplicação de alguma etapa de processo envolvendo modificação de domínio de frequência a montante ou a jusante do estágio de mistura ascendente. Isto é conseguido, de um lado, por um primeiro conjunto de modificadores de domínio de frequência 403 (desenhado como filtros síntese TNS nesta figura) provido junto com a primeira chave 404 a jusante dos módulos de dequantização 401, e um primeiro conjunto de chaveamento 402, mas a montante do segundo conjunto de chaveamento 405 arranjado imediatamente a montante do estágio de mistura ascendente 406, 407, 408, 409. Por outro lado, o sistema decodificador inclui um segundo conjunto de modificadores de domínio de frequência 410 provido junto com uma segunda chave 411 a jusante do estágio de mistura ascendente 406, 407, 408, 409, mas a montante de um estágio de transformação inversa 412. Vantajosamente, como indicado no desenho, cada modificador de domínio de frequência é arranjado em paralelo com uma linha passante, que é conectada a montante do lado de entrada do modificador de domínio de frequência, e conectada a jusante da chave associada. Com esta estrutura, o modificador de domínio de frequência é suprido com o sinal de dado em todos instantes, permitindo um processamento no domínio de frequência baseado em mais quadros de tempo que meramente o quadro de tempo corrente. A decisão com respeito a se aplicar o primeiro 403 ou os segundos conjuntos de modificadores de domínio de frequência 410 pode ser tomada pelo codificador (e transmitida pelo fluxo de bit), ou pode se basear se a codificação de predição foi aplicada ou em algum outro critério adequado a circunstâncias práticas. Por exemplo, se o modificador de domínio de frequência for constituído de filtros TNS, então o primeiro conjunto 403 pode ser vantajoso para alguns tipos de sinal, enquanto o segundo conjunto 410 pode ser vantajoso para outros tipos de sinais. Se o resultado da seleção for codificado no fluxo de bit, então, consequentemente, o sistema decodificador ativa o respectivo conjunto de filtros TNS.
[0081] Para facilitar o entendimento do sistema decodificador da figura 4, deve ser notado explicitamente que a decodificação do sinal codificado diretamente (L/R) ocorre quando α= 0 (implicando que pseudo L/R e L/R são idênticos, e que o canal lateral e canal residual não são diferentes), o primeiro conjunto de chaveamento 402 no modo passante, o segundo conjunto de chaveamento no modo de soma-e- diferença, daí fazendo que o sinal tenha a forma M/S entre o segundo conjunto de chaveamento 405 e um estágio de soma-e-diferença 409 do estágio de mistura ascendente. Como o estágio de mistura ascendente efetivamente é uma etapa passante, é imaterial que (usando as respectivas chaves 404, 411) primeiro e segundo modificadores domínio de frequência sejam ativados.
[0082] A figura 3 ilustra um sistema decodificador, de acordo com uma modalidade que, em relação às modalidades das figuras 2 e 4, representa uma solução diferente para a provisão de dados MDST requeridos para proceder a uma mistura ascendente. Similarmente ao sistema decodificador descrito, o sistema da figura 3 compreende módulos de dequantização 301, um primeiro conjunto de chaveamento 302, operável nos modos passante ou soma-e-diferença, e filtros TNS (síntese) 303, todos arranjados em série a partir da extremidade de entrada do sistema decodificador. Os módulos a jusante deste ponto são seletivamente utilizados por meio de duas segundas chaves 305, 310, preferivelmente são operados conjuntamente, de modo que ambos estejam nas posições superior ou inferior, como indicado na figura. Na extremidade de saída do sistema decodificador, há um estágio de soma-e-diferença 312, e imediatamente a montante do mesmo, dois módulos MDCT inversos 306, 311, para transformar uma representação de domínio MDCT de cada canal em uma representação de domínio de tempo.
[0083] Na decodificação por predição complexa, em que o sistema decodificador é suprido com um fluxo de bit codificando um sinal estéreo de mistura descendente/ residual e valores de coeficiente de predição complexa, o primeiro conjunto de chaveamento 302 é colocado no modo passante, e as chaves 305, 310 colocadas na posição superior. A jusante dos filtros TNS, os dois canais (dequantizados, filtrados TNS, MDCT) de sinal estéreo são processados de diferentes maneiras. O canal de mistura descendente é provido, de um lado, para um multiplicador e somador 308, que soma a representação MDCT do canal de mistura descendente ponderado pela parte real αR do coeficiente de predição para a representação MDCT do canal residual e, por outro lado, para um 306 dos módulos de transformação inversa MDCT. A representação de domínio de frequência do canal de mistura descendente M, emitida a partir do módulo de transformação inversa MDCT 306, é suprida para o estágio de soma-e-diferença final 312, e para um módulo de transformação MDST 307. Este uso duplo da representação de domínio de tempo do canal de mistura descendente é vantajoso com respeito à complexidade computacional. A representação MDST do canal de mistura descendente, assim obtida, é suprida a um multiplicador e somador 309 adicional, que depois de ponderado com a parte imaginária α I, do coeficiente de predição, soma este sinal com uma combinação linear produzida pelo somador 308; então, a saída do somador 309 é um sinal de canal lateral S = Re (α M) + D. Similarmente ao sistema decodificador da figura 2, os multiplicadores e somadores 308, 309 podem ser prontamente combinados para formar um somador multissinal ponderado, que introduz representações MDCT e MDST do sinal de mistura descendente, representação MDCT do sinal residual, e valor do coeficiente de predição complexa. A jusante deste ponto na presente modalidade, apenas uma passagem pelo módulo de transformação MDCT inversa 311 permanece, antes de o sinal de canal lateral ser suprido ao estágio de soma-e-diferença final 312.
[0084] A necessária sincronicidade no sistema decodificador pode ser conseguida, aplicando os mesmos comprimentos de transformação e formas de janela a ambos módulos de transformação MDCT 306, 311 como já é prática na codificação M/S e L/R de frequência seletiva. Um atraso de um quadro é introduzido pela combinação de certas modalidades do módulo MDCT inverso 306 e modalidades do módulo MDST 307. Por conseguinte, são providos, cinco blocos de atraso 313 opcionais (ou instruções de software para este efeito em uma implementação de computador), de modo que a porção do sistema localizada a direita da linha tracejada pode ser atrasada de um quadro, em relação à porção esquerda, quando necessário. Aparentemente, todas interseções entre a linha tracejada e as linhas de conexão são providas com blocos de atraso, com exceção da linha de conexão entre o módulo MDCT inverso 306 e o módulo de transformação MDST 307, onde o atraso requer ser compensado.
[0085] A computação de dados MDST para um quadro de tempo requer dados provindos de um quadro da representação de domínio de tempo. No entanto, a transformação MDCT inversa é baseada em um quadro (corrente), dois quadros consecutivos (preferivelmente, prévio e corrente), ou três quadros consecutivos (preferivelmente, prévio, corrente e subsequente). Em virtude do bem conhecido cancelamento do domínio de tempo (TDAC) associado ao MDCT, a opção de três quadros consegue uma completa sobreposição dos quadros de entrada, e assim provendo a melhor precisão (e possivelmente perfeita), pelo menos nos quadros contendo este domínio de tempo. Claramente, MDCT inverso de três quadros opera com atraso de um quadro. Aceitando o uso de uma representação de domínio de tempo aproximada como entrada para a transformação MDST este atraso pode ser evitado, e, portanto, a necessidade de compensar atrasos entre diferentes porções do sistema decodificador. Na opção de dois quadros ocorre TDAC permitindo uma sobreposição/ soma na metade inicial do quadro, a ausência de TDCA implica que este pode ocorrer ao longo do quadro; no entanto uma representação MDST conseguida desta maneira, e usada como sinal intermediário em uma codificação de predição complexa ainda pode prover qualidade satisfatória.
[0086] O sistema decodificador ilustrado na figura 3 também pode ser operado em dois modos de decodificação de não-predição. Para decodificar um sinal estéreo codificado L/R diretamente, as segundas chaves 305, 310 são colocadas no modo passante. Assim, o sinal tem forma L/R a montante do estágio de soma-e-diferença 304, que converte o mesmo para a forma M/S, através do que ocorrem a transformação MDCT inversa e operação de soma-e-diferença final. Para decodificar um sinal estéreo provido na forma codificada M/S conjunta, o primeiro conjunto de chaveamento 302, ao invés, é colocado no modo de soma- e-diferença, de modo que o sinal tenha forma L/R entre o primeiro conjunto de chaveamento 302 e o estágio de soma-e-diferença 304, que é frequentemente mais adequado com vista à filtragem TNS que a forma M/S. O processamento a jusante do estágio de soma-e-diferença 304 é idêntico ao processamento no caso de decodificação L/R direta.
[0087] A figura 14 consiste de três diagramas de blocos generalizados de decodificadores, de acordo com uma modalidade da invenção. Em contraste com diversos outros diagramas de blocos, que acompanham está especificação, uma linha de conexão na figura 14 pode ser arranjada para transmitir um sinal estéreo compreendendo canais esquerdo/ direito, médio/ lateral, de mistura descendente/ residual, pseudoesquerdo/ pseudodireito, e outras combinações.
[0088] A figura 14A mostra um sistema decodificador para decodificar representação de domínio de frequência (indicada, para o propósito desta figura, como representação MDCT) de um sinal de entrada. O sistema decodificador é adaptado para suprir como saída uma representação de domínio de tempo de sinal estéreo, que é gerado com base no sinal de entrada. Para ser capaz de decodificar um sinal de entrada codificado pela codificação estéreo de predição complexa, o sistema decodificador é provido com um estágio de mistura ascendente 1410. No entanto, também é capaz de lidar com um sinal de entrada codificado em outros formatos, e possivelmente alternando entre diversos formatos ao longo do tempo, isto é, uma sequência de quadros de tempo codificados por codificação direta esquerdo/ direito. A capacidade de o sistema decodificador suportar diferentes formatos de codificação é conseguida com provisão de uma linha de conexão (passante) arranjada em paralelo com o citado estágio 1410. Por meio de uma chave 1411 é possível selecionar se a saída do estágio de mistura ascendente 1410 (posição de chave inferior na figura) ou o sinal não-processado disponível sobre a linha de conexão (posição de chave superior na figura) deve ser suprida aos módulos decodificadores arranjados mais a jusante. Nesta modalidade, um módulo MDCT inverso 412 é arranjado a jusante da chave, que transforma a representação MDCT de um sinal em representação de domínio de tempo. Como exemplo, o sinal suprido ao estágio de mistura ascendente 410 pode ser um sinal estéreo em forma residual/ de mistura descendente. O estágio de mistura ascendente 1410, então, é adaptado para derivar um sinal lateral e realizar operação de soma-e-diferença, de modo que um sinal estéreo esquerdo/ direito (no domínio MDCT) seja emitido.
[0089] A figura 14B mostra um sistema decodificador similar àquele da figura 14A. O presente sistema é adaptado para receber um fluxo de bit em seu sinal de entrada. O fluxo de bit é inicialmente processado por um módulo de desmultiplexação e dequantização combinado 1420, que provê como primeiro sinal de saída, uma representação MDCT de sinal estéreo multicanal para tratamento subsequente, como determinado pela posição de uma chave 1422 tendo funcionalidade análoga à chave 1411 da figura 14A. Mais precisamente, a chave 1422 determina se a primeira saída da desmultiplexação e dequantização deve ser processada pelo estágio de mistura ascendente 1421 e módulo MDCT inverso 1423 (posição inferior) ou somente pelo módulo MDCT inverso 1423 (posição superior). O módulo de desmultiplexação e quantização combinada 1420 também emite informações de controle. Neste caso, a informação de controle associada ao sinal estéreo pode incluir dados, indicando se a posição superior ou inferior da chave 1422 é adequada para decodificar o sinal, ou de modo mais abstrato, de acordo com que formato de código o sinal estéreo deve ser decodificado. A informação de controle também pode incluir parâmetros para ajustar as propriedades do estágio de mistura ascendente 1421, i.e. um valor do coeficiente de predição complexa α usado em codificação de predição complexa, como descrito acima.
[0090] A figura 14C mostra um sistema decodificador que, em adição a entidades análogas àquelas na figura 14B, compreende primeiro e segundo dispositivos modificadores de domínio de frequência, respectivamente arranjados a jusante e a montante do estágio de mistura ascendente 1433. Para o propósito desta figura, cada dispositivo de modificador domínio de frequência é ilustrado por um filtro TNS. No entanto, como dispositivo modificador de domínio de frequência também pode ser entendido que outros processos diferentes de filtragem TNS sejam suscetíveis de aplicação, quer antes ou depois do estágio de mistura ascendente. Exemplos de modificações de domínio de frequência incluem predição, adição de ruído, extensão de largura de banda, e processamento não-linear. Considerações psico- acústicas e razões similares, que possivelmente incluam propriedades do sinal a ser processado e/ou as modalidades ou ajustes de tal dispositivo modificador de domínio de frequência, algumas vezes indicam ser vantajoso aplicar a citada modificação de domínio de frequência a montante do estágio de mistura ascendente 1422, ao invés de a jusante. Em outros casos, pode ser estabelecido, por considerações similares, que a posição a jusante da modificação de domínio de frequência seja preferível à modificação a montante. Por meio das chaves 1432, 1436, os dispositivos modificadores de domínio de frequência 1431, 1435 podem ser seletivamente ativados, de modo que, em resposta à informação de controle, o sistema decodificador selecione a modalidade desejada. Como exemplo, a figura 14C mostra uma modalidade na qual o sinal estéreo a partir de módulo de demultiplexação e quantização combinado 1430 é inicialmente processado pelo primeiro dispositivo modificador de domínio de frequência 1431, então, suprido ao estágio de mistura ascendente 1433, e finalmente enviado diretamente a um módulo MDCT inverso, sem passar pelo segundo dispositivo modificador de domínio de frequência 1435. Como explicado na seção "Sumário da Invenção"esta modalidade é preferida em relação à opção de realizar TNS depois de uma mistura ascendente em uma codificação de predição complexa.
II - Sistema Codificador
[0091] Um sistema codificador, de acordo com a invenção será descrito com referência à figura 5, que é um diagrama de blocos generalizado de um sistema codificador para codificar sinal estéreo esquerdo/ direito (L/R) como fluxo de bit de saída por codificação de predição complexa. O sistema codificador recebe uma representação de domínio de frequência ou domínio de tempo e as fornece para ambos um estágio de mistura descendente e um estimador de coeficiente de predição. As partes imaginária e real são providas para o estágio de mistura descendente para governar a conversão para os canais esquerdo e direito para os canais de mistura descendente e residuais, e então supridas para um multiplexador final MUX. Se o sinal não foi suprido como representação de domínio de frequência ao codificador, o sinal é transformado em tal representação no estágio de mistura descendente ou multiplexador.
[0092] Um dos princípios na codificação por predição é converter sinal esquerdo / direito na forma média / lateral, ou seja:
Figure img0009
e, então, usar a correlação remanescente entre estes canais, ajustando:
Figure img0010
onde, α é o coeficiente de predição complexa a ser determinada e D o sinal residual. É possível escolher α, de modo que a energia do sinal residual D= S-Re(αM) seja minimizada. A minimização de energia pode ser efetuada com respeito a uma potência momentânea, energia de longo ou curto prazo (média de potência) que, no caso de um sinal discreto, se refere a uma otimização em termos de quadrado médio.
[0093] As partes real e imaginária αR e αIdo coeficiente de predição podem ser quantizadas e/ou codificadas conjuntamente. Preferivelmente, no entanto, as partes real e imaginária são quantizadas independentemente e uniformemente, tipicamente com um tamanho de degrau de 0,1 (número não-dimensional). A resolução de banda de frequência usada para o coeficiente de predição complexa não é necessariamente a mesma que da resolução das bandas de fatores de escala (sfb isto é, um grupo de linhas MDCT que está usando o mesmo tamanho de degrau de quantização MDCT e faixa de quantização) de acordo com standard MPEG. Em particular, a resolução de banda de frequência para o coeficiente de predição pode ser aquele que é psico- acusticamente justificada, tal como escala Bark. Deve ser notado que a resolução de banda de frequência pode variar nos casos em que o comprimento de transformação varia.
[0094] Como deve ser ter sido notado acima, o sistema codificador, de acordo com a invenção, pode ter uma liberdade, quer aplicando codificação estérea por predição ou não, e, no último caso, provendo redução reversa (fallback) para codificação L/R ou M/S. Tal decisão pode ser tomada em base de quadro de tempo ou mais preciso, em uma base de banda de frequência em um quadro de tempo. Como notado acima, um resultado negativo da decisão pode ser comunicado à entidade de decodificação de vários modos, isto é, pelo valor de um bit indicador em cada quadro, ou pela ausência (ou valor zero) de um valor do coeficiente de predição. Uma decisão positiva pode ser comunicada de modo análogo. Uma implementação particularmente vantajosa que permite redução reversa sem qualquer supervisão, faz uso de um quarto valor reservado do campo de dois bits ms_mask_present (ver MPEG-1 AAC Documento ISO/IEC 13818- 7, que é transmitido per quadro de tempo, como definido a seguir:
Figure img0011
[0095] Redefinindo o valor 11 para significar "codificação de predição complexa", o codificador pode ser operado em todos os modos admitidos, particularmente codificação M/S e L/R sem penalizar a taxa de bit, e ainda sendo capaz de sinalizar codificação predição complexa para aqueles quadros, onde é vantajoso.
[0096] A decisão substantiva pode se basear na razão entre taxa de dados e qualidade de áudio. Como medida de qualidade, os dados obtidos usando um modelo psico-acústico incluído no decodificador (como frequentemente é o caso de codificadores de áudio baseados em MDCT disponíveis) podem ser usados. Em particular, algumas modalidades, de codificador provêem uma seleção otimizada da taxa de distorção do coeficiente de predição. Por conseguinte, em tais modalidades, a parte imaginária - e possivelmente também a parte real - do coeficiente de predição - é ajustada em zero, se o aumento no ganho de predição não economizar bits suficientes para codificação do sinal residual para justificar o gasto de bits requeridos para codificar o coeficiente de predição.
[0097] Modalidades do codificador podem codificar informações relativas a TNS no fluxo de bit. Tais informações podem incluir valores de parâmetros TNS a serem aplicados a filtros TNS (síntese) no lado decodificador. Se ajustes idênticos de parâmetros TNS forem usados em ambos canais, é econômico incluir um bit de sinalização indicando a identidade do parâmetro, ao invés de transmitir os dois conjuntos de parâmetros de modo independente. As informações também podem ser incluídas, quer aplicando TNS antes ou depois do estágio de mistura ascendente, como apropriado, com base, por exemplo, em uma avaliação psico-acústica das duas opções disponíveis.
[0098] Em ainda outro aspecto opcional, potencialmente vantajoso em vista de complexidade e taxa de bit, o codificador pode ser adaptado para usar uma largura de banda individualmente limitada para conectar o sinal residual. Bandas de frequência acima deste limite não serão transmitidas ao decodificador, mas ajustadas em zero. Em certos casos, as bandas de frequência mais alta têm um conteúdo de energia tão pequeno, que já estão quantizados em zero. A prática normal (cf parâmetro max sfb no standard MPEG) implica no uso da mesma limitação de largura de banda para ambos sinal residual e mistura descendente. Agora, os inventores descobriram empiricamente, que o sinal residual, em uma extensão maior que o sinal de mistura descendente, tem seu conteúdo de energia localizado em bandas de frequência mais baixa. Portanto, colocando uma banda superior dedicada com limite no sinal residual, é possível prover uma redução de taxa de bit sem uma perda mais significativa de qualidade. Assim, isto pode ser conseguido transmitindo dois parâmetros independentes max_sfb, um para sinal de mistura descendente e um para sinal residual.
[0099] Saliente-se que embora as questões de determinação ótima do coeficiente de predição, quantização e codificação do mesmo, fazendo redução reversa para o modo M/S ou L/R, filtragem TNS, e limitação de largura de banda etc. tenham sido discutidas com referência ao sistema decodificador mostrado na figura 5, os mesmos são igualmente aplicáveis às modalidades que serão descritas com referência às figuras subsequentes.
[00100] A figura 6 mostra outro sistema codificador, de acordo com a presente invenção. O sistema recebe como entrada uma representação de domínio de frequência de um sinal estéreo segmentado em sucessivos quadros de tempo, possivelmente se sobrepondo, e compreende canal direito e canal esquerdo. Um estágio de soma-e- diferença 601 converte o sinal em canal médio e canal lateral. O canal médio é suprido a ambos módulos MDCT 602 e MDST 603, enquanto o canal lateral é suprido somente a um módulo MDCT 604. Um estimador de coeficiente de predição 605 estima para cada quadro de tempo, e possivelmente para bandas de frequência individuais em um quadro, um valor do coeficiente de predição complexa α como explicado acima. O valor do coeficiente α é suprido como peso a somadores ponderados 606 e 607, que formam um sinal residual D como combinação linear das representações MDCT e MDST do sinal médio e a representação MDCT do sinal lateral. Preferivelmente, o coeficiente de predição complexa é suprido aos somadores ponderados 606, 607, representados pelo mesmo esquema de quantização, que será usado quando for codificado em um fluxo de bit; isto obviamente provê uma reconstrução mais fiel porque ambos codificador e decodificador aplicam o mesmo valor do coeficiente predição. O sinal residual, sinal médio (que pode ser chamado mais apropriadamente "sinal de mistura descendente", quando aparece combinado com um sinal residual) e coeficiente de predição são supridos a um estágio de quantização e multiplexação combinado 608, que os codifica junto com possíveis informações adicionais, como um fluxo de bit de saída.
[00101] A figura 7 mostra uma variação do sistema codificador da figura 6. Como fica claro a partir da similaridade dos símbolos na figura, tem estrutura similar, mas também a funcionalidade adicionada de operar no modo de redução reversa de codificação L/R direta. O sistema codificador é atuado entre o modo de codificação de predição complexa e o modo de redução reversa através de uma chave 710 provida imediatamente a montante do estágio de quantização e multiplexação combinada 709. Nesta posição superior, como mostrado na figura, a chave 710 faz o codificador operar no modo redução reversa. A partir de pontos imediatamente a jusante dos módulos MDCT 702, 704, o sinal médio / lateral é suprido a um estágio de soma-e-diferença 705, que depois de convertê-lo em forma esquerdo / direito passa o sinal médio/ lateral para a chave 710, que o conecta ao estágio de quantização multiplexação combinado 709.
[00102] A figura 8 mostra um sistema codificador, de acordo com a invenção. Em contraste com os sistemas codificadores das figuras 6 e 7, esta modalidade deriva os dados MDST requeridos para a codificação de predição complexa diretamente dos dados MDCT, por transformação real-para-imaginário no domínio de frequência. A transformação real- para-imaginário se aplica a qualquer das soluções discutidas em conexão com o sistema decodificador das figuras 2 e 4. É importante fazer o método de computação do decodificador corresponder com aquele do codificador, de modo que uma decodificação fiel seja conseguida; preferivelmente, métodos de transformação real-para- imaginário são usados no lado codificador e lado decodificador. Para o lado decodificador, a porção A englobada pelas linhas tracejadas compreendendo a transformação real-para-imaginário 804 pode ser substituída por variantes aproximadas ou usando menos quadros de tempo como entrada. Similarmente, a codificação pode ser simplificada, usando uma das outras soluções de aproximação descritas acima.
[00103] Em um nível mais alto, o sistema codificador da figura 8 tem estrutura diferente daquela que provavelmente seguiria por ação direta de substituição do módulo MDST na figura 7 por um módulo real-para- imaginário (adequadamente conectado). A presente arquitetura é limpa, e provê a funcionalidade de alternar entre codificação de predição e codificação L/R direta, de maneira robusta e computacionalmente econômica. O sinal estéreo de entrada é suprido a módulos de transformação MDCT 801, que emitem uma representação de domínio de frequência de cada canal, que é suprida a ambas chave final 808 para atuar sobre o sistema codificador entre seus modos de predição e codificação direta e a um estágio de soma-e-diferença 802. Na codificação L/R, a codificação conjunta M/S é executada no quadro de tempo para o qual o coeficiente de predição α é colocado em zero - esta modalidade submete o sinal de entrada a transformação, quantização, multiplexação MDCT, sendo que as últimas duas etapas são efetuadas pelo estágio de quantização e multiplexação combinada 807 arranjado na extremidade de saída do sistema, onde é suprido um fluxo de bit. Na codificação de predição, cada um dos canais sofre um processamento adicional entre o estágio de soma-e-diferença 802 e a chave 808. A partir da representação MDCT do sinal médio, a transformação de real- para-imaginário 804 deriva dados MDCT e os encaminha ao estimador de coeficiente de predição 803 e somador ponderado 806. Similarmente aos sistemas codificadores mostrados nas figuras 6 e 7, um somador ponderado adicional 805 é usado para combinar sinal lateral com MDCT ponderado e representação MDST do sinal médio, para formar um sinal de canal residual, codificado junto com sinal de canal médio (i.e. de mistura descendente) e coeficiente de predição pelo módulo combinado de quantização e multiplexação 807.
[00104] Passando agora para a figura 9, será ilustrado que cada uma das modalidades de sistema codificador pode ser combinada com um ou mais filtros TNS (análise). De acordo com discussões anteriores, é frequentemente vantajoso aplicar uma filtragem TNS ao sinal na forma de mistura descendente Então, como mostrado na figura 9, a adaptação do sistema codificador da figura 7 para incluir TNS é afetada pela adição de filtros TNS 911, imediatamente a montante do módulo combinado de quantização e multiplexação 909.
[00105] Ao invés de filtro TNS direito/ residual 911b, dois filtros TNS separados (não mostrados) podem ser providos imediatamente a montante da porção da chave 910, adaptados para lidar com canal direito ou residual. Assim, cada um dos dois filtros TNS será suprido com os respectivos dados de sinais de canal em todos os instantes, permitindo a filtragem TNS com base em mais quadros de tempo que apenas o quadro corrente. Como notado anteriormente, filtros TNS constituem apenas um exemplo de dispositivos modificadores de domínio de frequência, notavelmente, dispositivos, que baseiam seu processamento em mais quadros que meramente o quadro corrente, que podem se beneficiar de tal colocação, tanto quanto ou mais que filtro TNS.
[00106] Em outra alternativa possível à modalidade mostrada na figura 9, filtros TNS para ativação seletiva podem ser arranjados em mais que um ponto para cada canal, similarmente à estrutura do sistema decodificador mostrado na figura 4, onde diferentes conjuntos de filtros TNS podem ser conectados por meio de chaves. Isto permite a seleção de um estágio disponível mais adequado para filtragem TNS para cada quadro de tempo. Em particular, pode ser vantajoso alternar entre diferentes locais TNS, em conexão com alternar entre codificação estérea por predição complexa e outros modos de codificação.
[00107] A figura 11 mostra uma variação baseada no sistema decodificador da figura 8, na qual uma segunda representação de domínio de frequência do sinal de mistura descendente é obtida por uma transformação real-para-imaginário 1105. Similarmente, para o sistema decodificador mostrado na figura 4, este sistema decodificador também inclui módulos modificadores de domínio de frequência seletivamente ativáveis, um 1102 a montante do estágio de mistura descendente e um 1109 a jusante do mesmo. Os módulos de domínio de frequência 1102, 1109, que na figura 11 são exemplificados por filtros TNS, podem ser conectados em cada uma das trajetórias de sinal usando as quatro chaves 1103a, 1103b, 1109a, 1109b.
III - Modalidades Sem Aparelho
[00108] Modalidades dos terceiro e quarto aspectos da presente invenção serão mostradas nas figuras 15 e 16. A figura 15 mostra métodos para decodificar um fluxo de bit para um sinal estéreo compreendendo as etapas: 1. Um fluxo de bit é inserido. 2. O fluxo de bit é dequantizado, obtendo a primeira representação de domínio de frequência dos canais de mistura descendente e residual de um sinal estéreo. 3. Uma segunda representação de domínio de frequência do canal de mistura descendente é computada. 4. O sinal de canal lateral é computado, com base nas representações de domínio de frequência dos canais. 5. Um sinal estéreo, preferivelmente na forma esquerdo/ direita, é computado com base nos canais lateral e mistura descendente. 6. O sinal estéreo assim obtido é emitido.
[00109] As etapas 3 a 5 podem ser consideradas relativas a um processo de mistura ascendente. Cada uma das etapas 1 a 6 é análoga à correspondente funcionalidade em qualquer um dos sistemas decodificadores descritos nas porções precedentes deste texto, e detalhes adicionais relativos à sua implementação podem ser obtidos nas mesmas porções.
[00110] A figura 16 mostra um método para codificar um sinal estéreo como um sinal de fluxo de bit, compreendendo as seguintes etapas: 1. Um sinal estéreo é inserido; 2. O sinal estéreo é transformado em uma primeira representação de domínio de frequência; 3. Um coeficiente de predição complexa é determinado. 4. A representação de domínio de frequência é sofreu mistura descendente. 5. Os canais de mistura descendente e residual são codificados como fluxo de bit juntos com o coeficiente de predição complexa. 6. O fluxo de bit é emitido.
[00111] Cada uma das etapas 1 a 5 é análoga à correspondente funcionalidade em qualquer dos sistemas codificadores descritos nas porções precedentes deste texto, e quaisquer detalhes relativos a sua implementação podem ser obtidos na mesmas porções.
[00112] Ambos os métodos podem ser expressos como instruções legíveis por computador na forma de programas de software, e são executáveis em computador. O escopo de proteção para a invenção se estende a quaisquer softwares e programa de computador para distribuição de tais softwares.
VI - Avaliação Empírica
[00113] Diversas das modalidades descritas nesta foram determinadas empiricamente. As porções mais importantes do material experimental obtidas neste processo serão resumidas nesta subseção.
[00114] A modalidade usada para os experimentos tinha as características: i - Cada espectro MDCT (para um quadro de tempo) foi computado por uma filtragem de resposta de impulso finito bidimensional do espectro MDCT corrente, prévio, e subsequente; ii - Um modelo psico-acústico a partir de um codificador USAC foi usado; iii - As partes real e imaginária do coeficiente de predição complexa α foram transmitidas em vez de parâmetros PS ICC, CLD, IPD. As partes real e imaginária foram manuseadas independentemente, limitadas à faixa [-3,0, 3,0], e quantizadas usando um tamanho de degrau de 0,1. As partes real e imaginária foram então codificadas diferencialmente em tempo e finalmente codificadas por Huffman usando o manual de fator de escala da USAC. O coeficiente de predição foi atualizado a cada segundo, o fator de escala resultou em uma resolução de frequência similar a Surround MPEG (i.e. ISTO/ IEC 230003-1). Esta quantização foi aproximadamente 2 kb/s para a informação para o lado estéreo em uma modalidade típica com taxa de bit alvo de 96 kbs. iv - O formato de fluxo de bit foi modificado sem quebrar fluxos de bit USAC, porque o elemento de fluxo de bit ms_mask_present de 2 bit correntemente tem apenas três valores possíveis. O uso de um quarto valor para indicar predição complexa, permite um modo de redução reversa de codificação básica médio/ lateral sem qualquer perda (com respeito a detalhes adicionais a este respeito ver a subseção anterior desta especificação).
[00115] Os testes de audição, realizados de acordo com metodologia MUSHRA, empregaram uma reprodução particular em fones de ouvido, e usando oito itens de teste com uma taxa de amostragem de 48 kHz. Três, cinco, ou seis elementos de teste participaram em cada teste.
[00116] O impacto de diferentes aproximações MDST foi avaliado para ilustrar o compromisso prático entre complexidade-qualidade, que existe entre as opções. Os resultados podem ser encontrados nas figuras 12 e 13, a primeira mostrando os escores absolutos obtidos e a segunda mostrando diferentes escores relativos a 96s USAC cp1f, ou seja uma codificação estéreo unificada de domínio MDCT por predição complexa, usando quadro MDCT corrente para computar aproximação do MDST. Pode ser visto que o ganho de qualidade conseguido pela codificação estérea unificada baseada em MDCT aumenta quanto mais soluções computacionalmente complexas para computação do espectro MDST forem aplicadas Considerando a média ao longo dos testes, o sistema baseado em um único quadro 96s USAC cp1fprovê um significativo aumento na eficiência de codificação versus uma codificação estéreo convencional. Por sua vez, mesmo resultados significativamente melhores são obtidos para 96s USAC cp1f, especificamente codificação unificada de domínio MDCT por predição complexa em quadros MDCT corrente, precedente, e subsequente para computar MDST.
V - Considerações Finais
[00117] Modalidades adicionais da presente invenção serão aparentes àqueles habilitados na técnica após a leitura da descrição acima. Mesmo que a presente especificação e exemplos descrevam certas modalidades e exemplos, a presente invenção não se restringe a tais modalidades e exemplos. Numerosas modificações e variações poderão ser introduzidas sem sair do escopo da presente invenção, que será definido apenas pelas concretizações.
[00118] Deve ser notado que os métodos e aparelhos descritos nesta poderão ser aplicados, depois de modificações apropriadas por alguém capacitado na técnica incluindo experimentações de rotina, à codificação de sinais tendo mais que dois canais. Enfatiza-se particularmente que quaisquer sinais parâmetros, e matrizes, mencionadas em conexão com as modalidades descritas, podem ser variáveis ou invariáveis em frequências e/ou tempo. As etapas de computação descritas podem ser executadas em frequência específicas, ou para todas bandas de frequência por vez, e todas entidades podem ser incorporadas para ter uma ação seletiva de frequência. Para os propósitos desta especificação, qualquer esquema de quantização pode ser adaptado, de acordo com modelos psico-acústicos. Deve ser adicionalmente notado que as várias conversões de soma-e-diferença, ou seja, conversão de forma de mistura descendente/ residual para forma pseudo L/R, assim como L/R para M/S, e MS para L/R, todas na forma:
Figure img0012
onde, meramente o fator de ganho g pode variar. Assim, ajustando fatores de ganho individualmente, é possível compensar um certo ganho de codificação com uma escolha apropriado do ganho de decodificação. Ademais, como aqueles habilitados na técnica perceberão, um número par de transformações de soma-e-diferença tem o efeito de um estágio passante possivelmente com ganho unitário.
[00119] Os sistemas e métodos descritos acima podem ser implementados como software, firmware, hardware, ou quaisquer combinações destes. Certos componentes podem ser implementados como software, para execução por um processador de sinal digital ou microprocessador, ou como hardware como circuito integrado de aplicação específica. Tal software pode ser distribuído em uma mídia legível por computador, que pode compreender uma mídia de armazenamento de computador e mídia de comunicação. Como bem conhecido por aqueles habilitados na técnica, uma mídia de armazenamento em computador inclui ambas mídias volátil e não-volátil, removível e não removível, implementadas por qualquer método ou tecnologia de armazenamento de informação, tal como instruções legíveis por computador, estrutura de dados, módulos de programa, e outros dados, e memórias flash, RAM, ROM, EEPROM, e outras tecnologias de memória, CD-ROM, discos versáteis digitais (DVD), ou outros dispositivos de armazenamento ótico, cassete magnético, fita magnética, dispositivos de armazenamento em disco magnético, ou outros dispositivos de armazenamento magnético, ou quaisquer outras mídias, utilizáveis para armazenar informações desejadas, acessíveis através de um computador de uso geral. Ademais, como conhecido por aqueles habilitados na técnica, uma mídia de comunicação tipicamente incorpora instruções legíveis por computador, estruturas de dados, módulos de programa, e outros sinais de dados modulados, tais como ondas portadoras, ou outros mecanismos de transporte, incluindo qualquer mídia que forneça informações.

Claims (9)

1. Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa, o sistema decodificador caracterizado pelo fato de que compreende: um estágio de dequantização (401) para prover primeiras representações de domínio de frequência de um sinal de mistura descendente (M) e um sinal residual (D) com base em um sinal de fluxo de bit; - um estágio de mistura ascendente (406, 407, 408, 409; 1433) adaptado para gerar o sinal de estéreo com base nas primeiras representações de domínio de frequência do sinal de mistura descendente (M) e o sinal residual (D), cada uma das primeiras representações de domínio de frequência compreendendo primeiros componentes espectrais representando conteúdo espectral do sinal correspondente expresso em um primeiro subespaço de um espaço multidimensional, o estágio de mistura ascendente compreendendo: um módulo (408) para computar uma segunda representação de domínio de frequência do sinal de mistura descendente com base na primeira representação de domínio de frequência do mesmo, a segunda representação do domínio de frequência compreendendo segundos componentes espectrais representando conteúdo espectral do sinal expresso em um segundo subespaço do espaço multidimensional que inclui uma porção do espaço multidimensional não-incluída no primeiro subespaço; um somador ponderado (406, 407) para computar um sinal lateral (S) com base nas primeira e segunda representações de domínio de frequência do sinal de mistura descendente, na primeira representação de domínio de frequência do sinal residual e em um coeficiente de predição complexa (α) codificado no sinal de fluxo de bit; e um estágio de soma-e-diferença (409) para computar o sinal estéreo com base na primeira representação de domínio de frequência do sinal de mistura descendente e do sinal lateral; - um primeiro estágio modificador de domínio de frequência (403; 1431) arranjado a montante do estágio de mistura ascendente e operável em um modo ativo, no qual ele processa uma representação de domínio de frequência de pelo menos um sinal entre o sinal de mistura descendente e/ou o sinal residual, e em um modo passivo, no qual atua como um passante; e - um segundo estágio modificador de domínio de frequência (410; 1435) arranjado a jusante do estágio de mistura ascendente e operável em um modo ativo, no qual ele processa uma representação de domínio de frequência de pelo menos um sinal do sinal estéreo, e em um modo passivo, no qual atua como um passante, em que os primeiro e segundo estágios modificadores de domínio de frequência são configurados para serem ativados de forma seletiva em resposta a informações de controle codificadas no sinal de fluxo de bit.
2. Sistema decodificador, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos um dos ditos estágios modificadores de domínio de frequência é um estágio conformador de ruído temporal (TNS).
3. Sistema decodificador, de acordo com a reivindicação 2, caracterizado pelo fato de que é ainda adaptado para receber, para cada quadro de tempo, um campo de dados associado àquele quadro e operar, em resposta ao valor do campo de dados, o primeiro estágio modificador de domínio de frequência se encontrando no seu modo ativo ou seu modo passante e o segundo estágio modificador de domínio de frequência se encontrando no seu modo ativo ou seu modo passante.
4. Sistema decodificador, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que: - os primeiros componentes espectrais têm valores reais expressos no primeiro subespaço; - os segundos componentes espectrais têm valores imaginários expressos no segundo subespaço; - opcionalmente, os primeiros componentes espectrais são obteníveis por uma das seguintes: uma transformação de cosseno discreta (DCT), ou uma transformação de cosseno discreta modificada (MDCT), e - opcionalmente, os segundos componentes espectrais são obteníveis por uma das seguintes: uma transformação de seno discreta (DST), ou uma transformação de seno discreta modificada (MDST).
5. Sistema decodificador, de acordo com a reivindicação 4, caracterizado pelo fato de que: - o sinal de mistura descendente é particionado em sucessivos quadros de tempo, cada um deles associado com um valor do coeficiente de predição complexa; e - o módulo para computar uma segunda representação de domínio de frequência do sinal de mistura descendente é adaptado para se desativar, em resposta ao valor absoluto da parte imaginária do coeficiente de predição complexa ser menor que uma tolerância predeterminada para um quadro de tempo, de modo a não gerar saída para aquele quadro de tempo.
6. Sistema decodificador, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o dito sinal estéreo é representado no domínio de tempo e o sistema decodificador ainda compreende: um conjunto de chaveamento (203) arranjado entre o dito estágio de dequantização e o dito estágio de mistura ascendente, operável para funcionar como: (a) um estágio passante; ou (b) um estágio de soma-e-diferença; desta maneira permitindo chaveamento entre sinais de entrada estéreos codificados diretamente e conjuntamente; um estágio de transformação inversa (209) adaptado para computar uma representação de domínio de tempo do sinal estéreo; e um arranjo seletor (208) arranjado a montante do estágio de transformação inversa, adaptado para seletivamente conectá-lo a qualquer um de: (c) um ponto a jusante do estágio de mistura ascendente, onde o sinal estéreo obtido por predição complexa é fornecido ao estágio de transformação inversa; ou (d) um ponto a jusante do conjunto de chaveamento (203) e a montante do estágio de mistura ascendente, onde um sinal estéreo obtido por codificação estéreo direta é fornecido ao estágio de transformação inversa.
7. Sistema decodificador, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que o módulo para computar uma segunda representação de domínio de frequência do sinal de mistura descendente compreende: - um estágio de transformação inversa (306) para computar uma representação de domínio de tempo do sinal de mistura descendente e/ou do sinal lateral com base na primeira representação de domínio de frequência do respectivo sinal no primeiro subespaço do espaço multidimensional; e - um estágio de transformação (307) para computar a segunda representação de domínio de frequência do respectivo sinal com base na representação de domínio de tempo do sinal; em que, preferivelmente, o estágio de transformação inversa (306) realiza uma transformação cosseno discreta modificada inversa (MDCT) e o estágio de transformação realiza uma transformação seno discreta modificada (MDST).
8. Sistema decodificador, de acordo com a reivindicação 7, caracterizado pelo fato de que o sinal estéreo é representado no domínio de tempo e o sistema decodificador ainda compreende: - um conjunto de chaveamento (302) arranjado entre o dito estágio de dequantização e o dito estágio de mistura ascendente operável para funcionar como qualquer um de: (a) um estágio passante, para uso em codificação estéreo conjunta; ou (b) um estágio de soma-e-diferença para uso em codificação estéreo direta; - um estágio de transformação inversa (311) adicional arranjado no estágio de mistura ascendente, para computar uma representação de domínio de tempo do sinal lateral; - um arranjo seletor (305, 310) arranjado a montante dos estágios de transformação inversa (306, 311), adaptado para seletivamente conectá-los a qualquer um de: (a) um estágio de soma-e-diferença (304) adicional que por sua vez está conectado a um ponto a jusante do conjunto de chaveamento (302) e a montante do estágio de mistura ascendente; ou (b) um sinal de mistura descendente obtido a partir do conjunto de chaveamento (302) e um sinal lateral obtido a partir do somador ponderado (308, 309).
9. Método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída, caracterizado pelo fato de que: - o sinal estéreo de entrada compreende primeiras representações de domínio de frequência de um sinal de mistura descendente (M) e um sinal residual (D) providas, com base em um sinal de fluxo de bit, por um estágio de dequantização (401), e um coeficiente de predição complexa (α); e - cada uma das ditas primeiras representações de domínio de frequência compreende primeiros componentes espectrais representando conteúdo espectral do sinal correspondente expresso em um primeiro subespaço de um espaço multidimensional, - o método sendo realizado por um estágio de mistura ascendente e incluindo as etapas de: - computar uma segunda representação de domínio de frequência do sinal de mistura descendente com base na primeira representação de domínio de frequência do mesmo, a segunda representação de domínio de frequência compreendendo segundos componentes espectrais representando conteúdo espectral do sinal expresso em um segundo subespaço do espaço multidimensional que inclui uma porção do espaço multidimensional não incluída no primeiro subespaço; - computar o sinal lateral com base nas primeira e segunda representações de domínio de frequência do sinal da mistura descendente, a primeira representação de domínio de frequência do sinal residual e no coeficiente de predição complexa; e - e ainda compreendendo de forma seletiva, em resposta a informações de controle no sinal de fluxo de bit, ou a etapa, a ser realizada antes da etapa de mistura ascendente, de aplicar conformação de ruído temporal (TNS) à dita primeira representação de domínio de frequência do sinal de mistura descendente e/ou à dita primeira representação de domínio de frequência do sinal residual; - ou a etapa, a ser realizada depois da etapa de mistura ascendente, de aplicar TNS a pelo menos um canal do dito sinal estéreo.
BR122020007937-1A 2010-04-09 2011-04-06 Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída BR122020007937B1 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US32245810P 2010-04-09 2010-04-09
US61/322,458 2010-04-09
BR112012025868-0A BR112012025868B1 (pt) 2010-04-09 2011-04-06 Sistema decodificador para fornecer um sinal estéreo por meio de codificação estéreo de predição complexa e método de decodificação para up-mixing de um sinal estéreo de entrada por meio de codificação estéreo de predição complexa em um sinal estéreo de saída
PCT/EP2011/055369 WO2011124616A1 (en) 2010-04-09 2011-04-06 Mdct-based complex prediction stereo coding

Publications (1)

Publication Number Publication Date
BR122020007937B1 true BR122020007937B1 (pt) 2021-09-28

Family

ID=90730572

Family Applications (1)

Application Number Title Priority Date Filing Date
BR122020007937-1A BR122020007937B1 (pt) 2010-04-09 2011-04-06 Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída

Country Status (1)

Country Link
BR (1) BR122020007937B1 (pt)

Similar Documents

Publication Publication Date Title
BR112012025868B1 (pt) Sistema decodificador para fornecer um sinal estéreo por meio de codificação estéreo de predição complexa e método de decodificação para up-mixing de um sinal estéreo de entrada por meio de codificação estéreo de predição complexa em um sinal estéreo de saída
BR122020007937B1 (pt) Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída
AU2023274125B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode
AU2019240610B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/04/2011, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.

B25G Requested change of headquarter approved

Owner name: DOLBY INTERNATIONAL AB (IE)