BR122020021690B1 - Decodificação em escala reduzida - Google Patents

Decodificação em escala reduzida Download PDF

Info

Publication number
BR122020021690B1
BR122020021690B1 BR122020021690-5A BR122020021690A BR122020021690B1 BR 122020021690 B1 BR122020021690 B1 BR 122020021690B1 BR 122020021690 A BR122020021690 A BR 122020021690A BR 122020021690 B1 BR122020021690 B1 BR 122020021690B1
Authority
BR
Brazil
Prior art keywords
length
window
temporal
sampling rate
synthesis window
Prior art date
Application number
BR122020021690-5A
Other languages
English (en)
Inventor
Markus Schnell
Manfred Lutzky
Eleni FOTOPOULOU
Konstantin Schmidt
Conrad BENNDORF
Adrian TOMASEK
Tobias Albert
Timon SEIDL
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR122020021690B1 publication Critical patent/BR122020021690B1/pt

Links

Abstract

Uma versão em escala reduzida de um procedimento de decodificação de áudio pode, mais efetivamente e/ou em manutenção de conformidade melhorada, ser obtida se a janela de síntese utilizada para decodificação de áudio com escala reduzida for uma versão reduzida de uma janela de síntese de referência envolvida no procedimento de decodificação de áudio sem escala reduzida por redução da taxa de amostragem pelo fator da taxa de amostragem, pelo qual a taxa de amostragem reduzida e a taxa de amostragem original desviam, e a amostragem reduzida utilizando uma interpolação segmental em segmentos de 1/4 da estrutura comprimento. Figura 2.

Description

PEDIDO DIVIDIDO DO BR 11 2017 026724-1 depositado em 10/06/2016. RELATÓRIO DESCRITIVO.
[0001] O presente pedido refere-se a um conceito de decodificação em escala reduzida.
[0002] O Baixo Atraso Melhorado MPEG-4 AAC (AAC-ELD | Enhanced Low Delay AAC) geralmente opera em taxas de amostragem até 48 kHz, o que resulta em um atraso logarítmico de 15ms. Para algumas aplicações, por exemplo, transmissão de áudio de sincronização labial, é desejável um atraso ainda menor. AAC-ELD já fornece essa opção, operando em taxas de amostragem mais altas, por exemplo, 96 kHz, e, portanto, fornece modos de operação com menor atraso, por exemplo, 7,5 ms. Entretanto, este modo de operação vem com uma alta complexidade desnecessária devido à alta taxa de amostragem.
[0003] A solução para este problema é aplicar uma versão em escala reduzida do banco de filtros e, portanto, renderizar o sinal de áudio a uma taxa de amostragem menor, por exemplo, 48kHz em vez de 96 kHz. A operação de redução de escala já faz parte do AAC-ELD, pois é herdada do codec MPEG- 4 AAC-LD, que serve como base para o AAC-ELD.
[0004] A questão que permanece, entretanto, é como encontrar a versão em escala reduzida de um banco de filtros específico. Ou seja, a única incerteza é a forma como os coeficientes da janela são derivados, ao mesmo tempo que permitem testes de conformidade claros dos modos de operação de em escala reduzida do decodificador AAC-ELD.
[0005] A seguir, os princípios do modo de operação com escala reduzida dos codecs AAC-(E)LD são descritos.
[0006] O modo de operação em escala reduzida ou AAC- LD é descrito para AAC-LD em ISO/IEC 14496-3:2009 na seção 4.6.17.2.7 “Adaptação aos sistemas utilizando taxas de amostragem menores”, conforme segue:
[0007] “Em certas aplicações, pode ser necessário integrar o decodificador de baixa atraso em um sistema de áudio que executa em taxas de amostragem menores (por exemplo, 16 kHz) enquanto a taxa de amostragem nominal da carga útil do fluxo de bits contínuo é muito maior (por exemplo, 48 kHz, correspondente a um atraso de codificação algorítmico de cerca de 20 ms). Nestes casos, é favorável decodificar a saída do codec de baixo atraso na taxa de amostragem alvo em vez de utilizar uma operação e conversão da taxa de amostragem adicional após a decodificação.
[0008] Isto pode ser aproximado pela redução de escala apropriada de ambos, o tamanho da estrutura e a taxa de amostragem, por algum fator de número inteiro (por exemplo 2, 3), resultando na mesma resolução de tempo/frequência do codec. Por exemplo, a saída do codec pode ser gerada na taxa de amostragem de 16 kHz em vez da nominal 48 kHz retendo apenas o terceiro mais baixo (ou seja, 480/3 = 160) dos coeficientes espectrais antes do banco de filtro de síntese e reduzindo o tamanho da transformada inversa em um terço (ou seja, tamanho da janela 960/3 = 320).
[0009] Como consequência, a decodificação para taxas de amostragem inferiores reduz ambas as exigências de memória e computacional, mas pode não produzir exatamente a mesma saída que uma decodificação de largura de banda completa, seguida pelo limite da banda e conversão da taxa de amostra.
[0010] Observe que a decodificação a uma taxa de amostragem menor, conforme descrito acima, não afeta a interpretação de níveis que se refere à taxa de amostragem nominal da carga útil de fluxo de bits de baixo atraso de AAC”.
[0011] Observe que AAC-LD trabalha com uma estrutura de MDCT padrão e dois formatos de janela, ou seja, janela de seno e janela de sobreposição baixa. Ambas as janelas são completamente descritas por fórmulas e, portanto, os coeficientes da janela para quaisquer comprimentos de transformação podem ser determinados.
[0012] Em comparação com AAC-LD, o codec AAC-ELD mostra duas diferenças principais: • A Janela de MDCT de Baixo Atraso (LD-MDCT | Low Delay MDCT) • A possibilidade de utilizar a ferramenta de SBR de Baixo Atraso.
[0013] O algoritmo de IMDCT que utiliza a janela de MDCT de baixo atraso é descrito em 4.6.20.2 in [1], que é muito similar à versão de IMDCT padrão utilizando, por exemplo, a janela de seno. Os coeficientes das janelas de MDCT de baixo atraso (tamanho da estrutura das amostras 480 e 512) são dados na Tabela 4.A.15 e 4.A.16 em [1]. Observe que os coeficientes não podem ser determinados por uma fórmula, pois os coeficientes são o resultado de um algoritmo de otimização. A Figura 9 mostra um gráfico do formato da janela para o tamanho da estrutura 512.
[0014] Em caso da ferramenta de SBR de baixo atraso (LD-SBR | low delay SBR) ser utilizada em conjunto com o codificador AAC-ELD, os bancos de filtro do módulo de LD-SBR são reduzidos na escala também. Isto garante que o módulo de SBR opera com a mesma resolução de frequência e, portanto, nenhuma outra adaptação é necessária.
[0015] Assim, a descrição acima revela que há uma necessidade de operações de decodificação com redução de escala, como, por exemplo, redução de escala de uma decodificação em um AAC-ELD. Seria viável localizar os coeficientes para a função da janela de síntese em escala reduzida novamente, mas esta é uma tarefa complicada, precisa de armazenamento adicional para armazenar a versão em escala reduzida e fornece uma verificação de conformidade entre a decodificação sem escala reduzida e a decodificação em escala reduzida mais complicada ou, de outra perspectiva, não cumpre com a forma de reduzir a escala solicitada em AAC-ELD, por exemplo. Dependendo do índice de escala reduzida, ou seja, o índice entre a taxa de amostragem original e a taxa de amostragem em escala reduzida, poderia derivar a função da janela de síntese em escala reduzida simplesmente pela redução da taxa de amostragem, ou seja, escolhendo cada segundo, terceiro, ... coeficiente da janela da função da janela de síntese original, mas este procedimento não resulta em uma conformidade suficiente da decodificação sem escala reduzida e decodificação em escala reduzida, respectivamente. Utilizar procedimentos de decimação mais sofisticados aplicados na função da janela de síntese leva a desvios inaceitáveis do formato da função da janela de síntese original. Portanto, há uma necessidade na técnica por um conceito melhorado de decodificação em escala reduzida.
[0016] Por conseguinte, é um objeto da presente invenção fornecer um esquema de decodificação de áudio que permita tal decodificação melhorada em escala reduzida.
[0017] Este objeto é alcançado pelo assunto das reivindicações independentes.
[0018] A presente invenção se baseia na constatação de que uma versão em escala reduzida de um procedimento de decodificação de áudio pode mais efetivamente, e/ou na manutenção de conformidade melhorada, ser obtida se a janela de síntese utilizada para decodificação de áudio com escala reduzida for uma versão reduzida de uma janela de síntese de referência envolvida no procedimento de decodificação de áudio sem escala reduzida por redução da taxa de amostragem pelo fator da taxa de amostragem, pelo qual a taxa de amostragem reduzida e a taxa de amostragem original desviam, e a reduzida utilizando uma interpolação segmental em segmentos de ^ do comprimento da estrutura.
[0019] Aspectos vantajosos do presente pedido são o assunto das reivindicações dependentes. As aplicações preferidas do presente pedido são descritas abaixo com relação às figuras, entre as quais:
[0020] A Figura 1 mostra um diagrama esquemático, ilustrando exigências de reconstrução perfeita necessárias a serem obedecidas ao reduzir a escala da decodificação, a fim de preservar a reconstrução perfeita;
[0021] A Figura 2 mostra um diagrama de blocos de um decodificador de áudio para decodificação em escala reduzida, de acordo com uma aplicação;
[0022] A Figura 3 mostra um diagrama esquemático, ilustrando, na metade superior, a forma na qual um sinal de áudio foi codificado em uma taxa de amostragem original em um fluxo de dados e, na metade inferior separada da metade superior por uma linha horizontal tracejada, uma operação de decodificação em escala reduzida para reconstruir o sinal de áudio do fluxo de dados em uma taxa de amostragem reduzida ou com escala reduzida, para assim ilustrar o modo de operação do decodificador de áudio da Figura 2;
[0023] A Figura 4 mostra um diagrama esquemático, ilustrando a cooperação do janelador e cancelador de distorção de domínio de tempo da Figura 2;
[0024] A Figura 5 ilustra uma possível implementação para alcançar a reconstrução, de acordo com a Figura 4, utilizando um tratamento especial das partes ponderadas a zero das partes de tempo moduladas de espectral a tempo;
[0025] A Figura 6 mostra um diagrama esquemático, ilustrando a redução da taxa de amostragem para obter a janela de síntese reduzida;
[0026] A Figura 7 mostra um diagrama de blocos, ilustrando uma operação com escala reduzida de AAC-ELD, incluindo a ferramenta SBR de baixo atraso;
[0027] A Figura 8 mostra um diagrama de blocos de um decodificador de áudio para decodificação em escala reduzida, de acordo com uma aplicação, onde o modulador, o janelador e o cancelador são implementados de acordo com uma implementação de elevação; e
[0028] A Figura 9 mostra um gráfico dos coeficientes da janela de uma janela de baixo atraso, de acordo com AAC- ELD, para tamanho da estrutura da amostra 512 como um exemplo de uma janela de síntese de referência a ser reduzida.
[0029] A descrição a seguir começa com uma ilustração de uma aplicação para decodificação em escala reduzida com relação ao codec AAC-ELD. Isto é, a descrição a seguir começa com uma aplicação que poderia formar um modo em escala reduzida para AAC-ELD. Esta descrição simultaneamente forma um tipo de explicação da motivação subjacente às aplicações do presente pedido. Posteriormente, esta descrição é generalizada, levando assim a uma descrição de um decodificador de áudio e método de decodificação de áudio de acordo com uma aplicação do presente pedido.
[0030] Conforme descrito na parte introdutória do relatório descritivo do presente pedido, AAC-ELD utiliza janelas de MDCT de baixo atraso. A fim de gerar a versão em escala reduzida respectiva, ou seja, janelas de baixo atraso em escala reduzida, a proposta subsequentemente explicada para formar um modo em escala reduzida para AAC-ELD utiliza um algoritmo de interpolação de spline segmental que mantém a propriedade de reconstrução perfeita (PR | reconstruction property) da janela LD-MDCT com uma precisão muito alta. Portanto, o algoritmo permite a geração de coeficientes da janela na forma direta, conforme descrito em ISO/IEC 14496-3:2009, bem como na forma de elevação, conforme descrito em [2], em uma forma compatível. Isto significa que ambas as implementações geram saída em conformidade com 16 bits.
[0031] A interpolação da janela de MDCT de Baixo Atraso é realizada, conforme segue.
[0032] No geral, uma interpolação de spline deve ser utilizada para gerar os coeficientes da janela em escala reduzida para manter a resposta de frequência e principalmente a perfeita propriedade de reconstrução (aproximadamente 170dB SNR). A interpolação precisa ser restrita em certos segmentos para manter a perfeita propriedade de reconstrução. Para os coeficientes da janela c que abrangem o núcleo de DCT da transformação (veja também a figura 1, c(1024)..c(2048)), a seguinte restrição é necessária,onde N denota o tamanho da estrutura. Alguma implementação pode utilizar diferentes sinais para otimizar a complexidade, aqui, denotada pelo sinal. A exigência em (1) pode ser ilustrada pela Figura 1. Deve ser lembrado que simplesmente em caso de F=2, ou seja, metade da taxa de amostra, excluir cada segundo coeficiente da janela da janela de síntese de referência para obter a janela de síntese com escala reduzida não atende a exigência.
[0033] Os coeficientes c(0) ... c(2N — 1) são listados ao longo do formato em losango. Os N/4 zeros nos coeficientes da janela, que são responsáveis pela redução de atraso do banco de filtro, são marcados utilizando uma seta em negrito. A figura 1 mostra as dependências dos coeficientes causadas pela dobra envolvida na MDCT e também os pontos onde a interpolação precisa ser restrita a fim de evitar quaisquer dependências indesejadas. • A cada N/2 coeficiente, a interpolação precisa parar de manter (1) • Adicionalmente, o algoritmo de interpolação precisa parar a cada N/4 coeficientes devido aos zeros inseridos. Isto garante que os zeros sejam mantidos e o erro de interpolação não seja dispersado, o que mantém a PR.
[0034] A segunda restrição não é apenas necessária para o segmento contendo os zeros, mas também para os outros segmentos. Sabendo que alguns coeficientes no núcleo de DCT não foram determinados pelo algoritmo de otimização, mas foram determinados pela fórmula (1) para permitir a PR, várias descontinuidades no formato da janela podem ser explicadas, por exemplo, aproximadamente c(1536+128) na figura 1. A fim de minimizar o erro de PR, a interpolação precisa parar em tais pontos, o que aparece em uma grade N/4.
[0035] Devido a esta razão, o tamanho do segmento de N/4 é escolhido para a interpolação de spline segmental para gerar os coeficientes da janela em escala reduzida. Os coeficientes da janela fonte são sempre dados pelos coeficientes utilizados para N = 512, também para operações de redução de escala resultando nos tamanhos da estrutura de N = 240 ou N = 120. O algoritmo básico é descrito muito brevemente a seguir como código MATLAB: FAC = fator de redução de escala % por exemplo 0,5 Sb = 128; % tamanho do segmento da janela fonte w_down = []; % janela em escala reduzida nSegments = length(W)/(sb); % número de segmentos; W=LD coeficientes da janela para N=512 xn=((0:(FAC*sb-1))+0,5)/FAC-0,5; % spline init for i=1:nSegments, w_down=[w_down,spline([0:(sb-1)],W((i- 1)*sb+(1:(sb))),xn)]; end;
[0036] Como a função de spline pode não ser completamente determinista, o algoritmo completo é exatamente especificado na seguinte seção, o que pode ser incluído em ISO/IEC 14496-3:2009, a fim de formar um modo em escala reduzida melhorado em AAC-ELD.
[0037] Em outras palavras, a seguinte seção fornece uma proposta sobre como a ideia descrita acima poderia ser aplicada em ER AAC ELD, ou seja, sobre como um decodificador de baixa complexidade poderia decodificar um fluxo contínuo de bits de ER AAC ELD codificado em uma primeira taxa de dados em uma segunda taxa de dados menor do que a primeira taxa de dados. É enfatizado, entretanto, que a definição de N, conforme utilizado a seguir, adere ao padrão. Aqui, N corresponde ao comprimento do núcleo de DCT enquanto que acima, nas reivindicações, e nos pedidos subsequentemente descritos generalizados, N corresponde ao comprimento da estrutura, a saber, o comprimento de sobreposição mútuo dos núcleos de DCT, ou seja, a metade do comprimento do núcleo de DCT. Certamente, enquanto N foi indicado ser 512 acima, por exemplo, é indicado ser 1024 a seguir.
[0038] Os parágrafos a seguir são propostos para inclusão em 14496-3:2009 por Emenda.
A.0 ADAPTAÇÃO A SISTEMAS UTILIZANDO TAXAS DE AMOSTRAGEM INFERIORES
[0039] Para certas aplicações, ER AAC LD pode mudra a taxa de amostra de reprodução a fim de evitar etapas adicionais de reamostragem (veja 4.6.17.2.7). ER AAC ELD pode aplicar etapas de redução de escala similares utilizando a janela de MDCT de Baixo Atraso e a ferramenta LD-SBR. Caso AAC-ELD opere com a ferramenta LD-SBR, o fator de redução de escala é limitado a múltiplos de 2. Sem LD-SBR, o tamanho da estrutura com escala reduzida precisa ser um número inteiro.
A.1 REDUÇÃO DE ESCALA DA JANELA DE MDCT DE BAIXO ATRASO
[0040] A janela de LD-MDCT wLD para N=1024 é reduzida na escala por um fator F utilizando uma interpolação de spline segmental. O número de zeros principais nos coeficientes da janela, ou seja, N/8, determina o tamanho do segmento. Os coeficientes da janela em escala reduzida wLD_d são utilizados para a MDCT inversa conforme descrito em 4.6.20.2, mas com um comprimento de janela reduzido na escala Nd = N / F. Observe que o algoritmo também pode gerar coeficientes em escala reduzida de elevação da LD-MDCT. fs_window_size = 2048; /* Número de coeficientes de janela em escala total. De acordo com ISO/IEC 14496-3:2009, usar 2048. Para implementações de elevação, ajustar esta variável corretamente */ ds_window_size = N * fs_window_size /(1024 * F);/* coeficientes de janela em escala reduzida; N determina o comprimento da transformação de acordo com 4.6.20.2 */ fs_segment_size = 128; num_segments = fs_window_size / fs_segment_size; ds_segment_size = ds_window_size / num_segments; tmp[128], y[128]; /*buffers temporários*/ /*loop sobre segmentos*/ para (b = 0; b < num_segments; b++){ /*copiar segmento atual em tmp*/ copy(&W_LD[b * fs_segment_size], tmp, fs_segment_size); /* aplicar interpolação cúbica para redução de escala */ /* calcular fase de interpolação */ Fase = (fs_window_size - ds_window_size) / (2 * ds_window_size); /* calcular os coeficientes c do spline cúbico dado tmp */ /* matriz de constantes pré-calculadas */ m = {0.166666672, 0.25, 0.266666681, 0.267857134, 0.267942578, 0.267948717, 0.267949164}; n = fs_segment_size; /* para simplicidade */ /* calcular vetor r necessário para calcular os coeficientes c */ para (i = n - 3; i >= 0; i--) r[i] = 3 * ((tmp[i + 2] - tmp[i + 1]) - (tmp[i + 1] - tmp[i])); para (i = 1; i < 7; i++) r[i] -= m[i - 1] * r[i - 1]; para (i = 7; i < n - 4; i++) r[i] -= 0.267949194 * r[i - 1]; /* calcular coeficientes c */ c[n - 2] = r[n - 3] / 6; c[n - 3] = (r[n - 4] - c[n - 2]) * 0.25; para (i = n - 4; i > 7; i--) c[i] = (r[i - 1] - c[i + 1]) * 0.267949194; para (i = 7; i > 1; i--) c[i]=(r[i-1]-c[i+1])*m[i-1]; c[1] = r[0] * m[0]; c[0] = 2 * c[1] - c[2]; c[n-1] = 2 * c[n - 2] - c[n - 3]; /* manter amostras originais em buffer temp y, pois as amostras tmp serão substituídas por amostras interpoladas */ copy(tmp, y, fs_segment_size); /* gerar pontos de escala reduzida e fazer a interpolação */ para (k = 0; k < ds_segment_size; k++) { step = fase + k * fs_segment_size / ds_segment_size; idx = floor(step); diff = step - idx; di = (c[idx + 1] - c[idx]) / 3; bi = (y[idx + 1] - y[idx]) - (c[idx + 1] + 2 * c[idx]) / 3; /* calcular valores em escala reduzida e armazenar em tmp */ tmp[k] = y[idx] + diff * (bi + diff * (c[idx] + diff * di)); } /* montar a janela em escala reduzida */ copy(tmp, &W_LD_d[b * ds_segment_size], ds_segment_size);}
A.2 REDUÇÃO EM ESCALA DA FERRAMENTA SBR DE BAIXO ATRASO
[0041] Em caso da ferramenta SBR de Baixo Atraso ser utilizada em conjunto com ELD, esta ferramenta pode ser reduzida na escala em taxas de amostra inferiores, pelo menos para os fatores de redução de escala de um múltiplo de 2. O fator de escala reduzida F controla o número de bandas utilizado para o Banco de filtro de análise e síntese de CLDFB. Os dois parágrafos a seguir descrevem um banco de filtro de análise e síntese de CLDFB com escala reduzida, veja também 4.6.19.4. 4.6.20,5.2.1 BANCO DE FILTRO DE CLDFB COM ANÁLISES EM ESCALA REDUZIDA. • Definir o número de bandas de CLDFB com escala reduzida B = 32/F. • Mudar as amostras na matriz x por posições B. As amostras B mais antigas são descartadas e novas amostras B são armazenadas nas posições de 0 a B— 1. • Multiplicar as amostras da matriz x pelo coeficiente da janela cí para obter a matriz z. Os coeficientes da janela cí são obtidos por interpolação linear dos coeficientes c, ou seja, através da equação 1
[0042] Os coeficientes da janela de c podem ser encontrados na Tabela 4.A.90. • Somar as amostras para criar a matriz do elemento 2B u: • Calcular novas amostras de subfaixa B pela operação da matriz Mu, onde
[0043] Na equação, exp()denota a função exponencial complexa ej é a unidade imaginária. 4.6.20,5.2.2 BANCO DE FILTRO DE CLDFB DE SÍNTESE EM ESCALA REDUZIDA • Definir o número de bandas CLDFB com escala reduzida B = 64/F. • Mudar as amostras na matriz v por posições 2B. As amostras 2B mais antigas são descartadas. • As novas amostras de subfaixa com valor complexo B são multiplicadas pela matriz N, onde .
[0044] Na equação, exp()denota a função exponencial complexa e j é a unidade imaginária. A parte real da saída desta operação é armazenada nas posições 0 a 2B — 1 da matriz v. • Extrair amostras de v para criar a matriz do elemento 10B g. • Multiplicar as amostras da matriz g pelo coeficiente da janela ci para produzir a matriz w. Os coeficientes da janela ci são obtidos pela interpolação linear dos coeficientes c, ou seja, através da equação 1
[0045] Os coeficientes da janela de c podem ser encontrados na Tabela 4.A.90. • Calcular novas amostras de saída B pela soma de amostras da matriz w de acordo com saída(n) =
[0046] Observe que definir F = 2 fornece o banco de filtro de síntese reduzida de acordo com 4.6.19.4.3. Portanto, para processar um fluxo de bit de LD-SBR reduzido com um fator de escala reduzida adicional F, F precisa ser multiplicado por 2.
4.6.20,5.2.3 BANCO DE FILTRO DE CLDFB COM VALOR EM ESCALA REDUZIDA
[0047] A redução de escala de CLDFB pode ser aplicada para as versões com valor real do modo de SBR de baixa potência também. Para ilustração, considere ainda 4.6.19.5.
[0048] Para o banco de filtro de análise e síntese com valor real em escala reduzida, siga a descrição em 4.6.20,5.2.1 e 4.6.20.2.2 e troque o modulador exp() em M por um modulador cos().
A.3 ANÁLISE DE MDCT DE BAIXO ATRASO
[0049] Esta subcláusula descreve o banco de filtro de MDCT de Baixo Atraso utilizado no codificador AAC ELD. O algoritmo de MDCT central é na maioria das vezes inalterado, mas com uma janela mais longa, de modo que n esteja agora executando de -N a N-1 (em vez de 0 a N-1)
[0050] O coeficiente espectral, Xi,k, é definido, conforme segue: onde: zin = Sequência de entrada em janela N = Índice de amostra K = índice do coeficiente espectral I = índice do bloco N = comprimento da janela n0 = (-N / 2 + 1) / 2
[0051] O comprimento da janela N (com base na janela de seno) é 1024 ou 960.
[0052] O comprimento da janela da janela de baixo atraso é 2*N. O janelamento é estendido ao passado na seguinte forma:para n=-N,..., N-1, com a janela de síntese w utilizada como a janela de análise invertendo a ordem.
A.4 SÍNTESE DE MDCT DE BAIXO ATRASO
[0053] O banco de filtro de síntese é modificado em comparação com o algoritmo padrão de IMDCT utilizando uma janela de seno a fim de adotar um banco de filtro de baixo atraso. O algoritmo de IMDCT central é, na maioria das vezes, nalterado, mas com uma janela mais longa, de modo que n esteja executando até 2N-1 (em vez de até N-1). onde: n = índice de amostra i = índice da janela k = índice do coeficiente espectral N = comprimento da janela / duas vezes o comprimento da estrutura n0 = (-N / 2 + 1) / 2 com N = 960 ou 1024.
[0054] O janelamento e a sobreposição por adição são conduzidos na seguinte forma:
[0055] A janela de comprimento N é substituída por uma janela de comprimento 2N com mais sobreposição no passado, e menos sobreposição no futuro (N/8 valores são de fato zero).
[0056] Janelamento para a Janela de Baixo Atraso:
[0057] Onde a janela agora tem um comprimento de 2N, assim n=0,..., 2N-1.
[0058] Sobreposição e adição: para 0<=n<N/2
[0059] Aqui, os parágrafos propostos para serem incluídos em 14496-3:2009 por emenda terminam.
[0060] Naturalmente, a descrição acima de um possível modo em escala reduzida para AAC-ELD meramente representa uma aplicação do presente pedido e várias modificações são viáveis. De modo geral, as aplicações do presente pedido não são restritas a um decodificador de áudio que realiza uma versão em escala reduzida da decodificação de AAC-ELD. Em outras palavras, as aplicações do presente pedido podem, por exemplo, ser derivadas pela formação de um decodificador de áudio capaz de realizar o processo de transformada inversa em uma forma em escala reduzida apena sem suportar ou utilizar as várias tarefas específicas de AAC-ELD como, por exemplo, a transmissão com base no fator de escala do envelope espectral, filtragem de TNS (temporal noise shaping | formação de ruído temporal), replicação de banda espectral (SBR | spectral band replication) ou similares.
[0061] Subsequentemente, uma aplicação mais geral para um decodificador de áudio é descrita. O exemplo descrito acima para um decodificador de áudio AAC-ELD que suporta o modo em escala reduzida descrito poderia, assim, representar uma implementação do subsequentemente decodificador de áudio descrito. Em particular, o decodificador subsequentemente explicado é mostrado na Figura 2 enquanto a Figura 3 ilustra as etapas realizadas pelo decodificador da Figura 2.
[0062] O decodificador de áudio da Figura 2, que é geralmente indicado utilizando o sinal de referência 10, compreende um receptor 12, um dispositivo de captura 14, um modulador de espectro em tempo 16, um janelador 18 e um cancelador de distorção de domínio de tempo 20, todos sendo conectados em série entre si na ordem de sua menção. A interação e a funcionalidade dos blocos de 12 a 20 do decodificador de áudio 10 são descritas a seguir com relação à Figura 3. Conforme descrito no final da descrição do presente pedido, os blocos 12 a 20 podem ser implementados em software, hardware ou hardware programável, como na forma de um programa de computador, um FPGA ou computador corretamente programado, microprocessador programado ou circuito integrado de aplicação específica com os blocos 12 a 20 representando as respectivas subrotinas, passagens de circuito ou similares.
[0063] Em uma forma descrita em mais detalhes abaixo, o decodificador de áudio 10 da Figura 2 é configurado para, - e os elementos do decodificador de áudio 10 são configurados para corretamente cooperar - a fim de decodificar um sinal de áudio 22 de um fluxo de dados 24 com uma notabiildade que o decodificador de áudio 10 decodifica o sinal 22 em uma taxa de amostragem sendo a 1/Fésima da taxa de amostragem na qual o sinal de áudio 22 foi codificado por transformada em fluxo de dados 24 no lado da codificação. F pode, por exemplo, ser qualquer número rotacional maior do que um. O decodificador de áudio pode ser configurado para operar em diferentes ou variáveis fatores de redução de escala F ou em uma fixa. Alternativas são descritas em mais detalhes abaixo.
[0064] A forma na qual o sinal de áudio 22 é codificado por transformada na codificação ou na taxa de amostragem original ao fluxo de dados é ilustrada na Figura 3 na metade superior. Em 26, a Figura 3 ilustra os coeficientes espectrais utilizando pequenas caixas ou quadrados 28 dispostos em uma forma espectro-temporal ao longo de um eixo de tempo 30 que percorre horizontalmente na Figura 3 e um eixo de frequência 32 que percorre verticalmente na Figura 3, respectivamente. Os coeficientes espectrais 28 são transmitidos dentro do fluxo de dados 24. A forma na qual os coeficientes espectrais 28 foram obtidos e, assim, a forma na qual os coeficientes espectrais 28 representam o sinal de áudio 22, é ilustrada na Figura 3 em 34, que ilustra uma parte do eixo de tempo 30 como os coeficientes espectrais 28 pertencentes a, ou representando a respectiva parte do tempo, foram obtidos do sinal de áudio.
[0065] Em particular, os coeficientes 28 como transmitidos dentro do fluxo de dados 24 são coeficientes de uma transformada revestida do sinal de áudio 22, de modo que o sinal de áudio 22, amostrado na taxa de amostragem original ou de codificação, seja dividido em estruturas sem sobreposição e imediatamente temporalmente consecutivas de um comprimento N predeterminado, em que N coeficientes espectrais são transmitidos no fluxo de dados 24 para cada estrutura 36. Isto é, os coeficientes de transformada 28 são obtidos do sinal de áudio 22 utilizando uma transformada revestida criticamente amostrada. Na representação de espectrograma espectro-temporal 26, cada coluna da sequência temporal de colunas de coeficientes espectrais 28 corresponde a uma respectiva de estruturas 36 da sequência de estruturas. Os N coeficientes espectrais 28 são obtidos para a estrutura correspondente 36 por uma transformada espectralmente de decomposição ou modulação tempo em espectral, as funções de modulação das quais temporalmente se estendem, entretanto, não apenas cruza a estrutura 36 à qual os coeficientes espectrais resultantes 28 pertencem, mas também pelas E + 1 estruturas prévias, em que E pode ser qualquer número inteiro ou qualquer número inteiro maior que zero. Isto é, os coeficientes espectrais 28 de uma coluna do espectrograma em 26 que pertenceu a uma determinada estrutura 36 são obtidos aplicando uma transformada em uma janela de transformada, que além da respectiva estrutura compreende E + 1 estruturas que ficam no passado com relação à estrutura atual. A decomposição espectral das amostras do sinal de áudio dentro desta janela de transformada 38, que é ilustrada na Figura 3 para a coluna dos coeficientes de transformada 28 pertencentes à estrutura central 36 da parte mostrada em 34 é obtida utilizando uma função de janela de análise unimodal de baixo atraso 40 utilizando as amostras espectrais dentro da janela de transformada 38 que são ponderadas antes de submeter a mesma a uma MDCT ou MDST ou outra transformada de decomposição espectral. A fim de reduzir o atraso no lado do codificador, a janela de análise 40 compreende um intervalo zero 42 na extremidade de entrada temporal respectiva de modo que o codificador não precise aguardar a parte correspondente das amostras mais recentes dentro da estrutura atual 36 para, assim, computar os coeficientes espectrais 28 para esta estrutura atual 36. Isto é, dentro do intervalo zero 42 a função da janela de baixo atraso 40 é zero ou tem zero coeficientes da janela de modo que as amostras de áudio colocalizadas da estrutura atual 36 não, devido à ponderação da janela 40, contribua com os coeficientes de transformada 28 transmitidos para esta estrutura e um fluxo de dados 24. Isto é, somando os acima, os coeficientes de transformada 28 pertencentes a uma estrutura atual 36 são obtidos por janelamento e decomposição espectral de amostras do sinal de áudio dentro de uma janela de transformada 38 que compreende a estrutura atual bem como estruturas temporalmente anteriores e que temporalmente sobrepõe com as janelas de transformada correspondentes utilizadas para determinar os coeficientes espectrais 28 pertencentes às estruturas temporalmente próximas.
[0066] Antes de resumir a descrição do decodificador de áudio 10, deve ser observado que a descrição da transmissão dos coeficientes espectrais 28 dentro do fluxo de dados 24, conforme fornecido até o momento, foi simplificada com relação à forma na qual os coeficientes espectrais 28 são quantizados ou codificados em fluxo de dados 24 e/ou a forma na qual o sinal de áudio 22 foi pré-processado antes de submeter o sinal de áudio à transformada revestida. Por exemplo, o codificador de áudio tendo sinal de áudio codificado por transformada 22 em fluxo de dados 24 pode ser controlado por um modelo psicoacústico ou pode utilizar um modelo psicoacústico para manter o ruído de quantização e quantização dos coeficientes espectrais 28 não perceptíveis para o ouvinte e/ou abaixo de uma função de limite de mascaramento, determinando, assim, os fatores de escala para as bandas espectrais utilizando os coeficientes espectrais 28 quantizados e transmitidos que são escalados. Os fatores de escala também seriam sinalizados no fluxo de dados 24. De modo alternativo, o codificador de áudio pode ter sido um tipo de codificador de TCX (transform coded excitation | excitação codificada por transformada). Então, o sinal de áudio teria submetido a uma filtragem de análise de previsão linear antes de formar a representação espectro-temporal 26 de coeficientes espectrais 28 aplicando a transformada revestida no sinal de excitação, ou seja, o sinal residual de previsão linear. Por exemplo, os coeficientes de previsão linear poderiam ser sinalizados no fluxo de dados 24 bem como e uma quantização uniforme espectral poderia ser aplicada a fim de obter os coeficientes espectrais 28.
[0067] Além disso, a descrição apresentada até o momento foi simplificada com relação ao comprimento da estrutura de estruturas 36 e/ou com relação à função da janela de baixo atraso 40. De fato, o sinal de áudio 22 pode ter sido codificado ao fluxo de dados 24 em uma forma utilizando tamanhos de estruturas variáveis e/ou diferentes janelas 40. Entretanto, a descrição trazida a seguir concentra em uma janela 40 e um comprimento da estrutura, embora a descrição subsequente possa facilmente ser estendida a um caso onde o codificador de entropia muda estes parâmetros durante a codificação do sinal de áudio em fluxo de dados.
[0068] Voltando ao decodificador de áudio 10 da Figura 2 e sua descrição, o receptor 12 recebe o fluxo de dados 24 e recebe assim, para cada estrutura 36, N coeficientes espectrais 28, ou seja, uma respectiva coluna de coeficientes 28 mostrada na Figura 3. Deve ser lembrado que o comprimento temporal das estruturas 36, medido nas amostras da taxa de amostragem original ou de codificação, é N conforme indicado na Figura 3 em 34, mas o decodificador de áudio 10 da Figura 2 é configurado para decodificar o sinal de áudio 22 a uma taxa de amostragem reduzida. O decodificador de áudio 10 suporta, por exemplo, meramente esta funcionalidade de decodificação em escala reduzida descrita a seguir. De modo alternativo, o decodificador de áudio 10 seria capaz de reconstruir o sinal de áudio na taxa de amostragem original ou de codificação, mas pode ser alternado entre o modo de decodificação em escala reduzida e um modo de decodificação sem escala reduzida com o modo de decodificação em escala reduzida coincidindo com o modo do decodificador de áudio 10 de operação conforme subsequentemente explicado. Por exemplo, o codificador de áudio 10 poderia ser alternado em um modo de decodificação em escala reduzida no caso de um nível de baixa bateria, capacidades de reprodução reduzida ou similares. Sempre que a situação muda o decodificador de áudio 10 poderia, por exemplo, alterar de volta do modo de decodificação em escala reduzida a sem escala reduzida. Em qualquer caso, de acordo com o processo de decodificação em escala reduzida do decodificador 10, conforme descrito a seguir, o sinal de áudio 22 é reconstruído em uma taxa de amostragem na qual as estruturas 36 têm, na taxa de amostragem reduzida, um comprimento inferior medido nas amostras desta taxa de amostragem reduzida, a saber um comprimento de N/F amostras na taxa de amostragem reduzida.
[0069] A saída do receptor 12 é a sequência de N coeficientes espectrais, a saber, um conjunto de N coeficientes espectrais, ou seja, uma coluna na Figura 3, por estrutura 36. Já foi discutido na breve descrição sobre o processo de codificação de transformada para formar o fluxo de dados 24 que o receptor 12 pode aplicar várias tarefas ao obter os N coeficientes espectrais por estrutura 36. Por exemplo, o receptor 12 pode utilizar decodificação de entropia a fim de ler os coeficientes espectrais 28 do fluxo de dados 24. O receptor 12 pode ainda espectralmente formar os coeficientes espectrais lidos do fluxo de dados com fatores de escala fornecidos no fluxo de dados e/ou fatores de escala derivados por coeficientes de previsão linear conduzidos dentro do fluxo de dados 24. Por exemplo, o receptor 12 pode obter fatores de escala do fluxo de dados 24, a saber em uma base por estrutura e por subfaixa, e utilizar estes fatores de escala a fim de escalar os fatores de escala conduzidos dentro do fluxo de dados 24. De modo alternativo, o receptor 12 pode derivar os fatores de escala dos coeficientes de previsão linear conduzidos dentro do fluxo de dados 24, para cada estrutura 36 e utilizar estes fatores de escala a fim de escalar os coeficientes espectrais transmitidos 28. Opcionalmente, o receptor 12 pode realizar o preenchimento de lacuna a fim de sinteticamente preencher as partes quantizadas a zero dentro dos conjuntos de N coeficientes espectrais 18 por estrutura. De modo adicional ou alternativo, o receptor 12 pode aplicar um filtro de síntese por TNS em um coeficiente de filtro de TNS transmitido por estrutura para auxiliar a reconstrução dos coeficientes espectrais 28 do fluxo de dados com os coeficientes TNS também sendo transmitidos dentro do fluxo de dados 24. As possíveis tarefas já descritas do receptor 12 devem ser entendidas como uma lista não exclusiva de possíveis medidas e o receptor 12 pode realizar mais ou outras tarefas em conexão com a leitura dos coeficientes espectrais 28 do fluxo de dados 24.
[0070] O dispositivo de captura 14, então, recebe do receptor 12 o espectrograma 26 de coeficientes espectrais 28 e captura, para cada estrutura 36, uma fração de baixa frequência 44 de N coeficientes espectrais da respectiva estrutura 36, a saber os coeficientes espectrais de frequência mais baixa N/F.
[0071] Isto é, o modulador de espectro em tempo 16 recebe do dispositivo de captura 14 uma corrente ou sequência 46 de coeficientes espectrais N/F 28 por estrutura 36, correspondente a uma parte de baixa frequência fora do espectrograma 26, espectralmente registrado nos coeficientes espectrais de frequência mais baixa ilustrados utilizando o índice “0” na Figura 3 e estendendo-se até os coeficientes espectrais do índice N/F - 1.
[0072] O modulador de espectro em tempo 16 submete, para cada estrutura 36, a fração de baixa frequência 44 correspondente dos coeficientes espectrais 28 a uma transformada inversa 48 tendo funções de modulação de comprimento (E + 2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estrutura prévias, conforme ilustrado em 50 na Figura 3, obtendo assim uma parte temporal do comprimento (E + 2) • N/F, ou seja, um segmento de tempo ainda sem janelas 52. Isto é, o modulador de espectro em tempo pode obter um segmento de tempo temporal de (E + 2) • N/F amostras da taxa de amostragem reduzida ponderando e somando as funções de modulação do mesmo comprimento utilizando, por exemplo, as primeiras fórmulas da seção de substituição proposta A.4 indicada acima. As amostras N/F mais recentes do segmento de tempo 52 pertencem à estrutura atual 36. As funções de modulação podem, conforme indicado, ser funções de cosseno no caso da transformada inversa sendo uma MDCT inversa, ou funções de seno no caso da transformada inversa sendo uma MDCT inversa, por exemplo.
[0073] Assim, o janelador 52 recebe, para cada estrutura, uma parte temporal 52, as amostras N/F na extremidade de entrada respectiva temporalmente correspondente à respectiva estrutura enquanto as outras amostras da respectiva parte temporal 52 pertencem às estruturas temporalmente anteriores correspondentes. O janelador 18 janela, para cada estrutura 36, a parte temporal 52 utilizando uma janela de síntese unimodal 54 de comprimento (E + 2) • N/F compreendendo uma parte zero 56 de comprimento 1/4 • N/F em uma extremidade de entrada respectiva, ou seja, 1/F • N/F coeficientes da janela com valor zero e tendo um pico 58 dentro de seu intervalo temporal subsequente, temporalmente, a parte zero 56, ou seja, o intervalo temporal da parte temporal 52 não coberta pela parte zero 52. O último intervalo temporal pode ser chamado de parte não zero da janela 58 e tem um comprimento de 7/4 • N/F medido nas amostras da taxa de amostragem reduzida, ou seja, 7/4 • N/F coeficientes da janela. O janelador 18 pondera, por exemplo, a parte temporal 52 utilizando a janela 58. Esta ponderação ou multiplicação 58 de cada parte temporal 52 com janela 54 resulta em uma parte temporal janelada 60, uma para cada estrutura 36, e coincidindo com a respectiva parte temporal 52 desde que a cobertura temporal seja referida. Na seção proposta acima A.4, o processamento de janelamento que pode ser utilizado pela janela 18 é descrito pelas fórmulas referentes de zi,n a xi,n, onde xi,n corresponde às partes temporais previamente mencionadas 52 sem janelas e zi,n corresponde à parte temporal janeladas 60 com i indexando a sequência de estruturas/janelas, e n indexando, dentro de cada parte temporal 52/60, as amostras ou valores das respectivas partes 52/60 de acordo com uma taxa de amostragem reduzida.
[0074] Assim, o cancelador de distorção de domínio de tempo 20 recebe do janelador 18 uma sequência das partes temporais janeladas 60, a saber uma por estrutura 36. O cancelador 20 submete as partes temporais janeladas 60 de estruturas 36 a um processo de adição por sobreposição 62 registrando cada parte temporal janelada 60 com seus valores de N/F principais para coincidir com a estrutura correspondente 36. Por esta medida, uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada 60 de uma estrutura atual, ou seja, o restante tendo comprimento (E + 1) • N/F, sobrepõe com uma extremidade de entrada correspondente igualmente longa da parte temporal da estrutura imediatamente anterior. Nas fórmulas, o cancelador de distorção de domínio de tempo 20 pode operar conforme mostrado na última fórmula da versão proposta acima da seção A.4, onde outi,n corresponde às amostras de áudio do sinal de áudio reconstruído 22 na taxa de amostragem reduzida.
[0075] Os processos de janelamento 58 e sobreposição por adição 62, conforme realizado pelo janelador 18 e cancelador de distorção de domínio de tempo 20, são ilustrados em mais detalhes abaixo com relação à Figura 4. A figura 4 utiliza a nomenclatura aplicada na seção proposta acima A.4 e os sinais de referência aplicados nas figuras 3 e 4. x0,0 a xo,(E+2)-N/F-1 representa a 0a parte temporal 52 obtida pelo modulador espacial em temporal 16 para a 0a estrutura 36. O primeiro índice de x indexa as estruturas 36 ao longo da ordem temporal e o segundo índice de x organiza as amostras do temporal ao longo da ordem temporal, a coluna de interamostra pertencente à taxa de amostra reduzida. Então, na figura 4, w0 a W(E+2).N/F-1 indicam os coeficientes da janela da janela 54. Como o segundo índice de x, ou seja, a parte temporal 52 como emitida pelo modulador 16, o índice de w é de modo que o índice 0 corresponda ao valor de amostra mais antigo e o índice (E + 2) • N/F - 1 corresponda ao valor de amostra mais recente quando a janela 54 for aplicada à respectiva parte temporal 52. O janelador 18 janela a parte temporal 52 utilizando janela 54 para obter a parte temporal janelada 60 de modo que z0,0 a z0,(E+2).N/F-1, que denota a parte temporal janelada 60 para a 0a estrutura, é obtida de acordo com Zo,o = Xo,o • Wo, ..., Zo,(E+2)-N/F-1 = X0,(E+2)-N/F-1 ' W(E+2)-N/F-1« OS índices de z têm o mesmo significado que para x. Dessa forma, o modulador 16 e o janelador 18 agem para cada estrutura indexada pelo primeiro índice de x e z. O cancelador 2o soma as E + 2 partes temporais janeladas 6o de E + 2 estruturas imediatamente consecutivas com deslocamento das amostras das partes temporais janeladas 6o com relação entre si por uma estrutura, ou seja, pelo número de amostras por estrutura 36, a saber N/F, para, assim, obter as amostras u de uma estrutura atual, aqui u-(E+1),0 ... u-(E+1),N/F-1). Aqui, novamente, o primeiro índice de u indica o número da estrutura e o segundo índice organiza as amostras desta estrutura ao longo da ordem temporal. O cancelador une as estruturas reconstruídas então obtidas de modo que as amostras do sinal de áudio reconstruído 22 dentro das estruturas consecutivas 36 sigam entre si de acordo com u-(E+1),o . u-(E+1),N/F-1, u-E,o, . u-E,N/F-1, u- (E-1),o, . . o cancelador 22 computa cada amostra do sinal de áudio 22 dentro da -(E+1)ésima estrutura de acordo com u-(E+1),o = Z0,0 + Z-1,N/F + — Z-(E + 1),(E + 1) -N/F, — , U-(E+1)•N/F-1 = Zθ,N/F-1 + Z-1f2.N/F-1 + — + z-(E+1),(E+2)«N/F-1, ou seja, somando (e+2) adendos por amostras u da estrutura atual.
[0076] A figura 5 ilustra uma possível exploração do fato que, entre as amostras em janela que contribuem para as amostras de áudio u da estrutura -(E + 1), aquelas correspondentes a, ou com janelas utilizando, a parte zero 56 da janela 54, a saber Z-(E+1),(E+7/4).N/F — Z-(E+1),(E+2).N/F-1 são valores zero. Assim, em vez de obter todas as N/F amostras dentro da -(E+1)ésima estrutura 36 do sinal de áudio u utilizando E+2 adendos, o cancelador 20 pode computar o quatro da extremidade de entrada respectiva, a saber u- (E+1),(E+7/4).N/F — u-(E+1),(E+2)-N/F-1 meramente utilizando E+1 adendos de acordo com U-(E+1),(E+7/4)-N/F = ZO,3/4^N/F + Z-1,7/4^N/F + — + z-E,(E+3/4)-N/F, — , u-(E + 1),(E + 2pN/F-1 = Z0,N/F-1 + Z-1,2^N/F-1 + — + z-E,(E+1).N/F-1. Dessa forma, o janelador poderia ainda excluir, efetivamente, o desempenho da ponderação 58 com relação à parte zero 56. As amostras U-(E+1),(E+7/4).N/F — U-(E+1),(E+2).N/F-1 da - (E+1)ésima estrutura atual seria, assim, obtida utilizando E+1 adendos apenas, enquanto U-(E+1),(E+1)-N/F — U-(E+1),IE+7/4)-N/F-1 seriam obtidos utilizando E+2 adendos.
[0077] Assim, na forma descrita acima, o decodificador de áudio 10 da figura 2 reproduz, em uma forma de escala reduzida, o sinal de áudio codificado ao fluxo de dados 24. Para esta finalidade, o decodificador de áudio 10 utiliza uma função de janela 54 que é a própria versão reduzida de uma janela de síntese de referência de comprimento (E+2)-N. Conforme explicado com relação à figura 6, esta versão reduzida, ou seja, janela 54, é obtida pela redução da taxa de amostragem da janela de síntese de referência por um fator de F, ou seja, o fator da taxa de amostragem, utilizando uma interpolação segmental, a saber em segmentos de comprimento 1/4-N quando medidos no regime de escala ainda não reduzida, em segmentos do comprimento 1/4-N/F no regime reduzido, em segmentos de quartos de um comprimento da estrutura de estruturas 36, medidos temporalmente e expressos independentemente da taxa de amostragem. Em 4 • (E+2) a interpolação é, assim, realizada. Assim, produzir 4 • (E+2) vezes 1/4-N/F segmentos longos que, concatenados, representam a versão reduzida da janela de síntese de referência de comprimento (E+2)•N. Veja a figura 6 para ilustração. A figura 6 mostra a janela de síntese 54 que é unimodal e utilizada pelo decodificador de áudio 10 de acordo com um procedimento de decodificação de áudio reduzido debaixo da janela de síntese de referência 70 que seu comprimento (E+2)•N. Isto é, pelo procedimento de redução da taxa de amostragem 72 levando da janela de síntese de referência 70 à janela de síntese 54 de fato utilizada pelo decodificador de áudio 10 para decodificação reduzida, o número de coeficientes da janela é reduzido por um fator de F. Na figura 6, a nomenclatura das figuras 5 e 6 foi aderida a, ou seja, w é utilizado a fim de denotar a janela de versão reduzida 54, enquanto w’ foi utilizado para denotar os coeficientes da janela da janela de síntese de referência 70.
[0078] Conforme já mencionado, a fim de realizar a redução da taxa de amostragem 72, a janela de síntese de referência 70 é processada em segmentos 74 de comprimento igual. Em número, há (E+2) -4 destes segmentos 74. Medido na taxa de amostragem original, ou seja, no número de coeficientes da janela da janela de síntese de referência 70, cada segmento 74 é 1/4 • N coeficientes da janela w’ de comprimento e medido na taxa de amostragem reduzida ou com escala reduzida, cada segmento 74 tem 1/4-N/F coeficientes da janela w de comprimento.
[0079] Naturalmente, seria possível realizar a redução da taxa de amostragem 72 para cada coeficiente da janela reduzido wi coincidindo acidentalmente com quaisquer coeficientes da janela w- da janela de síntese de referência 70 definindo simplesmente wi = w- com o tempo de amostra de wi coincidindo com o de w-, e/ou linearmente interpolando quaisquer coeficientes da janela wi residindo, temporalmente, entre dois coeficientes da janela w-ew-+2 por interpolação linear, mas este procedimento resultaria em uma aproximação fraca da janela de síntese de referência 70, ou seja, a janela de síntese 54 utilizada pelo decodificador de áudio 10 para a decodificação reduzida representaria uma fraca aproximação da janela de síntese de referência 70, assim não realizando a solicitação para garantir o teste de conformidade da decodificação em escala reduzida com relação à decodificação sem escala reduzida do sinal de áudio do fluxo de dados 24. Assim, a redução da taxa de amostragem 72 envolve um procedimento de interpolação de acordo com o qual a maioria dos coeficientes da janela wi da janela reduzida 54, a saber aquelas posicionadas deslocadas das bordas dos segmentos 74, dependem da forma do procedimento de redução da taxa de amostragem 72 em mais de dois coeficientes da janela w’ da janela de referência 70. Em particular, enquanto a maioria dos coeficientes da janela wi da janela reduzida 54 dependem de mais dois coeficientes da janela w- da janela de referência 70 a fim de aumentar a qualidade do resultado da interpolação/redução da taxa de amostragem, ou seja, a qualidade da aproximação, para cada coeficiente da janela wi da versão reduzida 54, é verdadeiro que o mesmo não depende dos coeficientes da janela w- pertencentes aos diferentes segmentos 74. Ainda, o procedimento de redução da taxa de amostragem 72 é um procedimento de interpolação segmental.
[0080] Por exemplo, a janela de síntese 54 pode ser uma concatenação de funções de spline de comprimento 1/4 • N/F. As funções de spline cúbica podem ser utilizadas. Tal exemplo foi descrito acima na seção A.1 onde o loop externo sequencialmente ligou os segmentos 74 em que, em cada segmento 74, a redução da taxa de amostragem ou interpolação 72 envolver uma combinação matemática de coeficientes da janela consecutivos w’ dentro do segmento atual 74, por exemplo, primeiro para a próxima cláusula na seção “calcular vetor r necessário para calcular os coeficientes c”. A interpolação aplicada em segmentos, pode, entretanto, ainda ser escolhida de forma diferente. Isto é, a interpolação não está restrita em splines ou spline cúbica. Ainda, a interpolação linear ou qualquer outro método de interpolação pode ser utilizado também. Em qualquer caso, a implementação segmental da interpolação causaria a computação de amostras da janela de síntese com escala reduzida, ou seja, as amostras mais externas dos segmentos da janela de síntese com escala reduzida, se aproximando de outro segmento, não dependem dos coeficientes da janela da janela de síntese de referência residindo em diferentes segmentos.
[0081] Pode ser que o janelador 18 obtenha a janela de síntese reduzida 54 de um armazenamento onde os coeficientes da janela wi desta janela de síntese reduzida 54 foram armazenados após terem sido obtidos utilizando a redução da taxa de amostragem 72. De modo alternativo, conforme ilustrado na Figura 2, o decodificador de áudio 10 pode compreender uma redução da taxa de amostragem segmental 76 realizando a redução da taxa de amostragem 72 da figura 6 com base na janela de síntese de referência 70.
[0082] Deve ser observado que o decodificador de áudio 10 da Figura 2 pode ser configurado para suportar meramente um fator da taxa de amostragem F fixo ou pode suportar diferentes valores. Neste caso, o decodificador de áudio 10 pode ser responsivo a um valor de entrada para F conforme ilustrado na Figura 2 em 78. O dispositivo de captura 14, por exemplo, pode ser responsivo a este valor F a fim de capturar, conforme mencionado acima, os valores espectrais N/F por espectro de estrutura. De forma similar, a redução da taxa de amostragem segmental 76 opcional também pode ser responsiva a este valor de F operando, conforme indicado acima. O modulador S/T 16 pode ser responsivo a F a fim de, por exemplo, computacionalmente derivar as versões reduzidas na escala/reduzidas das funções de modulação, reduzidas na escala/reduzidas com relação àquelas utilizadas no modo não operacional com escala reduzida onde a reconstrução leva à amostra de áudio total.
[0083] Naturalmente, o modulador 16 também seria responsivo à entrada de F 78, pois o modulador 16 utilizaria corretamente as versões reduzidas das funções de modulação e o mesmo é verdadeiro para o janelador 18 e o cancelador 20 com relação a uma adaptação do comprimento real das estruturas na taxa reduzida ou taxa de amostragem reduzida.
[0084] Por exemplo, F pode ficar entre 1,5 e 10, ambos inclusivamente.
[0085] Deve ser observado que o decodificador da Figura 2 e 3 ou qualquer modificação respectiva descrita aqui, pode ser implementada para realizar a transição espectral em tempo utilizando uma implementação de elevação da MDCT de Baixo Atraso conforme ensinado em, por exemplo, EP 2 378 516 B1.
[0086] A figura 8 ilustra uma implementação do decodificador utilizando o conceito de elevação. O modulador S/T 16 realiza exemplarmente uma DCT-IV inversa e é mostrada como segue por um bloco que representa a concatenação do janelador 18 e do cancelador de distorção de domínio de tempo 20. No exemplo da Figura 8 E é 2, ou seja, E=2.
[0087] O modulador 16 compreende um conversor de tempo/frequência da transformada de cosseno discreta iv do tipo inversa. Em vez de emitir as sequências de partes temporais como (E+2)N/F de comprimento 52, meramente emite partes temporais 52 de comprimento 2•N/F, todas derivadas da sequência de espectros de N/F de comprimento 46, estas partes encurtadas 52 correspondentes ao núcleo de DCT, ou seja, as 2’N/F amostras mais recentes das partes descritas antigas.
[0088] O janelador 18 age conforme descrito previamente e gera uma parte temporal janelada 60 para cada parte temporal 52, mas opera meramente no núcleo de DCT. Para esta finalidade, o janelador 18 utiliza a função de janela oi com i=0...2N/F-1, tendo o tamanho do núcleo. A relação entre wi com i=0...(E+2) • N/F-1 é descrita posteriormente, apenas como a relação entre os coeficientes de elevação subsequentemente mencionados e wi com i = 0 ...(E+2) • N/F-1 é.
[0089] Utilizando a nomenclatura aplicada acima, o processo descrito até o momento produz:
[0090] com redefinição de M = N/F, de modo que M corresponda ao tamanho da estrutura expresso no domínio reduzido na escala e utilizando a nomenclatura das figuras 26, em que, entretanto, zk,n e xk,n devem conter meramente as amostras da parte temporal janelada e a parte temporal ainda sem janela dentro do núcleo de DCT tendo tamanho 2*M e temporalmente correspondente às amostras E • N/F...(E+2) • N/F-1 na figura 4. Isto é, n é um número inteiro indicando um índice de amostra e on é um coeficiente da função de janela com valor real correspondente ao índice de amostra n.
[0091] O processo de sobreposição/adição do cancelador 20 opera em uma forma diferente em comparação com a descrição acima. Gera partes temporais intermediárias mk(0),.mk(M-1) com base na equação ou expressão
[0092] Na implementação da figura 8, o aparelho compreende, ainda, um elevador 80 que pode ser interpretado como uma parte do modulador 16 e do janelador 18 visto que o elevador 80 compensa o fato do modulador e do janelador restringirem seu processamento ao núcleo de DCT em veZ de processar a extensão das funções de modulação e da janela de síntese além do núcleo em direção ao passado cuja extensão foi introduZida para compensar a parte Zero 56. O elevador 80 produZ, utiliZando uma estrutura dos retardadores e multiplicadores 82 e somadores 84, as partes temporais ou estruturas finalmente reconstruídas de comprimento M em pares de estruturas imediatamente consecutivas com base na equação ou expressão uk,n = mk,n + ln-M/2 ' mk-1,M-1-n para n = M/2,.,M-1,
[0093] e Uk,n = mk,n + lM-1-n • outk-1,M-1-n para n=0,...,M/2-1,
[0094] em que ln com n = 0.M-1 são coeficientes de elevação de valor real relacionados à janela de síntese com escala reduZida em uma forma descrita em mais detalhes abaixo.
[0095] Em outras palavras, para a sobreposição estendida de E estruturas no passado, apenas M operações adicionais de adição por multiplicador são necessárias, como pode ser visto na estrutura do elevador 80. Estas operações adicionais são, às veZes, referidas também como “matriZes de atraso Zero”. Às veZes, estas operações também são conhecidas como “etapas de elevação”. A implementação eficiente mostrada na figura 8 pode sob algumas circunstâncias ser mais eficiente como uma implementação direta. Para ser mais preciso, dependendo da implementação concreta, tal implementação mais eficiente pode resultar na economia de M operações, como no caso de uma implementação direta para M operações, pode ser aconselhável implementar, como a implementação mostrada na figura 19, requer a princípio, 2M operações na estrutura do módulo 820 e M operações na estrutura do elevador 830.
[0096] De acordo com a dependência de on com n=0...2M- 1 e ln com n = 0...M-1 na janela de síntese wi com i = 0...(E+2)M-1 (lembra-se que aqui E=2), as seguintes fórmulas descrevem a relação entre eles com deslocamento, entretanto, os indices subscritos utilizados até o momento em parênteses seguindo a respectiva variável:
[0097] Observe que a janela wi contém os valores máximo no lado direito nesta formulação, ou seja, entre os índices 2M e 4M — 1. As fórmulas acima se referem aos coeficientes ln com n = 0...M-1 e On n = 0,...,2M-1 aos coeficientes wn com n = 0...(E+2)M-1 da janela de síntese com escala reduzida. Como pode ser visto, ln com n = 0.M-1 de fato dependem meramente de 34 dos coeficientes da janela de síntese reduzida, a saber de wn com n = 0.(E+1)M-1, enquanto On n = 0,...,2M-1 dependem de todos wn com n = 0...(E+2)M-1.
[0098] Conforme declarado acima, pode ser que o janelador 18 obtenha a janela de síntese reduzida 54 wn com n = 0.(E+2)M-1 de um armazenamento onde os coeficientes da janela wi desta janela de síntese reduzida 54 foram armazenados após serem obtidos utilizando a redução da taxa de amostragem 72, e de onde os mesmos são lidos para computar os coeficientes ln com n = 0...M-1 e On n = 0,...,2M-1 utilizando a relação acima, mas de modo alternativo, o janelador 18 pode recuperar os coeficientes ln com n = 0.M-1 e On n = 0,.,2M-1, assim computados da janela de síntese pré-reduzida, do armazenamento diretamente. De modo alternativo, conforme declarado acima, o decodificador de áudio 10 pode compreender a redução da taxa de amostragem segmental 76 realizando a redução da taxa de amostragem 72 da figura 6 com base na janela de síntese de referência 70, produzindo assim wn com n = 0.(E+2)M-1 com base no qual o janelador 18 computa os coeficientes ln com n = 0.M-1 e On n = 0,.,2M-1 utilizando a relação/fórmulas acima. Ainda utilizando a implementação de elevação, mais de um valor para F pode ser suportado.
[0099] Resumindo brevemente a implementação de elevação, os mesmos resultados em um decodificador de áudio 10 configurado para decodificação de um sinal de áudio 22 em uma primeira taxa de amostragem de um fluxo de dados 24 no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo a 1/Fésima da segunda taxa de amostragem, o decodificador de áudio 10 compreendendo o receptor 12 que recebe, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais 28, o dispositivo de captura 14 que exclui para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais 28, um modulador de espectro em tempo 16 configurado para submeter, para cada estrutura 36, a fração de baixa frequência a uma transformada inversa tendo funções de modulação de comprimento 2•N/F temporalmente estendendo-se sobre a respectiva estrutura e uma estrutura prévia para, assim, obter uma parte temporal do comprimento 2•N/F, e um janelador 18 que janela, para cada estrutura 36, a parte temporal xk,n de acordo com zk,n = CO ■ xk,n for n = 0,...,2M-1 para, assim, obter uma parte temporal janelada zk,n com n = 0...2M-1. O cancelador de distorção de domínio de tempo 20 gera partes temporais intermediárias mk(0),.mk(M-1) de acordo com mk,n = zk,n + zk-1,n+M para n = 0,.,M-1. Finalmente, o elevador 80 computa as estruturas uk,n do sinal de áudio com n = 0.M-1 de acordo com uk,n = mk,n + ln-M/2 ■ mk-1,M-1-n for n = M/2,.,M-1, e uk,n = mk,n + lM-1-n ■ outk-1,M-1-n para n=0,.,M/2-1, em que ln com n = 0.M-1 são coeficientes de elevação, em que a transformada inversa é uma MDCT inversa ou MDST inversa, e em que ln com n = 0...M-1 e On n = 0,..,2M-1 dependem dos coeficientes wn com n = 0.(E+2)M-1 de uma janela de síntese, e a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento 4 • N, reduzida por um fator de F por uma interpolação segmental em segmentos de comprimento 1/4 • N.
[0100] Já foi verificado na discussão acima de uma proposta para uma extensão de um AAC-ELD com relação a um modo de decodificação em escala reduzida que o decodificador de áudio da figura 2 pode ser acompanhado com uma ferramenta SBR de baixo atraso. O seguinte descreve, por exemplo, como o codificador AAC-ELD estendeu para suportar o modo operacional em escala reduzida proposto acima, operaria ao utilizar a ferramenta SBR de baixo atraso. Conforme já mencionado na parte introdutória do relatório descritivo do presente pedido, caso a ferramenta SBR de baixo atraso seja utilizada em conexão com o codificador AAC-ELD, os bancos de filtro do módulo de SBR de baixo atraso são reduzidos na escala também. Isso garante que o módulo de SBR opere com a mesma resolução de frequência e, portanto, não mais adaptações são necessárias. A figura 7 descreve a passagem do sinal do decodificador AAC-ELD operando a 96 kHz, com tamanho da estrutura de 480 amostras, no modo de SBR com amostra reduzida e com um fator de redução de escala F de 2.
[0101] Na Figura 7, o fluxo contínuo de bits que chega como processado por uma sequência de blocos, a saber um decodificador AAC, um bloco de LD-MDCT inversa, um bloco de análise de CLDFB, um decodificador SBR e um bloco de síntese de CLDFB (CLDFB = complex low delay filter bank | banco de filtro de baixo atraso complexo). O fluxo contínuo de bits é igual ao fluxo de dados 24 discutido previamente com relação às figuras 3 a 6, mas é adicionalmente acompanhado pelos dados de SBR paramétricos que ajudam a formação espectral de uma réplica espectral de uma banda de extensão espectral estendendo a frequência espectral do sinal de áudio obtido pela decodificação de áudio com escala reduzida na saída do bloco de MDCT de baixo atraso inversa, a formação espectral sendo realizada pelo decodificador de SBR. Em particular, o decodificador AAC recupera todos os elementos de sintaxe necessários por análise adequada e decodificação de entropia. O decodificador AAC pode parcialmente coincidir com o receptor 12 do decodificador de áudio 10 que, na Figura 7, é incorporado pelo bloco de MDCT de baixo atraso inversa. Na figura 7, F é exemplarmente igual a 2. Isto é, o bloco de MDCT de baixo atraso inversa da figura 7 emite, como um exemplo para o sinal de áudio reconstruído 22 da figura 2, um sinal de tempo reduzido de 48 kHz na metade da taxa na qual o sinal de áudio foi originalmente codificado no fluxo contínuo de bits de chegada. O bloco de análise de CLDFB subdivide este sinal de tempo de 48 kHz, ou seja, o sinal de áudio obtido pela decodificação de áudio com escala reduzida, em N bandas, aqui N = 16, e o decodificador de SBR computa os coeficientes de reformatação para estas bandas, reformata das N bandas adequadamente - controladas por dados de SBR no fluxo contínuo de bits de entrada que chega na entrada do decodificador AAC e o bloco de síntese de CLDFB retransiciona do domínio espectral em domínio de tempo obtendo, assim, um sinal de extensão de alta frequência a ser adicionado aos sinais de áudio decodificados originais emitidos pelo bloco de MDCT de baixo atraso inversa.
[0102] Observe que a operação padrão de SBR utiliza um CLDFB de 32 bandas. O algoritmo de interpolação para os coeficientes da janela de CLDFB de 32 bandas ci32 já é dado em 4.6.19.4.1 em [1],
[0103] onde c64 são os coeficientes da janela da janela de 64 bandas dada na Tabela 4.A.90 em [1]. Esta fórmula pode ser mais generalizada para definir os coeficientes da janela para um número inferior de bandas B também
[0104] onde F denota o fator de redução de escala sendo F = 32/B . com esta definição dos coeficientes da janela, o banco de filtro de análise e síntese de CLDFB pode ser completamente descrito conforme descrito no exemplo acima da seção A.2.
[0105] Assim, os exemplos acima forneceram algumas definições ausentes para o codec AAC-ELD, a fim de adaptar o codec aos sistemas com taxas de amostra inferiores. Estas definições podem ser incluídas no padrão ISO/IEC 144963:2009.
[0106] Assim, na discussão acima, inter alias, foi descrito:
[0107] Um decodificador de áudio pode ser configurado para decodificação de um sinal de áudio em uma primeira taxa de amostragem de um fluxo de dados no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, o decodificador de áudio compreendendo: um receptor configurado para receber, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais; um dispositivo de captura configurado para capturar para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais; um modulador de espectro em tempo configurado para submeter, para cada estrutura, a fração de baixa frequência em uma transformada inversa tendo funções de modulação de comprimento (E+2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E+1 estruturas prévias para, assim, obter uma parte temporal do comprimento (E + 2) • N/F; um janelador configurado para janelar, para cada estrutura, a parte temporal utilizando uma janela de síntese unimodal de comprimento (E + 2) • N/F compreendendo uma parte zero do comprimento 1/4 • N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese unimodal, o intervalo temporal subsequente a parte zero e tendo comprimento 7/4 • N/F de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e um cancelador de distorção de domínio de tempo configurado para submeter a parte temporal janelada das estruturas em um processo de adição por sobreposição de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada do comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior, em que a transformada inversa é uma MDCT inversa ou MDST inversa, e em que a janela de síntese unimodal é uma versão reduzida de uma janela de síntese unimodal de referência do comprimento (E + 2) • N, reduzida por um fator de F por uma interpolação segmental em segmentos do comprimento 1/4 • N/F.
[0108] Um decodificador de áudio de acordo com uma aplicação, caracterizado pela janela de síntese unimodal ser uma concatenação de funções de spline do comprimento 1/4 • N/F.
[0109] Um decodificador de áudio de acordo com uma aplicação, caracterizado pela janela de síntese unimodal ser uma concatenação de funções de spline cúbica do comprimento 1/4 • N/F.
[0110] Um decodificador de áudio de acordo com quaisquer aplicações anteriores, caracterizado por E = 2.
[0111] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pela transformada inversa ser uma MDCT inversa.
[0112] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado por mais de 80% de uma massa da janela de síntese unimodal ser compreendida dentro do intervalo temporal subsequente a parte zero e tendo comprimento 7/4 • N/F.
[0113] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pelo decodificador de áudio ser configurado para realizar a interpolação ou para derivar a janela de síntese unimodal de um armazenamento.
[0114] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pelo decodificador de áudio ser configurado para suportar diferentes valores para F.
[0115] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado por F estar entre 1,5 e 10, ambos inclusivamente.
[0116] Um método realizado por um decodificador de áudio, de acordo com quaisquer das aplicações anteriores.
[0117] Um programa de computador, tendo um código de programa para realizar, ao ser executado em um computador, um método de acordo com uma aplicação.
[0118] Sempre que o termo “de ...comprimento” for referido, deve ser observado que este termo deve ser interpretado como medindo o comprimento em amostras. Desde que o comprimento da parte zero e os segmentos sejam referidos, deve ser observado que o mesmo pode ser o valor de número inteiro. De modo alternativo, o mesmo pode ser o valor de número não inteiro.
[0119] Quanto ao intervalo temporal dentro do qual o pico está posicionado, observa-se que a Figura 1 mostra este pico, bem como o intervalo temporal ilustrativamente para um exemplo da janela de síntese unimodal de referência com E = 2 e N = 512: O pico tem seu máximo aproximadamente na amostra n° 1408 e o intervalo temporal estende-se da amostra n° 1024 à amostra n° 1920. O intervalo temporal é, assim, 7/8 do núcleo de DCT de comprimento.
[0120] Quanto ao termo “versão de amostragem reduzida”, observa-se que, no relatório descritivo acima, em vez deste termo, “versão em escala reduzida” foi sinonimamente utilizado.
[0121] Quanto ao termo “massa de uma função dentro de um determinado intervalo”, observa-se que o mesmo deve denotar o integral definido da respectiva função dentro do respectivo intervalo.
[0122] Em caso de o decodificador de áudio suportar diferentes valores para F, o mesmo pode compreender um armazenamento tendo versões segmentada e adequadamente interpoladas da janela de síntese unimodal de referência ou pode realizar a interpolação segmental para um valor atualmente ativo de F. As diferentes versões segmentalmente interpoladas têm, em comum, que a interpolação não afeta negativamente as descontinuidades nos limites do segmento. Eles podem, conforme descrito acima, estriar as funções.
[0123] Por derivação da janela de síntese unimodal por uma interpolação segmental da janela de síntese unimodal de referência, como aquela mostrada na Figura 1 acima, os segmentos 4 • (E + 2) podem ser formados pela aproximação de spline, como por splines cúbicos, e em vez de interpolação, as descontinuidades que devem estar presentes na janela de síntese unimodal em uma inclinação de 1/4 • N/F devido à parte zero sinteticamente introduzida como um meio para reduzir o atraso são conservadas.
REFERÊNCIAS
[0124] [1] ISO/IEC 14496-3:2009
[0125] [2] M13958, “Proposal for an Enhanced Low Delay Coding Mode” Outubro de 2006 Hangzhou, China.

Claims (7)

1. Decodificador de áudio (10) configurado para decodificação de um sinal de áudio (22) em uma primeira taxa de amostragem de um fluxo de dados (24) no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, o decodificador de áudio (10) compreendendo: um receptor (12) configurado para receber, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais (28); um dispositivo de captura (14) configurado para capturar, para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais (28); um modulador de espectro em tempo (16) configurado para submeter, para cada estrutura (36), a fração de baixa frequência em uma transformada inversa, tendo funções de modulação de comprimento (E+2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estruturas prévias para, assim, obter uma parte temporal de comprimento (E + 2) • N/F; um janelador (18) configurado para janelamento, para cada estrutura (36), da parte temporal utilizando uma janela de síntese de comprimento (E +2) • N/F, compreendendo uma parte zero de comprimento 1/4•N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese, o intervalo temporal sucedendo a parte zero e tendo comprimento 7/4 • N/F, de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e um cancelador de distorção de domínio de tempo (20) configurado para submeter a parte temporal janelada das estruturas em um processo de adição por sobreposição, de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior; caracterizado pela transformada inversa ser uma MDCT inversa ou MDST inversa; e em que a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento (E + 2) • N reduzida por um fator de F por uma interpolação segmental em segmentos de comprimento 1/4 • N, em que E = 2.
2. Decodificador de áudio (10), de acordo com a reivindicação 1, caracterizado pelo janelador (18) e pelo cancelador de distorção de domínio de tempo cooperarem, de modo que o janelador pule a parte zero na ponderação da parte temporal, utilizando a janela de síntese, e o cancelador de distorção de domínio de tempo (20) desconsidere uma parte não ponderada correspondente da parte temporal janelada no processo de adição por sobreposição, de modo que meramente as partes temporais janeladas E+1 sejam somadas para, assim, resultar na parte não ponderada correspondente de uma estrutura correspondente e as partes em janela E+2 sejam somadas dentro de um restante da estrutura correspondente.
3. Decodificador de áudio para gerar uma versão em escala reduzida de uma janela de síntese de um decodificador de áudio (10), de acordo com a reivindicação 1 ou 2, caracterizado por E=2, de modo que a função da janela de síntese compreenda uma metade do comprimento relacionado ao núcleo 2•N/F precedida por uma metade restante do comprimento 2•N/F, e em que o modulador de espectro em tempo (16), o janelador (18) e o cancelador de distorção de domínio de tempo (20) são implementados para, assim, cooperar em uma implementação de elevação, de acordo com a qual o modulador de espectro em tempo (16) confina a submissão, para cada estrutura (36), da fração de baixa frequência à transformada inversa, tendo funções de modulação de comprimento (E + 2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e estruturas prévias E + 1 a um núcleo de transformada que coincide com a respectiva estrutura, e uma estrutura prévia para, assim, obter a parte temporal xk,n com n = 0...2M-1 com M=N/F sendo um índice de amostra e k sendo um índice de estrutura; o janelador (18) janelando, para cada estrutura (36), a parte temporal xk,n de acordo com zk,n = CO ■ xk,n para n = 0,..,2M-1 para, assim, obter a parte temporal janelada zk,n com n = 0.2M-1; o cancelador de distorção de domínio de tempo (20) gera partes temporais intermediárias mk(0),.mk(M-1), de acordo com mk,n = zk,n + zk-1,n+M para n = 0,...,M-1; e o decodificador de áudio compreende um elevador (80) configurado para obter as estruturas uk,n comn = 0.M-1, de acordo com Uk,n = mk,n + ln-M/2 - mk-i,M-i-n para n = M/2,...,M- 1, e Uk,n = mk,n + lM-1-n - mk-i,M-i-n para n=0,...,M/2-1, em que ln com n = 0.M-1 são coeficientes de elevação e em que ln com n = 0...M-1 e On com n = 0,...,2M-1 dependem dos coeficientes wn com n = 0.(E+2)M-1 da janela de síntese.
4. Decodificador de áudio (10) configurado para decodificação de um sinal de áudio (22) em uma primeira taxa de amostragem de um fluxo de dados (24) no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, o decodificador de áudio (10) compreendendo: um receptor (12) configurado para receber, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais (28); um dispositivo de captura (14) configurado para capturar, para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais (28); um modulador de espectro em tempo (16) configurado para submeter, para cada estrutura (36), a fração de baixa frequência em uma transformada inversa, tendo funções de modulação de comprimento 2•N/F temporalmente estendendo-se sobre a respectiva estrutura e a estrutura prévia para, assim, obter uma parte temporal do comprimento 2•N/F; um janelador (18) configurado para janelar, para cada estrutura (36), a parte temporal xk,n, de acordo com zk,n = O ■ xk,n, para n = 0,...,2M-1 para, assim, obter uma parte temporal janelada zk,n com n = 0...2M-1; um cancelador de distorção de domínio de tempo (20) configurado para gerar partes temporais intermediárias mk(0),.mk(M-1), de acordo com mk,n = zk,n + zk- 1,n+M for n = 0,.,M-1; e o elevador (80) configurado para obter estruturas uk,n do sinal de áudio com n = 0.M-1, de acordo com uk,n = mk,n + ln-M/2 ■ mk-1,M-1-n para n = M/2,.,M- 1, e uk,n = mk,n + lM-1-n ■ mk-1,M-1-n para n=0,.,M/2-1, caracterizado por ln com n = 0.M-1 serem coeficientes de elevação; em que a transformada inversa é uma MDCT inversa ou MDST inversa; e em que ln com n = 0...M-1 e On com n = 0,..,2M-1 dependem dos coeficientes wn com n = 0.(E+2)M-1 de uma janela de síntese e a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento 4 • N reduzida por um fator de F por uma interpolação segmental em segmentos de comprimento 1/4 • N, em que E = 2.
5. Aparelho para gerar uma versão em escala reduzida de uma janela de síntese de um decodificador de áudio (10) de acordo com quaisquer das reivindicações anteriores, caracterizado pelo aparelho ser configurado para reduzir a taxa de amostragem de uma janela de síntese de referência de comprimento (E + 2) • N por um fator de F por uma interpolação segmental em segmentos 4 • (E + 2) de comprimento igual.
6. Método para gerar uma versão em escala reduzida de uma janela de síntese de um decodificador de áudio (10), de acordo com quaisquer das reivindicações de 1 a 5, caracterizado pelo método compreender a redução da taxa de amostragem de uma janela de síntese de referência de comprimento (E + 2) • N por um fator de F por uma interpolação segmental em segmentos 4 • (E + 2) de comprimento igual.
7. Método para decodificação de um sinal de áudio (22) em uma primeira taxa de amostragem de um fluxo de dados (24) no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, sendo que o método é caracterizado por compreender: recebimento, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais (28); captura, para cada estrutura, de uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais (28); realização de uma modulação espectral em tempo submetendo, para cada estrutura (36), a fração de baixa frequência a uma transformada inversa, tendo funções de modulação de comprimento (E+2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estruturas prévias para, assim, obter uma parte temporal do comprimento (E + 2) • N/F; janelamento, para cada estrutura (36), da parte temporal, utilizando uma janela de síntese do comprimento (E +2 ) • N/F, compreendendo uma parte zero do comprimento 1/4•N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese, o intervalo temporal subsequente à parte zero, e tendo comprimento 7/4 • N/F, de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e realização de um cancelamento de distorção de domínio de tempo, submetendo a parte temporal janelada das estruturas a um processo de adição por sobreposição, de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior; em que a transformada inversa é uma MDCT inversa ou MDST inversa; e em que a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento (E + 2) • N reduzida por um fator de F por uma interpolação segmental em segmentos do comprimento 1/4 • N, em que E = 2.
BR122020021690-5A 2015-06-16 2016-06-10 Decodificação em escala reduzida BR122020021690B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15172282.4 2015-06-16
EP15189398.9 2015-10-12

Publications (1)

Publication Number Publication Date
BR122020021690B1 true BR122020021690B1 (pt) 2024-04-02

Family

ID=

Similar Documents

Publication Publication Date Title
US20240005931A1 (en) Downscaled decoding
BR122020021690B1 (pt) Decodificação em escala reduzida
BR122020021674B1 (pt) Decodificação em escala reduzida