BR122020021674B1 - REDUCED SCALE DECODING - Google Patents

REDUCED SCALE DECODING Download PDF

Info

Publication number
BR122020021674B1
BR122020021674B1 BR122020021674-3A BR122020021674A BR122020021674B1 BR 122020021674 B1 BR122020021674 B1 BR 122020021674B1 BR 122020021674 A BR122020021674 A BR 122020021674A BR 122020021674 B1 BR122020021674 B1 BR 122020021674B1
Authority
BR
Brazil
Prior art keywords
length
window
sampling rate
coefficients
temporal
Prior art date
Application number
BR122020021674-3A
Other languages
Portuguese (pt)
Inventor
Markus Schnell
Manfred Lutzky
Eleni FOTOPOULOU
Konstantin Schmidt
Conrad BENNDORF
Adrian TOMASEK
Tobias Albert
Timon SEIDL
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP15189398.9A external-priority patent/EP3107096A1/en
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BR122020021674B1 publication Critical patent/BR122020021674B1/en

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Uma versão em escala reduzida de um procedimento de decodificação de áudio pode, mais efetivamente e/ou em manutenção de conformidade melhorada, ser obtida se a janela de síntese utilizada para decodificação de áudio com escala reduzida for uma versão reduzida de uma janela de síntese de referência envolvida no procedimento de decodificação de áudio sem escala reduzida por redução da taxa de amostragem pelo fator da taxa de amostragem, pelo qual a taxa de amostragem reduzida e a taxa de amostragem original desviam, e a amostragem reduzida utilizando uma interpolação segmental em segmentos de 1/4 da estrutura comprimento. Figura 2.A scaled-down version of an audio decoding procedure may, more effectively and/or in improved compliance maintenance, be obtained if the synthesis window used for scaled-down audio decoding is a scaled-down version of a scaled-down audio synthesis window. reference involved in the procedure of decoding unscaled audio by reducing the sampling rate by the sampling rate factor, whereby the downsampling rate and the original sampling rate deviate, and downsampling using a segmental interpolation into segments of 1/4 of the structure length. Figure 2.

Description

PEDIDO DIVIDIDO DO BR 11 2017 026724-1 depositado em 10/06/2016.SPLIT ORDER OF BR 11 2017 026724-1 filed on 06/10/2016. RELATÓRIO DESCRITIVO.DESCRIPTIVE REPORT.

[0001] O presente pedido refere-se a um conceito de decodificação em escala reduzida.[0001] The present application relates to a reduced-scale decoding concept.

[0002] O Baixo Atraso Melhorado MPEG-4 AAC (AAC-ELD | Enhanced Low Delay AAC) geralmente opera em taxas de amostragem até 48 kHz, o que resulta em um atraso logarítmico de 15ms. Para algumas aplicações, por exemplo, transmissão de áudio de sincronização labial, é desejável um atraso ainda menor. AAC-ELD já fornece essa opção, operando em taxas de amostragem mais altas, por exemplo, 96 kHz, e, portanto, fornece modos de operação com menor atraso, por exemplo, 7,5 ms. Entretanto, este modo de operação vem com uma alta complexidade desnecessária devido à alta taxa de amostragem.[0002] MPEG-4 AAC Enhanced Low Delay (AAC-ELD | Enhanced Low Delay AAC) generally operates at sample rates up to 48 kHz, which results in a logarithmic delay of 15 ms. For some applications, for example lip-sync audio transmission, an even shorter delay is desirable. AAC-ELD already provides this option, operating at higher sample rates, e.g. 96 kHz, and therefore provides lower delay modes of operation, e.g. 7.5 ms. However, this mode of operation comes with unnecessary high complexity due to the high sampling rate.

[0003] A solução para este problema é aplicar uma versão em escala reduzida do banco de filtros e, portanto, renderizar o sinal de áudio a uma taxa de amostragem menor, por exemplo, 48kHz em vez de 96 kHz. A operação de redução de escala já faz parte do AAC-ELD, pois é herdada do codec MPEG- 4 AAC-LD, que serve como base para o AAC-ELD.[0003] The solution to this problem is to apply a scaled-down version of the filter bank and therefore render the audio signal at a lower sampling rate, for example, 48kHz instead of 96kHz. The downscaling operation is already part of AAC-ELD, as it is inherited from the MPEG-4 AAC-LD codec, which serves as the basis for AAC-ELD.

[0004] A questão que permanece, entretanto, é como encontrar a versão em escala reduzida de um banco de filtros específico. Ou seja, a única incerteza é a forma como os coeficientes da janela são derivados, ao mesmo tempo que permitem testes de conformidade claros dos modos de operação de em escala reduzida do decodificador AAC-ELD.[0004] The question that remains, however, is how to find the scaled-down version of a specific filter bank. That is, the only uncertainty is how the window coefficients are derived, while also allowing clear compliance tests of the AAC-ELD decoder's scaled-down operating modes.

[0005] A seguir, os princípios do modo de operação com escala reduzida dos codecs AAC-(E)LD são descritos.[0005] Next, the principles of the scaled-down operation mode of the AAC-(E)LD codecs are described.

[0006] O modo de operação em escala reduzida ou AAC- LD é descrito para AAC-LD em ISO/IEC 14496-3:2009 na seção 4.6.17.2.7 “Adaptação aos sistemas utilizando taxas de amostragem menores”, conforme segue:[0006] The reduced scale operation mode or AAC-LD is described for AAC-LD in ISO/IEC 14496-3:2009 in section 4.6.17.2.7 “Adaptation to systems using lower sampling rates”, as follows:

[0007] “Em certas aplicações, pode ser necessário integrar o decodificador de baixa atraso em um sistema de áudio que executa em taxas de amostragem menores (por exemplo, 16 kHz) enquanto a taxa de amostragem nominal da carga útil do fluxo de bits contínuo é muito maior (por exemplo, 48 kHz, correspondente a um atraso de codificação algorítmico de cerca de 20 ms). Nestes casos, é favorável decodificar a saída do codec de baixo atraso na taxa de amostragem alvo em vez de utilizar uma operação e conversão da taxa de amostragem adicional após a decodificação.[0007] “In certain applications, it may be necessary to integrate the low-delay decoder into an audio system that runs at lower sampling rates (e.g., 16 kHz) while the nominal sampling rate of the continuous bitstream payload is is much higher (e.g. 48 kHz, corresponding to an algorithmic encoding delay of about 20 ms). In these cases, it is favorable to decode the output of the low-delay codec at the target sample rate rather than using an additional sample rate conversion operation after decoding.

[0008] Isto pode ser aproximado pela redução de escala apropriada de ambos, o tamanho da estrutura e a taxa de amostragem, por algum fator de número inteiro (por exemplo 2, 3), resultando na mesma resolução de tempo/frequência do codec. Por exemplo, a saída do codec pode ser gerada na taxa de amostragem de 16 kHz em vez da nominal 48 kHz retendo apenas o terceiro mais baixo (ou seja, 480/3 = 160) dos coeficientes espectrais antes do banco de filtro de síntese e reduzindo o tamanho da transformada inversa em um terço (ou seja, tamanho da janela 960/3 = 320).[0008] This can be approximated by appropriately scaling down both the frame size and the sampling rate by some integer factor (e.g. 2, 3), resulting in the same time/frequency resolution of the codec. For example, the codec output can be generated at the 16 kHz sample rate instead of the nominal 48 kHz by retaining only the lowest third (i.e., 480/3 = 160) of the spectral coefficients before the synthesis filter bank and reducing the size of the inverse transform by one third (i.e. window size 960/3 = 320).

[0009] Como consequência, a decodificação para taxas de amostragem inferiores reduz ambas as exigências de memória e computacional, mas pode não produzir exatamente a mesma saída que uma decodificação de largura de banda completa, seguida pelo limite da banda e conversão da taxa de amostra.[0009] As a consequence, decoding to lower sample rates reduces both memory and computational requirements, but may not produce exactly the same output as full bandwidth decoding followed by bandwidth capping and sample rate conversion. .

[0010] Observe que a decodificação a uma taxa de amostragem menor, conforme descrito acima, não afeta a interpretação de níveis que se refere à taxa de amostragem nominal da carga útil de fluxo de bits de baixo atraso de AAC”.[0010] Note that decoding at a lower sample rate as described above does not affect the interpretation of levels that refer to the nominal sample rate of the AAC low-delay bitstream payload.”

[0011] Observe que AAC-LD trabalha com uma estrutura de MDCT padrão e dois formatos de janela, ou seja, janela de seno e janela de sobreposição baixa. Ambas as janelas são completamente descritas por fórmulas e, portanto, os coeficientes da janela para quaisquer comprimentos de transformação podem ser determinados.[0011] Note that AAC-LD works with a standard MDCT structure and two window formats, namely sine window and low overlap window. Both windows are completely described by formulas and therefore the window coefficients for any transformation lengths can be determined.

[0012] Em comparação com AAC-LD, o codec AAC-ELD mostra duas diferenças principais: • A Janela de MDCT de Baixo Atraso (LD-MDCT | Low Delay MDCT) • A possibilidade de utilizar a ferramenta de SBR de Baixo Atraso.[0012] Compared to AAC-LD, the AAC-ELD codec shows two main differences: • The Low Delay MDCT Window (LD-MDCT | Low Delay MDCT) • The possibility of using the Low Delay SBR tool.

[0013] O algoritmo de IMDCT que utiliza a janela de MDCT de baixo atraso é descrito em 4.6.20.2 in [1], que é muito similar à versão de IMDCT padrão utilizando, por exemplo, a janela de seno. Os coeficientes das janelas de MDCT de baixo atraso (tamanho da estrutura das amostras 480 e 512) são dados na Tabela 4.A.15 e 4.A.16 em [1]. Observe que os coeficientes não podem ser determinados por uma fórmula, pois os coeficientes são o resultado de um algoritmo de otimização. A Figura 9 mostra um gráfico do formato da janela para o tamanho da estrutura 512.[0013] The IMDCT algorithm using the low-delay MDCT window is described in 4.6.20.2 in [1], which is very similar to the standard IMDCT version using, for example, the sine window. The coefficients of the low-delay MDCT windows (sample frame size 480 and 512) are given in Table 4.A.15 and 4.A.16 in [1]. Note that coefficients cannot be determined by a formula, as coefficients are the result of an optimization algorithm. Figure 9 shows a plot of the window shape for the 512 frame size.

[0014] Em caso da ferramenta de SBR de baixo atraso (LD-SBR | low delay SBR) ser utilizada em conjunto com o codificador AAC-ELD, os bancos de filtro do módulo de LD-SBR são reduzidos na escala também. Isto garante que o módulo de SBR opera com a mesma resolução de frequência e, portanto, nenhuma outra adaptação é necessária.[0014] If the low delay SBR tool (LD-SBR | low delay SBR) is used in conjunction with the AAC-ELD encoder, the filter banks of the LD-SBR module are reduced in scale as well. This ensures that the SBR module operates with the same frequency resolution and therefore no further adaptation is required.

[0015] Assim, a descrição acima revela que há uma necessidade de operações de decodificação com redução de escala, como, por exemplo, redução de escala de uma decodificação em um AAC-ELD. Seria viável localizar os coeficientes para a função da janela de síntese em escala reduzida novamente, mas esta é uma tarefa complicada, precisa de armazenamento adicional para armazenar a versão em escala reduzida e fornece uma verificação de conformidade entre a decodificação sem escala reduzida e a decodificação em escala reduzida mais complicada ou, de outra perspectiva, não cumpre com a forma de reduzir a escala solicitada em AAC-ELD, por exemplo. Dependendo do índice de escala reduzida, ou seja, o índice entre a taxa de amostragem original e a taxa de amostragem em escala reduzida, poderia derivar a função da janela de síntese em escala reduzida simplesmente pela redução da taxa de amostragem, ou seja, escolhendo cada segundo, terceiro, ... coeficiente da janela da função da janela de síntese original, mas este procedimento não resulta em uma conformidade suficiente da decodificação sem escala reduzida e decodificação em escala reduzida, respectivamente. Utilizar procedimentos de decimação mais sofisticados aplicados na função da janela de síntese leva a desvios inaceitáveis do formato da função da janela de síntese original. Portanto, há uma necessidade na técnica por um conceito melhorado de decodificação em escala reduzida.[0015] Thus, the above description reveals that there is a need for downscaling decoding operations, such as, for example, downscaling a decode in an AAC-ELD. It would be feasible to find the coefficients for the downscaled synthesis window function again, but this is a cumbersome task, needs additional storage to store the downscaled version, and provides a compliance check between unscaled decoding and decoding in a more complicated reduced scale or, from another perspective, does not comply with the form of reduced scale requested in AAC-ELD, for example. Depending on the downscale index, i.e. the ratio between the original sampling rate and the downscaled sampling rate, one could derive the downscaled synthesis window function simply by reducing the sampling rate, i.e. choosing every second, third, ... window coefficient of the original synthesis window function, but this procedure does not result in sufficient compliance of the unscaled decoding and downscaled decoding, respectively. Using more sophisticated decimation procedures applied to the synthesis window function leads to unacceptable deviations from the shape of the original synthesis window function. Therefore, there is a need in the art for an improved downscale decoding concept.

[0016] Por conseguinte, é um objeto da presente invenção fornecer um esquema de decodificação de áudio que permita tal decodificação melhorada em escala reduzida.[0016] Therefore, it is an object of the present invention to provide an audio decoding scheme that allows such improved decoding on a reduced scale.

[0017] Este objeto é alcançado pelo assunto das reivindicações independentes.[0017] This object is achieved by the subject of independent claims.

[0018] A presente invenção se baseia na constatação de que uma versão em escala reduzida de um procedimento de decodificação de áudio pode mais efetivamente, e/ou na manutenção de conformidade melhorada, ser obtida se a janela de síntese utilizada para decodificação de áudio com escala reduzida for uma versão reduzida de uma janela de síntese de referência envolvida no procedimento de decodificação de áudio sem escala reduzida por redução da taxa de amostragem pelo fator da taxa de amostragem, pelo qual a taxa de amostragem reduzida e a taxa de amostragem original desviam, e a reduzida utilizando uma interpolação segmental em segmentos de ^ do comprimento da estrutura.[0018] The present invention is based on the discovery that a scaled-down version of an audio decoding procedure can more effectively, and/or in maintaining improved compliance, be obtained if the synthesis window used for audio decoding with downscaled is a reduced version of a reference synthesis window involved in the procedure of decoding unscaled audio by reducing the sample rate by the sample rate factor, whereby the reduced sample rate and the original sample rate deviate , and reduced using segmental interpolation in segments of ^ the length of the structure.

[0019] Aspectos vantajosos do presente pedido são o assunto das reivindicações dependentes. As aplicações preferidas do presente pedido são descritas abaixo com relação às figuras, entre as quais:[0019] Advantageous aspects of the present application are the subject of the dependent claims. Preferred applications of the present application are described below with reference to the figures, among which are:

[0020] A Figura 1 mostra um diagrama esquemático, ilustrando exigências de reconstrução perfeita necessárias a serem obedecidas ao reduzir a escala da decodificação, a fim de preservar a reconstrução perfeita;[0020] Figure 1 shows a schematic diagram, illustrating perfect reconstruction requirements necessary to be obeyed when downscaling the decoding in order to preserve perfect reconstruction;

[0021] A Figura 2 mostra um diagrama de blocos de um decodificador de áudio para decodificação em escala reduzida, de acordo com uma aplicação;[0021] Figure 2 shows a block diagram of an audio decoder for reduced-scale decoding, according to an application;

[0022] A Figura 3 mostra um diagrama esquemático, ilustrando, na metade superior, a forma na qual um sinal de áudio foi codificado em uma taxa de amostragem original em um fluxo de dados e, na metade inferior separada da metade superior por uma linha horizontal tracejada, uma operação de decodificação em escala reduzida para reconstruir o sinal de áudio do fluxo de dados em uma taxa de amostragem reduzida ou com escala reduzida, para assim ilustrar o modo de operação do decodificador de áudio da Figura 2;[0022] Figure 3 shows a schematic diagram, illustrating, in the upper half, the way in which an audio signal was encoded at an original sampling rate into a data stream and, in the lower half separated from the upper half by a line dashed horizontal, a downscaled decoding operation for reconstructing the audio signal of the data stream at a reduced or downscaled sampling rate, thereby illustrating the mode of operation of the audio decoder of Figure 2;

[0023] A Figura 4 mostra um diagrama esquemático, ilustrando a cooperação do janelador e cancelador de distorção de domínio de tempo da Figura 2;[0023] Figure 4 shows a schematic diagram illustrating the cooperation of the windower and time domain distortion canceller of Figure 2;

[0024] A Figura 5 ilustra uma possível implementação para alcançar a reconstrução, de acordo com a Figura 4, utilizando um tratamento especial das partes ponderadas a zero das partes de tempo moduladas de espectral a tempo;[0024] Figure 5 illustrates a possible implementation to achieve the reconstruction, according to Figure 4, using a special treatment of the zero-weighted parts of the spectrally modulated time parts;

[0025] A Figura 6 mostra um diagrama esquemático, ilustrando a redução da taxa de amostragem para obter a janela de síntese reduzida;[0025] Figure 6 shows a schematic diagram, illustrating the reduction of the sampling rate to obtain the reduced synthesis window;

[0026] A Figura 7 mostra um diagrama de blocos, ilustrando uma operação com escala reduzida de AAC-ELD, incluindo a ferramenta SBR de baixo atraso;[0026] Figure 7 shows a block diagram illustrating a scaled-down AAC-ELD operation, including the low delay SBR tool;

[0027] A Figura 8 mostra um diagrama de blocos de um decodificador de áudio para decodificação em escala reduzida, de acordo com uma aplicação, onde o modulador, o janelador e o cancelador são implementados de acordo com uma implementação de elevação; e[0027] Figure 8 shows a block diagram of an audio decoder for scaled-down decoding, according to an application, where the modulator, windower and canceller are implemented according to a lifting implementation; It is

[0028] A Figura 9 mostra um gráfico dos coeficientes da janela de uma janela de baixo atraso, de acordo com AAC- ELD, para tamanho da estrutura da amostra 512 como um exemplo de uma janela de síntese de referência a ser reduzida.[0028] Figure 9 shows a graph of the window coefficients of a low delay window, according to AAC-ELD, for sample structure size 512 as an example of a reference synthesis window to be reduced.

[0029] A descrição a seguir começa com uma ilustração de uma aplicação para decodificação em escala reduzida com relação ao codec AAC-ELD. Isto é, a descrição a seguir começa com uma aplicação que poderia formar um modo em escala reduzida para AAC-ELD. Esta descrição simultaneamente forma um tipo de explicação da motivação subjacente às aplicações do presente pedido. Posteriormente, esta descrição é generalizada, levando assim a uma descrição de um decodificador de áudio e método de decodificação de áudio de acordo com uma aplicação do presente pedido.[0029] The following description begins with an illustration of an application for scaled-down decoding with respect to the AAC-ELD codec. That is, the following description begins with an application that could form a scaled-down mode for AAC-ELD. This description simultaneously forms a type of explanation of the motivation underlying the applications of the present application. Subsequently, this description is generalized, thus leading to a description of an audio decoder and audio decoding method in accordance with an application of the present application.

[0030] Conforme descrito na parte introdutória do relatório descritivo do presente pedido, AAC-ELD utiliza janelas de MDCT de baixo atraso. A fim de gerar a versão em escala reduzida respectiva, ou seja, janelas de baixo atraso em escala reduzida, a proposta subsequentemente explicada para formar um modo em escala reduzida para AAC-ELD utiliza um algoritmo de interpolação de spline segmental que mantém a propriedade de reconstrução perfeita (PR | reconstruction property) da janela LD-MDCT com uma precisão muito alta. Portanto, o algoritmo permite a geração de coeficientes da janela na forma direta, conforme descrito em ISO/IEC 14496-3:2009, bem como na forma de elevação, conforme descrito em [2], em uma forma compatível. Isto significa que ambas as implementações geram saída em conformidade com 16 bits.[0030] As described in the introductory part of the specification of the present application, AAC-ELD uses low-delay MDCT windows. In order to generate the respective downscaled version, i.e. downscaled low delay windows, the subsequently explained proposal to form a downscaled mode for AAC-ELD utilizes a segmental spline interpolation algorithm that maintains the property of perfect reconstruction (PR | reconstruction property) of the LD-MDCT window with very high accuracy. Therefore, the algorithm allows the generation of window coefficients in direct form, as described in ISO/IEC 14496-3:2009, as well as in elevation form, as described in [2], in a compatible form. This means that both implementations generate 16-bit compliant output.

[0031] A interpolação da janela de MDCT de Baixo Atraso é realizada, conforme segue.[0031] Interpolation of the Low Delay MDCT window is performed as follows.

[0032] No geral, uma interpolação de spline deve ser utilizada para gerar os coeficientes da janela em escala reduzida para manter a resposta de frequência e principalmente a perfeita propriedade de reconstrução (aproximadamente 170dB SNR). A interpolação precisa ser restrita em certos segmentos para manter a perfeita propriedade de reconstrução. Para os coeficientes da janela c que abrangem o núcleo de DCT da transformação (veja também a figura 1, c(1024)..c(2048)), a seguinte restrição é necessária,onde N denota o tamanho da estrutura. Alguma implementação pode utilizar diferentes sinais para otimizar a complexidade, aqui, denotada pelo sinal. A exigência em (1) pode ser ilustrada pela Figura 1. Deve ser lembrado que simplesmente em caso de F=2, ou seja, metade da taxa de amostra, excluir cada segundo coeficiente da janela da janela de síntese de referência para obter a janela de síntese com escala reduzida não atende a exigência.[0032] In general, a spline interpolation should be used to generate the reduced-scale window coefficients to maintain the frequency response and especially the perfect reconstruction property (approximately 170dB SNR). Interpolation needs to be restricted in certain segments to maintain perfect reconstruction property. For window coefficients c that span the DCT core of the transformation (see also figure 1, c(1024)..c(2048)), the following restriction is required, where N denotes the size of the structure. Some implementation may use different signals to optimize the complexity, here, denoted by the signal. The requirement in (1) can be illustrated by Figure 1. It should be remembered that simply in case of F=2, i.e. half the sample rate, delete every second coefficient from the reference synthesis window window to obtain the window of reduced-scale synthesis does not meet the requirement.

[0033] Os coeficientes c(0) ... c(2N — 1) são listados ao longo do formato em losango. Os N/4 zeros nos coeficientes da janela, que são responsáveis pela redução de atraso do banco de filtro, são marcados utilizando uma seta em negrito. A figura 1 mostra as dependências dos coeficientes causadas pela dobra envolvida na MDCT e também os pontos onde a interpolação precisa ser restrita a fim de evitar quaisquer dependências indesejadas. • A cada N/2 coeficiente, a interpolação precisa parar de manter (1) • Adicionalmente, o algoritmo de interpolação precisa parar a cada N/4 coeficientes devido aos zeros inseridos. Isto garante que os zeros sejam mantidos e o erro de interpolação não seja dispersado, o que mantém a PR.[0033] The coefficients c(0) ... c(2N — 1) are listed along the diamond format. The N/4 zeros in the window coefficients, which are responsible for filter bank delay reduction, are marked using a bold arrow. Figure 1 shows the coefficient dependencies caused by the bending involved in MDCT and also the points where the interpolation needs to be restricted in order to avoid any unwanted dependencies. • Every N/2 coefficients, the interpolation needs to stop maintaining (1) • Additionally, the interpolation algorithm needs to stop every N/4 coefficients due to the inserted zeros. This ensures that zeros are maintained and interpolation error is not scattered, which maintains the PR.

[0034] A segunda restrição não é apenas necessária para o segmento contendo os zeros, mas também para os outros segmentos. Sabendo que alguns coeficientes no núcleo de DCT não foram determinados pelo algoritmo de otimização, mas foram determinados pela fórmula (1) para permitir a PR, várias descontinuidades no formato da janela podem ser explicadas, por exemplo, aproximadamente c(1536+128) na figura 1. A fim de minimizar o erro de PR, a interpolação precisa parar em tais pontos, o que aparece em uma grade N/4.[0034] The second restriction is not only necessary for the segment containing the zeros, but also for the other segments. Knowing that some coefficients in the DCT core were not determined by the optimization algorithm, but were determined by formula (1) to enable PR, several discontinuities in the window shape can be explained, for example, approximately c(1536+128) in figure 1. In order to minimize PR error, interpolation needs to stop at such points, which appears on an N/4 grid.

[0035] Devido a esta razão, o tamanho do segmento de N/4 é escolhido para a interpolação de spline segmental para gerar os coeficientes da janela em escala reduzida. Os coeficientes da janela fonte são sempre dados pelos coeficientes utilizados para N = 512, também para operações de redução de escala resultando nos tamanhos da estrutura de N = 240 ou N = 120. O algoritmo básico é descrito muito brevemente a seguir como código MATLAB: FAC = fator de redução de escala % por exemplo 0,5 Sb = 128; % tamanho do segmento da janela fonte w_down = []; % janela em escala reduzida nSegments = length(W)/(sb); % número de segmentos; W=LD coeficientes da janela para N=512 xn=((0:(FAC*sb-1))+0,5)/FAC-0,5; % spline init for i=1:nSegments, w_down=[w_down,spline([0:(sb-1)],W((i- 1)*sb+(1:(sb))),xn)]; end;[0035] Due to this reason, the segment size of N/4 is chosen for segmental spline interpolation to generate the downscaled window coefficients. The source window coefficients are always given by the coefficients used for N = 512, also for downscaling operations resulting in structure sizes of N = 240 or N = 120. The basic algorithm is described very briefly below as MATLAB code: FAC = scaling factor % e.g. 0.5 Sb = 128; % window segment size source w_down = []; % scaled-down window nSegments = length(W)/(sb); % number of segments; W=LD window coefficients for N=512 xn=((0:(FAC*sb-1))+0.5)/FAC-0.5; % spline init for i=1:nSegments, w_down=[w_down,spline([0:(sb-1)],W((i- 1)*sb+(1:(sb))),xn)]; end;

[0036] Como a função de spline pode não ser completamente determinista, o algoritmo completo é exatamente especificado na seguinte seção, o que pode ser incluído em ISO/IEC 14496-3:2009, a fim de formar um modo em escala reduzida melhorado em AAC-ELD.[0036] As the spline function may not be completely deterministic, the complete algorithm is exactly specified in the following section, which can be included in ISO/IEC 14496-3:2009, in order to form an improved reduced-scale mode in AAC-ELD.

[0037] Em outras palavras, a seguinte seção fornece uma proposta sobre como a ideia descrita acima poderia ser aplicada em ER AAC ELD, ou seja, sobre como um decodificador de baixa complexidade poderia decodificar um fluxo contínuo de bits de ER AAC ELD codificado em uma primeira taxa de dados em uma segunda taxa de dados menor do que a primeira taxa de dados. É enfatizado, entretanto, que a definição de N, conforme utilizado a seguir, adere ao padrão. Aqui, N corresponde ao comprimento do núcleo de DCT enquanto que acima, nas reivindicações, e nos pedidos subsequentemente descritos generalizados, N corresponde ao comprimento da estrutura, a saber, o comprimento de sobreposição mútuo dos núcleos de DCT, ou seja, a metade do comprimento do núcleo de DCT. Certamente, enquanto N foi indicado ser 512 acima, por exemplo, é indicado ser 1024 a seguir.[0037] In other words, the following section provides a proposal on how the idea described above could be applied in ER AAC ELD, that is, on how a low-complexity decoder could decode a continuous stream of ER AAC ELD bits encoded in a first data rate at a second data rate that is lower than the first data rate. It is emphasized, however, that the definition of N, as used below, adheres to the standard. Here, N corresponds to the length of the DCT core whereas above, in the claims, and in the subsequently described generalized applications, N corresponds to the length of the structure, namely, the mutual overlap length of the DCT cores, i.e., half of the DCT core length. Of course, while N was stated to be 512 above, for example, it is stated to be 1024 below.

[0038] Os parágrafos a seguir são propostos para inclusão em 14496-3:2009 por Emenda.[0038] The following paragraphs are proposed for inclusion in 14496-3:2009 by Amendment.

A.0 ADAPTAÇÃO A SISTEMAS UTILIZANDO TAXAS DE AMOSTRAGEM INFERIORESA.0 ADAPTATION TO SYSTEMS USING LOWER SAMPLING RATES

[0039] Para certas aplicações, ER AAC LD pode mudra a taxa de amostra de reprodução a fim de evitar etapas adicionais de reamostragem (veja 4.6.17.2.7). ER AAC ELD pode aplicar etapas de redução de escala similares utilizando a janela de MDCT de Baixo Atraso e a ferramenta LD-SBR. Caso AAC-ELD opere com a ferramenta LD-SBR, o fator de redução de escala é limitado a múltiplos de 2. Sem LD-SBR, o tamanho da estrutura com escala reduzida precisa ser um número inteiro.[0039] For certain applications, ER AAC LD can change the reproduction sample rate in order to avoid additional resampling steps (see 4.6.17.2.7). ER AAC ELD can apply similar downscaling steps using the Low Delay MDCT window and the LD-SBR tool. If AAC-ELD operates with the LD-SBR tool, the downscaling factor is limited to multiples of 2. Without LD-SBR, the size of the downscaled structure must be an integer.

A.1 REDUÇÃO DE ESCALA DA JANELA DE MDCT DE BAIXO ATRASOA.1 DOWNSCALING OF THE LOW DELAY MDCT WINDOW

[0040] A janela de LD-MDCT wLD para N=1024 é reduzida na escala por um fator F utilizando uma interpolação de spline segmental. O número de zeros principais nos coeficientes da janela, ou seja, N/8, determina o tamanho do segmento. Os coeficientes da janela em escala reduzida wLD_d são utilizados para a MDCT inversa conforme descrito em 4.6.20.2, mas com um comprimento de janela reduzido na escala Nd = N / F. Observe que o algoritmo também pode gerar coeficientes em escala reduzida de elevação da LD-MDCT. fs_window_size = 2048; /* Número de coeficientes de janela em escala total. De acordo com ISO/IEC 14496-3:2009, usar 2048. Para implementações de elevação, ajustar esta variável corretamente */ ds_window_size = N * fs_window_size /(1024 * F);/* coeficientes de janela em escala reduzida; N determina o comprimento da transformação de acordo com 4.6.20.2 */ fs_segment_size = 128; num_segments = fs_window_size / fs_segment_size; ds_segment_size = ds_window_size / num_segments; tmp[128], y[128]; /*buffers temporários*/ /*loop sobre segmentos*/ para (b = 0; b < num_segments; b++){ /*copiar segmento atual em tmp*/ copy(&W_LD[b * fs_segment_size], tmp, fs_segment_size); /* aplicar interpolação cúbica para redução de escala */ /* calcular fase de interpolação */ Fase = (fs_window_size - ds_window_size) / (2 * ds_window_size); /* calcular os coeficientes c do spline cúbico dado tmp */ /* matriz de constantes pré-calculadas */ m = {0.166666672, 0.25, 0.266666681, 0.267857134, 0.267942578, 0.267948717, 0.267949164}; n = fs_segment_size; /* para simplicidade */ /* calcular vetor r necessário para calcular os coeficientes c */ para (i = n - 3; i >= 0; i--) r[i] = 3 * ((tmp[i + 2] - tmp[i + 1]) - (tmp[i + 1] - tmp[i])); para (i = 1; i < 7; i++) r[i] -= m[i - 1] * r[i - 1]; para (i = 7; i < n - 4; i++) r[i] -= 0.267949194 * r[i - 1]; /* calcular coeficientes c */ c[n - 2] = r[n - 3] / 6; c[n - 3] = (r[n - 4] - c[n - 2]) * 0.25; para (i = n - 4; i > 7; i--) c[i] = (r[i - 1] - c[i + 1]) * 0.267949194; para (i = 7; i > 1; i--) c[i]=(r[i-1]-c[i+1])*m[i-1]; c[1] = r[0] * m[0]; c[0] = 2 * c[1] - c[2]; c[n-1] = 2 * c[n - 2] - c[n - 3]; /* manter amostras originais em buffer temp y, pois as amostras tmp serão substituídas por amostras interpoladas */ copy(tmp, y, fs_segment_size); /* gerar pontos de escala reduzida e fazer a interpolação */ para (k = 0; k < ds_segment_size; k++) { step = fase + k * fs_segment_size / ds_segment_size; idx = floor(step); diff = step - idx; di = (c[idx + 1] - c[idx]) / 3; bi = (y[idx + 1] - y[idx]) - (c[idx + 1] + 2 * c[idx]) / 3; /* calcular valores em escala reduzida e armazenar em tmp */ tmp[k] = y[idx] + diff * (bi + diff * (c[idx] + diff * di)); } /* montar a janela em escala reduzida */ copy(tmp, &W_LD_d[b * ds_segment_size], ds_segment_size);}[0040] The LD-MDCT wLD window for N=1024 is scaled down by a factor F using segmental spline interpolation. The number of leading zeros in the window coefficients, i.e. N/8, determines the size of the segment. The wLD_d downscaled window coefficients are used for inverse MDCT as described in 4.6.20.2, but with a reduced window length on the scale Nd = N/F. Note that the algorithm can also generate downscaled coefficients of elevation of the LD-MDCT. fs_window_size = 2048; /* Number of full-scale window coefficients. According to ISO/IEC 14496-3:2009, use 2048. For elevation implementations, adjust this variable accordingly */ ds_window_size = N * fs_window_size /(1024 * F);/* downscaled window coefficients; N determines the length of the transformation according to 4.6.20.2 */ fs_segment_size = 128; num_segments = fs_window_size / fs_segment_size; ds_segment_size = ds_window_size / num_segments; tmp[128], y[128]; /*temporary buffers*/ /*loop over segments*/ for (b = 0; b < num_segments; b++){ /*copy current segment into tmp*/ copy(&W_LD[b * fs_segment_size], tmp, fs_segment_size); /* apply cubic interpolation for downscaling */ /* calculate interpolation phase */ Phase = (fs_window_size - ds_window_size) / (2 * ds_window_size); /* calculate the c coefficients of the cubic spline given tmp */ /* matrix of pre-calculated constants */ m = {0.166666672, 0.25, 0.266666681, 0.267857134, 0.267942578, 0.267948717, 0.267949164}; n = fs_segment_size; /* for simplicity */ /* calculate vector r needed to calculate coefficients c */ for (i = n - 3; i >= 0; i--) r[i] = 3 * ((tmp[i + 2 ] - tmp[i + 1]) - (tmp[i + 1] - tmp[i])); for (i = 1; i < 7; i++) r[i] -= m[i - 1] * r[i - 1]; for (i = 7; i < n - 4; i++) r[i] -= 0.267949194 * r[i - 1]; /* calculate coefficients c */ c[n - 2] = r[n - 3] / 6; c[n - 3] = (r[n - 4] - c[n - 2]) * 0.25; for (i = n - 4; i > 7; i--) c[i] = (r[i - 1] - c[i + 1]) * 0.267949194; for (i = 7; i > 1; i--) c[i]=(r[i-1]-c[i+1])*m[i-1]; c[1] = r[0] * m[0]; c[0] = 2 * c[1] - c[2]; c[n-1] = 2 * c[n - 2] - c[n - 3]; /* keep original samples in temp y buffer, as tmp samples will be replaced by interpolated samples */ copy(tmp, y, fs_segment_size); /* generate reduced scale points and perform interpolation */ for (k = 0; k < ds_segment_size; k++) { step = phase + k * fs_segment_size / ds_segment_size; idx = floor(step); diff = step - idx; di = (c[idx + 1] - c[idx]) / 3; bi = (y[idx + 1] - y[idx]) - (c[idx + 1] + 2 * c[idx]) / 3; /* calculate scaled values and store in tmp */ tmp[k] = y[idx] + diff * (bi + diff * (c[idx] + diff * di)); } /* assemble the window in reduced scale */ copy(tmp, &W_LD_d[b * ds_segment_size], ds_segment_size);}

A.2 REDUÇÃO EM ESCALA DA FERRAMENTA SBR DE BAIXO ATRASOA.2 SCALE REDUCTION OF THE LOW DELAY SBR TOOL

[0041] Em caso da ferramenta SBR de Baixo Atraso ser utilizada em conjunto com ELD, esta ferramenta pode ser reduzida na escala em taxas de amostra inferiores, pelo menos para os fatores de redução de escala de um múltiplo de 2. O fator de escala reduzida F controla o número de bandas utilizado para o Banco de filtro de análise e síntese de CLDFB. Os dois parágrafos a seguir descrevem um banco de filtro de análise e síntese de CLDFB com escala reduzida, veja também 4.6.19.4. 4.6.20,5.2.1 BANCO DE FILTRO DE CLDFB COM ANÁLISES EM ESCALA REDUZIDA. • Definir o número de bandas de CLDFB com escala reduzida B = 32/F. • Mudar as amostras na matriz x por posições B. As amostras B mais antigas são descartadas e novas amostras B são armazenadas nas posições de 0 a B— 1. • Multiplicar as amostras da matriz x pelo coeficiente da janela cí para obter a matriz z. Os coeficientes da janela cí são obtidos por interpolação linear dos coeficientes c, ou seja, através da equação 1 [0041] In case the Low Delay SBR tool is used in conjunction with ELD, this tool can be downscaled at lower sample rates, at least to downscaling factors of a multiple of 2. The scaling factor Reduced F controls the number of bands used for the CLDFB Analysis and Synthesis Filter Bank. The following two paragraphs describe a downscaled CLDFB analysis and synthesis filter bank, see also 4.6.19.4. 4.6.20,5.2.1 CLDFB FILTER BANK WITH REDUCED SCALE ANALYSIS. • Set the number of downscaled CLDFB bands B = 32/F. • Change the samples in matrix x by B positions. The oldest B samples are discarded and new B samples are stored in positions 0 to B— 1. • Multiply the samples in matrix x by the window coefficient cí to obtain matrix z . The window coefficients cí are obtained by linear interpolation of the coefficients c, that is, through equation 1

[0042] Os coeficientes da janela de c podem ser encontrados na Tabela 4.A.90. • Somar as amostras para criar a matriz do elemento 2B u: • Calcular novas amostras de subfaixa B pela operação da matriz Mu, onde [0042] The c window coefficients can be found in Table 4.A.90. • Add the samples to create the 2B u element matrix: • Calculate new subrange B samples by the Mu matrix operation, where

[0043] Na equação, exp()denota a função exponencial complexa ej é a unidade imaginária. 4.6.20,5.2.2 BANCO DE FILTRO DE CLDFB DE SÍNTESE EM ESCALA REDUZIDA • Definir o número de bandas CLDFB com escala reduzida B = 64/F. • Mudar as amostras na matriz v por posições 2B. As amostras 2B mais antigas são descartadas. • As novas amostras de subfaixa com valor complexo B são multiplicadas pela matriz N, onde . [0043] In the equation, exp() denotes the complex exponential function and j is the imaginary unit. 4.6.20,5.2.2 DOWN-SCALE SYNTHESIS CLDFB FILTER BANK • Set the number of down-scaled CLDFB bands B = 64/F. • Change the samples in matrix v by positions 2B. The oldest 2B samples are discarded. • The new subrange samples with complex value B are multiplied by the matrix N, where .

[0044] Na equação, exp()denota a função exponencial complexa e j é a unidade imaginária. A parte real da saída desta operação é armazenada nas posições 0 a 2B — 1 da matriz v. • Extrair amostras de v para criar a matriz do elemento 10B g. • Multiplicar as amostras da matriz g pelo coeficiente da janela ci para produzir a matriz w. Os coeficientes da janela ci são obtidos pela interpolação linear dos coeficientes c, ou seja, através da equação 1 [0044] In the equation, exp() denotes the complex exponential function and j is the imaginary unit. The real part of the output of this operation is stored in positions 0 to 2B — 1 of the matrix v. • Extract samples from v to create the 10B element matrix g. • Multiply the samples from the matrix g by the window coefficient ci to produce the matrix w. The window coefficients ci are obtained by linear interpolation of the coefficients c, that is, through equation 1

[0045] Os coeficientes da janela de c podem ser encontrados na Tabela 4.A.90. • Calcular novas amostras de saída B pela soma de amostras da matriz w de acordo com saída(n) = [0045] The c window coefficients can be found in Table 4.A.90. • Calculate new output samples B by summing samples from matrix w according to output(n) =

[0046] Observe que definir F = 2 fornece o banco de filtro de síntese reduzida de acordo com 4.6.19.4.3. Portanto, para processar um fluxo de bit de LD-SBR reduzido com um fator de escala reduzida adicional F, F precisa ser multiplicado por 2.[0046] Note that setting F = 2 provides the reduced synthesis filter bank in accordance with 4.6.19.4.3. Therefore, to process a downscaled LD-SBR bit stream with an additional downscaling factor F, F needs to be multiplied by 2.

4.6.20,5.2.3 BANCO DE FILTRO DE CLDFB COM VALOR EM ESCALA REDUZIDA4.6.20,5.2.3 CLDFB FILTER BANK WITH REDUCED SCALE VALUE

[0047] A redução de escala de CLDFB pode ser aplicada para as versões com valor real do modo de SBR de baixa potência também. Para ilustração, considere ainda 4.6.19.5.[0047] CLDFB scaling can be applied to real-valued versions of low-power SBR mode as well. For illustration, consider 4.6.19.5.

[0048] Para o banco de filtro de análise e síntese com valor real em escala reduzida, siga a descrição em 4.6.20,5.2.1 e 4.6.20.2.2 e troque o modulador exp() em M por um modulador cos().[0048] For the downscaled real-valued analysis and synthesis filter bank, follow the description in 4.6.20,5.2.1 and 4.6.20.2.2 and replace the exp() modulator in M with a cos( modulator ).

A.3 ANÁLISE DE MDCT DE BAIXO ATRASOA.3 LOW DELAY MDCT ANALYSIS

[0049] Esta subcláusula descreve o banco de filtro de MDCT de Baixo Atraso utilizado no codificador AAC ELD. O algoritmo de MDCT central é na maioria das vezes inalterado, mas com uma janela mais longa, de modo que n esteja agora executando de -N a N-1 (em vez de 0 a N-1)[0049] This subclause describes the Low Delay MDCT filter bank used in the AAC ELD encoder. The core MDCT algorithm is mostly unchanged, but with a longer window so that n is now running from -N to N-1 (instead of 0 to N-1)

[0050] O coeficiente espectral, Xi,k, é definido, conforme segue: onde: zin = Sequência de entrada em janela N = Índice de amostra K = índice do coeficiente espectral I = índice do bloco N = comprimento da janela n0 = (-N / 2 + 1) / 2[0050] The spectral coefficient, Xi,k, is defined as follows: where: zin = Windowed input sequence N = Sample index K = spectral coefficient index I = block index N = window length n0 = (-N/2 + 1)/2

[0051] O comprimento da janela N (com base na janela de seno) é 1024 ou 960.[0051] The length of the N window (based on the sine window) is 1024 or 960.

[0052] O comprimento da janela da janela de baixo atraso é 2*N. O janelamento é estendido ao passado na seguinte forma:para n=-N,..., N-1, com a janela de síntese w utilizada como a janela de análise invertendo a ordem.[0052] The window length of the low delay window is 2*N. The windowing is extended to the past in the following way: for n=-N,..., N-1, with the synthesis window w used as the analysis window reversing the order.

A.4 SÍNTESE DE MDCT DE BAIXO ATRASOA.4 LOW DELAY MDCT SYNTHESIS

[0053] O banco de filtro de síntese é modificado em comparação com o algoritmo padrão de IMDCT utilizando uma janela de seno a fim de adotar um banco de filtro de baixo atraso. O algoritmo de IMDCT central é, na maioria das vezes, nalterado, mas com uma janela mais longa, de modo que n esteja executando até 2N-1 (em vez de até N-1). onde: n = índice de amostra i = índice da janela k = índice do coeficiente espectral N = comprimento da janela / duas vezes o comprimento da estrutura n0 = (-N / 2 + 1) / 2 com N = 960 ou 1024.[0053] The synthesis filter bank is modified compared to the standard IMDCT algorithm using a sine window in order to adopt a low delay filter bank. The core IMDCT algorithm is most often changed, but with a longer window so that n is running up to 2N-1 (instead of up to N-1). where: n = sample index i = window index k = spectral coefficient index N = window length / twice the structure length n0 = (-N / 2 + 1) / 2 with N = 960 or 1024.

[0054] O janelamento e a sobreposição por adição são conduzidos na seguinte forma:[0054] Windowing and overlay by addition are conducted in the following way:

[0055] A janela de comprimento N é substituída por uma janela de comprimento 2N com mais sobreposição no passado, e menos sobreposição no futuro (N/8 valores são de fato zero).[0055] The window of length N is replaced by a window of length 2N with more overlap in the past, and less overlap in the future (N/8 values are in fact zero).

[0056] Janelamento para a Janela de Baixo Atraso: [0056] Windowing for the Low Delay Window:

[0057] Onde a janela agora tem um comprimento de 2N,assim n=0,..., 2N-1.[0057] Where the window now has a length of 2N, so n=0,..., 2N-1.

[0058] Sobreposição e adição:para 0<=n<N/2[0058] Overlay and addition: for 0<=n<N/2

[0059] Aqui, os parágrafos propostos para serem incluídos em 14496-3:2009 por emenda terminam.[0059] Here the paragraphs proposed to be included in 14496-3:2009 by amendment end.

[0060] Naturalmente, a descrição acima de um possível modo em escala reduzida para AAC-ELD meramente representa uma aplicação do presente pedido e várias modificações são viáveis. De modo geral, as aplicações do presente pedido não são restritas a um decodificador de áudio que realiza uma versão em escala reduzida da decodificação de AAC-ELD. Em outras palavras, as aplicações do presente pedido podem, por exemplo, ser derivadas pela formação de um decodificador de áudio capaz de realizar o processo de transformada inversa em uma forma em escala reduzida apena sem suportar ou utilizar as várias tarefas específicas de AAC-ELD como, por exemplo, a transmissão com base no fator de escala do envelope espectral, filtragem de TNS (temporal noise shaping | formação de ruído temporal), replicação de banda espectral (SBR | spectral band replication) ou similares.[0060] Of course, the above description of a possible scaled-down mode for AAC-ELD merely represents an application of the present application and various modifications are viable. Generally, the applications of the present application are not restricted to an audio decoder that performs a scaled-down version of AAC-ELD decoding. In other words, applications of the present application can, for example, be derived by forming an audio decoder capable of performing the inverse transform process in a scaled-down form only without supporting or utilizing the various specific tasks of AAC-ELD. such as, for example, transmission based on the spectral envelope scale factor, TNS filtering (temporal noise shaping), spectral band replication (SBR) or similar.

[0061] Subsequentemente, uma aplicação mais geral para um decodificador de áudio é descrita. O exemplo descrito acima para um decodificador de áudio AAC-ELD que suporta o modo em escala reduzida descrito poderia, assim, representar uma implementação do subsequentemente decodificador de áudio descrito. Em particular, o decodificador subsequentemente explicado é mostrado na Figura 2 enquanto a Figura 3 ilustra as etapas realizadas pelo decodificador da Figura 2.[0061] Subsequently, a more general application for an audio decoder is described. The example described above for an AAC-ELD audio decoder that supports the described downscaling mode could thus represent an implementation of the subsequently described audio decoder. In particular, the subsequently explained decoder is shown in Figure 2 while Figure 3 illustrates the steps performed by the decoder of Figure 2.

[0062] O decodificador de áudio da Figura 2, que é geralmente indicado utilizando o sinal de referência 10, compreende um receptor 12, um dispositivo de captura 14, um modulador de espectro em tempo 16, um janelador 18 e um cancelador de distorção de domínio de tempo 20, todos sendo conectados em série entre si na ordem de sua menção. A interação e a funcionalidade dos blocos de 12 a 20 do decodificador de áudio 10 são descritas a seguir com relação à Figura 3. Conforme descrito no final da descrição do presente pedido, os blocos 12 a 20 podem ser implementados em software, hardware ou hardware programável, como na forma de um programa de computador, um FPGA ou computador corretamente programado, microprocessador programado ou circuito integrado de aplicação específica com os blocos 12 a 20 representando as respectivas subrotinas, passagens de circuito ou similares.[0062] The audio decoder of Figure 2, which is generally indicated using reference signal 10, comprises a receiver 12, a capture device 14, a time spectrum modulator 16, a windower 18 and a distortion canceller. time domain 20, all being connected in series to each other in the order of their mention. The interaction and functionality of blocks 12 to 20 of audio decoder 10 are described below with respect to Figure 3. As described at the end of the description of the present application, blocks 12 to 20 may be implemented in software, hardware or hardware. programmable, such as in the form of a computer program, a properly programmed FPGA or computer, programmed microprocessor, or application-specific integrated circuit with blocks 12 to 20 representing respective subroutines, circuit passes, or the like.

[0063] Em uma forma descrita em mais detalhes abaixo, o decodificador de áudio 10 da Figura 2 é configurado para, - e os elementos do decodificador de áudio 10 são configurados para corretamente cooperar - a fim de decodificar um sinal de áudio 22 de um fluxo de dados 24 com uma notabiildade que o decodificador de áudio 10 decodifica o sinal 22 em uma taxa de amostragem sendo a 1/Fésima da taxa de amostragem na qual o sinal de áudio 22 foi codificado por transformada em fluxo de dados 24 no lado da codificação. F pode, por exemplo, ser qualquer número rotacional maior do que um. O decodificador de áudio pode ser configurado para operar em diferentes ou variáveis fatores de redução de escala F ou em uma fixa. Alternativas são descritas em mais detalhes abaixo.[0063] In a form described in more detail below, the audio decoder 10 of Figure 2 is configured to, - and the elements of the audio decoder 10 are configured to correctly cooperate - in order to decode an audio signal 22 from a data stream 24 with a notability that the audio decoder 10 decodes the signal 22 at a sampling rate being the 1/th of the sampling rate at which the audio signal 22 was encoded by transform into data stream 24 on the codification. F can, for example, be any rotational number greater than one. The audio decoder can be configured to operate at different or variable F scaling factors or at a fixed one. Alternatives are described in more detail below.

[0064] A forma na qual o sinal de áudio 22 é codificado por transformada na codificação ou na taxa de amostragem original ao fluxo de dados é ilustrada na Figura 3 na metade superior. Em 26, a Figura 3 ilustra os coeficientes espectrais utilizando pequenas caixas ou quadrados 28 dispostos em uma forma espectro-temporal ao longo de um eixo de tempo 30 que percorre horizontalmente na Figura 3 e um eixo de frequência 32 que percorre verticalmente na Figura 3, respectivamente. Os coeficientes espectrais 28 são transmitidos dentro do fluxo de dados 24. A forma na qual os coeficientes espectrais 28 foram obtidos e, assim, a forma na qual os coeficientes espectrais 28 representam o sinal de áudio 22, é ilustrada na Figura 3 em 34, que ilustra uma parte do eixo de tempo 30 como os coeficientes espectrais 28 pertencentes a, ou representando a respectiva parte do tempo, foram obtidos do sinal de áudio.[0064] The way in which the audio signal 22 is encoded by transforming the original encoding or sampling rate to the data stream is illustrated in Figure 3 in the upper half. At 26, Figure 3 illustrates the spectral coefficients using small boxes or squares 28 arranged in a spectro-temporal fashion along a time axis 30 running horizontally in Figure 3 and a frequency axis 32 running vertically in Figure 3. respectively. The spectral coefficients 28 are transmitted within the data stream 24. The form in which the spectral coefficients 28 were obtained, and thus the form in which the spectral coefficients 28 represent the audio signal 22, is illustrated in Figure 3 at 34. illustrating a portion of the time axis 30 as the spectral coefficients 28 belonging to, or representing the respective time portion, were obtained from the audio signal.

[0065] Em particular, os coeficientes 28 como transmitidos dentro do fluxo de dados 24 são coeficientes de uma transformada revestida do sinal de áudio 22, de modo que o sinal de áudio 22, amostrado na taxa de amostragem original ou de codificação, seja dividido em estruturas sem sobreposição e imediatamente temporalmente consecutivas de um comprimento N predeterminado, em que N coeficientes espectrais são transmitidos no fluxo de dados 24 para cada estrutura 36. Isto é, os coeficientes de transformada 28 são obtidos do sinal de áudio 22 utilizando uma transformada revestida criticamente amostrada. Na representação de espectrograma espectro-temporal 26, cada coluna da sequência temporal de colunas de coeficientes espectrais 28 corresponde a uma respectiva de estruturas 36 da sequência de estruturas. Os N coeficientes espectrais 28 são obtidos para a estrutura correspondente 36 por uma transformada espectralmente de decomposição ou modulação tempo em espectral, as funções de modulação das quais temporalmente se estendem, entretanto, não apenas cruza a estrutura 36 à qual os coeficientes espectrais resultantes 28 pertencem, mas também pelas E + 1 estruturas prévias, em que E pode ser qualquer número inteiro ou qualquer número inteiro maior que zero. Isto é, os coeficientes espectrais 28 de uma coluna do espectrograma em 26 que pertenceu a uma determinada estrutura 36 são obtidos aplicando uma transformada em uma janela de transformada, que além da respectiva estrutura compreende E + 1 estruturas que ficam no passado com relação à estrutura atual. A decomposição espectral das amostras do sinal de áudio dentro desta janela de transformada 38, que é ilustrada na Figura 3 para a coluna dos coeficientes de transformada 28 pertencentes à estrutura central 36 da parte mostrada em 34 é obtida utilizando uma função de janela de análise unimodal de baixo atraso 40 utilizando as amostras espectrais dentro da janela de transformada 38 que são ponderadas antes de submeter a mesma a uma MDCT ou MDST ou outra transformada de decomposição espectral. A fim de reduzir o atraso no lado do codificador, a janela de análise 40 compreende um intervalo zero 42 na extremidade de entrada temporal respectiva de modo que o codificador não precise aguardar a parte correspondente das amostras mais recentes dentro da estrutura atual 36 para, assim, computar os coeficientes espectrais 28 para esta estrutura atual 36. Isto é, dentro do intervalo zero 42 a função da janela de baixo atraso 40 é zero ou tem zero coeficientes da janela de modo que as amostras de áudio colocalizadas da estrutura atual 36 não, devido à ponderação da janela 40, contribua com os coeficientes de transformada 28 transmitidos para esta estrutura e um fluxo de dados 24. Isto é, somando os acima, os coeficientes de transformada 28 pertencentes a uma estrutura atual 36 são obtidos por janelamento e decomposição espectral de amostras do sinal de áudio dentro de uma janela de transformada 38 que compreende a estrutura atual bem como estruturas temporalmente anteriores e que temporalmente sobrepõe com as janelas de transformada correspondentes utilizadas para determinar os coeficientes espectrais 28 pertencentes às estruturas temporalmente próximas.[0065] In particular, the coefficients 28 as transmitted within the data stream 24 are coefficients of a coated transform of the audio signal 22, such that the audio signal 22, sampled at the original or encoding sampling rate, is divided into non-overlapping, immediately temporally consecutive frames of a predetermined length N, wherein N spectral coefficients are transmitted in data stream 24 for each frame 36. That is, transform coefficients 28 are obtained from audio signal 22 using a coated transform critically sampled. In the spectro-temporal spectrogram representation 26, each column of the temporal sequence of spectral coefficient columns 28 corresponds to a respective structure 36 of the sequence of structures. The N spectral coefficients 28 are obtained for the corresponding structure 36 by a spectrally decomposition transform or time-to-spectral modulation, the modulation functions of which temporally extend, however, not only intersect the structure 36 to which the resulting spectral coefficients 28 belong. , but also by the previous E + 1 structures, where E can be any integer or any integer greater than zero. That is, the spectral coefficients 28 of a column of the spectrogram in 26 that belonged to a given structure 36 are obtained by applying a transform to a transform window, which in addition to the respective structure comprises E + 1 structures that lie in the past with respect to the structure current. The spectral decomposition of the audio signal samples within this transform window 38, which is illustrated in Figure 3 for the column of transform coefficients 28 belonging to the central structure 36 of the part shown at 34, is obtained using a unimodal analysis window function. low delay 40 using the spectral samples within the transform window 38 which are weighted before subjecting it to an MDCT or MDST or other spectral decomposition transform. In order to reduce delay on the encoder side, the analysis window 40 comprises a zero interval 42 at the respective temporal input end so that the encoder does not need to wait for the corresponding part of the most recent samples within the current frame 36 to thus , compute the spectral coefficients 28 for this current frame 36. That is, within the zero interval 42 the low-delay window function 40 is zero or has zero window coefficients so that the co-located audio samples of the current frame 36 do not, due to window weighting 40, contribute transform coefficients 28 transmitted to this structure and a data stream 24. That is, summing the above, transform coefficients 28 belonging to a current structure 36 are obtained by windowing and spectral decomposition of audio signal samples within a transform window 38 that comprises the current structure as well as temporally previous structures and that temporally overlaps with the corresponding transform windows used to determine the spectral coefficients 28 belonging to temporally nearby structures.

[0066] Antes de resumir a descrição do decodificador de áudio 10, deve ser observado que a descrição da transmissão dos coeficientes espectrais 28 dentro do fluxo de dados 24, conforme fornecido até o momento, foi simplificada com relação à forma na qual os coeficientes espectrais 28 são quantizados ou codificados em fluxo de dados 24 e/ou a forma na qual o sinal de áudio 22 foi pré-processado antes de submeter o sinal de áudio à transformada revestida. Por exemplo, o codificador de áudio tendo sinal de áudio codificado por transformada 22 em fluxo de dados 24 pode ser controlado por um modelo psicoacústico ou pode utilizar um modelo psicoacústico para manter o ruído de quantização e quantização dos coeficientes espectrais 28 não perceptíveis para o ouvinte e/ou abaixo de uma função de limite de mascaramento, determinando, assim, os fatores de escala para as bandas espectrais utilizando os coeficientes espectrais 28 quantizados e transmitidos que são escalados. Os fatores de escala também seriam sinalizados no fluxo de dados 24. De modo alternativo, o codificador de áudio pode ter sido um tipo de codificador de TCX (transform coded excitation | excitação codificada por transformada). Então, o sinal de áudio teria submetido a uma filtragem de análise de previsão linear antes de formar a representação espectro-temporal 26 de coeficientes espectrais 28 aplicando a transformada revestida no sinal de excitação, ou seja, o sinal residual de previsão linear. Por exemplo, os coeficientes de previsão linear poderiam ser sinalizados no fluxo de dados 24 bem como e uma quantização uniforme espectral poderia ser aplicada a fim de obter os coeficientes espectrais 28.[0066] Before summarizing the description of the audio decoder 10, it should be noted that the description of the transmission of the spectral coefficients 28 within the data stream 24, as provided to date, has been simplified with respect to the way in which the spectral coefficients 28 are quantized or encoded into data stream 24 and/or the form in which the audio signal 22 was preprocessed prior to subjecting the audio signal to the coated transform. For example, the audio encoder having transform encoded audio signal 22 into data stream 24 may be controlled by a psychoacoustic model or may utilize a psychoacoustic model to keep quantization noise and quantization of spectral coefficients 28 not perceptible to the listener. and/or below a masking threshold function, thereby determining the scaling factors for the spectral bands using the quantized and transmitted spectral coefficients 28 that are scaled. The scale factors would also be signaled in data stream 24. Alternatively, the audio encoder may have been a transform coded excitation (TCX) type of encoder. Then, the audio signal would have undergone a linear prediction analysis filtering before forming the spectro-temporal representation 26 of spectral coefficients 28 by applying the coated transform on the excitation signal, i.e., the residual linear prediction signal. For example, the linear prediction coefficients could be signaled in the data stream 24 as well and a spectral uniform quantization could be applied in order to obtain the spectral coefficients 28.

[0067] Além disso, a descrição apresentada até o momento foi simplificada com relação ao comprimento da estrutura de estruturas 36 e/ou com relação à função da janela de baixo atraso 40. De fato, o sinal de áudio 22 pode ter sido codificado ao fluxo de dados 24 em uma forma utilizando tamanhos de estruturas variáveis e/ou diferentes janelas 40. Entretanto, a descrição trazida a seguir concentra em uma janela 40 e um comprimento da estrutura, embora a descrição subsequente possa facilmente ser estendida a um caso onde o codificador de entropia muda estes parâmetros durante a codificação do sinal de áudio em fluxo de dados.[0067] Furthermore, the description presented so far has been simplified with respect to the length of the frame structure 36 and/or with respect to the function of the low delay window 40. In fact, the audio signal 22 may have been encoded at the data flow 24 in a form using varying frame sizes and/or different windows 40. However, the description set forth below focuses on a window 40 and a frame length, although the subsequent description can easily be extended to a case where the Entropy encoder changes these parameters while encoding audio signal into data stream.

[0068] Voltando ao decodificador de áudio 10 da Figura 2 e sua descrição, o receptor 12 recebe o fluxo de dados 24 e recebe assim, para cada estrutura 36, N coeficientes espectrais 28, ou seja, uma respectiva coluna de coeficientes 28 mostrada na Figura 3. Deve ser lembrado que o comprimento temporal das estruturas 36, medido nas amostras da taxa de amostragem original ou de codificação, é N conforme indicado na Figura 3 em 34, mas o decodificador de áudio 10 da Figura 2 é configurado para decodificar o sinal de áudio 22 a uma taxa de amostragem reduzida. O decodificador de áudio 10 suporta, por exemplo, meramente esta funcionalidade de decodificação em escala reduzida descrita a seguir. De modo alternativo, o decodificador de áudio 10 seria capaz de reconstruir o sinal de áudio na taxa de amostragem original ou de codificação, mas pode ser alternado entre o modo de decodificação em escala reduzida e um modo de decodificação sem escala reduzida com o modo de decodificação em escala reduzida coincidindo com o modo do decodificador de áudio 10 de operação conforme subsequentemente explicado. Por exemplo, o codificador de áudio 10 poderia ser alternado em um modo de decodificação em escala reduzida no caso de um nível de baixa bateria, capacidades de reprodução reduzida ou similares. Sempre que a situação muda o decodificador de áudio 10 poderia, por exemplo, alterar de volta do modo de decodificação em escala reduzida a sem escala reduzida. Em qualquer caso, de acordo com o processo de decodificação em escala reduzida do decodificador 10, conforme descrito a seguir, o sinal de áudio 22 é reconstruído em uma taxa de amostragem na qual as estruturas 36 têm, na taxa de amostragem reduzida, um comprimento inferior medido nas amostras desta taxa de amostragem reduzida, a saber um comprimento de N/F amostras na taxa de amostragem reduzida.[0068] Returning to the audio decoder 10 of Figure 2 and its description, the receiver 12 receives the data stream 24 and thus receives, for each structure 36, N spectral coefficients 28, that is, a respective column of coefficients 28 shown in Figure 3. It should be remembered that the temporal length of the structures 36, measured at the original or encoding sampling rate samples, is N as indicated in Figure 3 at 34, but the audio decoder 10 of Figure 2 is configured to decode the audio signal 22 at a reduced sampling rate. The audio decoder 10 supports, for example, merely this downscaled decoding functionality described below. Alternatively, the audio decoder 10 would be capable of reconstructing the audio signal at the original sample rate or encoding, but may be switched between the downscaled decoding mode and a non-downscaled decoding mode with the decoding mode. scaled-down decoding coinciding with the audio decoder 10 mode of operation as subsequently explained. For example, the audio encoder 10 could be switched into a scaled-down decoding mode in the event of a low battery level, reduced playback capabilities, or the like. Whenever the situation changes the audio decoder 10 could, for example, switch back from downscaled to unscaled decoding mode. In any case, according to the downscaled decoding process of decoder 10 as described below, the audio signal 22 is reconstructed at a sampling rate at which the structures 36 have, at the downsampled rate, a length length measured on samples at this reduced sampling rate, namely a length of N/F samples at the reduced sampling rate.

[0069] A saída do receptor 12 é a sequência de N coeficientes espectrais, a saber, um conjunto de N coeficientes espectrais, ou seja, uma coluna na Figura 3, por estrutura 36. Já foi discutido na breve descrição sobre o processo de codificação de transformada para formar o fluxo de dados 24 que o receptor 12 pode aplicar várias tarefas ao obter os N coeficientes espectrais por estrutura 36. Por exemplo, o receptor 12 pode utilizar decodificação de entropia a fim de ler os coeficientes espectrais 28 do fluxo de dados 24. O receptor 12 pode ainda espectralmente formar os coeficientes espectrais lidos do fluxo de dados com fatores de escala fornecidos no fluxo de dados e/ou fatores de escala derivados por coeficientes de previsão linear conduzidos dentro do fluxo de dados 24. Por exemplo, o receptor 12 pode obter fatores de escala do fluxo de dados 24, a saber em uma base por estrutura e por subfaixa, e utilizar estes fatores de escala a fim de escalar os fatores de escala conduzidos dentro do fluxo de dados 24. De modo alternativo, o receptor 12 pode derivar os fatores de escala dos coeficientes de previsão linear conduzidos dentro do fluxo de dados 24, para cada estrutura 36 e utilizar estes fatores de escala a fim de escalar os coeficientes espectrais transmitidos 28. Opcionalmente, o receptor 12 pode realizar o preenchimento de lacuna a fim de sinteticamente preencher as partes quantizadas a zero dentro dos conjuntos de N coeficientes espectrais 18 por estrutura. De modo adicional ou alternativo, o receptor 12 pode aplicar um filtro de síntese por TNS em um coeficiente de filtro de TNS transmitido por estrutura para auxiliar a reconstrução dos coeficientes espectrais 28 do fluxo de dados com os coeficientes TNS também sendo transmitidos dentro do fluxo de dados 24. As possíveis tarefas já descritas do receptor 12 devem ser entendidas como uma lista não exclusiva de possíveis medidas e o receptor 12 pode realizar mais ou outras tarefas em conexão com a leitura dos coeficientes espectrais 28 do fluxo de dados 24.[0069] The output of the receiver 12 is the sequence of N spectral coefficients, namely, a set of N spectral coefficients, i.e., one column in Figure 3, per structure 36. It has already been discussed in the brief description about the coding process of transform to form the data stream 24 that the receiver 12 can apply various tasks in obtaining the N spectral coefficients per frame 36. For example, the receiver 12 can use entropy decoding in order to read the spectral coefficients 28 from the data stream 24. The receiver 12 may further spectrally form the spectral coefficients read from the data stream with scaling factors provided in the data stream and/or scaling factors derived by linear prediction coefficients driven within the data stream 24. For example, the receiver 12 may obtain scale factors from the data stream 24, namely on a per-frame and per-subband basis, and utilize these scaling factors in order to scale the scale factors conducted within the data stream 24. Alternatively, the receiver 12 may derive the scaling factors from the linear prediction coefficients carried within the data stream 24, for each structure 36 and use these scaling factors to scale the transmitted spectral coefficients 28. Optionally, the receiver 12 may perform the gap filling in order to synthetically fill the zero-quantized parts within the sets of N spectral coefficients 18 per structure. Additionally or alternatively, the receiver 12 may apply a TNS synthesis filter to a frame-transmitted TNS filter coefficient to aid in the reconstruction of the spectral coefficients 28 of the data stream with the TNS coefficients also being transmitted within the data stream. data 24. The already described possible tasks of the receiver 12 should be understood as a non-exclusive list of possible measurements and the receiver 12 may perform further or other tasks in connection with reading the spectral coefficients 28 of the data stream 24.

[0070] O dispositivo de captura 14, então, recebe do receptor 12 o espectrograma 26 de coeficientes espectrais 28 e captura, para cada estrutura 36, uma fração de baixa frequência 44 de N coeficientes espectrais da respectiva estrutura 36, a saber os coeficientes espectrais de frequência mais baixa N/F.[0070] The capture device 14 then receives from the receiver 12 the spectrogram 26 of spectral coefficients 28 and captures, for each structure 36, a low frequency fraction 44 of N spectral coefficients of the respective structure 36, namely the spectral coefficients lower frequency N/F.

[0071] Isto é, o modulador de espectro em tempo 16 recebe do dispositivo de captura 14 uma corrente ou sequência 46 de coeficientes espectrais N/F 28 por estrutura 36, correspondente a uma parte de baixa frequência fora do espectrograma 26, espectralmente registrado nos coeficientes espectrais de frequência mais baixa ilustrados utilizando o índice “0” na Figura 3 e estendendo-se até os coeficientes espectrais do índice N/F - 1.[0071] That is, the time spectrum modulator 16 receives from the capture device 14 a stream or sequence 46 of N/F spectral coefficients 28 per frame 36, corresponding to a low-frequency part outside the spectrogram 26, spectrally recorded in the lower frequency spectral coefficients illustrated using the index “0” in Figure 3 and extending to the spectral coefficients of the index N/F - 1.

[0072] O modulador de espectro em tempo 16 submete, para cada estrutura 36, a fração de baixa frequência 44 correspondente dos coeficientes espectrais 28 a uma transformada inversa 48 tendo funções de modulação de comprimento (E + 2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estrutura prévias, conforme ilustrado em 50 na Figura 3, obtendo assim uma parte temporal do comprimento (E + 2) • N/F, ou seja, um segmento de tempo ainda sem janelas 52. Isto é, o modulador de espectro em tempo pode obter um segmento de tempo temporal de (E + 2) • N/F amostras da taxa de amostragem reduzida ponderando e somando as funções de modulação do mesmo comprimento utilizando, por exemplo, as primeiras fórmulas da seção de substituição proposta A.4 indicada acima. As amostras N/F mais recentes do segmento de tempo 52 pertencem à estrutura atual 36. As funções de modulação podem, conforme indicado, ser funções de cosseno no caso da transformada inversa sendo uma MDCT inversa, ou funções de seno no caso da transformada inversa sendo uma MDCT inversa, por exemplo.[0072] The time spectrum modulator 16 subjects, for each structure 36, the corresponding low frequency fraction 44 of the spectral coefficients 28 to an inverse transform 48 having length modulation functions (E + 2) • N/F temporally extending on the respective structure and previous E + 1 structure, as illustrated in 50 in Figure 3, thus obtaining a temporal part of the length (E + 2) • N/F, that is, a time segment still without windows 52. That is, the time-spectrum modulator can obtain a temporal time segment of (E + 2) • N/F samples of the reduced sampling rate by weighting and summing the modulation functions of the same length using, for example, the first formulas from the proposed replacement section A.4 noted above. The most recent N/F samples of time segment 52 belong to the current structure 36. The modulation functions may, as indicated, be cosine functions in the case of the inverse transform being an inverse MDCT, or sine functions in the case of the inverse transform being an inverse MDCT, for example.

[0073] Assim, o janelador 52 recebe, para cada estrutura, uma parte temporal 52, as amostras N/F na extremidade de entrada respectiva temporalmente correspondente à respectiva estrutura enquanto as outras amostras da respectiva parte temporal 52 pertencem às estruturas temporalmente anteriores correspondentes. O janelador 18 janela, para cada estrutura 36, a parte temporal 52 utilizando uma janela de síntese unimodal 54 de comprimento (E + 2) • N/F compreendendo uma parte zero 56 de comprimento 1/4 • N/F em uma extremidade de entrada respectiva, ou seja, 1/F • N/F coeficientes da janela com valor zero e tendo um pico 58 dentro de seu intervalo temporal subsequente, temporalmente, a parte zero 56, ou seja, o intervalo temporal da parte temporal 52 não coberta pela parte zero 52. O último intervalo temporal pode ser chamado de parte não zero da janela 58 e tem um comprimento de 7/4 • N/F medido nas amostras da taxa de amostragem reduzida, ou seja, 7/4 • N/F coeficientes da janela. O janelador 18 pondera, por exemplo, a parte temporal 52 utilizando a janela 58. Esta ponderação ou multiplicação 58 de cada parte temporal 52 com janela 54 resulta em uma parte temporal janelada 60, uma para cada estrutura 36, e coincidindo com a respectiva parte temporal 52 desde que a cobertura temporal seja referida. Na seção proposta acima A.4, o processamento de janelamento que pode ser utilizado pela janela 18 é descrito pelas fórmulas referentes de zi,n a xi,n, onde xi,n corresponde às partes temporais previamente mencionadas 52 sem janelas e zi,n corresponde à parte temporal janeladas 60 com i indexando a sequência de estruturas/janelas, e n indexando, dentro de cada parte temporal 52/60, as amostras ou valores das respectivas partes 52/60 de acordo com uma taxa de amostragem reduzida.[0073] Thus, the windower 52 receives, for each structure, a temporal part 52, the N/F samples at the respective input end temporally corresponding to the respective structure while the other samples of the respective temporal part 52 belong to the corresponding temporally previous structures. The windower 18 window, for each structure 36, the temporal part 52 using a unimodal synthesis window 54 of length (E + 2) • N/F comprising a zero part 56 of length 1/4 • N/F at one end of respective input, i.e., 1/F • N/F window coefficients having a value of zero and having a peak 58 within its subsequent temporal interval, temporally, the zero part 56, i.e., the temporal interval of the uncovered temporal part 52 by the zero part 52. The last temporal interval can be called the non-zero part of the window 58 and has a length of 7/4 • N/F measured in the reduced sampling rate samples, i.e. 7/4 • N/F window coefficients. The windower 18 weights, for example, the temporal part 52 using the window 58. This weighting or multiplication 58 of each temporal part 52 with window 54 results in a windowed temporal part 60, one for each structure 36, and coinciding with the respective part temporal 52 as long as temporal coverage is referred to. In the above proposed section A.4, the windowing processing that can be used by window 18 is described by the formulas referring to zi,n to xi,n, where xi,n corresponds to the previously mentioned temporal parts 52 without windows and zi,n corresponds to the windowed time part 60 with i indexing the sequence of structures/windows, and n indexing, within each time part 52/60, the samples or values of the respective parts 52/60 according to a reduced sampling rate.

[0074] Assim, o cancelador de distorção de domínio de tempo 20 recebe do janelador 18 uma sequência das partes temporais janeladas 60, a saber uma por estrutura 36. O cancelador 20 submete as partes temporais janeladas 60 de estruturas 36 a um processo de adição por sobreposição 62 registrando cada parte temporal janelada 60 com seus valores de N/F principais para coincidir com a estrutura correspondente 36. Por esta medida, uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada 60 de uma estrutura atual, ou seja, o restante tendo comprimento (E + 1) • N/F, sobrepõe com uma extremidade de entrada correspondente igualmente longa da parte temporal da estrutura imediatamente anterior. Nas fórmulas, o cancelador de distorção de domínio de tempo 20 pode operar conforme mostrado na última fórmula da versão proposta acima da seção A.4, onde outi,n corresponde às amostras de áudio do sinal de áudio reconstruído 22 na taxa de amostragem reduzida.[0074] Thus, the time domain distortion canceller 20 receives from the windower 18 a sequence of the windowed temporal parts 60, namely one per structure 36. The canceller 20 subjects the windowed temporal parts 60 of structures 36 to an addition process by overlay 62 recording each windowed temporal part 60 with its main N/F values to match the corresponding structure 36. By this measure, a fraction of the length trailing edge (E + 1)/(E + 2) of the part windowed temporal 60 of a current structure, i.e., the remainder having length (E + 1) • N/F, overlaps with an equally long corresponding input end of the temporal part of the immediately preceding structure. In the formulas, the time domain distortion canceller 20 may operate as shown in the last formula of the above proposed version of section A.4, where outi,n corresponds to the audio samples of the reconstructed audio signal 22 at the reduced sampling rate.

[0075] Os processos de janelamento 58 e sobreposição por adição 62, conforme realizado pelo janelador 18 e cancelador de distorção de domínio de tempo 20, são ilustrados em mais detalhes abaixo com relação à Figura 4. A figura 4 utiliza a nomenclatura aplicada na seção proposta acima A.4 e os sinais de referência aplicados nas figuras 3 e 4. x0,0 a xo,(E+2)-N/F-1 representa a 0a parte temporal 52 obtida pelo modulador espacial em temporal 16 para a 0a estrutura 36. O primeiro índice de x indexa as estruturas 36 ao longo da ordem temporal e o segundo índice de x organiza as amostras do temporal ao longo da ordem temporal, a coluna de interamostra pertencente à taxa de amostra reduzida. Então, na figura 4, w0 a W(E+2).N/F-1 indicam os coeficientes da janela da janela 54. Como o segundo índice de x, ou seja, a parte temporal 52 como emitida pelo modulador 16, o índice de w é de modo que o índice 0 corresponda ao valor de amostra mais antigo e o índice (E + 2) • N/F - 1 corresponda ao valor de amostra mais recente quando a janela 54 for aplicada à respectiva parte temporal 52. O janelador 18 janela a parte temporal 52 utilizando janela 54 para obter a parte temporal janelada 60 de modo que z0,0 a z0,(E+2).N/F-1, que denota a parte temporal janelada 60 para a 0a estrutura, é obtida de acordo com Zo,o = Xo,o • Wo, ..., Zo,(E+2)-N/F-1 = X0,(E+2)-N/F-1 ' W(E+2)-N/F-1« OS índices de z têm o mesmo significado que para x. Dessa forma, o modulador 16 e o janelador 18 agem para cada estrutura indexada pelo primeiro índice de x e z. O cancelador 2o soma as E + 2 partes temporais janeladas 6o de E + 2 estruturas imediatamente consecutivas com deslocamento das amostras das partes temporais janeladas 6o com relação entre si por uma estrutura, ou seja, pelo número de amostras por estrutura 36, a saber N/F, para, assim, obter as amostras u de uma estrutura atual, aqui u-(E+1),0 ... u-(E+1),N/F-1). Aqui, novamente, o primeiro índice de u indica o número da estrutura e o segundo índice organiza as amostras desta estrutura ao longo da ordem temporal. O cancelador une as estruturas reconstruídas então obtidas de modo que as amostras do sinal de áudio reconstruído 22 dentro das estruturas consecutivas 36 sigam entre si de acordo com u-(E+1),o . u-(E+1),N/F-1, u-E,o, . u-E,N/F-1, u- (E-1),o, . . o cancelador 22 computa cada amostra do sinal de áudio 22 dentro da -(E+1)ésima estrutura de acordo com u-(E+1),o = Z0,0 + Z-1,N/F + — Z-(E + 1),(E + 1) -N/F, — , U-(E+1)•N/F-1 = Zθ,N/F-1 + Z- 1f2.N/F-1 + — + z-(E+1),(E+2)«N/F-1, ou seja, somando (e+2) adendos por amostras u da estrutura atual.[0075] The processes of windowing 58 and addition overlap 62, as performed by windower 18 and time domain distortion canceller 20, are illustrated in more detail below with respect to Figure 4. Figure 4 uses the nomenclature applied in Sect. proposal above A.4 and the reference signals applied in figures 3 and 4. structure 36. The first index of x indexes the structures 36 along the temporal order and the second index of x organizes the temporal samples along the temporal order, the intersample column belonging to the reduced sample rate. Then, in figure 4, w0 to W(E+2).N/F-1 indicate the window coefficients of window 54. As the second index of x, i.e., the temporal part 52 as emitted by modulator 16, the index of w is such that index 0 corresponds to the oldest sample value and index (E + 2) • N/F - 1 corresponds to the most recent sample value when window 54 is applied to the respective time part 52. The windower 18 windows the temporal part 52 using window 54 to obtain the windowed temporal part 60 so that z0,0 to z0,(E+2).N/F-1, which denotes the windowed temporal part 60 for the 0th structure , is obtained according to Zo,o = Xo,o • Wo, ..., Zo,(E+2)-N/F-1 = X0,(E+2)-N/F-1 ' W( E+2)-N/F-1« The indices of z have the same meaning as for x. In this way, the modulator 16 and the windower 18 act for each structure indexed by the first index of x and z. The canceller 2o adds the E + 2 windowed temporal parts 6o of E + 2 immediately consecutive structures with displacement of the samples of the windowed temporal parts 6o with respect to each other by a structure, i.e. by the number of samples per structure 36, namely N /F, to thus obtain the samples u of a current structure, here u-(E+1),0 ... u-(E+1),N/F-1). Here again, the first index of u indicates the structure number and the second index organizes the samples of this structure along temporal order. The canceller joins the reconstructed structures obtained so that the samples of the reconstructed audio signal 22 within the consecutive structures 36 follow each other according to u-(E+1),o. u-(E+1),N/F-1, u-E,o, . u-E,N/F-1, u- (E-1),o, . . canceller 22 computes each sample of audio signal 22 within the -(E+1)th structure according to u-(E+1),o = Z0,0 + Z-1,N/F + — Z-( E + 1),(E + 1) -N/F, — , U-(E+1)•N/F-1 = Zθ,N/F-1 + Z- 1f2.N/F-1 + — + z-(E+1),(E+2)«N/F-1, that is, adding (e+2) addends per samples u of the current structure.

[0076] A figura 5 ilustra uma possível exploração do fato que, entre as amostras em janela que contribuem para as amostras de áudio u da estrutura -(E + 1), aquelas correspondentes a, ou com janelas utilizando, a parte zero 56 da janela 54, a saber Z-(E+1),(E+7/4).N/F — Z-(E+1),(E+2).N/F-1 são valores zero. Assim, em vez de obter todas as N/F amostras dentro da -(E+1)ésima estrutura 36 do sinal de áudio uutilizando E+2 adendos, o cancelador 20 pode computar o quatro da extremidade de entrada respectiva, a saber u- (E+1),(E+7/4).N/F — u-(E+1),(E+2)-N/F-1 meramente utilizando E+1 adendos de acordo com U-(E+1),(E+7/4)-N/F = ZO,3/4^N/F + Z-1,7/4^N/F + — + z-E,(E+3/4)-N/F, — , u-(E + 1),(E + 2pN/F-1 = Z0,N/F-1 + Z-1,2^N/F-1 + — + z-E,(E+1).N/F-1. Dessa forma, o janelador poderia ainda excluir, efetivamente, o desempenho da ponderação 58 com relação à parte zero 56. As amostras U-(E+1),(E+7/4).N/F — U-(E+1),(E+2).N/F-1 da - (E+1)ésima estrutura atual seria, assim, obtida utilizando E+1 adendos apenas, enquanto U-(E+1),(E+1)-N/F — U-(E+1),IE+7/4)-N/F-1 seriam obtidos utilizando E+2 adendos.[0076] Figure 5 illustrates a possible exploration of the fact that, among the windowed samples contributing to the u audio samples of the -(E + 1) structure, those corresponding to, or windowed using, the zero part 56 of the window 54, namely Z-(E+1),(E+7/4).N/F — Z-(E+1),(E+2).N/F-1 are zero values. Thus, instead of obtaining all N/F samples within the -(E+1)th structure 36 of the audio signal using E+2 addends, the canceller 20 can compute the four from the respective input end, namely a- (E+1),(E+7/4).N/F — u-(E+1),(E+2)-N/F-1 merely using E+1 addenda according to U-(E +1),(E+7/4)-N/F = ZO,3/4^N/F + Z-1,7/4^N/F + — + z-E,(E+3/4)- N/F, — , u-(E + 1),(E + 2pN/F-1 = Z0,N/F-1 + Z-1,2^N/F-1 + — + z-E,(E+ 1).N/F-1. This way, the windower could still effectively exclude the performance of weighting 58 with respect to the zero part 56. The samples U-(E+1),(E+7/4). N/F — U-(E+1),(E+2).N/F-1 of the - (E+1)th current structure would thus be obtained using E+1 addenda only, while U-(E +1),(E+1)-N/F — U-(E+1),IE+7/4)-N/F-1 would be obtained using E+2 addends.

[0077] Assim, na forma descrita acima, o decodificador de áudio 10 da figura 2 reproduz, em uma forma de escala reduzida, o sinal de áudio codificado ao fluxo de dados 24. Para esta finalidade, o decodificador de áudio 10 utiliza uma função de janela 54 que é a própria versão reduzida de uma janela de síntese de referência de comprimento (E+2)-N. Conforme explicado com relação à figura 6, esta versão reduzida, ou seja, janela 54, é obtida pela redução da taxa de amostragem da janela de síntese de referência por um fator de F, ou seja, o fator da taxa de amostragem, utilizando uma interpolação segmental, a saber em segmentos de comprimento 1/4-N quando medidos no regime de escala ainda não reduzida, em segmentos do comprimento 1/4-N/F no regime reduzido, em segmentos de quartos de um comprimento da estrutura de estruturas 36, medidos temporalmente e expressos independentemente da taxa de amostragem. Em 4 • (E+2) a interpolação é, assim, realizada. Assim, produzir 4 • (E+2) vezes 1/4-N/F segmentos longos que, concatenados, representam a versão reduzida da janela de síntese de referência de comprimento (E+2)•N. Veja a figura 6 para ilustração. A figura 6 mostra a janela de síntese 54 que é unimodal e utilizada pelo decodificador de áudio 10 de acordo com um procedimento de decodificação de áudio reduzido debaixo da janela de síntese de referência 70 que seu comprimento (E+2)•N. Isto é, pelo procedimento de redução da taxa de amostragem 72 levando da janela de síntese de referência 70 à janela de síntese 54 de fato utilizada pelo decodificador de áudio 10 para decodificação reduzida, o número de coeficientes da janela é reduzido por um fator de F. Na figura 6, a nomenclatura das figuras 5 e 6 foi aderida a, ou seja, w é utilizado a fim de denotar a janela de versão reduzida 54, enquanto w’ foi utilizado para denotar os coeficientes da janela da janela de síntese de referência 70.[0077] Thus, in the form described above, the audio decoder 10 of figure 2 reproduces, in a reduced scale form, the audio signal encoded to the data stream 24. For this purpose, the audio decoder 10 uses a function window 54 which is the reduced version of a reference synthesis window of length (E+2)-N. As explained with respect to Figure 6, this reduced version, i.e. window 54, is obtained by reducing the sampling rate of the reference synthesis window by a factor of F, i.e. the sampling rate factor, using a segmental interpolation, namely in segments of length 1/4-N when measured in the scale regime not yet reduced, in segments of length 1/4-N/F in the reduced regime, in segments of quarters of a length of the structure of structures 36, measured temporally and expressed independently of the sampling rate. In 4 • (E+2) interpolation is thus performed. Thus, producing 4 • (E+2) times 1/4-N/F long segments that, concatenated, represent the shortened version of the reference synthesis window of length (E+2)•N. See figure 6 for illustration. 6 shows the synthesis window 54 which is unimodal and used by the audio decoder 10 in accordance with an audio decoding procedure reduced under the reference synthesis window 70 that its length (E+2)•N. That is, by the sampling rate reduction procedure 72 leading from the reference synthesis window 70 to the synthesis window 54 actually used by the audio decoder 10 for reduced decoding, the number of window coefficients is reduced by a factor of F In Figure 6, the nomenclature of Figures 5 and 6 has been adhered to, i.e., w is used in order to denote the reduced version window 54, while w' has been used to denote the window coefficients of the reference synthesis window. 70.

[0078] Conforme já mencionado, a fim de realizar a redução da taxa de amostragem 72, a janela de síntese de referência 70 é processada em segmentos 74 de comprimento igual. Em número, há (E+2) -4 destes segmentos 74. Medido na taxa de amostragem original, ou seja, no número de coeficientes da janela da janela de síntese de referência 70, cada segmento 74 é 1/4 • N coeficientes da janela w’ de comprimento e medido na taxa de amostragem reduzida ou com escala reduzida, cada segmento 74 tem 1/4-N/F coeficientes da janela w de comprimento.[0078] As already mentioned, in order to perform sampling rate reduction 72, the reference synthesis window 70 is processed into segments 74 of equal length. In number, there are (E+2) -4 of these segments 74. Measured at the original sampling rate, that is, at the number of window coefficients of the reference synthesis window 70, each segment 74 is 1/4 • N coefficients of the window w' of length and measured at the reduced or scaled sampling rate, each segment 74 has 1/4-N/F coefficients of the window w of length.

[0079] Naturalmente, seria possível realizar a redução da taxa de amostragem 72 para cada coeficiente da janela reduzido wi coincidindo acidentalmente com quaisquer coeficientes da janela w- da janela de síntese de referência 70 definindo simplesmente wi = w- com o tempo de amostra de wi coincidindo com o de w-, e/ou linearmente interpolando quaisquer coeficientes da janela wi residindo, temporalmente, entre dois coeficientes da janela w-ew-+2 por interpolação linear, mas este procedimento resultaria em uma aproximação fraca da janela de síntese de referência 70, ou seja, a janela de síntese 54 utilizada pelo decodificador de áudio 10 para a decodificação reduzida representaria uma fraca aproximação da janela de síntese de referência 70, assim não realizando a solicitação para garantir o teste de conformidade da decodificação em escala reduzida com relação à decodificação sem escala reduzida do sinal de áudio do fluxo de dados 24. Assim, a redução da taxa de amostragem 72 envolve um procedimento de interpolação de acordo com o qual a maioria dos coeficientes da janela wi da janela reduzida 54, a saber aquelas posicionadas deslocadas das bordas dos segmentos 74, dependem da forma do procedimento de redução da taxa de amostragem 72 em mais de dois coeficientes da janela w’ da janela de referência 70. Em particular, enquanto a maioria dos coeficientes da janela wi da janela reduzida 54 dependem de mais dois coeficientes da janela w- da janela de referência 70 a fim de aumentar a qualidade do resultado da interpolação/redução da taxa de amostragem, ou seja, a qualidade da aproximação, para cada coeficiente da janela wi da versão reduzida 54, é verdadeiro que o mesmo não depende dos coeficientes da janela w- pertencentes aos diferentes segmentos 74. Ainda, o procedimento de redução da taxa de amostragem 72 é um procedimento de interpolação segmental.[0079] Naturally, it would be possible to perform sampling rate reduction 72 for each reduced window coefficient wi accidentally coinciding with any window coefficients w- of the reference synthesis window 70 by simply setting wi = w- with the sample time of wi coinciding with that of w-, and/or linearly interpolating any window coefficients wi residing, temporally, between two window coefficients w-ew-+2 by linear interpolation, but this procedure would result in a poor approximation of the synthesis window of reference 70, that is, the synthesis window 54 used by the audio decoder 10 for reduced decoding would represent a poor approximation of the reference synthesis window 70, thus not making the request to guarantee the compliance test of the reduced scale decoding with with respect to the unscaled decoding of the audio signal of the data stream 24. Thus, the reduction of the sample rate 72 involves an interpolation procedure according to which the majority of the window coefficients wi of the reduced window 54, namely those positioned offset from the edges of the segments 74, depend on the form of the sampling rate reduction procedure 72 by more than two window coefficients w' of the reference window 70. In particular, while most of the window coefficients wi of the reduced window 54 depend on two more coefficients of the w- window of the reference window 70 in order to increase the quality of the interpolation/sampling rate reduction result, that is, the quality of the approximation, for each coefficient of the wi window of the reduced version 54, It is true that it does not depend on the window coefficients w- belonging to the different segments 74. Furthermore, the sampling rate reduction procedure 72 is a segmental interpolation procedure.

[0080] Por exemplo, a janela de síntese 54 pode ser uma concatenação de funções de spline de comprimento 1/4 • N/F. As funções de spline cúbica podem ser utilizadas. Tal exemplo foi descrito acima na seção A.1 onde o loop externo sequencialmente ligou os segmentos 74 em que, em cada segmento 74, a redução da taxa de amostragem ou interpolação 72 envolver uma combinação matemática de coeficientes da janela consecutivos w’ dentro do segmento atual 74, por exemplo, primeiro para a próxima cláusula na seção “calcular vetor r necessário para calcular os coeficientes c”. A interpolação aplicada em segmentos, pode, entretanto, ainda ser escolhida de forma diferente. Isto é, a interpolação não está restrita em splines ou spline cúbica. Ainda, a interpolação linear ou qualquer outro método de interpolação pode ser utilizado também. Em qualquer caso, a implementação segmental da interpolação causaria a computação de amostras da janela de síntese com escala reduzida, ou seja, as amostras mais externas dos segmentos da janela de síntese com escala reduzida, se aproximando de outro segmento, não dependem dos coeficientes da janela da janela de síntese de referência residindo em diferentes segmentos.[0080] For example, synthesis window 54 may be a concatenation of spline functions of length 1/4 • N/F. Cubic spline functions can be used. Such an example was described above in section A.1 where the outer loop sequentially linked segments 74 wherein, in each segment 74, the sampling rate reduction or interpolation 72 involved a mathematical combination of consecutive window coefficients w' within the segment current 74, for example, first to the next clause in the “calculate r vector needed to calculate c coefficients” section. The interpolation applied to segments, however, can still be chosen differently. That is, interpolation is not restricted to splines or cubic splines. Furthermore, linear interpolation or any other interpolation method can also be used. In any case, the segmental implementation of interpolation would cause the computation of downscaled synthesis window samples, i.e., the outermost samples of the downscaled synthesis window segments, approaching another segment, do not depend on the coefficients of the reference synthesis window residing in different segments.

[0081] Pode ser que o janelador 18 obtenha a janela de síntese reduzida 54 de um armazenamento onde os coeficientes da janela wi desta janela de síntese reduzida 54 foram armazenados após terem sido obtidos utilizando a redução da taxa de amostragem 72. De modo alternativo, conforme ilustrado na Figura 2, o decodificador de áudio 10 pode compreender uma redução da taxa de amostragem segmental 76 realizando a redução da taxa de amostragem 72 da figura 6 com base na janela de síntese de referência 70.[0081] It may be that the windower 18 obtains the reduced synthesis window 54 from a store where the window coefficients wi of this reduced synthesis window 54 were stored after being obtained using the sampling rate reduction 72. Alternatively, As illustrated in Figure 2, the audio decoder 10 may comprise a segmental sampling rate reduction 76 by performing the sampling rate reduction 72 of Figure 6 based on the reference synthesis window 70.

[0082] Deve ser observado que o decodificador de áudio 10 da Figura 2 pode ser configurado para suportar meramente um fator da taxa de amostragem F fixo ou pode suportar diferentes valores. Neste caso, o decodificador de áudio 10 pode ser responsivo a um valor de entrada para F conforme ilustrado na Figura 2 em 78. O dispositivo de captura 14, por exemplo, pode ser responsivo a este valor F a fim de capturar, conforme mencionado acima, os valores espectrais N/F por espectro de estrutura. De forma similar, a redução da taxa de amostragem segmental 76 opcional também pode ser responsiva a este valor de F operando, conforme indicado acima. O modulador S/T 16 pode ser responsivo a F a fim de, por exemplo, computacionalmente derivar as versões reduzidas na escala/reduzidas das funções de modulação, reduzidas na escala/reduzidas com relação àquelas utilizadas no modo não operacional com escala reduzida onde a reconstrução leva à amostra de áudio total.[0082] It should be noted that the audio decoder 10 of Figure 2 can be configured to support merely a fixed sampling rate factor F or can support different values. In this case, the audio decoder 10 may be responsive to an input value for F as illustrated in Figure 2 at 78. The capture device 14, for example, may be responsive to this F value in order to capture, as mentioned above. , the N/F spectral values per structure spectrum. Similarly, the optional segmental sampling rate reduction 76 may also be responsive to this value of F operand, as indicated above. The S/T modulator 16 may be F-responsive in order to, for example, computationally derive downscaled/downscaled versions of the modulation functions with respect to those used in the non-operational downscaled mode where the reconstruction leads to the full audio sample.

[0083] Naturalmente, o modulador 16 também seria responsivo à entrada de F 78, pois o modulador 16 utilizaria corretamente as versões reduzidas das funções de modulação e o mesmo é verdadeiro para o janelador 18 e o cancelador 20 com relação a uma adaptação do comprimento real das estruturas na taxa reduzida ou taxa de amostragem reduzida.[0083] Naturally, the modulator 16 would also be responsive to the F 78 input, as the modulator 16 would correctly utilize the reduced versions of the modulation functions and the same is true for the windower 18 and the canceller 20 with respect to an adaptation of the length of structures at the reduced rate or reduced sampling rate.

[0084] Por exemplo, F pode ficar entre 1,5 e 10, ambos inclusivamente.[0084] For example, F can be between 1.5 and 10, both inclusive.

[0085] Deve ser observado que o decodificador da Figura 2 e 3 ou qualquer modificação respectiva descrita aqui, pode ser implementada para realizar a transição espectral em tempo utilizando uma implementação de elevação da MDCT de Baixo Atraso conforme ensinado em, por exemplo, EP 2 378 516 B1.[0085] It should be noted that the decoder of Figure 2 and 3 or any respective modification described herein, can be implemented to perform the spectral transition in time using a Low Delay MDCT lift implementation as taught in, for example, EP 2 378 516 B1.

[0086] A figura 8 ilustra uma implementação do decodificador utilizando o conceito de elevação. O modulador S/T 16 realiza exemplarmente uma DCT-IV inversa e é mostrada como segue por um bloco que representa a concatenação do janelador 18 e do cancelador de distorção de domínio de tempo 20. No exemplo da Figura 8 E é 2, ou seja, E=2.[0086] Figure 8 illustrates a decoder implementation using the elevation concept. The S/T modulator 16 exemplarily performs an inverse DCT-IV and is shown as follows by a block representing the concatenation of the windower 18 and the time domain distortion canceller 20. In the example of Figure 8 E is 2, i.e. , E=2.

[0087] O modulador 16 compreende um conversor de tempo/frequência da transformada de cosseno discreta iv do tipo inversa. Em vez de emitir as sequências de partes temporais como (E+2)N/F de comprimento 52, meramente emite partes temporais 52 de comprimento 2•N/F, todas derivadas da sequência de espectros de N/F de comprimento 46, estas partes encurtadas 52 correspondentes ao núcleo de DCT, ou seja, as 2•N/F amostras mais recentes das partes descritas antigas.[0087] The modulator 16 comprises an inverse-type discrete cosine transform iv time/frequency converter. Instead of emitting temporal part sequences as (E+2)N/F of length 52, it merely emits temporal parts 52 of length 2•N/F, all derived from the N/F spectra sequence of length 46, these shortened parts 52 corresponding to the DCT core, i.e. the 2•N/F most recent samples of the old described parts.

[0088] O janelador 18 age conforme descrito previamente e gera uma parte temporal janelada 60 para cada parte temporal 52, mas opera meramente no núcleo de DCT. Para esta finalidade, o janelador 18 utiliza a função de janela oi com i=0...2N/F-1, tendo o tamanho do núcleo. A relação entre wi com i=0...(E+2) • N/F-1 é descrita posteriormente, apenas como a relação entre os coeficientes de elevação subsequentemente mencionados e wi com i = 0 ...(E+2) • N/F-1 é.[0088] Windower 18 acts as previously described and generates a windowed temporal part 60 for each temporal part 52, but operates merely on the DCT core. For this purpose, the windower 18 uses the window function hi with i=0...2N/F-1, having the size of the core. The relationship between wi with i=0...(E+2) • N/F-1 is described later, just as the relationship between the subsequently mentioned elevation coefficients and wi with i = 0 ...(E+2 ) • N/F-1 is.

[0089] Utilizando a nomenclatura aplicada acima, o processo descrito até o momento produz: zk,n = On-xk,n para n = 0,...,2M-1,[0089] Using the nomenclature applied above, the process described so far produces: zk,n = On-xk,n for n = 0,...,2M-1,

[0090] com redefinição de M = N/F, de modo que M corresponda ao tamanho da estrutura expresso no domínio reduzido na escala e utilizando a nomenclatura das figuras 26, em que, entretanto, zk,n e xk,n devem conter meramente as amostras da parte temporal janelada e a parte temporal ainda sem janela dentro do núcleo de DCT tendo tamanho 2*M e temporalmente correspondente às amostras E • N/F...(E+2) • N/F-1 na figura 4. Isto é, n é um número inteiro indicando um índice de amostra e on é um coeficiente da função de janela com valor real correspondente ao índice de amostra n.[0090] with redefinition of M = N/F, so that M corresponds to the size of the structure expressed in the scaled-down domain and using the nomenclature of figures 26, in which, however, zk,n and xk,n must merely contain the samples from the windowed temporal part and the still windowless temporal part within the DCT core having size 2*M and temporally corresponding to the samples E • N/F...(E+2) • N/F-1 in figure 4. That is, n is an integer indicating a sample index and n is a coefficient of the real-valued window function corresponding to sample index n.

[0091] O processo de sobreposição/adição do cancelador 20 opera em uma forma diferente em comparação com a descrição acima. Gera partes temporais intermediárias mk(0),.mk(M-1) com base na equação ou expressão mk,n = Zk,n + Zk-i,n+M para n = 0,...,M-1.[0091] The canceller 20 overlapping/adding process operates in a different way compared to the description above. Generates intermediate temporal parts mk(0),.mk(M-1) based on the equation or expression mk,n = Zk,n + Zk-i,n+M for n = 0,...,M-1.

[0092] Na implementação da figura 8, o aparelho compreende, ainda, um elevador 80 que pode ser interpretado como uma parte do modulador 16 e do janelador 18 visto que o elevador 80 compensa o fato do modulador e do janelador restringirem seu processamento ao núcleo de DCT em veZ de processar a extensão das funções de modulação e da janela de síntese além do núcleo em direção ao passado cuja extensão foi introduZida para compensar a parte Zero 56. O elevador 80 produZ, utiliZando uma estrutura dos retardadores e multiplicadores 82 e somadores 84, as partes temporais ou estruturas finalmente reconstruídas de comprimento M em pares de estruturas imediatamente consecutivas com base na equação ou expressão uk,n = mk,n + ln-M/2 ' mk-1,M-1-n para n = M/2,.,M-1,[0092] In the implementation of figure 8, the device also comprises an elevator 80 that can be interpreted as a part of the modulator 16 and the windower 18 since the elevator 80 compensates for the fact that the modulator and the windower restrict their processing to the core of DCT instead of processing the extension of the modulation functions and the synthesis window beyond the core toward the past whose extension was introduced to compensate for the Zero part 56. The elevator 80 produces, using a structure of retarders and multipliers 82 and adders 84, the temporal parts or structures finally reconstructed of length M into pairs of immediately consecutive structures based on the equation or expression uk,n = mk,n + ln-M/2 ' mk-1,M-1-n for n = M/2,.,M-1,

[0093] e Uk,n = mk,n + lM-1-n • outk-1,M-1-n para n=0,...,M/2-1,[0093] and Uk,n = mk,n + lM-1-n • outk-1,M-1-n for n=0,...,M/2-1,

[0094] em que ln com n = 0.M-1 são coeficientes de elevação de valor real relacionados à janela de síntese com escala reduZida em uma forma descrita em mais detalhes abaixo.[0094] where ln with n = 0.M-1 are real-valued lift coefficients related to the downscaled synthesis window in a manner described in more detail below.

[0095] Em outras palavras, para a sobreposição estendida de E estruturas no passado, apenas M operações adicionais de adição por multiplicador são necessárias, como pode ser visto na estrutura do elevador 80. Estas operações adicionais são, às veZes, referidas também como “matriZes de atraso Zero”. Às veZes, estas operações também são conhecidas como “etapas de elevação”. A implementação eficiente mostrada na figura 8 pode sob algumas circunstâncias ser mais eficiente como uma implementação direta. Para ser mais preciso, dependendo da implementação concreta, tal implementação mais eficiente pode resultar na economia de M operações, como no caso de uma implementação direta para M operações, pode ser aconselhável implementar, como a implementação mostrada na figura 19, requer a princípio, 2M operações na estrutura do módulo 820 e M operações na estrutura do elevador 830.[0095] In other words, for the extended superposition of E structures in the past, only M additional addition operations per multiplier are required, as can be seen in the elevator structure 80. These additional operations are sometimes also referred to as “ zero delay matrices”. Sometimes these operations are also known as “lifting steps”. The efficient implementation shown in Figure 8 may under some circumstances be more efficient as a direct implementation. To be more precise, depending on the concrete implementation, such a more efficient implementation may result in saving M operations, as in the case of a direct implementation for M operations, it may be advisable to implement, as the implementation shown in figure 19, requires at first, 2M operations on the module structure 820 and M operations on the elevator structure 830.

[0096] De acordo com a dependência de on com n=0...2M- 1 e ln com n = 0...M-1 na janela de síntese wi com i = 0...(E+2)M-1 (lembra-se que aqui E=2), as seguintes fórmulas descrevem a relação entre eles com deslocamento, entretanto, os indices subscritos utilizados até o momento em parênteses seguindo a respectiva variável: [0096] According to the dependence of on with n=0...2M- 1 and ln with n = 0...M-1 in the synthesis window wi with i = 0...(E+2)M -1 (remember that here E=2), the following formulas describe the relationship between them with displacement, however, the subscript indices used so far in parentheses following the respective variable:

[0097] Observe que a janela wi contém os valores máximo no lado direito nesta formulação, ou seja, entre os índices 2M e 4M — 1. As fórmulas acima se referem aos coeficientes ln com n = 0...M-1 e On n = 0,...,2M-1 aos coeficientes wn com n = 0...(E+2)M-1 da janela de síntese com escala reduzida. Como pode ser visto, ln com n = 0.M-1 de fato dependem meramente de 34 dos coeficientes da janela de síntese reduzida, a saber de wn com n = 0.(E+1)M-1, enquanto On n = 0,...,2M-1 dependem de todos wn com n = 0...(E+2)M-1.[0097] Note that the window wi contains the maximum values on the right side in this formulation, that is, between the indices 2M and 4M — 1. The formulas above refer to the coefficients ln with n = 0...M-1 and On n = 0,...,2M-1 to the coefficients wn with n = 0...(E+2)M-1 of the downscaled synthesis window. As can be seen, ln with n = 0.M-1 in fact merely depend on 34 of the coefficients of the reduced synthesis window, namely wn with n = 0.(E+1)M-1, while On n = 0,...,2M-1 depend on all wn with n = 0...(E+2)M-1.

[0098] Conforme declarado acima, pode ser que o janelador 18 obtenha a janela de síntese reduzida 54 wn com n = 0.(E+2)M-1 de um armazenamento onde os coeficientes da janela wi desta janela de síntese reduzida 54 foram armazenados após serem obtidos utilizando a redução da taxa de amostragem 72, e de onde os mesmos são lidos para computar os coeficientes ln com n = 0...M-1 e On n = 0,...,2M-1 utilizando a relação acima, mas de modo alternativo, o janelador 18 pode recuperar os coeficientes ln com n = 0.M-1 e On n = 0,.,2M-1, assim computados da janela de síntese pré-reduzida, do armazenamento diretamente. De modo alternativo, conforme declarado acima, o decodificador de áudio 10 pode compreender a redução da taxa de amostragem segmental 76 realizando a redução da taxa de amostragem 72 da figura 6 com base na janela de síntese de referência 70, produzindo assim wn com n = 0.(E+2)M-1 com base no qual o janelador 18 computa os coeficientes ln com n = 0.M-1 e On n = 0,.,2M-1 utilizando a relação/fórmulas acima. Ainda utilizando a implementação de elevação, mais de um valor para F pode ser suportado.[0098] As stated above, it may be that the windower 18 obtains the reduced synthesis window 54 wn with n = 0.(E+2)M-1 from a store where the window coefficients wi of this reduced synthesis window 54 were stored after being obtained using the sampling rate reduction 72, and from where they are read to compute the coefficients ln with n = 0...M-1 and On n = 0,...,2M-1 using the relation above, but alternatively, the windower 18 can retrieve the coefficients ln with n = 0.M-1 and On n = 0,.,2M-1, thus computed from the pre-reduced synthesis window, from storage directly. Alternatively, as stated above, the audio decoder 10 may comprise reducing the segmental sampling rate 76 by performing the reducing sampling rate 72 of Figure 6 based on the reference synthesis window 70, thereby producing wn with n = 0.(E+2)M-1 based on which the windower 18 computes the coefficients ln with n = 0.M-1 and On n = 0,.,2M-1 using the above relationship/formulas. Still using the elevation implementation, more than one value for F can be supported.

[0099] Resumindo brevemente a implementação de elevação, os mesmos resultados em um decodificador de áudio 10 configurado para decodificação de um sinal de áudio 22 em uma primeira taxa de amostragem de um fluxo de dados 24 no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo a 1/Fésima da segunda taxa de amostragem, o decodificador de áudio 10 compreendendo o receptor 12 que recebe, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais 28, o dispositivo de captura 14 que exclui para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais 28, um modulador de espectro em tempo 16 configurado para submeter, para cada estrutura 36, a fração de baixa frequência a uma transformada inversa tendo funções de modulação de comprimento 2•N/F temporalmente estendendo-se sobre a respectiva estrutura e uma estrutura prévia para, assim, obter uma parte temporal do comprimento 2•N/F, e um janelador 18 que janela, para cada estrutura 36, a parte temporal xk,n de acordo com zk,n = CO ■ xk,n for n = 0,...,2M-1 para, assim, obter uma parte temporal janelada zk,n com n = 0...2M-1. O cancelador de distorção de domínio de tempo 20 gera partes temporais intermediárias mk(0),.mk(M-1) de acordo com mk,n = zk,n + zk-1,n+M para n = 0,.,M-1. Finalmente, o elevador 80 computa as estruturas uk,n do sinal de áudio com n = 0.M-1 de acordo com uk,n = mk,n + ln-M/2 ■ mk-1,M-1-n for n = M/2,.,M-1, e uk,n = mk,n + lM-1-n ■ outk-1,M-1-n para n=0,.,M/2-1, em que ln com n = 0.M-1 são coeficientes de elevação, em que a transformada inversa é uma MDCT inversa ou MDST inversa, e em que ln com n = 0...M-1 e On n = 0,..,2M-1 dependem dos coeficientes wn com n = 0.(E+2)M-1 de uma janela de síntese, e a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento 4 • N, reduzida por um fator de F por uma interpolação segmental em segmentos de comprimento 1/4 • N.[0099] Briefly summarizing the lift implementation, the same results in an audio decoder 10 configured for decoding an audio signal 22 at a first sample rate of a data stream 24 in which the audio signal is transform encoded at a second sampling rate, the first sampling rate being the 1/th of the second sampling rate, the audio decoder 10 comprising the receiver 12 which receives, per structure of length N of the audio signal, N spectral coefficients 28, the capture device 14 which excludes for each structure, a low frequency fraction of N/F length outside the N spectral coefficients 28, a time spectrum modulator 16 configured to subject, for each structure 36, the low frequency fraction to an inverse transform having modulation functions of length 2•N/F temporally extending over the respective structure and a prior structure to thus obtain a temporal part of length 2•N/F, and a windower 18 that windows, to each structure 36, the temporal part xk,n according to zk,n = CO ■ xk,n for n = 0,...,2M-1 to thus obtain a windowed temporal part zk,n with n = 0 ...2M-1. The time domain distortion canceller 20 generates intermediate temporal parts mk(0),.mk(M-1) according to mk,n = zk,n + zk-1,n+M for n = 0,., M-1. Finally, elevator 80 computes the uk,n structures of the audio signal with n = 0.M-1 according to uk,n = mk,n + ln-M/2 ■ mk-1,M-1-n for n = M/2,.,M-1, and uk,n = mk,n + lM-1-n ■ outk-1,M-1-n for n=0,.,M/2-1, in where ln with n = 0.M-1 are elevation coefficients, where the inverse transform is an inverse MDCT or inverse MDST, and where ln with n = 0...M-1 and On n = 0,.. ,2M-1 depend on the coefficients wn with n = 0.(E+2)M-1 of a synthesis window, and the synthesis window is a reduced version of a reference synthesis window of length 4 • N, reduced by a factor of F by a segmental interpolation into segments of length 1/4 • N.

[0100] Já foi verificado na discussão acima de uma proposta para uma extensão de um AAC-ELD com relação a um modo de decodificação em escala reduzida que o decodificador de áudio da figura 2 pode ser acompanhado com uma ferramenta SBR de baixo atraso. O seguinte descreve, por exemplo, como o codificador AAC-ELD estendeu para suportar o modo operacional em escala reduzida proposto acima, operaria ao utilizar a ferramenta SBR de baixo atraso. Conforme já mencionado na parte introdutória do relatório descritivo do presente pedido, caso a ferramenta SBR de baixo atraso seja utilizada em conexão com o codificador AAC-ELD, os bancos de filtro do módulo de SBR de baixo atraso são reduzidos na escala também. Isso garante que o módulo de SBR opere com a mesma resolução de frequência e, portanto, não mais adaptações são necessárias. A figura 7 descreve a passagem do sinal do decodificador AAC-ELD operando a 96 kHz, com tamanho da estrutura de 480 amostras, no modo de SBR com amostra reduzida e com um fator de redução de escala F de 2.[0100] It has already been noted in the above discussion of a proposal for an extension of an AAC-ELD with respect to a scaled-down decoding mode that the audio decoder of Figure 2 can be accompanied with a low-delay SBR tool. The following describes, for example, how the AAC-ELD encoder extended to support the scaled-down operating mode proposed above would operate when utilizing the low-delay SBR tool. As already mentioned in the introductory part of the specification of the present application, if the low delay SBR tool is used in connection with the AAC-ELD encoder, the filter banks of the low delay SBR module are scaled down as well. This ensures that the SBR module operates with the same frequency resolution and therefore no further adaptations are necessary. Figure 7 describes the passage of the AAC-ELD decoder signal operating at 96 kHz, with a frame size of 480 samples, in SBR mode with reduced sampling and with a scale reduction factor F of 2.

[0101] Na Figura 7, o fluxo contínuo de bits que chega como processado por uma sequência de blocos, a saber um decodificador AAC, um bloco de LD-MDCT inversa, um bloco de análise de CLDFB, um decodificador SBR e um bloco de síntese de CLDFB (CLDFB = complex low delay filter bank | banco de filtro de baixo atraso complexo). O fluxo contínuo de bits é igual ao fluxo de dados 24 discutido previamente com relação às figuras 3 a 6, mas é adicionalmente acompanhado pelos dados de SBR paramétricos que ajudam a formação espectral de uma réplica espectral de uma banda de extensão espectral estendendo a frequência espectral do sinal de áudio obtido pela decodificação de áudio com escala reduzida na saída do bloco de MDCT de baixo atraso inversa, a formação espectral sendo realizada pelo decodificador de SBR. Em particular, o decodificador AAC recupera todos os elementos de sintaxe necessários por análise adequada e decodificação de entropia. O decodificador AAC pode parcialmente coincidir com o receptor 12 do decodificador de áudio 10 que, na Figura 7, é incorporado pelo bloco de MDCT de baixo atraso inversa. Na figura 7, F é exemplarmente igual a 2. Isto é, o bloco de MDCT de baixo atraso inversa da figura 7 emite, como um exemplo para o sinal de áudio reconstruído 22 da figura 2, um sinal de tempo reduzido de 48 kHz na metade da taxa na qual o sinal de áudio foi originalmente codificado no fluxo contínuo de bits de chegada. O bloco de análise de CLDFB subdivide este sinal de tempo de 48 kHz, ou seja, o sinal de áudio obtido pela decodificação de áudio com escala reduzida, em N bandas, aqui N = 16, e o decodificador de SBR computa os coeficientes de reformatação para estas bandas, reformata das N bandas adequadamente - controladas por dados de SBR no fluxo contínuo de bits de entrada que chega na entrada do decodificador AAC e o bloco de síntese de CLDFB retransiciona do domínio espectral em domínio de tempo obtendo, assim, um sinal de extensão de alta frequência a ser adicionado aos sinais de áudio decodificados originais emitidos pelo bloco de MDCT de baixo atraso inversa.[0101] In Figure 7, the streaming bit stream arriving as processed by a sequence of blocks, namely an AAC decoder, an inverse LD-MDCT block, a CLDFB analysis block, an SBR decoder and a CLDFB synthesis (CLDFB = complex low delay filter bank | complex low delay filter bank). The continuous bit stream is the same as the data stream 24 previously discussed with respect to Figures 3 to 6, but is additionally accompanied by parametric SBR data that assists the spectral formation of a spectral replica of a spectral span band extending the spectral frequency. of the audio signal obtained by downscaled audio decoding at the output of the inverse low-delay MDCT block, the spectral formation being performed by the SBR decoder. In particular, the AAC decoder recovers all necessary syntax elements by proper parsing and entropy decoding. The AAC decoder may partially coincide with the receiver 12 of the audio decoder 10 which, in Figure 7, is incorporated by the inverse low-delay MDCT block. In Figure 7, F is exemplarily equal to 2. That is, the inverse low-delay MDCT block of Figure 7 outputs, as an example to the reconstructed audio signal 22 of Figure 2, a 48 kHz reduced time signal at half the rate at which the audio signal was originally encoded into the incoming bit stream. The CLDFB analysis block subdivides this 48 kHz time signal, i.e. the audio signal obtained by downscaled audio decoding, into N bands, here N = 16, and the SBR decoder computes the reformatting coefficients for these bands, reformats the N bands appropriately - controlled by SBR data in the continuous stream of input bits arriving at the input of the AAC decoder and the CLDFB synthesis block retransitions from the spectral domain to the time domain, thus obtaining a signal of high-frequency extension to be added to the original decoded audio signals output by the inverse low-delay MDCT block.

[0102] Observe que a operação padrão de SBR utiliza um CLDFB de 32 bandas. O algoritmo de interpolação para os coeficientes da janela de CLDFB de 32 bandas ci32 já é dado em 4.6.19.4.1 em [1], 1 [0102] Note that standard SBR operation uses a 32-band CLDFB. The interpolation algorithm for the ci32 32-band CLDFB window coefficients is already given in 4.6.19.4.1 in [1], 1

[0103] onde c64 são os coeficientes da janela da janela de 64 bandas dada na Tabela 4.A.90 em [1]. Esta fórmula pode ser mais generalizada para definir os coeficientes da janela para um número inferior de bandas B também [0103] where c64 are the window coefficients of the 64-band window given in Table 4.A.90 in [1]. This formula can be further generalized to define the window coefficients for a lower number of B bands as well.

[0104] onde F denota o fator de redução de escala sendo F = 32/B . com esta definição dos coeficientes da janela, o banco de filtro de análise e síntese de CLDFB pode ser completamente descrito conforme descrito no exemplo acima da seção A.2.[0104] where F denotes the scale reduction factor being F = 32/B. With this definition of the window coefficients, the CLDFB analysis and synthesis filter bank can be completely described as described in the example above from section A.2.

[0105] Assim, os exemplos acima forneceram algumas definições ausentes para o codec AAC-ELD, a fim de adaptar o codec aos sistemas com taxas de amostra inferiores. Estas definições podem ser incluídas no padrão ISO/IEC 144963:2009.[0105] Thus, the above examples provided some missing definitions for the AAC-ELD codec in order to adapt the codec to systems with lower sample rates. These definitions can be included in the ISO/IEC 144963:2009 standard.

[0106] Assim, na discussão acima, inter alias, foi descrito:[0106] Thus, in the discussion above, inter alia, it was described:

[0107] Um decodificador de áudio pode ser configurado para decodificação de um sinal de áudio em uma primeira taxa de amostragem de um fluxo de dados no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, o decodificador de áudio compreendendo: um receptor configurado para receber, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais; um dispositivo de captura configurado para capturar para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais; um modulador de espectro em tempo configurado para submeter, para cada estrutura, a fração de baixa frequência em uma transformada inversa tendo funções de modulação de comprimento (E+2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E+1 estruturas prévias para, assim, obter uma parte temporal do comprimento (E + 2) • N/F; um janelador configurado para janelar, para cada estrutura, a parte temporal utilizando uma janela de síntese unimodal de comprimento (E + 2) • N/F compreendendo uma parte zero do comprimento 1/4 • N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese unimodal, o intervalo temporal subsequente a parte zero e tendo comprimento 7/4 • N/F de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e um cancelador de distorção de domínio de tempo configurado para submeter a parte temporal janelada das estruturas em um processo de adição por sobreposição de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada do comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior, em que a transformada inversa é uma MDCT inversa ou MDST inversa, e em que a janela de síntese unimodal é uma versão reduzida de uma janela de síntese unimodal de referência do comprimento (E + 2) • N, reduzida por um fator de F por uma interpolação segmental em segmentos do comprimento 1/4 • N/F.[0107] An audio decoder may be configured to decode an audio signal at a first sample rate from a data stream in which the audio signal is transform encoded at a second sample rate, the first sample rate being 1/Eth of the second sampling rate, the audio decoder comprising: a receiver configured to receive, per structure of length N of the audio signal, N spectral coefficients; a capture device configured to capture for each structure, a low-frequency fraction of N/F length out of the N spectral coefficients; a time spectrum modulator configured to submit, for each structure, the low frequency fraction into an inverse transform having length modulation functions (E+2) • N/F temporally extending over the respective structure and E+1 previous structures to thus obtain a temporal part of the length (E + 2) • N/F; a windower configured to window, for each structure, the temporal part using a unimodal synthesis window of length (E + 2) • N/F comprising a zero part of length 1/4 • N/F at a respective input end and having a peak within a temporal interval of the unimodal synthesis window, the temporal interval subsequent to the zero part and having length 7/4 • N/F so that the windower obtains a windowed temporal part of length (E + 2) • N /F; and a time domain distortion canceller configured to subject the windowed temporal portion of the structures to an overlap addition process such that a fraction of the length trailing edge (E + 1)/(E + 2) of the temporal portion windowed portion of a current frame overlap an input edge of the length (E + 1)/(E + 2) of the windowed temporal portion of a previous frame, where the inverse transform is an inverse MDCT or inverse MDST, and where the window unimodal synthesis window is a reduced version of a reference unimodal synthesis window of length (E + 2) • N, reduced by a factor of F by a segmental interpolation into segments of length 1/4 • N/F.

[0108] Um decodificador de áudio de acordo com uma aplicação, caracterizado pela janela de síntese unimodal ser uma concatenação de funções de spline do comprimento 1/4 • N/F.[0108] An audio decoder according to an application, characterized by the unimodal synthesis window being a concatenation of spline functions of length 1/4 • N/F.

[0109] Um decodificador de áudio de acordo com uma aplicação, caracterizado pela janela de síntese unimodal ser uma concatenação de funções de spline cúbica do comprimento 1/4 • N/F.[0109] An audio decoder according to an application, characterized by the unimodal synthesis window being a concatenation of cubic spline functions of length 1/4 • N/F.

[0110] Um decodificador de áudio de acordo com quaisquer aplicações anteriores, caracterizado por E = 2.[0110] An audio decoder according to any prior applications, characterized by E = 2.

[0111] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pela transformada inversa ser uma MDCT inversa.[0111] An audio decoder according to any of the above applications, characterized by the inverse transform being an inverse MDCT.

[0112] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado por mais de 80% de uma massa da janela de síntese unimodal ser compreendida dentro do intervalo temporal subsequente a parte zero e tendo comprimento 7/4 • N/F.[0112] An audio decoder according to any of the above applications, characterized in that more than 80% of a mass of the unimodal synthesis window is comprised within the temporal interval subsequent to part zero and having length 7/4 • N/F.

[0113] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pelo decodificador de áudio ser configurado para realizar a interpolação ou para derivar a janela de síntese unimodal de um armazenamento.[0113] An audio decoder according to any of the above applications, characterized in that the audio decoder is configured to perform interpolation or to derive the unimodal synthesis window from a store.

[0114] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado pelo decodificador de áudio ser configurado para suportar diferentes valores para F.[0114] An audio decoder according to any of the above applications, characterized in that the audio decoder is configured to support different values for F.

[0115] Um decodificador de áudio de acordo com quaisquer das aplicações anteriores, caracterizado por F estar entre 1,5 e 10, ambos inclusivamente.[0115] An audio decoder according to any of the above applications, characterized in that F is between 1.5 and 10, both inclusive.

[0116] Um método realizado por um decodificador de áudio, de acordo com quaisquer das aplicações anteriores.[0116] A method performed by an audio decoder, in accordance with any of the above applications.

[0117] Um programa de computador, tendo um código de programa para realizar, ao ser executado em um computador, um método de acordo com uma aplicação.[0117] A computer program, having a program code for carrying out, when executed on a computer, a method according to an application.

[0118] Sempre que o termo “de ...comprimento” for referido, deve ser observado que este termo deve ser interpretado como medindo o comprimento em amostras. Desde que o comprimento da parte zero e os segmentos sejam referidos, deve ser observado que o mesmo pode ser o valor de número inteiro. De modo alternativo, o mesmo pode ser o valor de número não inteiro.[0118] Whenever the term “of...length” is referred to, it should be noted that this term should be interpreted as measuring length in samples. Since the length of the zero part and the segments are referred to, it should be noted that the same can be the integer value. Alternatively, the same may be the non-integer value.

[0119] Quanto ao intervalo temporal dentro do qual o pico está posicionado, observa-se que a Figura 1 mostra este pico, bem como o intervalo temporal ilustrativamente para um exemplo da janela de síntese unimodal de referência com E = 2 e N = 512: O pico tem seu máximo aproximadamente na amostra n° 1408 e o intervalo temporal estende-se da amostra n° 1024 à amostra n° 1920. O intervalo temporal é, assim, 7/8 do núcleo de DCT de comprimento.[0119] Regarding the temporal interval within which the peak is positioned, it is observed that Figure 1 shows this peak, as well as the temporal interval illustratively for an example of the reference unimodal synthesis window with E = 2 and N = 512 : The peak has its maximum at approximately sample #1408 and the temporal interval extends from sample #1024 to sample #1920. The temporal interval is thus 7/8 of the DCT core in length.

[0120] Quanto ao termo “versão de amostragem reduzida”, observa-se que, no relatório descritivo acima, em vez deste termo, “versão em escala reduzida” foi sinonimamente utilizado.[0120] Regarding the term “reduced sampling version”, it is observed that, in the descriptive report above, instead of this term, “reduced scale version” was used synonymously.

[0121] Quanto ao termo “massa de uma função dentro de um determinado intervalo”, observa-se que o mesmo deve denotar o integral definido da respectiva função dentro do respectivo intervalo.[0121] As for the term “mass of a function within a certain interval”, it is observed that it must denote the definite integral of the respective function within the respective interval.

[0122] Em caso de o decodificador de áudio suportar diferentes valores para F, o mesmo pode compreender um armazenamento tendo versões segmentada e adequadamente interpoladas da janela de síntese unimodal de referência ou pode realizar a interpolação segmental para um valor atualmente ativo de F. As diferentes versões segmentalmente interpoladas têm, em comum, que a interpolação não afeta negativamente as descontinuidades nos limites do segmento. Eles podem, conforme descrito acima, estriar as funções.[0122] In case the audio decoder supports different values for F, it may comprise a store having segmented and suitably interpolated versions of the reference unimodal synthesis window or may perform segmental interpolation for a currently active value of F. Different segmentally interpolated versions have in common that interpolation does not negatively affect discontinuities at segment boundaries. They can, as described above, striate functions.

[0123] Por derivação da janela de síntese unimodal por uma interpolação segmental da janela de síntese unimodal de referência, como aquela mostrada na Figura 1 acima, os segmentos 4 • (E + 2) podem ser formados pela aproximação de spline, como por splines cúbicos, e em vez de interpolação, as descontinuidades que devem estar presentes na janela de síntese unimodal em uma inclinação de 1/4 • N/F devido à parte zero sinteticamente introduzida como um meio para reduzir o atraso são conservadas.[0123] By deriving the unimodal synthesis window by a segmental interpolation of the reference unimodal synthesis window, such as that shown in Figure 1 above, segments 4 • (E + 2) can be formed by spline approximation, as by splines cubic, and instead of interpolation, the discontinuities that should be present in the unimodal synthesis window at a slope of 1/4 • N/F due to the zero part synthetically introduced as a means to reduce the delay are conserved.

REFERÊNCIASREFERENCES

[0124] [1] ISO/IEC 14496-3:2009[0124] [1] ISO/IEC 14496-3:2009

[0125] [2] M13958, “Proposal for an Enhanced Low Delay Coding Mode”, Outubro de 2006, Hangzhou, China.[0125] [2] M13958, “Proposal for an Enhanced Low Delay Coding Mode”, October 2006, Hangzhou, China.

Claims (2)

1. Decodificador de áudio (10) configurado para decodificação de um sinal de áudio (22) em uma primeira taxa de amostragem de um fluxo de dados (24) no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, o decodificador de áudio (10) compreendendo: um receptor (12) configurado para receber, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais (28); um dispositivo de captura (14) configurado para capturar, para cada estrutura, uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais (28); um modulador de espectro em tempo (16) configurado para submeter, para cada estrutura (36), a fração de baixa frequência em uma transformada inversa, tendo funções de modulação de comprimento (E+2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estruturas prévias para, assim, obter uma parte temporal de comprimento (E + 2) • N/F; um janelador (18) configurado para janelamento, para cada estrutura (36), da parte temporal utilizando uma janela de síntese de comprimento (E +2) • N/F, compreendendo uma parte zero de comprimento 1/4•N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese, o intervalo temporal sucedendo a parte zero e tendo comprimento 7/4 • N/F, de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e um cancelador de distorção de domínio de tempo (20) configurado para submeter a parte temporal janelada das estruturas em um processo de adição por sobreposição, de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior; caracterizado pela transformada inversa ser uma MDCT inversa ou MDST inversa; e em que a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento (E + 2) • N reduzida por um fator de F por uma interpolação segmental em segmentos de comprimento 1/4 • N, em que o receptor é configurado para realizar o preenchimento de lacuna a fim de sinteticamente preencher as partes quantizadas a zero dentro dos N coeficientes espectrais.1. Audio decoder (10) configured for decoding an audio signal (22) at a first sampling rate of a data stream (24) in which the audio signal is encoded by transform at a second sampling rate, the first sampling rate being 1/th of the second sampling rate, the audio decoder (10) comprising: a receiver (12) configured to receive, per structure of length N of the audio signal, N spectral coefficients (28); a capture device (14) configured to capture, for each structure, a low-frequency fraction of length N/F out of the N spectral coefficients (28); a time spectrum modulator (16) configured to subject, for each structure (36), the low frequency fraction to an inverse transform, having length modulation functions (E+2) • N/F temporally extending over the respective structure and E + 1 previous structures to thus obtain a temporal part of length (E + 2) • N/F; a windower (18) configured to window, for each structure (36), the temporal part using a synthesis window of length (E+2) • N/F, comprising a zero part of length 1/4•N/F in a respective input edge and having a peak within a temporal interval of the synthesis window, the temporal interval succeeding the zero part and having length 7/4 • N/F, so that the windower obtains a windowed temporal portion of the length ( E + 2) • N/F; and a time domain distortion canceller (20) configured to subject the time-windowed portion of the structures to an overlap addition process such that a fraction of the trailing edge of length (E + 1)/(E + 2 ) of the windowed temporal part of a current structure overlap an input edge of length (E + 1)/(E + 2) of the windowed temporal part of a previous structure; characterized by the inverse transform being an inverse MDCT or inverse MDST; and wherein the synthesis window is a reduced version of a reference synthesis window of length (E + 2) • N reduced by a factor of F by a segmental interpolation into segments of length 1/4 • N, wherein the receiver is configured to perform gap filling in order to synthetically fill the zero-quantized parts within the N spectral coefficients. 2. Método para decodificação de um sinal de áudio (22) em uma primeira taxa de amostragem de um fluxo de dados (24) no qual o sinal de áudio é codificado por transformada em uma segunda taxa de amostragem, a primeira taxa de amostragem sendo 1/Fésima da segunda taxa de amostragem, sendo que o método é caracterizado por compreender: recebimento, por estrutura de comprimento N do sinal de áudio, N coeficientes espectrais (28); captura, para cada estrutura, de uma fração de baixa frequência de comprimento N/F fora dos N coeficientes espectrais (28); realização de uma modulação espectral em tempo submetendo, para cada estrutura (36), a fração de baixa frequência a uma transformada inversa, tendo funções de modulação de comprimento (E + 2) • N/F temporalmente estendendo-se sobre a respectiva estrutura e E + 1 estruturas prévias para, assim, obter uma parte temporal do comprimento (E + 2) • N/F; janelamento, para cada estrutura (36), da parte temporal, utilizando uma janela de síntese do comprimento (E +2 ) • N/F, compreendendo uma parte zero do comprimento 1/4•N/F em uma extremidade de entrada respectiva e tendo um pico dentro de um intervalo temporal da janela de síntese, o intervalo temporal subsequente à parte zero, e tendo comprimento 7/4 • N/F, de modo que o janelador obtenha uma parte temporal janelada do comprimento (E + 2) • N/F; e realização de um cancelamento de distorção de domínio de tempo, submetendo a parte temporal janelada das estruturas a um processo de adição por sobreposição, de modo que uma fração da extremidade de fuga de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura atual sobreponha uma extremidade de entrada de comprimento (E + 1)/(E + 2) da parte temporal janelada de uma estrutura anterior; em que a transformada inversa é uma MDCT inversa ou MDST inversa; e em que a janela de síntese é uma versão reduzida de uma janela de síntese de referência de comprimento (E + 2) • N reduzida por um fator de F por uma interpolação segmental em segmentos do comprimento 1/4 • N, em que o método compreende a realização do preenchimento de lacuna a fim de sinteticamente preencher as partes quantizadas a zero dentro dos N coeficientes espectrais.2. Method for decoding an audio signal (22) at a first sampling rate of a data stream (24) in which the audio signal is transform encoded at a second sampling rate, the first sampling rate being 1/10th of the second sampling rate, the method being characterized by comprising: receiving, per structure of length N of the audio signal, N spectral coefficients (28); capturing, for each structure, a low-frequency fraction of length N/F out of the N spectral coefficients (28); carrying out a spectral modulation in time, subjecting, for each structure (36), the low frequency fraction to an inverse transform, having length modulation functions (E + 2) • N/F temporally extending over the respective structure and E + 1 previous structures to thus obtain a temporal part of the length (E + 2) • N/F; windowing, for each structure (36), of the temporal part, using a synthesis window of length (E +2 ) • N/F, comprising a zero part of length 1/4•N/F at a respective input end and having a peak within a time interval of the synthesis window, the time interval subsequent to the zero part, and having length 7/4 • N/F, so that the windower obtains a windowed time part of length (E + 2) • N/F; and performing a time-domain warp cancellation by subjecting the time-windowed portion of the structures to an overlap addition process such that a fraction of the trailing edge of length (E + 1)/(E + 2) of the windowed temporal part of a current structure overlaps an input edge of length (E + 1)/(E + 2) of the windowed temporal part of a previous structure; wherein the inverse transform is an inverse MDCT or inverse MDST; and wherein the synthesis window is a reduced version of a reference synthesis window of length (E + 2) • N reduced by a factor of F by a segmental interpolation into segments of length 1/4 • N, wherein the method comprises performing gap filling in order to synthetically fill the zero-quantized parts within the N spectral coefficients.
BR122020021674-3A 2015-06-16 2016-06-10 REDUCED SCALE DECODING BR122020021674B1 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP15172282.4 2015-06-16
EP15172282 2015-06-16
EP15189398.9 2015-10-12
EP15189398.9A EP3107096A1 (en) 2015-06-16 2015-10-12 Downscaled decoding
PCT/EP2016/063371 WO2016202701A1 (en) 2015-06-16 2016-06-10 Downscaled decoding
BR112017026724-1A BR112017026724B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING

Publications (1)

Publication Number Publication Date
BR122020021674B1 true BR122020021674B1 (en) 2024-02-27

Family

ID=90038903

Family Applications (4)

Application Number Title Priority Date Filing Date
BR122020021725-1A BR122020021725B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING
BR122020021881-9A BR122020021881B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING
BR122020021674-3A BR122020021674B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING
BR122020021749-9A BR122020021749B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING

Family Applications Before (2)

Application Number Title Priority Date Filing Date
BR122020021725-1A BR122020021725B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING
BR122020021881-9A BR122020021881B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR122020021749-9A BR122020021749B1 (en) 2015-06-16 2016-06-10 REDUCED SCALE DECODING

Country Status (1)

Country Link
BR (4) BR122020021725B1 (en)

Also Published As

Publication number Publication date
BR122020021881B1 (en) 2024-03-12
BR122020021749B1 (en) 2024-03-12
BR122020021725B1 (en) 2024-03-12

Similar Documents

Publication Publication Date Title
US20240005931A1 (en) Downscaled decoding
BR122020021674B1 (en) REDUCED SCALE DECODING
BR122020021690B1 (en) REDUCED SCALE DECODING

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 10/06/2016, OBSERVADAS AS CONDICOES LEGAIS