BRPI0914056B1

BRPI0914056B1 - MULTI-RESOLUTION SWITCHED AUDIO CODING / DECODING SCHEME

Info

Publication number: BRPI0914056B1
Application number: BRPI0914056-5A
Authority: BR
Inventors: Jérémie Lecomte; Julien Robilliard; Frederik Nagel; Markus Multrus; Bernhard Grill; Redwan Salami; Stefan Bayer; Philippe Gournay; Max Neuendorf; Guillaume Fuchs; Nikolaus Rettelbach; Ralf Geiger
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.; Voiceage Corporation.
Priority date: 2008-10-08
Filing date: 2009-10-07
Publication date: 2019-07-02
Also published as: EP2345030A2; TWI419148B; CA2739736C; ZA201102537B; MX2011003824A; RU2011117699A; KR20130133917A; JP5555707B2; EP3640941A1; CN102177426A; AU2009301358A1; TWI520128B; CA2739736A1; BRPI0914056A2; WO2010040522A2; JP2012505423A; AU2009301358A8; KR20110081291A; KR20130069833A; TW201344679A

Abstract

esquema de codificação e decodificação comutável de multiresolução um codificador de áudio para codificar um sinal de áudio compreende um primeiro ramo de codificação (400), o primeiro ramo de codificação compreende um primeiro conversor (410) para converter um sinal de um domínio do tempo em um domínio da frequência. além disso, o codificador de áudio compreende um segundo ramo de codificação (500) compreendendo um segundo conversor de frequência/tempo (52 3) além disso, é fornecido um analisador de sinal (300/525) para analisar o sinal de áudio. o analisdor de sinal, por sua vez, determina se uma porção de audio é eficaz no sinal de saída do codificador como um primeiro sinal codificado do primeiro ramo de codificação ou um segundo inal codificado de um segundo ramo de codificação. por outro lado, o analisador de sinal determina uma resolução tempo/frequência a ser aplicada pelos conversores - (410, 523) ao gerar os sinais codificados. uma interface de saída inclui, somando-se ao primeiro sinal codificado e o segundo sinal codificado, uma informação de resolução identificando a resolução usada pelo primeiro conversor de tempo/frequência e usada pelo segundo conversor de tempo/frequência.multiresolution switchable encoding and decoding scheme an audio encoder for encoding an audio signal comprises a first coding branch (400), the first coding branch comprises a first converter (410) for converting a time domain signal into a frequency domain. In addition, the audio encoder comprises a second coding branch (500) comprising a second frequency / time converter (53). In addition, a signal analyzer (300/525) is provided for analyzing the audio signal. The signal analyzer in turn determines whether an audio portion is effective at the encoder output signal as a first coded signal from the first coding branch or a second coded end of a second coding branch. on the other hand, the signal analyzer determines a time / frequency resolution to be applied by converters - (410, 523) when generating the encoded signals. An output interface includes, in addition to the first coded signal and the second coded signal, a resolution information identifying the resolution used by the first time / frequency converter and used by the second time / frequency converter.

Description

ESQUEMA DE CODIFICAÇÃO/DECODIFICAÇÃO DE ÁUDIO COMUTADO MULTI-RESOLUÇÃOMULTI-RESOLUTION SWITCHED AUDIO ENCODING / DECODING SCHEME

Esquemas de codificação de domínio de frequência são vantajosos na medida em que mostra uma alta qualidade a baixa taxa de bits para os sinais de música. Problemática, porém, é a qualidade dos sinais de voz em baixa taxa de bits.Frequency domain encoding schemes are advantageous in that they show high quality at low bit rates for music signals. A problem, however, is the quality of voice signals at a low bit rate.

Esquemas de codificação de voz mostram uma alta qualidade para sinais de fala, mesmo em baixa taxa de bits, mas apresentam má qualidade para outros sinais em baixa taxa de bits.Voice coding schemes show high quality for speech signals, even at low bit rates, but have poor quality for other signals at low bit rates.

É objetivo da presente invenção fornecer um melhor conceito de codificação/decodificação.It is an objective of the present invention to provide a better concept of encoding / decoding.

Este objeto é alcançado por um codificador de áudio de acordo com reivindicação _1,_ um -método- de codificação [de. áudio - de acordo com a reivindicação 9, um decodificador de acordo com a reivindicação 10, um método de decodificação de acordo com a reivindicação - “sinal codificado de acordo com a reivindicação 2 0 ou um programa de computador de acordo com a reivindicação 21.This object is achieved by an audio encoder according to claim _1, _ an encoding method. audio - according to claim 9, a decoder according to claim 10, a decoding method according to claim - “signal encoded according to claim 20 or a computer program according to claim 21.

A invenção atual é baseada na descoberta de que um esquema de codificação/decodificação de comutação híbrido ou dualmode é vantajoso na medida em que o melhor algoritmo de codificação sempre pode ser selecionado para certa característica de sinal. Dito de outra forma, a presente invenção não procura por um algoritmo de codificação de sinal que está perfeitamente adaptada a todas as características do sinal. Tal esquema seria sempre um compromisso, como pode ser visto a partir de grandes diferenças entre, por um lado, os codificadores de áudio da técnica anterior e, por outro, os codificadores de voz. Em vezThe current invention is based on the discovery that a hybrid or dualmode switching encoding / decoding scheme is advantageous in that the best encoding algorithm can always be selected for a certain signal characteristic. In other words, the present invention does not seek a signal encoding algorithm that is perfectly adapted to all the characteristics of the signal. Such a scheme would always be a compromise, as can be seen from the great differences between, on the one hand, the audio encoders of the prior art and, on the other, the voice encoders. Instead

2/114 disso, a presente invenção combina algoritmos de codificação diferentes, tais como um algoritmo de codificação de fala, por um lado, e, em outro, um algoritmo de codificação de áudio dentro de um esquema de comutação de modo que, para cada porção do sinal de áudio, é selecionado o algoritmo de codificação otimamente correspondente. Além disso, é também uma característica da presente invenção que ambos os ramos de codificação compreendem um conversor de tempo/frequência, mas em um ramo de codificação, é provido um outro conversor de domínio como um processador de LPC.In addition, the present invention combines different coding algorithms, such as a speech coding algorithm, on the one hand, and, on the other, an audio coding algorithm within a switching scheme so that, for each portion of the audio signal, the optimally corresponding encoding algorithm is selected. In addition, it is also a feature of the present invention that both branches of coding comprise a time / frequency converter, but in a branch of coding, another domain converter such as an LPC processor is provided.

Este conversor de domínio garante que o segundo ramo de codificação é mais adequado para certo sinal característico do que o primeiro ramo de codificação. No entanto, é também uma característica da presente - invenção que a saída do .sinal -pel-oprocessador de domínio também é transformada em uma representação espectral.This domain converter ensures that the second encoding branch is more suitable for a certain characteristic signal than the first encoding branch. However, it is also a feature of the present invention that the output of the .pel-by-the-domain processor signal is also transformed into a spectral representation.

- - - - Ambos' õs ‘conversores, isto é, o primeiro conversor no primeiro ramo de codificação e o segundo conversor no segundo ramo de codificação são configurados para aplicação de uma codificação de transformação de multi-resolução, onde a resolução do conversor correspondente é dependente de configuração do sinal de áudio e, em particular, dependente do sinal de áudio verdadeiramente codificado no ramo de codificação correspondente de modo que um bom ajuste entre a qualidade, por um lado, e taxa de bits, por outro lado, ou em vista de certa qualidade fixa, a menor taxa de bits, ou em vista de uma taxa de bits fixa, é obtida a mais alta qualidade.- - - - Both 'õs' converters, that is, the first converter in the first coding branch and the second converter in the second coding branch are configured to apply a multi-resolution transformation encoding, where the resolution of the corresponding converter is dependent on the configuration of the audio signal and, in particular, dependent on the audio signal truly encoded in the corresponding encoding branch so that a good fit between quality, on the one hand, and bit rate, on the other hand, or in In view of a certain fixed quality, the lowest bit rate, or in view of a fixed bit rate, the highest quality is obtained.

De acordo com a presente invenção, a resolução de tempo/frequência dos dois conversores pode de preferência serAccording to the present invention, the time / frequency resolution of the two converters can preferably be

3/114 configurada independente um do outro para que cada transformador de tempo/frequência possa ser perfeitamente combinado nos requisitos de resolução de tempo/frequência do sinal correspondente. A eficiência do bit, isto é, a relação entre bits úteis por um lado, e os bits de informação colateral por outro lado, é mais alta para os comprimentos de j anela/tamanhos de blocos mais longos. Portanto, é preferível que ambos os conversores estejam mais inclinados a um comprimento de janela maior, já que, basicamente, a mesma quantidade de informação colateral refere-se a uma porção de tempo mais longa do sinal de áudio em relação à aplicação de tamanhos menores comprimentos de comprimentos de transformação/comprimentos de janela/tamanhos de bloco mais curtos. De preferência, a resolução de tempo/frequência nos ramos de codificação pode também ser influenciada por outras ferramentas de codificação/decodificação localizadas nestes ramos. De -preferência,' '0“ segundo' ramo de codificação compreendendo o conversor de domínio, tal como um processador de LPC compreende outro esquema híbrido tal como um ramo de ACELP por um lado e um esquema de TCX por outro lado, onde o segundo conversor é incluso no esquema de TCX. De preferência, a resolução do conversor de tempo/frequência situado no ramo de TCX é também influenciada pela decisão de codificação, de modo que uma porção do sinal no segundo ramo de codificação é processada no ramo de TCX, tendo o segundo conversor ou não tendo um conversor de tempo/frequência no ramo de3/114 configured independently of each other so that each time / frequency transformer can be perfectly matched to the corresponding signal's time / frequency resolution requirements. The bit efficiency, that is, the ratio between useful bits on the one hand, and the bits of collateral information on the other hand, is highest for the longest window lengths / block sizes. Therefore, it is preferable that both converters are more inclined to a longer window length, since, basically, the same amount of collateral information refers to a longer time portion of the audio signal in relation to the application of smaller sizes transformation lengths / window lengths / shorter block sizes. Preferably, the time / frequency resolution in the coding branches can also be influenced by other coding / decoding tools located in these branches. Preferably, '' 0 'second' coding branch comprising the domain converter, such as an LPC processor comprises another hybrid scheme such as an ACELP branch on the one hand and a TCX scheme on the other hand, where the second converter is included in the TCX scheme. Preferably, the resolution of the time / frequency converter located in the TCX branch is also influenced by the coding decision, so that a portion of the signal in the second coding branch is processed in the TCX branch, the second converter having or not having a time / frequency converter in the

ACELP.ACELP.

Basicamente, nem o conversor de domínio, nem o segundo ramo de codificação e, particularmente, o primeiro ramo de processamento no segundo ramo de codificação e o segundo ramo deBasically, neither the domain converter, nor the second branch of coding, and particularly, the first branch of processing in the second branch of coding and the second branch of

4/114 processamento no segundo ramo de codificação, devem ser elementos relacionados à fala tais como um analisador de LPC para o conversor de domínio, um codificador de TCX para o segundo ramo de processamento e um codificador de ACELP para o primeiro ramo de processamento. Outras aplicações também são úteis quando são avaliadas outras características de sinal de um sinal de áudio diferente da fala, por um lado, e música, por outro. Quaisquer conversores de domínio e implementações de ramo de codificação podem ser usados e o melhor algoritmo de correspondência pode ser encontrado através de um esquema de análise-por-síntese de modo que, no lado do codificador, para cada porção do sinal de áudio, são conduzidas todas as alternativas de codificação e é selecionado o melhor resultado,, .onde- o melhor fesultado. pode ser encontrado ao aplicar uma função alvo para os resultados de codificação. Então, a identificação de informação colateral a um decodificador, o- algoritmo' dè ' codificação subjacente para certa porção do sinal de áudio codificado está anexado ao sinal de áudio codificado por uma interface de saída do codificador, de modo que o decodificador não tem que cuidar de quaisquer decisões sobre o lado do codificador ou sobre quaisquer características de sinal, mas simplesmente seleciona o seu ramo de codificação dependendo da informação colateral transmitida. Além disso, o decodificador não só seleciona o ramo de decodificação correto, mas também selecionará, com base em informação colateral codificada no sinal codificado, qual resolução de tempo/frequência deve ser aplicado em um primeiro ramo de decodificação correspondente e um segundo ramo de decodificação correspondente.4/114 processing in the second branch of coding, must be elements related to speech such as an LPC analyzer for the domain converter, a TCX encoder for the second processing branch and an ACELP encoder for the first processing branch. Other applications are also useful when evaluating other signal characteristics of an audio signal other than speech, on the one hand, and music, on the other. Any domain converters and coding branch implementations can be used and the best matching algorithm can be found through an analysis-by-synthesis scheme so that, on the encoder side, for each portion of the audio signal, they are all coding alternatives are conducted and the best result is selected ,, .where- the best fesult. can be found when applying a target function to the coding results. Then, the identification of collateral information to a decoder, the underlying 'dè' encoding algorithm for a certain portion of the encoded audio signal is attached to the encoded audio signal by an encoder output interface, so that the decoder does not have to take care of any decisions on the encoder side or any signal characteristics, but simply select your encoding branch depending on the collateral information transmitted. In addition, the decoder will not only select the correct decoding branch, but will also select, based on collateral information encoded in the encoded signal, which time / frequency resolution should be applied to a corresponding first decoding branch and a second decoding branch corresponding.

Assim, a presente invenção fornece um esquema deThus, the present invention provides a scheme of

5/114 codificação/decodificação que combina as vantagens de todos os algoritmos de codificação diferentes e evita as desvantagens destes algoritmos de codificação que surgem, quando a porção de sinal teria que ser codificada, por um algoritmo que não se encaixa em um determinado algoritmo de codificação. Além disso, a presente invenção evita quaisquer desvantagens, que surgiriam se os requisitos de resolução de tempo/frequência diferentes levantados por porções de sinal de áudio diferentes em ramos de codificação diferentes não fossem contabilizados. Em vez disso, devido à resolução de tempo/frequência variável de conversores de tempo/frequência em ambos os ramos, nenhum artefato é, pelo menos, reduzido ou mesmo completamente evitado, em que surgiriam no cenário onde a mesma resolução de tempo/frequência seria aplicada paraambos os ramos de codificação, ou em que apenas uma resolução de tempo/frequência fixa seria possível para quaisquer ramos de codificação— - - - - “5/114 encoding / decoding that combines the advantages of all different encoding algorithms and avoids the disadvantages of these encoding algorithms that arise, when the signal portion would have to be encoded, by an algorithm that does not fit in with a given coding. In addition, the present invention avoids any disadvantages that would arise if the different time / frequency resolution requirements raised by different audio signal portions in different coding branches were not accounted for. Instead, due to the variable time / frequency resolution of time / frequency converters in both branches, no artifact is at least reduced or even completely avoided, as they would arise in the scenario where the same time / frequency resolution would be applied to both coding branches, or where only a fixed time / frequency resolution would be possible for any coding branches— - - - - “

A segunda comutação novamente decide entre dois ramos de processamento, mas em um domínio diferente do primeiro domínio de ramo externo. Novamente um ramo interno é motivado principalmente por um modelo de fonte ou por cálculos SNR, e outro ramo interno pode ser motivado por um modelo sink e/ou um modelo psicoacústico, isto é, mascarando ou pelo menos incluindo aspectos de codificação de domínio de frequência/espectro. Exemplarmente, um ramo interno tem um conversor espectral/codificador de domínio da frequência e outro ramo tem um codificador codificando em outro domínio tal como o domínio de LPC, em que este codificador é, por exemplo, um quantizador/escalímetro de CELP ou de ACELP processando uma entrada de sinal sem uma conversãoThe second switching again decides between two processing branches, but in a different domain than the first external branch domain. Again, an internal branch is motivated mainly by a source model or by SNR calculations, and another internal branch can be motivated by a sink model and / or a psychoacoustic model, that is, masking or at least including aspects of frequency domain coding. /spectrum. Exemplarily, an internal branch has a frequency domain spectral converter / encoder and another branch has an encoder encoding in another domain such as the LPC domain, where this encoder is, for example, a CELP or ACELP quantizer / scalimeter. processing a signal input without a conversion

6/114 espectral.Spectral 6/114.

Uma outra configuração mais preferida é um codificador de áudio compreendendo um primeiro ramo de codificação de informação de orientação sink tal como um ramo de codificação de domínio espectral, uma segunda fonte de informação ou ramo de codificação de orientação SNR tal como um ramo de codificação de domínio de LPC, e uma chave para comutação entre o primeiro ramo de codificação e o segundo ramo de codificação, em que o segundo ramo de codificação compreende um conversor para um domínio específico diferente do domínio do tempo como um estágio de análise de LPC gerando um sinal de excitação, e em que o segundo ramo de decodificação, além disso, dispõe de um domínio específico como o ramo de processamento de domínio de LPC e um domínio espectral específico tal como ramo de processamento de domínio espectral de LPC, e uma chave adicional para comutação entre o ramo de codificação-de -domínio'éspecífico e o ramo de codificação de domínio espectral específico.Another more preferred configuration is an audio encoder comprising a first encoding branch of encoding information such as a spectral domain encoding branch, a second information source or SNR orientation encoding branch such as an encoding branch of information. LPC domain, and a key for switching between the first coding branch and the second coding branch, where the second coding branch comprises a converter for a specific domain other than the time domain as an LPC analysis stage generating a excitation signal, and wherein the second decoding branch, furthermore, has a specific domain such as the LPC domain processing branch and a specific spectral domain such as LPC spectral domain processing branch, and an additional key for switching between the specific domain-coding branch and the data coding branch specific spectral domain.

Uma configuração mais avançada da invenção é um decodificador de áudio compreendendo um primeiro domínio, tal como um ramo de decodificação de domínio espectral, um segundo domínio tal como um ramo de decodif icação de domínio de LPC para decodificar um sinal tal como um sinal de excitação no segundo domínio e um terceiro domínio tal como um ramo de decodif icador espectral de LPC para a decodif icação de um sinal como um sinal de excitação em um terceiro domínio tal como um domínio espectral de LPC, em que o terceiro domínio é obtido ao realizar uma conversão de frequência a partir do segundo domínio em que é fornecida a primeira comutação para o segundo sinal de domínio e o terceiroA more advanced configuration of the invention is an audio decoder comprising a first domain, such as a spectral domain decoding branch, a second domain such as an LPC domain decoding branch to decode a signal such as an excitation signal in the second domain and a third domain such as a LPC spectral decoder branch for decoding a signal as an excitation signal in a third domain such as a LPC spectral domain, where the third domain is obtained by performing a frequency conversion from the second domain in which the first switch is provided for the second domain signal and the third

7/114 sinal de domínio, e em que é fornecida uma segunda chave para comutação entre o primeiro decodificador de domínio e do decodificador para o segundo domínio ou terceiro domínio.7/114 domain signal, and in which a second key is provided for switching between the first domain decoder and the decoder for the second domain or third domain.

Incorporações preferenciais da presente invenção são descritos subsequentemente no que diz respeito às figuras anexas, em que:Preferred embodiments of the present invention are described subsequently with respect to the accompanying figures, in which:

A Fig codificação de invenção;Fig encoding the invention;

é um diagrama de blocos de um esquema de acordo com um primeiro aspecto da presenteis a block diagram of a scheme according to a first aspect of this

A Fig. lb é um diagrama de blocos de um esquema de decodificação de acordo com o primeiro aspecto da presente invenção;Fig. Lb is a block diagram of a decoding scheme according to the first aspect of the present invention;

__A Fig._ _lc é um- diagrama de^ blocos de.. um esquema de codificação de acordo com um outro aspecto da presente invenção;Fig. _Lc is a block diagram of a coding scheme according to another aspect of the present invention;

A Fig. 2a é um diagrama de blocos de um esquema de codificação'dê acordo com um segundo aspecto da presente invenção;Fig. 2a is a block diagram of a coding scheme according to a second aspect of the present invention;

A Fig. 2b é um diagrama esquemático de um esquema de decodificação de acordo com o segundo aspecto da presente invenção.Fig. 2b is a schematic diagram of a decoding scheme according to the second aspect of the present invention.

A Fig. 2c é um diagrama de blocos de um esquema de codificação de acordo com um outro aspecto da presente invenção;Fig. 2c is a block diagram of a coding scheme according to another aspect of the present invention;

A Fig. 3a ilustra um diagrama de blocos de um esquema de codificação de acordo com um outro aspecto da presente invenção;Fig. 3a illustrates a block diagram of an encoding scheme according to another aspect of the present invention;

A Fig. 3b ilustra um diagrama de blocos de um esquema de decodificação de acordo com o aspecto mais abrangente da presente invenção;Fig. 3b illustrates a block diagram of a decoding scheme according to the most comprehensive aspect of the present invention;

A Fig. 3c ilustra uma representação esquemática do aparelho/método de codificação com comutações em cascata;Fig. 3c illustrates a schematic representation of the coding apparatus / method with cascade switching;

8/1148/114

A Fig. 3d ilustra um diagrama esquemático de um aparelho ou método para decodificação, em que são utilizados combinadores em cascata;Fig. 3d illustrates a schematic diagram of an apparatus or method for decoding, in which cascaded combiners are used;

A Fig. 3e mostra uma ilustração de um sinal de domínio de tempo e uma representação de sinal codificado ilustrando as regiões de cross fade curtas que estão incluídas em ambos os sinais codificados;Fig. 3e shows an illustration of a time domain signal and an encoded signal representation illustrating the short cross-fade regions that are included in both encoded signals;

A Fig. 4a ilustra um diagrama de blocos com uma chave posicionada antes dos ramos de codificação;Fig. 4a illustrates a block diagram with a key positioned before the coding branches;

A Fig. 4b ilustra um diagrama de blocos de um esquema de codificação com a chave posicionada subsequentemente aos ramos de codificação;Fig. 4b illustrates a block diagram of an encryption scheme with the key positioned subsequently to the encryption branches;

A Fig. 5a ilustra uma forma de onda de um segmento de fala de domínio de tempo como um segmento de sinal quase-periódico ou como um impulso;Fig. 5a illustrates a waveform of a time domain speech segment as a quasi-periodic signal segment or as a pulse;

__ _ A Fig. 5b ilustra—um espectro do- segmento—da figura- 5a; A Fig. 5c ilustra um segmento de fala de domínio de tempo de fala surda como um exemplo de um segmento como ruído;__ _ Fig. 5b illustrates — a segment spectrum — of figure 5a; Fig. 5c illustrates a speech segment of the deaf speech domain as an example of a segment as noise;

A Fig. 5d ilustra um espectro de forma de onda de domínio de tempo da Fig. 5c;Fig. 5d illustrates a time domain waveform spectrum of Fig. 5c;

A Fig. 6 ilustra um diagrama de blocos de um codificador de análise por síntese CELP;Fig. 6 illustrates a block diagram of a CELP synthesis analysis encoder;

A Fig. 7a para ilustrar sinais de excitação sonoras/surdas da 7d como um exemplo para os sinais como impulso;Fig. 7a to illustrate audible / muted excitation signals from 7d as an example for signals such as pulse;

A Fig. 7e ilustra um estágio de LPC de lado de codificador fornecendo informações de previsão de curto prazo e o sinal (excitação) de erro de previsão;Fig. 7e illustrates an encoder side LPC stage providing short-term forecast information and the forecast error (excitation) signal;

A Fig. 7f ilustra uma outra configuração de umFig. 7f illustrates another configuration of a

9/114 dispositivo de LPC para geração de um sinal ponderado;9/114 LPC device for generating a weighted signal;

A Fig. 7g ilustra uma implementação para transformação de um sinal ponderado em um sinal de excitação pela aplicação de uma operação de ponderação inversa e uma análise de excitação subsequente conforme exigido no conversor 537. da Fig. 2b;Fig. 7g illustrates an implementation for transforming a weighted signal into an excitation signal by applying an inverse weighting operation and a subsequent excitation analysis as required in converter 537. of Fig. 2b;

A Fig. 8 ilustra um diagrama de blocos de um algoritmo de multi-canal conjunto de acordo com uma configuração da presente invenção;Fig. 8 illustrates a block diagram of a joint multi-channel algorithm according to a configuration of the present invention;

A Fig. 9 ilustra uma configuração preferencial de um algoritmo de extensão de largura de banda;Fig. 9 illustrates a preferred configuration of a bandwidth extension algorithm;

A Fig. 10a ilustra uma descrição detalhada da comutação ao realizar uma decisão de ciclo aberto; eFig. 10a illustrates a detailed description of the switching when making an open cycle decision; and

A Fig. 10b mostra uma ilustração da comutação quando operando em um modo de decisão de ciclo fechado;Fig. 10b shows an illustration of the switching when operating in a closed loop decision mode;

A Fig.llA ilustra um diagrama de blocos de um codificador de .áudio de acordo -com- outro- aspecto da -presente invenção;Fig. 11A illustrates a block diagram of an audio encoder in accordance with another aspect of the present invention;

A Fig. 11B ilustra um diagrama de blocos de outra configuração de um decodificador de áudio inventivo;Fig. 11B illustrates a block diagram of another configuration of an inventive audio decoder;

A Fig. 12A ilustra outra configuração de um codificador inventivo;Fig. 12A illustrates another configuration of an inventive encoder;

A Fig. 12B ilustra outra configuração de um decodificador inventivo;Fig. 12B illustrates another configuration of an inventive decoder;

A Fig. 13A ilustra a inter-relação entre a resolução e os comprimentos de janela/transformação;Fig. 13A illustrates the interrelationship between resolution and window / transformation lengths;

A Fig. 13B ilustra uma visão geral de um conjunto de janelas de transformação para o primeiro ramo de codificação e uma transição do primeiro para o segundo ramo de codificação;Fig. 13B illustrates an overview of a set of transformation windows for the first coding branch and a transition from the first to the second coding branch;

10/11411/104

A Fig. 13C ilustra uma pluralidade de sequências de janela diferentes, incluindo sequências de janela para o primeiro ramo de codificação e sequências para uma transição para o segundo ramo;Fig. 13C illustrates a plurality of different window sequences, including window sequences for the first coding branch and sequences for a transition to the second branch;

A Fig. 14A ilustra a estrutura de uma configuração preferencial do segundo ramo de codificação;Fig. 14A illustrates the structure of a preferred configuration of the second coding branch;

A Fig. 14B ilustra janelas curtas aplicadas no segundo ramo de codificação;Fig. 14B illustrates short windows applied to the second coding branch;

A Fig. 14C ilustra janelas de tamanho médio aplicadas no segundo ramo de codificação;Fig. 14C illustrates medium-sized windows applied to the second branch of coding;

A Fig. 14D ilustra janelas longas aplicadas pelo segundo ramo de codificação;Fig. 14D illustrates long windows applied by the second coding branch;

A Fig. 14E ilustra uma sequência exemplar de estruturas de ACELP e de TCX dentro de uma super divisão de estruturas;Fig. 14E illustrates an exemplary sequence of ACELP and TCX structures within a super division of structures;

A Fig. 14F ilustra diferentes comprimentos de transformação, correspondentes às resoluções —de “tempo/frequência diferentes para o segundo ramo de codificação; eFig. 14F illustrates different transformation lengths, corresponding to different "time / frequency" resolutions for the second coding branch; and

A Fig. 14G ilustra a construção de uma janela usando as definições de Fig. 14FFig. 14G illustrates the construction of a window using the definitions in Fig. 14F

A Fig. 11A ilustra uma configuração de um codificador de áudio para codificar um sinal de áudio. O codificador compreende um primeiro ramo de codificação 400 para codificação de um sinal de áudio usando um primeiro algoritmo de codificação para obter um primeiro sinal codificado.Fig. 11A illustrates an audio encoder configuration for encoding an audio signal. The encoder comprises a first encoding branch 400 for encoding an audio signal using a first encoding algorithm to obtain a first encoded signal.

O codificador de áudio, além disso, compreende um segundo ramo de codificação 500 para codificação de um sinal de áudio usando um segundo algoritmo de codificação para obtenção de um segundo sinal codificado. O primeiro algoritmo de codificação éThe audio encoder, furthermore, comprises a second encoding branch 500 for encoding an audio signal using a second encoding algorithm for obtaining a second encoded signal. The first coding algorithm is

11/114 diferente do segundo algoritmo de codificação. Além disso, é fornecida uma primeira chave 200 para comutação entre o primeiro ramo de codificação e o segundo ramo de codificação de modo que, por uma porção de sinal de áudio, tanto o primeiro sinal codificado ou o segundo sinal codificado estejam em uma saída de sinal do codificador 801.11/114 different from the second coding algorithm. In addition, a first key 200 is provided for switching between the first encoding branch and the second encoding branch so that, by a portion of the audio signal, either the first encoded signal or the second encoded signal is on an output signal from encoder 801.

O codificador de áudio ilustrado na Fig. 11A adicionalmente compreende um analisador de sinal 300/525, que é configurado para analisar uma porção do sinal de áudio para determinar se a porção do sinal de áudio é representada como o primeiro sinal codificado ou o segundo sinal codificado na saída de sinal do codificador 801.The audio encoder shown in Fig. 11A further comprises a signal analyzer 300/525, which is configured to analyze a portion of the audio signal to determine whether the portion of the audio signal is represented as the first encoded signal or the second signal encoded at the signal output of encoder 801.

O analisador de sinal 300/525, além disso, é configurado para variavelmente determinar uma respectiva resolução de tempo/frequência de um primeiro conversor 410 no primeiro ramo de codificação 400 ou um segundo conversor 523 no segundo^-ramo dê codificação 500. Esta resolução de tempo/f requência é aplicada quando é gerado o primeiro sinal codificado ou o segundo sinal codificado representando a porção do sinal de áudio.The signal analyzer 300/525, moreover, is configured to variably determine a respective resolution time / frequency of a first converter 410 in the first coding branch 400 or a second converter 523 in the second ^- give encoding branch 500. This resolution time / frequency is applied when the first encoded signal or the second encoded signal representing the portion of the audio signal is generated.

O codificador de áudio adicionalmente compreende uma interface de saída 800 para gerar a saída de sinal do codificador 801 compreendendo uma representação codificada da porção do sinal de áudio e uma informação indicando se a representação do sinal de áudio é o primeiro sinal codificado ou o segundo sinal codificado, e indicando a resolução de tempo/frequência usada para decodificar o primeiro sinal codificado e o segundo sinal codificado.The audio encoder additionally comprises an output interface 800 for generating the signal output from encoder 801 comprising an encoded representation of the audio signal portion and information indicating whether the audio signal representation is the first encoded signal or the second signal encoded, and indicating the time / frequency resolution used to decode the first encoded signal and the second encoded signal.

O segundo ramo de codificação é preferencialmenteThe second branch of coding is preferably

12/114 diferente do primeiro ramo de decodificação em que o segundo ramo de codificação adicionalmente compreende um conversor de domínio para converter o sinal de áudio a partir do domínio, no qual o sinal de áudio é processado no primeiro ramo de codificação em um domínio diferente. De preferência, o conversor de domínio é um processador 510 de LPC, mas o conversor de domínio pode ser implementado de qualquer outra forma, contanto que o conversor de domínio seja diferente do primeiro conversor 410 e do segundo conversor 523.12/114 different from the first decoding branch in which the second encoding branch additionally comprises a domain converter for converting the audio signal from the domain, in which the audio signal is processed in the first encoding branch to a different domain . Preferably, the domain converter is an LPC processor 510, but the domain converter can be implemented in any other way, as long as the domain converter is different from the first converter 410 and the second converter 523.

O primeiro conversor 410 é um conversor de tempo/frequência, preferencialmente compreendendo uma janeladorThe first converter 410 is a time / frequency converter, preferably comprising a windscreen

410a e um transformador 410b. O janelador 410a aplica uma janela de análise ao sinal de áudio de entrada, e o transformador 410b executa uma conversão do sinal de janela em uma representação espectral.410a and a transformer 410b. The winder 410a applies an analysis window to the input audio signal, and transformer 410b performs a conversion of the window signal into a spectral representation.

Analogamente, - o -segundo- -conversor ' 523 preferencialmente compreende um janelador 523a e um transformadorSimilarly, - the -second-converter '523 preferably comprises a winder 523a and a transformer

523b conectado subsequentemente. O janelador 523a recebe a saída do sinal pelo conversor de domínio 510 e realiza a saída da representação de janela ali presente. O resultado de uma janela de análise aplicada pelo janelador 523a é disponível como entrada para o transformador 523b para formar uma representação espectral. 0 transformador pode ser um FFT ou, preferencialmente, processador de MDCT implementando um algoritmo correspondente em software ou hardware ou em uma implementação mista de hardware/software.523b connected subsequently. The winder 523a receives the signal output by the domain converter 510 and outputs the window representation present there. The result of an analysis window applied by the winder 523a is available as input to the transformer 523b to form a spectral representation. The transformer can be an FFT or, preferably, MDCT processor implementing a corresponding algorithm in software or hardware or in a mixed hardware / software implementation.

Alternativamente, o transformador pode ser uma implementação de banco de filtro tal como um Banco de filtro QMF que pode ser baseada em uma modulação de valor real ou complexa de um filtroAlternatively, the transformer can be a filter bank implementation such as a QMF filter bank that can be based on a real or complex value modulation of a filter

13/114 protótipo. Para implementações de banco de filtro especificas, uma janela é aplicada. No entanto, para outras implementações de banco de filtro, não é necessário ação de janela como o requisitado para algoritmo de transformação baseado em um FFT de MDCT. Quando uma implementação de banco de filtro é usada, então o banco de filtro é um banco de filtro de resolução variável e a resolução controla a resolução de frequência do banco de filtro e, além disso, a resolução de tempo ou apenas a resolução de frequência, e não a resolução de tempo. Quando, entretanto, o conversor é implementado como um FFT ou MDCT ou qualquer outro transformador correspondente, então a resolução de frequência é de conectada à resolução de tempo em que um aumento da resolução de frequência obtida por um comprimento de bloco jnaior sincronizado automaticamente corresponde a uma resolução de tempo menor e viceversa .13/114 prototype. For specific filter bank implementations, a window is applied. However, for other filter bank implementations, no window action is required as required for a transformation algorithm based on an MDCT FFT. When a filter bank implementation is used, then the filter bank is a variable resolution filter bank and the resolution controls the frequency resolution of the filter bank and, in addition, the time resolution or just the frequency resolution , not time resolution. When, however, the converter is implemented as an FFT or MDCT or any other corresponding transformer, then the frequency resolution is connected to the time resolution in which an increase in the frequency resolution obtained by a higher synchronized block length automatically corresponds to a smaller and more vicious time resolution.

— -- -Além disso, o—primeiro ramo de 'codificação' pode compreender um estágio de quantizador/codificador 421, e o segundo ramo de codificação também pode compreender uma ou mais ferramentas de codificação 524.- - In addition, the — first 'coding' branch may comprise a quantizer / encoder stage 421, and the second coding branch may also comprise one or more 524 encoding tools.

Importante mencionar que o analisador de sinal é configurado para gerar um sinal de controle de resolução para o primeiro conversor 510 e para o segundo conversor 523. Assim, é implementado um controle de resolução independente em ambos os ramos de codificação de forma a ter um esquema de codificação que, por um lado, prevê uma taxa de bits baixa, e por outro lado, garante qualidade máxima em vista à taxa de bits baixa. Para atingir a meta de taxa de bits baixa, tem-se preferência por comprimentos de janela mais longos ou comprimentos deIt is important to mention that the signal analyzer is configured to generate a resolution control signal for the first converter 510 and for the second converter 523. Thus, an independent resolution control is implemented in both branches of coding in order to have a scheme encoding which, on the one hand, provides a low bit rate, and on the other hand, guarantees maximum quality in view of the low bit rate. To achieve the low bit rate target, preference is given to longer window lengths or

14/114 transformação mais longos, mas em situações onde estes comprimentos longos resultarão em um artefato, devido à baixa resolução de tempo, comprimentos de janela mais curtos e comprimentos de transformação mais curtos são aplicados, o que resulta em uma resolução de frequência mais baixa. De preferência, o analisador de sinal aplica uma análise estatística ou qualquer outra análise que é adequada aos algoritmos correspondentes nos ramos de codificação. Em um modo de implementação, em que o primeiro ramo de codificação é um ramo de codificação de domínio da frequência tal como um codificador com base de AAC , e no qual o segundo ramo de codificação compreende, como um conversor de domínio, um processador de LPC 510, o analisador de sinal realiza uma discriminação discurso/música para que a porção da fala do sinal de áudio seja alimentada no segundo ramo de codificação de controle correspondente da comutação 200. Uma porção de música do sinal de áudio é alimentada no primeiro—ramo -de codificação 400 pelo controle correspondente da comutação 200 como indicado pelas linhas de controle da comutação.14/114 longer transformation times, but in situations where these long lengths will result in an artifact, due to low time resolution, shorter window lengths and shorter transformation lengths are applied, which results in a lower frequency resolution . Preferably, the signal analyzer applies a statistical analysis or any other analysis that is suitable for the corresponding algorithms in the coding branches. In an implementation mode, in which the first coding branch is a frequency domain coding branch such as an AAC based encoder, and in which the second coding branch comprises, as a domain converter, a data processor. LPC 510, the signal analyzer performs speech / music discrimination so that the speech portion of the audio signal is fed into the second corresponding control coding branch of switching 200. A portion of the audio signal is fed into the first— branch-coding 400 by the corresponding switching control 200 as indicated by the switching control lines.

Alternativamente, como será discutido mais adiante com relação à Fig. 1C ou Fig. 4B, a comutação também pode ser posicionada antes da interface de saída 800.Alternatively, as will be discussed later with reference to Fig. 1C or Fig. 4B, the switch can also be positioned before the output interface 800.

Além disso, o analisador de sinal pode receber mrc a entrada de sinal de áudio para a comutação 200 ou o saída de sinal de áudio pela comutação 200. Além disso, o analisador de sinal executa uma análise a fim de não alimentar apenas o sinal de áudio para o ramo de codificação correspondente, mas também para determinar a resolução de tempo/frequência do respectivo conversor no ramo de codificação correspondente, tal como o primeiroIn addition, the signal analyzer can receive mrc the audio signal input for switch 200 or the audio signal output for switch 200. In addition, the signal analyzer performs an analysis in order not to feed only the signal audio for the corresponding coding branch, but also to determine the time / frequency resolution of the respective converter in the corresponding coding branch, such as the first

15/114 conversor 410 e o segundo conversor 523 como indicado pelas linhas de resolução controladas conectando o analisador de sinal e o conversor.15/114 converter 410 and the second converter 523 as indicated by the controlled resolution lines connecting the signal analyzer and the converter.

A Fig. 11B compreende uma configuração preferencial de um decodificador de áudio compatível com o codificador de áudio na Fig. 11A.Fig. 11B comprises a preferred configuration of an audio decoder compatible with the audio encoder in Fig. 11A.

O decodif icador de áudio na Fig. 11B está configurado para decodificação de um sinal de áudio codificado, tal como a saída de sinal do codificador 801 que sai pela interface de saída de 800 na Fig. 11A. O sinal codificado compreende um primeiro sinal codificado de áudio codificado de acordo com um primeiro algoritmo de codificação, um segundo sinal codificado, de codificação em conformidade com um segundo algoritmo de codificação, o segundo algoritmo de codificação sendo diferente do primeiro algoritmo de codificação e informação indicando se o primeiro algoritmo- de - codi-f icação ou o -segundo algoritmo de codificação é usado para decodificar o primeiro sinal codificado e o segundo sinal codificado, e uma informação de resolução de tempo/frequência para o primeiro sinal de áudio codificado e o segundo sinal de áudio codificado.The audio decoder in Fig. 11B is configured to decode an encoded audio signal, such as the signal output from encoder 801 that exits through the 800 output interface in Fig. 11A. The encoded signal comprises a first encoded audio signal encoded according to a first encoding algorithm, a second encoded signal, encoding in accordance with a second encoding algorithm, the second encoding algorithm being different from the first encoding and information algorithm indicating whether the first coding algorithm or the second coding algorithm is used to decode the first encoded signal and the second encoded signal, and a time / frequency resolution information for the first encoded audio signal and the second encoded audio signal.

O decodificador de áudio compreende um primeiro ramo de decodif icação 431, 440 para decodificar o primeiro sinal codificado baseado no primeiro algoritmo de codificação. Além disso, o decodificador de áudio compreende um segundo ramo de decodificação para decodificar o segundo sinal codificado usando o segundo algoritmo de codificação.The audio decoder comprises a first decoding branch 431, 440 for decoding the first encoded signal based on the first encoding algorithm. In addition, the audio decoder comprises a second decoding branch for decoding the second encoded signal using the second encoding algorithm.

O primeiro ramo de decodificação compreende um primeiro conversor controlável 440 para a conversão de um domínioThe first decoding branch comprises a first controllable converter 440 for converting a domain

16/114 espectral no domínio do tempo. O conversor controlável está configurado para ser controlado usando a informação de resolução de tempo/frequência a partir do primeiro sinal codificado para obter o primeiro sinal decodificado.16/114 spectral in the time domain. The controllable converter is configured to be controlled using the time / frequency resolution information from the first encoded signal to obtain the first decoded signal.

segundo ramo de decodificação compreende um segundo conversor controlável para conversão de uma representação espectral em uma representação de tempo, o segundo conversor controlável 534 sendo configurado para ser controlado usando a informação de resolução de tempo/frequência 991 para o segundo sinal codificado.The second decoding branch comprises a second controllable converter for converting a spectral representation to a time representation, the second controllable converter 534 being configured to be controlled using the time / frequency resolution information 991 for the second encoded signal.

O decodificador adicionaimente compreende um controlador 990 para controlar o primeiro conversor 540 e o segundo conversor 534, de acordo com a informação de resolução de tempo/frequência 991.The decoder further comprises a controller 990 for controlling the first converter 540 and the second converter 534, according to the time / frequency resolution information 991.

Além disso, o decodificador compreende um conversor-de domínio para a-geração-de um sinal de síntese usando o segundo sinal decodificado a fim de cancelar a conversão de domínio aplicada pelo conversor de domínio 510 no codificador daIn addition, the decoder comprises a domain converter for the generation of a synthesis signal using the second decoded signal in order to cancel the domain conversion applied by the domain converter 510 in the network encoder.

Fig. 11A.Fig. 11A.

De preferência, o conversor de domínio 540 é um processador de síntese de LPC, que é controlado usando informações de filtro de LPC incluídas no sinal codificado, onde essa informação de filtro de LPC foi gerada pelo processador de LPC 510 na Fig. 11A e tem entrada para a saída de sinal do codificador como informação colateral. 0 decodificador de áudio, finalmente, compreende um combinador 600 para combinar a primeira saída do sinal decodificado pelo primeiro conversor de domínio 440 e do sinal de síntese para obter um sinal de áudio decodificado 609.Preferably, the domain converter 540 is an LPC synthesis processor, which is controlled using LPC filter information included in the encoded signal, where that LPC filter information was generated by the LPC processor 510 in Fig. 11A and has input for the encoder signal output as collateral information. The audio decoder finally comprises a combiner 600 for combining the first output of the signal decoded by the first domain converter 440 and the synthesis signal to obtain a decoded audio signal 609.

17/11411/174

Na implementação preferencial, o primeiro ramo de decodificação adicionalmente compreende um estágio de dequantizador/decodificador 431 para reverter ou, pelo menos, parcialmente reverter as operações realizadas pelo estágio do codificador correspondente 421. No entanto, é evidente que a quantização não pode ser revertida, uma vez que esta é uma operação com perdas. Contudo, um dequantizador inverterá certa não-unif ormidade em uma quantização tal como uma quantização logaritmica ou por compander (compressão).In the preferred implementation, the first decoding branch additionally comprises a quantizer / decoder stage 431 to reverse or at least partially reverse the operations performed by the corresponding encoder stage 421. However, it is clear that the quantization cannot be reversed, since this is a lossy operation. However, a quantizer will reverse a certain non-uniformity in a quantization such as a logarithmic or compander (compression) quantization.

No segundo ramo de decodificação, o estágio correspondente 533 é aplicado para desfazer certas operações de codificação aplicadas pelo estágio 524. De preferência, estágio 524 compreende uma quantização uniforme. Portanto, o estágio correspondente 533 não terá um estágio de dequantização específico para desfazer certa quantização uniforme.In the second branch of decoding, the corresponding stage 533 is applied to undo certain coding operations applied by stage 524. Preferably, stage 524 comprises a uniform quantization. Therefore, the corresponding stage 533 will not have a specific quantization stage to undo a certain uniform quantization.

. _ O primeiro —conversor 4 40,- bem como ~o segundo conversor 534, pode incluir um estágio do transformador inverso correspondente 440a, 534a, um estágio de janela de síntese 440b,. _ The first —404 converter, —as well as the second 534 converter, may include a corresponding reverse transformer stage 440a, 534a, a synthesis window stage 440b,

534b, e o estágio de adição/sobreposição subsequentemente conectado 440c, 534c. Os estágios de sobreposição/adição são necessários quando os conversores, e, mais especificamente, os estágios de transformador 440A, 534a aplicam inclinação introduzindo transformações tal como uma transformação de co-seno discreta modificada. Então, a operação de sobreposição/adição realizará um cancelamento de serrilhado de domínio do tempo (TDAC). Quando, entretanto, os transformadores aplicarem uma transformação de introdução não-inclinada tal como uma FFT inversa, então, um estágio de sobreposição/adição 440c não é534b, and the subsequently connected add / overlap stage 440c, 534c. The overlap / addition stages are necessary when converters, and, more specifically, transformer stages 440A, 534a apply slope introducing transformations such as a modified discrete cosine transformation. Then, the overlap / add operation will perform a time domain aliasing (TDAC). When, however, transformers apply a non-skewed input transformation such as a reverse FFT, then an overlap / add stage 440c is not

18/114 solicitado. Em tal implementação, uma operação de cross fading para evitar artefatos de bloqueio pode ser aplicada.11/184 requested. In such an implementation, a cross fading operation to avoid blocking artifacts can be applied.

Analogamente, o combinador 600 pode ser um combinador de comutação ou um combinador de cross fading, ou quando a inclinação é usada para evitar artefatos de bloqueio, uma operação de janela de transição é implementada pelo combinador similar ao estágio de sobreposição/adição dentro do próprio ramo.Similarly, combiner 600 can be a switching combiner or cross fading combiner, or when slope is used to avoid blocking artifacts, a transition window operation is implemented by the combiner similar to the overlap / addition stage within the combiner itself. branch.

A Fig. 1 ilustra uma configuração da invenção tendo duas comutações em cascata. Um sinal mono, um sinal estéreo ou um sinal multi-canal são acionados como entrada para a comutação 200. A comutação 200 é controlada pelo estágio de decisão 300. O estágio de decisão recebe, como entrada, uma entrada de sinal no bloco 200. Alternativamente, o esrtáqio de decisão 300 também pode receber uma informação colateral que está incluída no sinal mono, no sinal estéreo ou no sinal de multicanal- ou— pelo menos associada a— um- sinal —como este? onde“a informação é existente, que foi, por exemplo, gerada quando originariamente produziu o sinal mono, o sinal estéreo ou o sinal multi-canal.Fig. 1 illustrates a configuration of the invention having two cascade switching. A mono signal, a stereo signal or a multi-channel signal are triggered as an input for switch 200. Switch 200 is controlled by decision stage 300. The decision stage receives a signal input in block 200 as an input. Alternatively, the decision table 300 can also receive collateral information that is included in the mono signal, the stereo signal or the multichannel signal- or - at least associated with - a- signal - like this? where “the information exists, which was, for example, generated when it originally produced the mono signal, the stereo signal or the multi-channel signal.

O estágio de decisão 300 aciona a comutação 200, a fim de alimentar um sinal tanto na porção de codificação de frequência 400 ilustrada em um ramo superior da Fig. la quanto na porção de codificação de domínio de LPC 500 ilustrada em um ramo inferior na Fig. la. Um elemento-chave do ramo de codificação de domínio de frequência é o bloco de conversão espectral 410, que é operacional para converter um sinal de saída de estágio de préprocessamento comum (como discutido mais adiante) em um domínio espectral. O bloco de conversão espectral pode incluir umDecision stage 300 triggers switching 200 in order to feed a signal to both the frequency coding portion 400 shown on an upper branch of Fig. 1a and the domain coding portion of LPC 500 shown on a lower branch in Fig. . there. A key element of the frequency domain coding branch is the spectral conversion block 410, which is operational for converting a common preprocessing stage output signal (as discussed later) into a spectral domain. The spectral conversion block can include a

19/114 algoritmo de MDCT, um QMF, um algoritmo de FFT, uma análise19/114 MDCT algorithm, a QMF, an FFT algorithm, an analysis

Wavelet ou um banco de filtro tal como banco de filtro de amostragem crucial tendo certo número de canais de banco de filtro, onde os sinais de sub-banda neste banco de filtro podem ser sinais de valoração reais ou sinais de valoração complexos. A saída do bloco de conversão espectral 410 é codificada usando um codificador de áudio espectral 421, que pode incluir blocos de processamento como conhecidos do esquema de codificação de AAC .Wavelet or a filter bank such as a crucial sampling filter bank having a number of filter bank channels, where the subband signals in this filter bank can be real valuation signals or complex valuation signals. The output of the spectral conversion block 410 is encoded using a spectral audio encoder 421, which can include processing blocks as known from the AAC encoding scheme.

Geralmente, o processamento no ramo 400 é um processamento em um modelo com base na percepção ou modelo sink de informação. Assim, este ramo modela o sistema auditivo humano recebendo o som. Contrário a ele, o processamento no ramo 500 é para gerar um sinal de excitação, residual ou de domínio de LPC._ Geraímente, o processamento no ramo 500 é um processamento em um modelo de fala ou em um modelo de geração de informações. Para sinais de fala,- este modelo é um mccelc do discurso humano/sistemá de geração de som. Se, no entanto, um som de uma fonte diferente que exige um modelo de geração de som diferente tiver que ser codificado, então o processamento no ramo 500 pode ser diferenteGenerally, branch processing is processing in a perception-based model or information sink model. Thus, this branch shapes the human auditory system receiving the sound. Contrary to it, the processing in the branch 500 is to generate an excitation signal, residual or domain of LPC._ Generally, the processing in the branch 500 is a processing in a speech model or in an information generation model. For speech signals, - this model is a mccelc of human speech / sound generation systems. If, however, a sound from a different source that requires a different sound generation model has to be encoded, then processing on branch 500 may be different

No ramo codificação inferior 500, um elementochave é um dispositivo de LPC 510, que realiza uma saída de informação de LPC que é usada para controlar as características de um filtro de LPC. Esta informação de LPC é transmitida a um decodificador. O sinal de saída de estágio de LPC 510 é um sinal de domínio de LPC, que consiste em um sinal de excitação e/ou um sinal ponderado.In the lower coding branch 500, a key element is an LPC device 510, which outputs LPC information which is used to control the characteristics of an LPC filter. This LPC information is transmitted to a decoder. The LPC stage output signal 510 is an LPC domain signal, which consists of an excitation signal and / or a weighted signal.

O dispositivo de LPC geralmente realiza uma saída de sinal de domínio de LPC, que pode ser qualquer sinal no domínioThe LPC device generally outputs an LPC domain signal, which can be any signal in the domain

20/114 de LPC tal como o sinal de excitação na Fig. 7e ou um sinal ponderado na Fig. 7f ou qualquer outro sinal, que foi gerado pela aplicação de coeficientes de filtro de LPC para um sinal de áudio.20/114 of LPC such as the excitation signal in Fig. 7e or a weighted signal in Fig. 7f or any other signal, which was generated by applying LPC filter coefficients to an audio signal.

Além disso, um dispositivo de LPC também pode determinar esses coeficientes e pode também quantizar/codificar esses coeficientes.In addition, an LPC device can also determine these coefficients and can also quantize / encode those coefficients.

A decisão na estágio de decisão pode ser um sinal adaptativo, de modo que o estágio de decisão realiza uma discriminação de música/fala e controla a comutação 200 de tal maneira que os sinais de música são inseridos no ramo superiorThe decision at the decision stage can be an adaptive signal, so that the decision stage performs a music / speech discrimination and controls switching 200 in such a way that the music signals are inserted in the upper branch

400, e os sinais de fala são inseridos no ramo inferior 500. Em uma incorporação, a estágio de decisão alimenta suas informações de decisão em um fluxo de bits de saída, de tal modo que o decodif icador pode usar esta informação de decisão a fim de realizar operações de decodificação corretas.400, and the speech signals are inserted into the lower branch 500. In an embodiment, the decision stage feeds its decision information into an output bit stream, such that the decoder can use this decision information in order to to perform correct decoding operations.

Tal decodificador é ilustrado na figura lb. A saída de sinal pelo codificador—de áudio—espectral- 421—é, após a transmissão, inserido em um decodificador de áudio espectral 431.Such a decoder is illustrated in figure 1b. The signal output by the encoder — audio — spectral- 421 — is, after transmission, inserted into a 431 spectral audio decoder.

A saída do decodificador de áudio espectral 431 é inserido em um conversor de domínio de tempo 440. Analogamente, a saída do ramo de codificação de domínio de LPC 500 da Fig. Ia é recebida no lado do decodif icador e processadas por elementos 531, 533, 534, e 532 para a obtenção de um sinal de excitação de LPC. O sinal de excitação de LPC é inserido em um estágio de síntese de LPC 540, que recebe, como uma inserção adicional, a informação de LPC gerada pelo estágio de análise correspondente de LPC 510. A saída do conversor de domínio de tempo 440 e/ou saída do estágio de síntese de LPC 540 são inseridos em uma comutação 600. A comutaçãoThe output of the spectral audio decoder 431 is inserted into a 440 time domain converter. Similarly, the output from the LPC 500 domain coding branch of Fig. 1a is received at the decoder side and processed by elements 531, 533 , 534, and 532 for obtaining an LPC excitation signal. The LPC excitation signal is inserted into a synthesis stage of LPC 540, which receives, as an additional insert, the LPC information generated by the corresponding analysis stage of LPC 510. The output of the 440 and / / time domain converter or output from the LPC 540 synthesis stage are inserted in a 600 switching.

600 é controlada via um sinal de controle de comutação que foi,600 is controlled via a switching control signal that was,

21/114 por exemplo, gerado pelo estágio de decisão 300, ou que foi provido externamente, tal como por um criador do sinal mono original, sinal estéreo ou sinal multi-canal. A saída da comutação21/114 for example, generated by decision stage 300, or that was provided externally, such as by a creator of the original mono signal, stereo signal or multi-channel signal. The switching output

600 é um sinal mono completo, um sinal estéreo ou sinal multicanal.600 is a full mono, stereo or multichannel signal.

O sinal de entrada para a comutação 200 e estágio da decisão 300 pode ser um sinal mono, um sinal estéreo, um sinal multi-canal ou geralmente um sinal de áudio. Dependendo da decisão que pode ser derivada a partir do sinal de entrada 200 de comutação ou a partir de qualquer fonte externa tal como um produtor de sinal de áudio original subjacente a entrada de sinal para estágio 200, a comutação comuta entre o ramo de codificação de frequência 400 e o ramo de codificação de LPC 500. O ramo de codificação de frequências de 400 compreende um estágio de conversão espectral 410 e um subsequente estágio de quantização/codificação_ conectado- -421 .· —O — estágio -de quantização/codificação pode incluir quaisquer das funcionalidades como conhecidas a partir de codificadores de domínio da frequência modernos, tal como o codificador de AAC. Além disso, a operação de quantização no estágio de quantização/codif icação 421 pode ser controlada via módulo psicoacústico que gera informação psicoacústica tal como um limite de mascaramento psicoacústico sobre a frequência, quando essa informação é inserida para o estágio de 421.The input signal for switching 200 and decision stage 300 can be a mono signal, a stereo signal, a multi-channel signal or generally an audio signal. Depending on the decision that can be derived from the switching input signal 200 or from any external source such as an original audio signal producer underlying the signal input to stage 200, the switching switches between the frequency 400 and the LPC 500 coding branch. The 400 frequency coding branch comprises a spectral conversion stage 410 and a subsequent connected--421 quantization / coding stage. · —The - quantization / coding stage can include any of the features as known from modern frequency domain encoders, such as the AAC encoder. In addition, the quantization operation in the quantization / coding stage 421 can be controlled via a psychoacoustic module that generates psychoacoustic information such as a psychoacoustic masking limit on the frequency, when that information is entered for the 421 stage.

No ramo de codificação de LPC, o sinal de saída de comutação é processado via um estágio de análise de LPC 510 gerando informação colateral de LPC e um sinal de domínio de LPC.In the LPC coding industry, the switching output signal is processed via an LPC analysis stage 510 generating LPC collateral information and an LPC domain signal.

O codificador de excitação compreende inventivamente uma comutaçãoThe excitation encoder inventively comprises a switching

22/114 adicional para comutação de processamento adicional do sinal de domínio de LPC entre uma operação de quantização/codificação 522 no domínio de LPC ou um estágio de quantização/codificação 524, que são os valores de processamento no domínio espectral de LPC. Para este fim, um conversor espectral 523 é provido na entrada da estágio de quantização/codificação 524. A comutação 521 é controlada em forma de ciclo aberto ou uma forma de ciclo fechado, dependendo das configurações específicas como, por exemplo, descrito na especificação técnica AMR-WB+.Additional 22/114 for switching further processing of the LPC domain signal between a quantization / encoding operation 522 in the LPC domain or a quantization / encoding stage 524, which are the processing values in the spectral domain of LPC. For this purpose, a spectral converter 523 is provided at the input of the quantization / coding stage 524. Switching 521 is controlled in the form of an open cycle or a closed cycle form, depending on the specific configurations as, for example, described in the technical specification AMR-WB +.

Para o modo de controle de ciclo fechado, o codificador inclui adicionalmente um quantizador/codificador inverso 531 para o sinal de domínio de LPC, um quantizador/ codificador inverso 533 para o sinal de domínio espectral de LPC e um conversor espectral inverso 534 para a saída do item 533. Ambos os sinais codificados e decodificados novamente nos ramos de processamento- do-segundo ramo de decodif icação -são-inseridos-para o dispositivo de controle de comutação 525. No dispositivo de controle de comutação 525, estes dois sinais de saída são comparados entre si e/ou para uma função alvo ou uma função alvo é calculada, que pode ser baseada em uma comparação da distorção em ambos os sinais de forma que o sinal com a menor distorção é usada para decidir qual a posição que a comutação 521 deve tomar. Alternativamente, caso ambos os ramos forneçam taxas de bits não constantes, o ramo fornecendo a menor taxa de bits pode ser selecionado, mesmo quando a proporção sinal/ruído deste ramo é menor do que a proporção sinal/ruído de outro ramo. Alternativamente, a função alvo poderia usar, como uma entrada, a proporção sinal/ruído de cada sinal e uma taxa de bits de cadaFor closed loop control mode, the encoder additionally includes a reverse quantizer / encoder 531 for the LPC domain signal, a reverse quantizer / encoder 533 for the LPC spectral domain signal and a reverse spectral converter 534 for the output of item 533. Both signals encoded and decoded again in the processing branches- of the second decoding branch -are-inserted- for switching control device 525. In switching control device 525, these two output signals are compared to each other and / or to a target function or a target function is calculated, which can be based on a comparison of the distortion on both signals so that the signal with the least distortion is used to decide which position to switch over 521 must take. Alternatively, if both branches provide non-constant bit rates, the branch providing the lowest bit rate can be selected, even when the signal / noise ratio of this branch is less than the signal / noise ratio of another branch. Alternatively, the target function could use, as an input, the signal-to-noise ratio of each signal and a bit rate of each

23/114 sinal e/ou critérios adicionais a fim de encontrar a melhor decisão para um objetivo específico. Se, por exemplo, a meta é que a taxa de bits deve ser a mais baixa possível, então a função alvo fortemente se apoiará na taxa de bits das duas saídas de sinal pelos elementos 531 e 534. No entanto, quando o objetivo principal é ter a melhor qualidade para certa taxa de bits, então o controle de comutação 525 pode, por exemplo, descartar cada sinal de que está acima da taxa de bits permitida e quando ambos os sinais estão abaixo da taxa de bits permitida, o controle de comutação selecionaria o sinal tendo a melhor proporção sinal/ruído, isto é, com as menores distorções de quantização/codificação.23/114 additional signal and / or criteria in order to find the best decision for a specific objective. If, for example, the goal is that the bit rate should be as low as possible, then the target function will rely heavily on the bit rate of the two signal outputs by elements 531 and 534. However, when the main objective is have the best quality for a certain bit rate, then switching control 525 can, for example, discard each signal that is above the allowable bit rate and when both signals are below the allowable bit rate, switching control would select the signal having the best signal / noise ratio, that is, with the least quantization / encoding distortions.

O esquema de decodificação de acordo com a presente invenção é, como dito antes, ilustrado na Fig. lb. Para cada um dos três tipos de sinal de saída possíveis, existe um estágio de decodificação/re-quantização específica 431, 531 ou 533 . Enquanto, estágio 431 realiza-a saída de um espectro de' tempo“quê é convertido para o domínio do tempo utilizando o conversor de frequência/tempo 440, o estágio 531 realiza uma saída de sinal de domínio de LPC, e o item 533 realiza uma saída de um espectro LPC.The decoding scheme according to the present invention is, as said before, illustrated in Fig. Lb. For each of the three possible output signal types, there is a specific decode / re-quantize stage 431, 531 or 533. While stage 431 outputs a 'time' spectrum which is converted to the time domain using the frequency / time converter 440, stage 531 outputs an LPC domain signal, and item 533 performs an output from an LPC spectrum.

A fim de se certificar de que os sinais de entrada para comutaçãoIn order to make sure that the input signals for switching

532 estão ambos no domínio de LPC, é provido o LPC-spectrum/LPCconverter 534. Os dados de saída da comutação 532 são transformados novamente para o domínio do tempo usando um estágio de síntese LPC 540, que é controlado via informação gerada e transmitida do lado do codificador LPC. Então, subsequente ao bloco 540, ambos os ramos têm informação de domínio de tempo que está comutada de acordo com um sinal de controle de comutação, a fim de finalmente obter um sinal de áudio, tal como um sinal mono,532 are both in the LPC domain, the LPC-spectrum / LPCconverter 534 is provided. The switching output data 532 is transformed back into the time domain using an LPC 540 synthesis stage, which is controlled via information generated and transmitted from the side of the LPC encoder. Then, subsequent to block 540, both branches have time domain information that is switched according to a switching control signal, in order to finally obtain an audio signal, such as a mono signal,

24/114 um sinal estéreo ou um sinal multi-canal, que depende da entrada de sinal para o esquema de codificação da Fig. Ia.24/114 a stereo signal or a multi-channel signal, which depends on the signal input for the coding scheme of Fig. 1a.

Fig. 1c ilustra uma outra configuração com um arranjo diferente da comutação 521 semelhante ao princípio da Fig.Fig. 1c illustrates another configuration with a different arrangement of switch 521 similar to the principle of Fig.

4b.4b.

Fig. 2a ilustra um esquema de codificação preferencial de acordo com um segundo aspecto da invenção. Um esquema de pré-processamento comum conectado à entrada de comutação 200 pode compreender um bloco de surround/joint stereoFig. 2a illustrates a preferred coding scheme according to a second aspect of the invention. A common pre-processing scheme connected to switching input 200 may comprise a stereo surround / joint block

101 que gera, como saída, os parâmetros de joint stereo e um saída de sinal mono, que é gerada pelo downmix do sinal de entrada que é um sinal que tem dois ou mais canais. Geralmente, o sinal na saída do bloco 101 também pode ser um sinal tendo mais canais, mas devido à funcionalidade de downmix do bloco 101, o número de canais na saída do bloco 101 será menor do que o número de canais de entrada no bloco 101. - - - - - - - ~ ~ ~ — O esquema comum de pré-processamento pode compreender alternativamente o bloco 101 ou além do bloco 101 um estágio de extensão de largura de banda 102. Na configuração da Fig. 2a, a saída do bloco 101 é inserida no bloco de extensão da largura de banda 102, que, no codificador da figura 2a, realiza uma saida de sinal de banda limitada, tal como o sinal de banda baixa ou o sinal passagem baixa em sua saída. De preferência, este sinal é decimado (por exemplo, por um fator de dois) também. Além disso, para a banda alta da entrada de sinal no bloco 102, parâmetros de extensão de largura de banda tais como parâmetros de envelope espectral, parâmetros de filtragem inversa, parâmetros de noise floor, etc, conhecidos do perfil HE-AAC de MPEG-4 são101 that generates, as an output, the joint stereo parameters and a mono signal output, which is generated by the downmix of the input signal, which is a signal that has two or more channels. Generally, the signal at the output of block 101 can also be a signal having more channels, but due to the downmix functionality of block 101, the number of channels at the output of block 101 will be less than the number of input channels at block 101 - - - - - - - ~ ~ ~ - The common pre-processing scheme may alternatively comprise block 101 or in addition to block 101 a bandwidth extension stage 102. In the configuration of Fig. 2a, the output of the block 101 is inserted into the bandwidth extension block 102, which, in the encoder of figure 2a, outputs a limited band signal, such as the low band signal or the low pass signal at its output. Preferably, this sign is decimated (for example, by a factor of two) as well. In addition, for the high band of the signal input in block 102, bandwidth extension parameters such as spectral envelope parameters, reverse filtering parameters, noise floor parameters, etc., known from the MPEG- HE-AAC profile 4 are

25/114 gerados e encaminhados para um multiplexador de fluxo de bits 800.25/114 generated and forwarded to a 800 bit stream multiplexer.

De preferência, o estágio de decisão 300 recebe o entrada de sinal para um bloco 101 ou entrada para o bloco 102 a fim de decidir entre, por exemplo, um modo de música ou um modo de fala. No modo de música, é selecionado o ramo de codificação superior 400, enquanto que, no modo de fala, é selecionado o ramo de codificação inferior 500. De preferência, a estágio de decisão adicionalmente controla o bloco de joint stereo 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade destes blocos ao sinal específico. Assim, quando o estágio de decisão determina que certa porção de tempo do sinal de entrada é o primeiro modo tal como o modo de música, então as características específicas do bloco 101 e/ou bloco _102_ podem ser controladas pelo estágio de decisão 300. Alternativamente, quando a estágio de decisão 300 determina que o sinal está em um modo de fala_cu, em geral,- num segundo modo- de domínio de LPC; então as características específicas dos blocos 101 e 102 podem ser controladas de acordo com a saída do estágio de decisão.Preferably, decision stage 300 receives signal input for block 101 or input for block 102 in order to decide between, for example, a music mode or a speech mode. In music mode, the upper coding branch 400 is selected, while in speech mode, the lower coding branch 500 is selected. Preferably, the decision stage additionally controls the joint stereo block 101 and / or the bandwidth extension block 102 to adapt the functionality of these blocks to the specific signal. Thus, when the decision stage determines that a certain portion of the input signal is the first mode such as the music mode, then the specific characteristics of block 101 and / or block _102_ can be controlled by decision stage 300. Alternatively , when the decision stage 300 determines that the signal is in a mode of speech_cu, in general, - in a second mode- of LPC domain; then the specific characteristics of blocks 101 and 102 can be controlled according to the output of the decision stage.

De preferência, a conversão espectral do ramo de codificação 400 é feita usando uma operação de MDCT, que, ainda mais preferencialmente, é a operação de MDCT de tempo desfigurado, onde a força ou, geralmente, a força de deformação pode ser controlada entre zero e uma alta força de deformação. Em uma força de deformação zero, a operação de MDCT no bloco 411 é uma operação de MDCT direta conhecida na técnica. A força de tempo desfigurado com a informação colateral de tempo desfigurado podem ser transmitidas/inseridas no multiplexador de fluxo de bits 800 como informações colaterais.Preferably, the spectral conversion of the coding branch 400 is done using an MDCT operation, which, even more preferably, is the disfigured time MDCT operation, where the force or, generally, the deformation force can be controlled between zero and a high deformation force. At a zero strain force, the MDCT operation in block 411 is a direct MDCT operation known in the art. The disfigured time force with the disfigured time collateral information can be transmitted / inserted into the bitstream multiplexer 800 as collateral information.

26/11411/26

No ramo de codificação LPC, o codificador de domínio de LPC pode incluir um núcleo de ACELP 52 6 calculando de um ganho de altura, com defasagem de altura e/ou informação de codebook tal como um índice e ganho de codebook. O modo TCX como é conhecido de 3GPP TS 26.290 incorre em um processamento de um sinal perceptualmente ponderado no domínio de transformação. O sinal ponderado de transformação de Fourier é quantizado usando uma quantização de rede multi-taxa dividida (VQ algébrica) com quantização de fator de ruído. É calculada uma transformação nas janelas de amostra 1024, 512, ou 256. O sinal de excitação é recuperado pela filtragem inversa do sinal ponderado quantizado através de um filtro de ponderação inversa.In the LPC coding industry, the LPC domain encoder can include a core of ACELP 52 6 calculating from a height gain, with height lag and / or codebook information such as an index and codebook gain. The TCX mode as it is known from 3GPP TS 26.290 incurs a perceptually weighted signal processing in the transformation domain. The weighted Fourier transformation signal is quantized using a divided multi-rate network quantization (algebraic VQ) with noise factor quantization. A transformation is calculated in the sample windows 1024, 512, or 256. The excitation signal is recovered by reverse filtering the quantized weighted signal through an inverse weighting filter.

No primeiro ramo de codificação 400, um conversor espectral preferencialmente compreende uma operação de adaptação específica MDCT tendo certas funções de janela seguidas pelo estágio de codificação de quantização/entropia, que pode^-consi'sti‘r de um único estágio de quantização de vetor, mas preferencialmente é um codificador de quantizador/entropia de escalar combinado similar ao quantizador/codificador no ramo de codificação de domínio de frequência, isto é, no item 421 da Fig. 2a.In the first branch of coding 400, a spectral converter preferably comprises a specific adaptation operation MDCT having certain window functions followed by the quantization / entropy coding stage, which can ^- consist of a single vector quantization stage, but preferably it is a combined scalar quantizer / entropy encoder similar to the quantizer / encoder in the frequency domain coding branch, that is, in item 421 of Fig. 2a.

No segundo ramo de codificação, há o bloco LPC 510 seguido por uma comutação 521, novamente seguido por um bloco de ACELP 526 ou um bloco de TCX 527. ACELP é descrito em 3GPP TSIn the second branch of coding, there is the LPC block 510 followed by a switch 521, again followed by an ACELP 526 block or a TCX 527 block. ACELP is described in 3GPP TS

26.190 e TCX é descrito em 3GPP TS 26.290. Geralmente, o bloco de26.190 and TCX is described in 3GPP TS 26.290. Generally, the block of

ACELP 526 recebe um sinal de excitação LPC, calculado por um procedimento descrito na Fig. 7e. O bloco de TCX 527 recebe um sinal ponderado como gerado pela Fig. 7f.ACELP 526 receives an LPC excitation signal, calculated by a procedure described in Fig. 7e. The TCX block 527 receives a weighted signal as generated by Fig. 7f.

Em TCX a transformação é aplicada ao sinalIn TCX the transformation is applied to the signal

27/114 ponderado computado pela filtragem de sinal de entrada através de um filtro ponderado baseado em LPC. As configurações preferenciais utilizadas de filtro ponderado da invenção são dadas por (1 — A(z//))/(1 — μζ~^χ) . Assim, o sinal ponderado é um sinal de domínio de LPC, e a sua transformação é um domínio espectral LPC. O sinal processado pelo bloco de ACELP 526 é o sinal de excitação e é diferente do sinal processado pelo bloco 527, mas ambos os sinais estão no domínio de LPC.27/114 weighted computed by filtering the input signal through a weighted filter based on LPC. The preferred configurations used for the weighted filter of the invention are given by (1 - A (z //)) / (1 - μζ ~ ^χ ). Thus, the weighted signal is an LPC domain signal, and its transformation is an LPC spectral domain. The signal processed by the ACELP block 526 is the excitation signal and is different from the signal processed by the block 527, but both signals are in the LPC domain.

Ao lado do decodif icador na Fig. 2b, após a transformação espectral inversa no bloco 537, o inverso do filtro ponderado é aplicado, isto é, (1 — /zz^_1)/(l — A(zIγ^) . . Então, o sinal é filtrado através de (l-A(z)) para ir ao domínio da excitação LPC.Next to the decoder in Fig. 2b, after the inverse spectral transformation in block 537, the inverse of the weighted filter is applied, that is, (1 - / zz ^_1 ) / (l - A (zIγ ^). the signal is filtered through (lA (z)) to go to the LPC excitation domain.

Assim, a conversão para bloco de domínio _de LPC. 534 · e -bl-oco de LPC^-1 537 incluem uma transformação inversa e então filtragem (1-/ZZ^-1) (1 — A(z)). para converter-do domínio ponderado através de (1- A(z/ y)) para o domínio de excitação.Thus, the conversion to LPC _domain block. 534 · and -bl-hollow of LPC ^-1 537 include an inverse transformation and then filtering (1- / ZZ ^-1 ) (1 - A (z)). to convert from the weighted domain using (1- A (z / y)) to the excitation domain.

Apesar do item 510 nas Figs. Ia, lc, 2a, 2c ilustrar um único bloco, o bloco 510 pode realizar saída de sinais diferentes, desde que esses sinais estejam no domínio de LPC. O modo atual do bloco 510, tal como o modo de sinal de excitação ou o modo de sinal ponderado, pode depender do estado de comutação real. Alternativamente, o bloco 510 pode ter dois dispositivos de processamento paralelos, onde é implementado um dispositivo semelhante à Fig. 7e e é implementado o outro dispositivo como na Fig. 7f. Assim, o domínio de LPC na saída de 510 pode representar tanto um sinal de excitação LPC quanto o sinal ponderado LPC ou qualquer outro sinal de domínio de LPC.Despite item 510 in Figs. 1a, lc, 2a, 2c illustrate a single block, block 510 can output different signals, as long as those signals are in the LPC domain. The actual mode of block 510, such as the excitation signal mode or the weighted signal mode, may depend on the actual switching state. Alternatively, block 510 may have two parallel processing devices, where a device similar to Fig. 7e is implemented and the other device is implemented as in Fig. 7f. Thus, the LPC domain at output 510 can represent either an LPC excitation signal or the LPC weighted signal or any other LPC domain signal.

28/11411/28

No segundo ramo de codificação (ACELP/TCX) das figuras 2a ou 2c, o sinal é preferencialmente pré-enfatizado através de um filtro 1 — 0.68z^_1 antes da codificação. No decodif icador de ACELP/TCX na Fig. 2b, o sinal sintetizado é desenfatizado com o filtro 1/(1 —0.68z^_1) A pré-ênfase pode ser parte do bloco LPC 510 onde o sinal é pré-enfatizado antes da análise deIn the second branch of encoding (ACELP / TCX) of figures 2a or 2c, the signal is preferably pre-emphasized through a filter 1 - 0.68z ^_1 before encoding. In the ACELP / TCX decoder in Fig. 2b, the synthesized signal is de-emphasized with the filter 1 / (1 —0.68z ^_1 ) The pre-emphasis can be part of the LPC 510 block where the signal is pre-emphasized before analysis in

LPC e quantificação. Da mesma forma, a desênfase pode ser parte do bloco LPC de síntese LPC^-1 540.LPC and quantification. Likewise, the de-emphasis may be part of the LPC ^-1 540 synthesis LPC block.

Fig. 2c ilustra uma outra configuração para a implementação da Fig. 2a, mas com um arranjo diferente da comutação 521 similar ao princípio da Fig. 4b.Fig. 2c illustrates another configuration for the implementation of Fig. 2a, but with a different arrangement of switch 521 similar to the principle of Fig. 4b.

Em uma configuração preferencial, a primeira comutação 200 (v-ide- Fig. Ia -ou 2a) é controlada através de uma decisão de ciclo aberto (como na Fig. 4a) e a segunda comutação é controlada através de uma decisão de ciclo fechado (como na figura 4b f.In a preferred configuration, the first switching 200 (v-ide- Fig. Ia -or 2a) is controlled via an open loop decision (as in Fig. 4a) and the second switching is controlled via a closed loop decision (as in figure 4b f.

Por exemplo, na Fig. 2c, há a segunda comutação colocada após os ramos de ACELP e TCX como na Fig. 4b. Então, no primeiro ramo de processamento, o primeiro domínio de LPC representa a excitação de LPC e no segundo ramo de processamento, o segundo domínio de LPC representa o sinal ponderado LPC. Isto é, o primeiro sinal de domínio de LPC é obtido por filtragem através de (l-A(z)) para converter o domínio residual LPC, enquanto o segundo sinal de domínio de LPC é obtido através da filtragem através do filtro (1 — ^4(^//))/(1 —/zz~') para converter o domínio ponderado LPC.For example, in Fig. 2c, there is the second switch placed after the ACELP and TCX branches as in Fig. 4b. Then, in the first processing branch, the first LPC domain represents the LPC excitation and in the second processing branch, the second LPC domain represents the weighted signal LPC. That is, the first LPC domain signal is obtained by filtering through (lA (z)) to convert the residual LPC domain, while the second LPC domain signal is obtained by filtering through the filter (1 - ^ 4 (^ //)) / (1 - / zz ~ ') to convert the weighted domain to LPC.

A Fig. 2b ilustra um esquema de decodificaçãoFig. 2b illustrates a decoding scheme

29/114 correspondente ao esquema de codificação da Fig. 2a. O fluxo de bits gerado pelo multiplexador de fluxo de bits 800 da Fig. 2a é inserido em um demultiplexador de fluxo de bits 900. Em função de informação obtida, por exemplo, a partir do fluxo de bits via bloco de detecção de modo 601, uma comutação de lado de decodificador 600 é controlado para transmitir sinais do ramo superior ou sinais do ramo inferior ao bloco de extensão de largura de banda 701. O bloco de extensão de largura de banda 701 recebe, a partir do demultiplexador de fluxo de bits 900, informação colateral e, com base nessa informação colateral e saída de decisão de modo 601, reconstrói a banda alta com base na saída de banda baixa pela comutação 600.29/114 corresponding to the coding scheme of Fig. 2a. The bit stream generated by the bit stream multiplexer 800 of Fig. 2a is inserted into a bit stream demultiplexer 900. Depending on the information obtained, for example, from the bit stream via the 601 mode detection block, a decoder side switch 600 is controlled to transmit signals from the upper branch or signals from the lower branch to the bandwidth extension block 701. The bandwidth extension block 701 receives, from bit stream demultiplexer 900, , collateral information and, based on this collateral information and 601 mode decision output, reconstructs the high band based on the low band output by switching 600.

O sinal de banda total gerado pelo bloco 701 é a entrada para o estágio de processamento de joint stereo/surroundThe full band signal generated by block 701 is the input to the joint stereo / surround processing stage

702, que reconstrói dois canais estéreo ou vários multi-canais.702, which reconstructs two stereo channels or multiple multi-channels.

Geralmente, o -bloco- 702 realizará· a-saída’ de mais canais _do_ qüe foram inseridos neste bloco. Dependendo da aplicação, a entrada no bloco 702 pode até incluir dois canais, tais como em um modo estéreo e pode até mesmo incluir mais canais, contanto que a saída por este bloco tenha mais canais do que a entrada para este bloco.Generally, the -block- 702 will carry out more channels _do_ which have been inserted in this block. Depending on the application, the input to block 702 may even include two channels, such as in a stereo mode, and may even include more channels, as long as the output on this block has more channels than the input for this block.

A comutação 200 foi mostrada para comutar entre ambos os ramos de modo que apenas um ramo recebe um sinal para processar e o outro ramo não recebe um sinal para processar. Em uma configuração alternativa, no entanto, a comutação pode também estar arranjada subsequentemente, por exemplo, ao codificador de áudio 421 e o codificador de excitação 522, 523, 524, o que significa que ambos os ramos 400, 500 processam o mesmo sinal em paralelo. A fim de não duplicar a taxa de bit, contudo, éSwitch 200 has been shown to switch between both branches so that only one branch receives a signal to process and the other branch does not receive a signal to process. In an alternative configuration, however, switching can also be arranged subsequently, for example, to audio encoder 421 and excitation encoder 522, 523, 524, which means that both branches 400, 500 process the same signal in parallel. In order not to double the bit rate, however, it is

30/114 selecionada apenas a saída de sinal por um desses ramos de codificação 400 ou 500 para ser escrita no fluxo de bits de saída.30/114 only the signal output by one of these 400 or 500 coding branches is selected to be written in the output bit stream.

estágio de decisão , então, operará de forma que o sinal escrito no no fluxo de bits minimiza certa função de custo, onde a função de custo pode ser a taxa de bits gerada ou a distorção perceptiva ou uma função de custo de taxa/distorção combinada. Assim, quer neste modo ou no modo ilustrado nas figuras, o estágio de decisão também pode operar em um modo de ciclo fechado, a fim de assegurar que, finalmente, apenas a saída do ramo de codificação está escrita no fluxo de bits que tem para uma determinada distorção perceptiva a mais baixa taxa de bits ou, para uma determinada taxa de bits, tem a menor distorção perceptiva. No modo de ciclo fechado, a entrada de feedback pode ser obtida a partir das saídas dos três blocos de quantizador/escalímetro 421, 522 e 424 na Fig.The decision stage will then operate in such a way that the signal written in the bit stream minimizes a certain cost function, where the cost function can be the bit rate generated or the perceptual distortion or a combined rate / distortion cost function. . Thus, whether in this mode or in the mode illustrated in the figures, the decision stage can also operate in a closed loop mode, in order to ensure that, finally, only the output of the coding branch is written in the bit stream it has for a certain perceptual distortion at the lowest bit rate or, for a given bit rate, has the least perceptual distortion. In closed loop mode, the feedback input can be obtained from the outputs of the three quantizer / scalimeter blocks 421, 522 and 424 in Fig.

Ia.Ia.

-Tendo duas* comutações' ria¹ implementação, ^_isto é, a primeira comutação 200 e a segunda comutação 521, é preferível que a resolução de tempo para a primeira comutação seja mais baixa do que a resolução de tempo para a segunda comutação. Dito de outra forma, os blocos do sinal de entrada para a primeira comutação, que pode ser comutada via uma operação de comutação, são maiores do que os blocos comutados pela segunda comutação operando no domínio de LPC. Exemplarmente, o domínio de frequência/ comutação de domínio de LPC 200 podem comutar os blocos de um comprimento de 1.024 amostras, e a segunda comutação 521 pode comutar blocos tendo 256 amostras cada.-Having two * switchings' in ¹ implementation, ^_ that is, the first switching 200 and the second switching 521, it is preferable that the time resolution for the first switching is lower than the time resolution for the second switching. In other words, the blocks of the input signal for the first switch, which can be switched via a switching operation, are larger than the blocks switched by the second switch operating in the LPC domain. Exemplarily, the frequency / switching domain of LPC 200 can switch blocks of a length of 1,024 samples, and the second switch 521 can switch blocks having 256 samples each.

Embora algumas das figuras de la a 10b sejam ilustradas como diagramas de bloco de um aparelho, estas figurasAlthough some of the figures 1 through 10b are illustrated as block diagrams for an apparatus, these figures

31/114 são simultaneamente uma ilustração de um método, onde as funcionalidades de bloco correspondem às etapas do método.31/114 are simultaneously an illustration of a method, where the block functionalities correspond to the steps of the method.

A Fig. 3 ilustra um codificador de áudio para gerar um sinal de áudio codificado como uma saída do primeiro ramo de decodif icação 400 e um segundo ramo de codificação 500. Além disso, o sinal de áudio codificado preferencialmente inclui informação colateral tais como parâmetros de pré-processamento, desde o estágio de pré-processamento comum ou, como discutido em conexão com figuras anteriores, comutar informações de controle.Fig. 3 illustrates an audio encoder for generating an encoded audio signal as an output from the first decoding branch 400 and a second encoding branch 500. In addition, the encoded audio signal preferably includes collateral information such as parameters of pre-processing, from the common pre-processing stage or, as discussed in connection with previous figures, switching control information.

De preferência, o primeiro ramo de decodificação é operativo, a fim de codificar um sinal de áudio intermediárioPreferably, the first decoding branch is operative in order to encode an intermediate audio signal

195 de acordo com um primeiro algoritmo de codificação, em que o primeiro algoritmo de codificação tem um modelo _.sink _ de informação. O primeiro ramo de codificação 400 gera o primeiro sinal de saída do codificador, que é uma representação da informação -espectral codificada do^- sinal de “áudio^- intermediário195 according to a first coding algorithm, wherein the first coding algorithm has an _.sink _ model of information. The first encoding branch 400 generates the first encoder output signal, which is a representation of the encoded -spectral information of the ^- “audio ^- intermediate” signal

195.195.

Além disso, o segundo ramo de codificação 500 está adaptado para a codificação de sinal de áudio intermediário 195 de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informação e gerando, em um segundo sinal de saída do codificador, parâmetros codificados para o modelo de fonte de informação representando o sinal de áudio intermediário.In addition, the second encoding branch 500 is adapted for encoding intermediate audio signal 195 according to a second encoding algorithm, the second encoding algorithm having an information source model and generating, in a second output signal of the encoder, encoded parameters for the information source model representing the intermediate audio signal.

codificador de áudio, além disso, compreende o estágio de pré-processamento comum para pré-processamento de um sinal de entrada de áudio 99 para obter o sinal de áudio intermediário 195. Especificamente, o estágio comum de pré32/114 processamento é operativo para processar o sinal de entrada de áudio 99 de forma que o sinal de áudio intermediários 195, isto é, a saída do algoritmo de pré-processamento comum é uma versão comprimida do sinal de entrada de áudio.The audio encoder furthermore comprises the common pre-processing stage for pre-processing an audio input signal 99 to obtain the intermediate audio signal 195. Specifically, the common pre-processing stage is operative to process the audio input signal 99 so that the intermediate audio signal 195, i.e., the output of the common pre-processing algorithm is a compressed version of the audio input signal.

Um método preferido de codificação de áudio para geração de um sinal de áudio codificado compreende uma etapa de codificação 400 de um sinal de áudio intermediário 195 de acordo com um primeiro algoritmo de codificação, o primeiro algoritmo de codificação tendo um modelo sink de informação e gerando, em um primeiro sinal de saída, informação codificada espectral representando o sinal de áudio, uma etapa de codificação 500 de um sinal de áudio intermediário 195 de acordo com um segundo algoritmo de codificação, o segundo algoritmo _de__co_dificação tendo um modelo de fonte de informação e gerando, em um segundo sinal de saída, parâmetros codificados para o modelo de fonte de informação .representando o sinal - intermediário *195, ”e “ uma etapa de préprocessamento comum 100 de um sinal de entrada de áudio 99 para obter o sinal de áudio intermediário 195, em que é processado, na etapa de pré-processamento comum de sinal de entrada de áudio 99, de modo que o sinal de áudio intermediário 195 é uma versão comprimida do sinal de entrada de áudio 99, em que o sinal de áudio codificado inclui, por certa porção do sinal de áudio tanto o primeiro sinal de saída quanto o segundo sinal de saída. O método inclui preferencialmente passo mais adiante codificando certa porção do sinal de áudio intermediário quer utilizando o primeiro algoritmo de codificação ou utilizando o segundo algoritmo de codificação ou codificando o sinal utilizando ambos os algoritmos e produzindo saída em um sinal codificado, quer oA preferred audio encoding method for generating an encoded audio signal comprises an encoding step 400 of an intermediate audio signal 195 according to a first encoding algorithm, the first encoding algorithm having an information sink model and generating , in a first output signal, spectral encoded information representing the audio signal, an encoding step 500 of an intermediate audio signal 195 according to a second encoding algorithm, the second _de__co_dificação algorithm having an information source model and generating, in a second output signal, encoded parameters for the information source model. representing the signal - intermediate * 195, ”and“ a common preprocessing step 100 of an audio input signal 99 to obtain the audio signal intermediate 195, in which it is processed, in the common pre-processing step of audio input signal 9 9, so that the intermediate audio signal 195 is a compressed version of the audio input signal 99, wherein the encoded audio signal includes, for a certain portion of the audio signal, both the first output signal and the second audio signal. output. The method preferably includes stepping forward by encoding a certain portion of the intermediate audio signal either using the first encoding algorithm or using the second encoding algorithm or encoding the signal using both algorithms and outputting an encoded signal, either the

33/114 resultado do primeiro algoritmo de codificação ou o resultado do segundo algoritmo de codificação.33/114 result of the first coding algorithm or the result of the second coding algorithm.

Geralmente, o algoritmo de codificação de áudio utilizado no primeiro ramo de codificação 400 reflete e modela a situação em um sink de áudio. O sink de uma informação de áudio é normal ao ouvido humano. O ouvido humano pode ser modelado como um analisador de frequências. Portanto, o primeiro ramo de decodificação realiza saída de informação espectral codificada. De preferência, o primeiro ramo de decodificação, além disso, inclui um modelo psicoacústico para adicionalmente aplicar um limite de mascaramento psicoacústico. Este limite de mascaramento psicoacústico é usado quando os valores espectrais de quantização de áudio, onde, de preferência, a quantização é realizada de tal forma que um ruído de quantização é introduzido pela quantização de valores de áudio espectrais, que são escondidos abaixo do limite de mascaramento- psicoacústico . “ _ — — O sequndo ramo de codificação representa um modelo de fonte de informação, que reflete a geração de som de áudio. Portanto, os modelos de fonte de informação podem incluir um modelo de fala que é refletida por um estágio de análise LPC, isto é, transformando um sinal de domínio de tempo em um domínio de LPC e, subsequentemente, processamento o sinal residual de LPC, isto é, o sinal de excitação. Os modelos de fonte de som alternativos, no entanto, são modelos de fonte de som para representar certo instrumento ou quaisquer outros geradores de som, tal como uma fonte de som específica existente no mundo real. Uma seleção entre os modelos de fonte de som diferentes podem ser realizados quando vários modelos de fonte de som estãoGenerally, the audio coding algorithm used in the first 400 coding branch reflects and models the situation in an audio sink. The audio information sink is normal for the human ear. The human ear can be modeled as a frequency analyzer. Therefore, the first decoding branch outputs coded spectral information. Preferably, the first decoding branch, furthermore, includes a psychoacoustic model to additionally apply a psychoacoustic masking limit. This limit of psychoacoustic masking is used when the spectral values of audio quantization, where, preferably, quantization is performed in such a way that a quantization noise is introduced by the quantization of spectral audio values, which are hidden below the limit of masking-psychoacoustic. “_ - - The next coding branch represents a model of information source, which reflects the generation of audio sound. Therefore, information source models can include a speech model that is reflected by an LPC analysis stage, that is, transforming a time domain signal into an LPC domain and subsequently processing the residual LPC signal, that is, the sign of excitement. Alternative sound source models, however, are sound source models to represent a certain instrument or any other sound generator, such as a specific sound source in the real world. A selection between different sound source models can be made when multiple sound source models are

34/114 disponíveis, por exemplo, com base em um cálculo SNR, isto é, com base em um cálculo, qual dos modelos de fonte é o mais adequado para uma codificação de certa porção de tempo e/ou porção de frequência de um sinal de áudio. De preferência, no entanto, a comutação entre os ramos de codificação é realizada no domínio do tempo, isto é, que certa porção de tempo é codificada usando um modelo e certa porção de certo tempo diferente do sinal intermediário é codificado usando outro ramo de codificação.34/114 available, for example, based on an SNR calculation, that is, based on a calculation, which of the source models is the most suitable for encoding a certain time portion and / or frequency portion of a signal of audio. Preferably, however, the switching between the coding branches is carried out in the time domain, that is, that a certain portion of time is encoded using a model and a certain portion of a certain time different from the intermediate signal is encoded using another coding branch .

Os modelos de fonte de informação são representados por certos parâmetros. Em vista ao modelo de fala, os parâmetros são os parâmetros LPC e parâmetros de excitação codificados, quando considerado um codificador de fala moderno tal como AMR-WB+. O AMR-WB+ compreende um codificador _de ACELP e um codificador de TCX. Neste caso, os parâmetros de excitação codificada podem ser um ganho global, piso de ruído e os códigos de comprimento variáveis.- - - — - - - - —Information source models are represented by certain parameters. In view of the speech model, the parameters are the LPC parameters and encoded excitation parameters, when considered a modern speech encoder such as AMR-WB +. The AMR-WB + comprises an ACELP encoder and a TCX encoder. In this case, the coded excitation parameters can be an overall gain, floor noise and variable length codes.- - - - - - - - -

A Fig. 3b ilustra um decodificador correspondente ao codificador ilustrado na Fig. 3a. Geralmente, a Fig. 3b ilustra um decodificador de áudio para decodificação de um sinal de áudio codificado para obter um sinal de áudio decodificado 799. O decodif icador inclui o primeiro ramo de decodif icação 450 para decodificação de um sinal codificado de acordo com um primeiro algoritmo de codificação tendo um modelo sink de informação. O decodificador de áudio, além disso, inclui um segundo ramo de decodificação 550 para decodificação de um sinal de informação codificado, sendo codificado de acordo com um segundo algoritmo de codificação tendo um modelo de fonte de informação. O decodif icador de áudio, além disso, inclui um combinador paraFig. 3b shows a decoder corresponding to the encoder shown in Fig. 3a. Generally, Fig. 3b illustrates an audio decoder for decoding an encoded audio signal to obtain a decoded audio signal 799. The decoder includes the first decoding branch 450 for decoding an encoded signal according to a first coding algorithm having an information sink model. The audio decoder, furthermore, includes a second decoding branch 550 for decoding an encoded information signal, being encoded according to a second encoding algorithm having an information source model. The audio decoder, moreover, includes a combiner for

35/114 combinar sinais de saída do primeiro ramo de decodificação 450 e o segundo ramo de decodificação 550 para obter um sinal combinado. O sinal combinado, que é ilustrado na figura 3b como o sinal de áudio intermediário decodificado 699 é inserido em um estágio de pós-processamento comum para pós-processamento do sinal de áudio decodificado intermediário 699, que é a saída do sinal combinada pelo combinador 600 de tal forma que um sinal de saída do estágio de pré-processamento comum é uma versão expandida do sinal combinado. Assim, o sinal de áudio decodificado 7 99 tem um conteúdo de informação enriquecido comparado ao sinal de áudio intermediário decodificado 699. Esta expansão de informação é fornecida pelo estágio de pós-processamento comum com a ajuda parâmetros de pré/pós-processamento que podem ser transmitidos de um codificador para um decodif icador, ou que podem ser derivados do próprio sinal de áudio intermediário decodificado. De preferência, no. entanto,_ parâmetros de pré/pós-processamento são transmitidos de um codificador para um decodif icador, uma vez que este procedimento permite uma melhoria da qualidade do sinal de áudio decodificado.35/114 combine output signals from the first decoding branch 450 and the second decoding branch 550 to obtain a combined signal. The combined signal, which is illustrated in Figure 3b as the decoded intermediate audio signal 699 is inserted into a common post-processing stage for post-processing of the intermediate decoded audio signal 699, which is the combined signal output by the combiner 600 such that an output signal from the common preprocessing stage is an expanded version of the combined signal. Thus, the decoded audio signal 799 has an enriched information content compared to the decoded intermediate audio signal 699. This information expansion is provided by the common post-processing stage with the help of pre / post-processing parameters that can be transmitted from an encoder to a decoder, or which may be derived from the decoded intermediate audio signal itself. Preferably, no. However, _ pre / post-processing parameters are transmitted from an encoder to a decoder, since this procedure improves the quality of the decoded audio signal.

A Fig. 3c ilustra um codificador de áudio para codificar um sinal de entrada de áudio 195, que pode ser igual ao sinal de áudio intermediário 195 da Fig. 3a, de acordo com a configuração preferida da presente invenção. O sinal de entrada de áudio 195 está presente em um primeiro domínio que pode, por exemplo, ser o domínio do tempo, mas que também pode ser qualquer outro domínio, tal como um domínio de frequência, um domínio de LPC, um domínio espectral LPC ou qualquer outro domínio. Geralmente, a conversão de um domínio para outro domínio éFig. 3c illustrates an audio encoder for encoding an audio input signal 195, which can be the same as the intermediate audio signal 195 of Fig. 3a, according to the preferred configuration of the present invention. The audio input signal 195 is present in a first domain which can, for example, be the time domain, but which can also be any other domain, such as a frequency domain, an LPC domain, a spectral domain LPC or any other domain. Generally, converting from one domain to another domain is

36/114 realizada por um algoritmo de conversão, tal como quaisquer algoritmos de conversão de tempo/f requência bem conhecidos ou algoritmos de conversão de tempo/frequência.36/114 performed by a conversion algorithm, such as any well-known time / frequency conversion algorithms or time / frequency conversion algorithms.

Uma transformação alternativa a partir do domínio de tempo, por exemplo, no domínio de LPC é o resultado da filtragem LPC de um sinal de domínio de tempo o que resulta em um sinal residual LPC ou sinal de excitação. Quaisquer outras operações de filtragem produzindo um sinal filtrado, que tem um impacto sobre um número substancial de amostras de sinal antes da transformação podem ser usadas como um algoritmo de transformação como o caso. Portanto, a ponderação de um sinal de áudio usando um filtro de ponderação com base em LPC é uma transformação mais abrangente, que gera um sinal no domínio de LPC. Em uma transformação de tempo/frequência, a modificação de um valor espectral único terá um impacto sobre todos os valores de domínio de._tempo antes, da. transformação Analogamente, - uma- modificação de uma amostra de domínio de tempo terá um impacto em cada amostra de domínio de frequência. Similarmente, uma modificação de uma amostra do sinal de excitação em uma situação de domínio de LPC terá, devido ao comprimento do filtro de LPC, um impacto sobre um número substancial de amostras antes da filtragem LPC.An alternative transformation from the time domain, for example, in the LPC domain, is the result of the LPC filtering of a time domain signal which results in a residual LPC signal or excitation signal. Any other filtering operations producing a filtered signal, which has an impact on a substantial number of signal samples before the transformation can be used as a transformation algorithm as the case may be. Therefore, weighting an audio signal using an LPC-based weighting filter is a more comprehensive transformation, which generates a signal in the LPC domain. In a time / frequency transformation, modifying a single spectral value will have an impact on all domain values from._time before, from. transformation Similarly, - a- modification of a time domain sample will have an impact on each frequency domain sample. Similarly, a modification of a sample of the excitation signal in an LPC domain situation will, due to the length of the LPC filter, have an impact on a substantial number of samples before LPC filtering.

Similarmente, uma modificação de uma amostra antes de uma transformação LPC terá um impacto em muitas amostras obtidas por essa transformação LPC devido ao efeito de memória inerente ao filtro de LPC.Similarly, a modification of a sample before an LPC transformation will have an impact on many samples obtained by that LPC transformation due to the memory effect inherent in the LPC filter.

O codificador de áudio da Fig. 3c inclui um primeiro ramo de codificação 400, que gera um primeiro sinal codificado. Este primeiro sinal codificado pode estar em um quartoThe audio encoder of Fig. 3c includes a first encoding branch 400, which generates a first encoded signal. This first coded signal can be in a fourth

37/114 domínio que é, na configuração preferida, o domínio do espectro de tempo, isto é, o domínio que é obtido quando um sinal de domínio de tempo é processado via conversão de tempo/frequência.37/114 domain that is, in the preferred configuration, the domain of the time spectrum, that is, the domain that is obtained when a time domain signal is processed via time / frequency conversion.

Portanto, o primeiro ramo de codificação 400 para codificação de um sinal de áudio usa um primeiro algoritmo de codificação para obter um primeiro sinal codificado, onde este primeiro algoritmo de codificação pode ou não incluir um algoritmo de conversão de tempo/frequência.Therefore, the first encoding branch 400 for encoding an audio signal uses a first encoding algorithm to obtain a first encoded signal, where this first encoding algorithm may or may not include a time / frequency conversion algorithm.

O codificador de áudio, além disso, inclui um segundo ramo de codificação 500 para codificação de um sinal de áudio. O segundo ramo de codificação 500 utiliza um segundo algoritmo de codificação para obtenção de um segundo sinal codificado, que é diferente do primeiro algoritmo de codificação.The audio encoder, moreover, includes a second encoding branch 500 for encoding an audio signal. The second encoding branch 500 uses a second encoding algorithm to obtain a second encoded signal, which is different from the first encoding algorithm.

O codificador de áudio, além disso, inclui uma primeira comutação 200 para comutar entre o primeiro ramo de codificação 400 e o segundo- ramo-de-codificação* 500 de modo que para uma porção do entrada de sinal de áudio, seja o primeiro sinal codificado na saída do bloco 400, ou o segundo sinal codificado na saída do segundo ramo de codificação é incluída em um sinal de saída do codificador. Assim, quando para certa porção de sinal de entrada de áudio 195, o primeiro sinal codificado no quarto domínio está incluído no sinal de saída do codificador. O segundo sinal codificado que é tanto o primeiro sinal processado no segundo domínio como o segundo sinal processado no terceiro domínio não está incluído no sinal de saída codificador. Isso assegura que este codificador é eficiente na taxa de bits. Em configurações, quaisquer porções de tempo do sinal de áudio que são incluídas em dois diferentes sinais codificados são pequenasThe audio encoder, furthermore, includes a first switch 200 to switch between the first encoding branch 400 and the second encoding branch * 500 so that for a portion of the audio signal input, it is the first signal encoded at the output of block 400, or the second encoded signal at the output of the second encoding branch is included in an encoder output signal. Thus, when for a certain portion of the audio input signal 195, the first signal encoded in the fourth domain is included in the output signal of the encoder. The second encoded signal which is both the first signal processed in the second domain and the second signal processed in the third domain is not included in the encoding output signal. This ensures that this encoder is efficient in the bit rate. In configurations, any time portions of the audio signal that are included in two different encoded signals are small

38/114 em comparação com um comprimento de quadro de um quadro como será discutido em conexão com a Fig. 3e. Estas pequenas porções são úteis para um cross fade de um sinal codificado para o outro sinal codificado, no caso de um evento de comutação, a fim de reduzir os artefatos que podem ocorrer sem qualquer cross fade. Portanto, com exceção da região cross fade, cada bloco de domínio de tempo é representado por um sinal codificado de apenas um único domínio.38/114 compared to a frame length of a frame as will be discussed in connection with Fig. 3e. These small portions are useful for cross fading from one encoded signal to the other encoded signal, in the case of a switching event, in order to reduce artifacts that can occur without any cross fade. Therefore, with the exception of the cross fade region, each time domain block is represented by a coded signal from only a single domain.

Como ilustrado na Fig. 3-C, o segundo ramo de codificação 500 compreende um conversor 510 para converter o sinal de áudio no primeiro domínio, isto é, o sinal 195 em um segundo domínio. Além disso, o segundo ramo de codificação 500 compreende um primeiro ramo de transformação 522 para o processamento de um sinal de áudio no segundo domínio para obter um primeiro sinal processado que é, de preferência, também no segundo domínio de modo que o primeiro ramo de processamento 522 não realiza uma mudança de domínio. - - — — — - — — — — — - - - — O segundo ramo de codificação 500, além disso, compreende um segundo ramo de processamento 523, 524 que converte o sinal de áudio no segundo domínio em um terceiro domínio, que é diferente do primeiro domínio e que também é diferente do segundo domínio e que processa o sinal de áudio no terceiro domínio para obter um segundo sinal processado na saída do segundo ramo de processamento de 523, 524.As illustrated in Fig. 3-C, the second encoding branch 500 comprises a converter 510 for converting the audio signal in the first domain, i.e., signal 195 into a second domain. In addition, the second encoding branch 500 comprises a first transformation branch 522 for processing an audio signal in the second domain to obtain a first processed signal which is preferably also in the second domain so that the first Processing 522 does not perform a domain change. - - - - - - - - - - - - - - - The second encoding branch 500, furthermore, comprises a second processing branch 523, 524 that converts the audio signal in the second domain into a third domain, which is different from the first domain and which is also different from the second domain and which processes the audio signal in the third domain to obtain a second signal processed at the output of the second processing branch of 523, 524.

Além disso, o segundo ramo de codificação compreende um segunda comutação 521 para comutar entre o primeiro ramo de processamento 522 e do segundo ramo de processamento deIn addition, the second coding branch comprises a second switch 521 for switching between the first processing branch 522 and the second processing branch

523, 524 de modo que, para uma porção de entrada de sinal de áudio para o segundo ramo de codificação, seja o primeiro sinal523, 524 so that, for an audio signal input portion for the second encoding branch, it is the first signal

39/114 processado no segundo domínio quanto o segundo sinal processado no terceiro domínio, estão no segundo sinal codificado.39/114 processed in the second domain and the second signal processed in the third domain, are in the second encoded signal.

A Fig. 3d ilustra um decodificador correspondente para decodificação de um sinal de áudio codificado gerado pelo codificador da Fig. 3c. Geralmente, cada bloco do primeiro sinal de áudio de domínio é representado tanto por um segundo sinal de domínio, um terceiro sinal de domínio ou um quarto sinal de domínio codificado, com exceção da região de cross fade opcional que é, de preferência, curta em comparação ao comprimento de um quadro a fim de obter um sistema que é, tanto quanto possível, no limite de amostragem crítica. O sinal de áudio codificado inclui o primeiro sinal codificado, um segundo sinal codificado em um segundo domínio _e um terceiro sinal codificado. —em um terceiro domínio, em que o primeiro sinal codificado, o segundo sinal codificado e o terceiro sinal codificado todos se relacionam a porções de tempo diferentes dõ“ sinal dê^- áudio decodificado e em que o segundo domínio, o terceiro domínio e o primeiro domínio de sinal de áudio decodificado são diferentes uns dos outros.Fig. 3d illustrates a corresponding decoder for decoding an encoded audio signal generated by the encoder of Fig. 3c. Generally, each block of the first domain audio signal is represented either by a second domain signal, a third domain signal or a fourth encoded domain signal, with the exception of the optional cross fade region which is preferably short in comparison to the length of a frame in order to obtain a system that is, as far as possible, at the critical sampling limit. The encoded audio signal includes the first encoded signal, a second encoded signal in a second domain, and a third encoded signal. —In a third domain, where the first encoded signal, the second encoded signal and the third encoded signal all relate to different time portions of the “give signal ^- decoded audio and in which the second domain, the third domain and the first decoded audio signal domain are different from each other.

O decodificador compreende um primeiro ramo de decodificação para decodificação baseada no primeiro algoritmo de codificação. O primeiro ramo de decodificação é ilustrado em 431, 440 na Fig. 3d, e preferencialmente compreende um conversor de frequência/tempo. O primeiro sinal é codificado, de preferência, em um quarto domínio e é convertido para o primeiro domínio, que é o domínio para o sinal de saída decodificado.The decoder comprises a first decoding branch for decoding based on the first encoding algorithm. The first decoding branch is illustrated at 431, 440 in Fig. 3d, and preferably comprises a frequency / time converter. The first signal is preferably encoded in a fourth domain and is converted to the first domain, which is the domain for the decoded output signal.

O decodificador da Fig. 3d, além disso, compreende segundo um ramo de decodificação que compreende vários elementos. Esses elementos são um primeiro ramo de processamentoThe decoder of Fig. 3d, furthermore, comprises a decoding branch comprising several elements. These elements are a first branch of processing

40/114 inverso 531 para o processamento inverso do segundo sinal codificado para obter um primeiro sinal de processamento inverso no segundo domínio no bloco de saída 531. O segundo ramo de decodificação compreende, além disso, um segundo ramo de transformação inversa 533, 534 para a transformação inversa de um terceiro sinal codificado para obter uma segundo sinal de processamento inverso no segundo domínio, onde o segundo ramo de transformação inversa compreende um conversor para conversão do terceiro domínio para a segundo domínio.40/114 reverse 531 for reverse processing the second encoded signal to obtain a first reverse processing signal in the second domain in output block 531. The second decoding branch further comprises a second reverse processing branch 533, 534 for the reverse transformation of a third encoded signal to obtain a second reverse processing signal in the second domain, where the second reverse transformation branch comprises a converter for converting the third domain to the second domain.

O segundo ramo de decodificação compreende, além disso, um primeiro combinador 532 para combinar o primeiro sinal inverso processado e o segundo sinal inverso processado para obter um sinal no segundo de domínio, onde o sinal combinado, é, num primeiro instante, apenas influenciado pelo primeiro sinal inverso processado e, num primeiro instante, é influenciado apenas pelo segundo sinal inverso processador “ ~ ^{— —} The second decoding branch further comprises a first combiner 532 for combining the first processed reverse signal and the second processed reverse signal to obtain a signal in the second domain, where the combined signal is, in the first instance, only influenced by first processed reverse signal and, in a first instant, it is influenced only by the second processor reverse signal “~ ^{- -}

O segundo ramo de decodificação compreende, além disso, um conversor 540 para converter o sinal combinado para o primeiro domínio.The second decoding branch further comprises a converter 540 for converting the combined signal to the first domain.

Finalmente, o decodificador ilustrado na Fig. 3d compreende um segundo combinador 600 para combinar o primeiro sinal decodificado de bloco 431, 440 e o sinal de saída do conversor 540 para obter um sinal de saída decodificado no primeiro domínio. Novamente, o sinal de saída decodificado no primeiro domínio é, num primeiro instante, apenas influenciado pela saída de sinal pelo conversor 540 e é, num outro instante, influenciado apenas pela primeira saída de sinal decodificado pelo bloco 431, 440.Finally, the decoder shown in Fig. 3d comprises a second combiner 600 for combining the first block decoded signal 431, 440 and the output signal of the converter 540 to obtain a decoded output signal in the first domain. Again, the output signal decoded in the first domain is, in the first instance, only influenced by the signal output by the converter 540 and, in another instant, it is influenced only by the first signal output decoded by block 431, 440.

41/11441/114

Esta situação é ilustrada, de uma perspectiva do codificador, na Fig. 3e. A porção superior da Fig. 3e ilustra a representação esquemática, um primeiro sinal de áudio de domínio, tal como um sinal de áudio de domínio de tempo, onde o índice de tempo aumenta da esquerda para a direita e o item 3 pode ser considerado como um fluxo de amostras de áudio representando o sinal 195 na Fig. 3c. A Fig. 3e ilustra quadros 3a, 3b, 3c, 3d, o que pode ser gerada pela comutação entre o primeiro sinal codificado e o primeiro sinal processado e o segundo sinal processado como ilustrado no item 4 na Fig. 3e. O primeiro sinal codificado, o primeiro sinal processado e os segundos sinais processados estão todos em diferentes domínios e a fim de assegurar que a comutação entre diferentes domínios não resulta em um artefato no lado do decodificador. Quadros 3a, 3b do sinal de domínio de tempo têm um faixa de sobreposição que é indicada como uma-região de cross fade e*tal região 'cross^_fade 'èxiste* nõ quadro 3b e 3c. No entanto, nenhuma região de cross fade é existente entre o quadro 3d e 3c, o que significa que o quadro 3d também é representado por um segundo sinal processado, isto é, um sinal no terceiro domínio e não há nenhuma mudança de domínio entre os quadros 3c e 3d. Portanto, em geral, é preferível não providenciar uma região cross fade onde não há mudança de domínio e para fornecer um região de cross fade, isto é, uma porção do sinal de áudio que é codificada por dois sinais subsequentes codificados/processados quando houver mudança de domínio, isto é, uma ação de comutação ambas as comutações. De preferência, cross fades são realizadas para outras mudanças de domínio.This situation is illustrated, from an encoder perspective, in Fig. 3e. The upper portion of Fig. 3e illustrates the schematic representation, a first domain audio signal, such as a time domain audio signal, where the time index increases from left to right and item 3 can be considered as a stream of audio samples representing signal 195 in Fig. 3c. Fig. 3e illustrates frames 3a, 3b, 3c, 3d, which can be generated by switching between the first coded signal and the first processed signal and the second processed signal as illustrated in item 4 in Fig. 3e. The first encoded signal, the first processed signal and the second processed signals are all in different domains and in order to ensure that switching between different domains does not result in an artifact on the decoder side. Tables 3a, 3b of the time domain signal have an overlapping range which is indicated as a cross fade region, and such region * 'cross fade ^_' * exists in Table 3b and 3c. However, no cross fade region exists between the 3d and 3c frames, which means that the 3d frame is also represented by a second processed signal, that is, a signal in the third domain and there is no change of domain between the frames 3c and 3d. Therefore, in general, it is preferable not to provide a cross fade region where there is no change of domain and to provide a cross fade region, that is, a portion of the audio signal that is encoded by two subsequent encoded / processed signals when there is a change. domain, that is, a switching action on both switches. Preferably, cross fades are performed for other domain changes.

Na configuração na qual o primeiro sinalIn the configuration in which the first signal

42/114 codificado ou o segundo sinal processado foram gerados por um processamento MDCT tendo, por exemplo, uma sobreposição de 50 por cento, cada amostra de domínio de tempo está incluída em dois quadros subsequentes. Devido às características de MDCT, no entanto, isso não resulta em uma sobrecarga, uma vez que o MDCT é um sistema de amostragem crucial. Neste contexto, amostragem crucial significa que o número de valores espectrais é o mesmo que o número de valores de domínio de tempo. O MDCT é vantajoso na medida em que o efeito crossover é provido sem uma região de crossover específica, de modo que um crossover de um bloco MDCT para o bloco MDCT seguinte é provido sem qualquer sobrecarga que violaria a exigência de amostragem crucial.42/114 encoded or the second processed signal was generated by MDCT processing having, for example, a 50 percent overlap, each time domain sample is included in two subsequent frames. Due to the characteristics of MDCT, however, this does not result in an overhead, since the MDCT is a crucial sampling system. In this context, crucial sampling means that the number of spectral values is the same as the number of time domain values. MDCT is advantageous in that the crossover effect is provided without a specific crossover region, so that a crossover from an MDCT block to the next MDCT block is provided without any overhead that would violate the crucial sampling requirement.

De preferência, o primeiro algoritmo de codificação no primeiro ramo de codificação é baseado em um modelo sink de informação, e o segundo algoritmo de codificação no segundo ramo -de codificação é baseado¹ em uma fõnté^- dé^ informação ou um modelo SNR. Um modelo SNR é um modelo que não é especificamente relacionado a um mecanismo de geração de som específico, mas que é um modo de codificação que pode ser selecionado entre uma pluralidade de modos de codificação baseadas, por exemplo, em decisão de ciclo fechado. Assim, um modelo SNR é qualquer modelo de codificação disponível, mas que não tem necessariamente de estar relacionado com a constituição física do gerador de som, mas que é todo modelo de codificação parametrizada diferente do modelo sink de informação, que pode ser selecionado por uma decisão de ciclo fechado e, especificamente, ao comparar resultados SNR diferentes de modelos diferentes.Preferably, the first coding algorithm in the first coding branch is based on an information sink model and the second coding algorithm in the second coding branch is based -de ¹ in a source ^- de ^ SNR information or model. An SNR model is a model that is not specifically related to a specific sound generation mechanism, but that is a coding mode that can be selected from a plurality of coding modes based, for example, on a closed loop decision. Thus, an SNR model is any coding model available, but it does not necessarily have to be related to the physical constitution of the sound generator, but it is every parameterized coding model different from the information sink model, which can be selected by a closed-loop decision and specifically when comparing different SNR results from different models.

Como ilustrado na Fig. 3c, é provido umAs illustrated in Fig. 3c, a

43/114 controlador 300, 525. Este controlador pode incluir as funcionalidades da estágio de decisão 300 da Fig. la e, adicionalmente, pode incluir a funcionalidade do dispositivo de controle de comutação 525 na Fig. la. Geralmente, o controlador é para controlar a primeira comutação e a segunda comutação em forma de sinal adaptativo. O controlador é operativo para analisar uma entrada de sinal para a primeira comutação ou saída pelo primeiro ou segundo ramo de codificação ou sinais obtidos pela codificação e decodificação do primeiro e segundo ramo de codificação com relação a uma função alvo. Alternativamente, ou adicionalmente, o controlador é operativo para analisar a entrada de sinal para a segunda comutação ou saída pelo primeiro ramo de processamento ou segundo—ramo de processamento ou— ob tido s pe 1 o processamento e processamento inverso do primeiro ramo de processamento e do segundo ramo de processamento novamente com relação a uma função alvo.43/114 controller 300, 525. This controller can include the functionality of decision stage 300 of Fig. La and, additionally, can include the functionality of switching control device 525 in Fig. La. Generally, the controller is to control the first switch and the second switch in the form of an adaptive signal. The controller is operative to analyze a signal input for the first switching or output by the first or second coding branch or signals obtained by coding and decoding the first and second coding branch in relation to a target function. Alternatively, or in addition, the controller is operative to analyze the signal input for the second switching or output by the first processing branch or the second — processing branch or — having obtained the reverse processing and processing of the first processing branch and of the second processing branch again with respect to a target function.

Em uma configuração, o primeiro ramo de codificação ou o segundo ramo de codificação compreende um algoritmo de conversão de tempo/frequência introdutório serrilhado tal como um MDCT ou um algoritmo MDST, que é diferente de uma transformação direta FFT, que não apresenta um efeito de serrilhado. Além disso, um ou ambos os ramos compreendem um bloco de codificador de quantizador/entropia. Especificamente, apenas o segundo ramo de processamento do segundo ramo de codificação inclui o conversor de tempo/frequência introduzindo uma operação serrilhada e o primeiro ramo processamento do segundo ramo de codificação compreende um codificador quantizador e/ou de entropia e não introduz qualquer efeito serrilhado. O serrilhadoIn one configuration, the first coding branch or the second coding branch comprises a serrated introductory time / frequency conversion algorithm such as an MDCT or an MDST algorithm, which is different from a direct FFT transformation, which has no effect of serrated. In addition, one or both branches comprise a quantizer / entropy encoder block. Specifically, only the second processing branch of the second coding branch includes the time / frequency converter introducing a serrated operation and the first processing branch of the second coding branch comprises a quantizer and / or entropy encoder and does not introduce any serrated effect. The knurl

44/114 introduzindo o conversor de tempo/frequência, de preferência, compreende um janelador para a aplicação de uma janela de análise e um algoritmo de transformação MDCT. Especificamente, o janelador é operativo para aplicar a função de janela para quadros subsequentes na forma de sobreposição, de modo que uma amostra de um sinal de janela ocorra em, pelo menos, dois quadros de janela subsequentes.44/114 introducing the time / frequency converter, preferably, comprises a window for the application of an analysis window and an MDCT transformation algorithm. Specifically, the window is operative to apply the window function to subsequent frames in the form of overlap, so that a sample of a window signal occurs in at least two subsequent window frames.

Em uma configuração, o primeiro ramo de processamento compreende um codificador de ACELP e um segundo ramo de processamento compreende um conversor espectral de MDCT e a quantizador para quantização de componentes espectrais para obter componentes espectrais quantizados, onde cada componente espectral quantizado é zero _ou é -definido- por- um índice _do_ quantizador dapluralidade de diferentes índices de quantizador possíveis.In one configuration, the first processing branch comprises an ACELP encoder and a second processing branch comprises an MDCT spectral converter and the quantizer for quantizing spectral components to obtain quantized spectral components, where each quantized spectral component is zero _or is - defined by a quantizer index of the plurality of different possible quantizer indices.

Além disso, é preferível que a primeira comutaçãoIn addition, it is preferable that the first switching

-200 -funcione e'm ‘uma fôrma de ciclo aberto e a segunda comutação opere em uma forma de ciclo fechado.-200 -operate and I'm ‘an open loop form and the second switching operation operates in a closed loop form.

Como dito anteriormente, ambos os ramos de codificação são operativos para codificar o sinal de áudio em um modo em bloco, em que a primeira comutação ou a segunda comutação comutam-se em um modo em bloco, de modo que uma ação de comutação ocorre, no mínimo, após um bloco de um número predefinido de amostras de um sinal, o número pré-definido formando um comprimento de quadro para a comutação correspondente. Assim, o grânulo de comutação pela primeira comutação pode ser, por exemplo, um bloco de amostras 2048 ou 1028, e o comprimento do quadro com base em qual a primeira comutação 200 está comutando pode ser variável, mas é, de preferência, fixa a tal período bemAs stated earlier, both branches of encoding are operative to encode the audio signal in a block mode, where the first switching or the second switching switches in a blocking mode, so that a switching action occurs, at least, after a block of a predefined number of samples of a signal, the predefined number forming a frame length for the corresponding switching. Thus, the switching granule by the first switching can be, for example, a block of samples 2048 or 1028, and the frame length on the basis of which the first switching 200 is switching can be variable, but is preferably fixed to such a period well

45/114 longo.45/114 long.

Contrário a presente, o comprimento do bloco para a segunda comutação 521, isto é, quando a segunda comutação 521 comuta de um modo para outro, é substancialmente menor do que o comprimento de bloco para a primeira comutação. De preferência, ambos os comprimentos de bloco para as comutações são selecionadas de tal forma que o comprimento de bloco mais longo é um múltiplo inteiro do comprimento de bloco menor. Na configuração preferida, o comprimento de bloco da primeira comutação é 2048 ou 1024 e o comprimento de bloco da segunda comutação é 1024 ou mais, de preferência, 512 e até mais, de preferência, 256 e até mais, de preferência 12 8 amostras, de modo que, no máximo, a segunda comutação pode comutar 16 vezes quando a primeira comutação comuta apenas uma única vez. A proporção máxima de comprimento de bloco preferida, no entanto, é de 4:1.In contrast to the present, the block length for the second switch 521, that is, when the second switch 521 switches from one mode to another, is substantially less than the block length for the first switch. Preferably, both block lengths for switching are selected in such a way that the longest block length is an integer multiple of the shortest block length. In the preferred configuration, the block length of the first switch is 2048 or 1024 and the block length of the second switch is 1024 or more, preferably 512 and even more, preferably 256 and even more, preferably 12 8 samples, so that, at most, the second switch can switch 16 times when the first switch only switches once. The preferred maximum block length ratio, however, is 4: 1.

“ Em ‘uma* outra configuração, o controlador de 300, 525 é operativo para realizar a discriminação música-fala para a primeira comutação de tal maneira que a decisão para a fala é favorecida no que diz respeito a uma decisão para a música. Nesta configuração, a decisão para a fala é tomada mesmo quando uma porção inferior a 50% de um quadro para a comutação é fala e a porção de mais de 50% do quadro é a música.“In‘ another * configuration, the 300, 525 controller is operative to perform music-speech discrimination for the first switching in such a way that the decision for speech is favored with respect to a decision for music. In this configuration, the decision for speech is made even when a portion of less than 50% of a frame for switching is speech and the portion of more than 50% of the frame is music.

Além disso, o controlador é operativo para já comutar para o modo de fala, quando uma porção muito pequena do primeiro quadro é fala e, especificamente, quando uma porção do primeiro quadro é fala, isto é, 50% do comprimento do segundo menor quadro. Assim, uma decisão de comutação de fala preferencial/favorecimento já comuta para a fala, mesmo quando,In addition, the controller is operative to already switch to speech mode, when a very small portion of the first frame is speech, and specifically, when a portion of the first frame is speech, that is, 50% of the length of the second smallest frame . Thus, a preferential / favored speech switching decision already switches to speech, even when,

46/114 por exemplo, apenas 6% ou 12% de um bloco correspondente ao comprimento do quadro da primeira comutação é a fala.46/114 for example, only 6% or 12% of a block corresponding to the frame length of the first switch is speech.

Este procedimento tem, de preferência, o objetivo de explorar plenamente a taxa de bits poupando capacidade do primeiro ramo de transformação, que tem um núcleo de fala sonora em uma configuração e para não perder nenhuma qualidade, mesmo para o resto do primeiro quadro grande, que é uma não-fala devido ao fato de que o segundo ramo de processamento inclui um conversor e, portanto, é útil para sinais de áudio que tenham sinais de nãofala também. De preferência, este segundo ramo de processamento inclui uma sobreposição de MDCT, que é crucialmente amostrado, e que mesmo em tamanhos de janela pequenos fornece uma operação altamente eficiente e- livre de ser-ri-lhado, devido ao /processamento de cancelamento de serrilhado do domínio de tempo tal como sobreposição e adição no lado do decodificador. Além disso, um cõmpfimehtõ 3e^_bloco largo para o primeiro ramo de decodif icação que é, de preferência, um ramo de codificação MDCT como AAC útil, uma vez que os sinais de não-fala são normalmente muito parados e uma longa janela de tempo transformação fornece uma resolução de alta frequência e, portanto, de alta qualidade e, adicionalmente, fornece uma eficiência de taxa de bits devido a um módulo de quantização psicoacusticamente controlada, que também pode ser aplicado para um modo de codificação baseado na transformação no segundo ramo de processamento do segundo ramo de codificação.This procedure is preferably intended to fully exploit the bit rate while saving the capacity of the first transformation branch, which has a sonic speech core in one configuration and not to lose any quality, even for the rest of the first large frame, which is a non-speech due to the fact that the second branch of processing includes a converter and is therefore useful for audio signals that have non-speaking signals as well. Preferably, this second processing branch includes an overlap of MDCT, which is crucially sampled, and which even in small window sizes provides highly efficient and serrated-free operation due to the anti-aliasing processing time domain such as overlap and addition on the decoder side. In addition, a codefimehtõ 3e ^_ wide block for the first decoding branch which is preferably a MDCT encoding branch such as useful AAC, since the non-speech signals are usually very still and a long window of time transformation provides a high frequency resolution and therefore of high quality and additionally provides a bit rate efficiency due to a psychoacoustically controlled quantization module, which can also be applied to a coding mode based on the transformation in the second branch of processing the second branch of coding.

Tendo em vista a ilustração do decodificador da Fig. 3d, é preferível que o sinal transmitido inclua um indicador explícito como informação colateral 4a como ilustrado na Fig. 3e. Esta informação colateral 4a é extraída por um analisador de fluxoIn view of the illustration of the decoder of Fig. 3d, it is preferable that the transmitted signal includes an explicit indicator as collateral information 4a as illustrated in Fig. 3e. This collateral information 4a is extracted by a flow analyzer

47/114 de bits não ilustrado na Fig. 3d, a fim de transmitir o primeiro sinal codificado correspondente, o primeiro sinal processado ou segundo sinal processado para o processador correto, tal como o primeiro ramo de decodificação, o primeiro ramo de processamento inverso ou do segundo ramo de processamento inverso na Fig. 3d.47/114 bits not shown in Fig. 3d, in order to transmit the corresponding first encoded signal, the first processed signal or the second processed signal to the correct processor, such as the first decoding branch, the first reverse processing branch or of the second branch of inverse processing in Fig. 3d.

Portanto, um sinal codificado, não só tem a sinais codificados/processados, mas também inclui informação colateral relacionado a esses sinais. Em outras configurações, no entanto, pode haver uma sinalização implícita que permite a um analisador de fluxo de bits de lado do decodif icador distinguir entre os sinais certos. Tendo em vista a figura 3e, é salientado que o primeiro sinal processado ou o segundo sinal processado é a saída do segundo ramo de codificação e, portanto,. o segundo _sinal codificado.Therefore, an encoded signal not only has the encoded / processed signals, but also includes collateral information related to those signals. In other configurations, however, there may be an implicit signaling that allows a bit stream analyzer on the decoder side to distinguish between the right signals. In view of figure 3e, it is pointed out that the first processed signal or the second processed signal is the output of the second coding branch, and therefore. the second _coded signal.

De preferência, o primeiro ramo de decodificação e/ou o segundo ramo de processamento inverso inclui uma transformação MDCT para converter a partir do domínio espectralPreferably, the first decoding branch and / or the second reverse processing branch includes an MDCT transformation to convert from the spectral domain

para o domínio to the domain do tempo. of time. Para este For this fim end , um adicionador , an adder de in sobreposição é overlap is provido para executar provided to perform uma funcionalidade a feature de in cancelamento de cancellation of serrilhado serrated de domínio domain de in tempo que, ao mesmo time that at the same tempo, fornece time, provides um efeito an effect de cross fade, cross fade, a fim de evitar in order to avoid o O artefatos de artifacts from bloqueio. block. Geralmente, Usually, o O primeiro ramo first branch de in

decodificação converte um sinal codificado no quarto domínio para o primeiro domínio, enquanto o segundo ramo de processamento inverso executa uma conversão do terceiro domínio para o segundo domínio e o conversor subsequentemente conectado ao primeiro combinador fornece uma conversão do segundo domínio para o primeiro domínio de modo que, na entrada do combinador 600, apenasdecoding converts an encoded signal in the fourth domain to the first domain, while the second reverse processing branch performs a conversion from the third domain to the second domain and the converter subsequently connected to the first combiner provides a conversion from the second domain to the first domain so that, at the entrance of combiner 600, only

48/114 os sinais de primeiro domínio estão presentes, o que representa, na configuração da Fig. 3d, o sinal de saída decodificado.48/114 the first domain signals are present, which represents, in the configuration of Fig. 3d, the decoded output signal.

A Fig. 4a e 4b ilustram duas modalidades diferentes, que diferem na posição da comutação 200. Na Fig. 4, a comutação 200 está posicionada entre uma saída do estágio de préprocessamento comum 100 e da entrada dos dois ramos codificadosFig. 4a and 4b illustrate two different modalities, which differ in the position of switch 200. In Fig. 4, switch 200 is positioned between an output of the common preprocessing stage 100 and the input of the two coded branches

400, 500. A 400, 500. A configuração configuration da Fig. of Fig. 4a assegura que 4a ensures that o sinal de áudio the audio signal é inserido is inserted em um único in a single ramo de branch of codificação, e coding, and o outro ramo de the other branch of codificação, coding, que não está conectado à saída do that is not connected to the estágio de pré- pre- processamento comum, não common processing, not opera e operates and , portanto, está therefore is desligado ou em off or on

um modo sleep. Esta configuração é preferível quando o ramo de codificação não-ativo não consomem energia e recursos computacionais que são útil para aplicações móveis em particular, qúe são alimentados por baterias e, portanto, têm a limitação geral do consumo de energia.a sleep mode. This configuration is preferable when the non-active coding branch does not consume energy and computational resources that are useful for mobile applications in particular, which are powered by batteries and, therefore, have the general limitation of energy consumption.

__ _ ,_Por._outro lado,—porém, -a configuração da Fig. -4b pode ser preferível quando o consumo de energia não é um problema.__ _, _By._ on the other hand, - however, - the configuration in Fig. -4b may be preferable when power consumption is not an issue.

Nesta configuração, ambos os ramos de codificação 400, 500 estão ativos o tempo todo, e apenas a saída do ramo de codificação selecionado para certa porção de tempo determinados e/ou certa porção frequência é encaminhado para o formatador de fluxo de bits que pode ser implementado como um multiplexador de fluxo de bits 800. Assim, na configuração da Fig. 4b, ambos os ramos de codificação estão ativos o tempo todo, e a saída de um ramo de codificação que é selecionada pela estágio de decisão 300 é inserida no fluxo de bits de saída, enquanto a saída de outro ramo de codificação não-selecionada 400 é descartada, isto é, não entrou no fluxo de bits de saída, isto é, o sinal de áudioIn this configuration, both coding branches 400, 500 are active all the time, and only the output of the selected coding branch for a certain period of time and / or a certain frequency portion is forwarded to the bit stream formatter which can be implemented as a bitstream multiplexer 800. Thus, in the configuration of Fig. 4b, both coding branches are active all the time, and the output of a coding branch that is selected by decision stage 300 is inserted in the flow of output bits, while the output of another unselected coding branch 400 is discarded, that is, it has not entered the output bit stream, that is, the audio signal

49/114 codificado.49/114 coded.

De preferência, a segunda regra de codificação/regra de decodificação é um algoritmo de codificação baseado em LPC. Na codificação de fala baseada em LPC, é feita uma diferenciação entre segmentos de sinal de excitação como impulso quase-periódicos ou porções de sinal, e os segmentos de sinal de excitação como ruído ou porções de sinal. Isso é realizado por vocoders de LPC de taxa de bits muito baixa (2,4 kbps) como naPreferably, the second encoding rule / decoding rule is an LPC-based encoding algorithm. In LPC-based speech coding, a differentiation is made between excitation signal segments such as quasi-periodic pulses or signal portions, and excitation signal segments such as noise or signal portions. This is accomplished by very low bit rate (2.4 kbps) LPC vocoders as in

Fig. 7b. No entanto, em codificadores de CELP de taxa média, a excitação é obtida pela adição de vetores de escala de um codebook adaptativo e um codebook fixo.Fig. 7b. However, in medium rate CELP encoders, excitation is achieved by adding scale vectors from an adaptive codebook and a fixed codebook.

Segmentos de sinal de excitação como impulso quase periódico, isto é, segmentos de sinal tendo um tom específico são codificados com diferentes mecanismos do que sinais de excitação como ruído. Enquanto sinais de excitação como impulso quase-periódicos estão conectados à-fala- sonora? os^- sinais como” ruídos estão relacionados com a fala surda.Excitation signal segments as a quasi-periodic pulse, that is, signal segments having a specific tone are encoded with different mechanisms than excitation signals such as noise. While excitation signals such as quasi-periodic pulses are connected to the speech-speaker? the ^- signs like ”noises are related to deaf speech.

Exemplarmente, é feita referência às figuras 5a aFor example, reference is made to figures 5a to

5d. Aqui, os segmentos de sinal como impulso quase-periódicos ou porções de sinal e segmentos de sinal como ruído ou porções de sinal são exemplarmente discutidos. Especificamente, a fala sonora como ilustrada na figura 5a no domínio de tempo e na Fig. 5b no domínio da frequência é discutida como exemplo de uma porção de sinal como impulso quase-periódico, e um segmento de fala surda como um exemplo de uma porção de sinal como ruído é discutido em conexão com figuras 5c e 5d. A fala pode ser geralmente classificada como sonora, surda, ou mista. Os gráficos de domínio de tempo e frequência para segmentos sonoros e surdos de5d. Here, signal segments such as quasi-periodic pulses or signal portions and signal segments such as noise or signal portions are exemplarily discussed. Specifically, the speech speech as illustrated in figure 5a in the time domain and in Fig. 5b in the frequency domain is discussed as an example of a signal portion as a quasi-periodic pulse, and a speech segment as an example of a portion of signal as noise is discussed in connection with figures 5c and 5d. Speech can generally be classified as voiced, deaf, or mixed. The time and frequency domain graphs for sound and deaf segments of

50/114 amostragem são mostrados nas figuras 5a a 5d. Fala sonora é quase periódicas de domínio de tempo e harmonicamente estruturada no domínio da frequência, enquanto que a velocidade surda é semelhante à aleatória e banda larga. O espectro de curto prazo de fala sonora é caracterizada por sua fina estrutura harmônica de formante. A fina estrutura harmônica é uma consequência da quaseperiodicidade da fala e pode ser atribuída à vibração das cordas vocais. A estrutura de formantes (envelope espectral) é devido à interação da fonte e dos tratos vocais. O trato vocal composto da faringe e da cavidade bucal. O formato do envelope espectral que encaixa no espectro de curto prazo da fala sonora está associada com as características de transferência do trato vocal e a inclinação espectral (6 dB/oitava), devido ao pulso glotal. O envelope espectral é caracterizado por um conjunto de picos que são chamados formantes. Os formantes são os modos de ressonância do. trato vocal .-.Para a média do-trato vocal, —existem“três a cinco' formantes abaixo de 5 kHz. As amplitudes e posições dos três primeiros formantes, ocorrendo geralmente inferior a 3 kHz, são muito importantes, tanto em síntese de fala quanto percepção.50/114 sampling are shown in figures 5a to 5d. Sound speech is almost periodic in the time domain and harmoniously structured in the frequency domain, while the deaf speed is similar to random and broadband. The short-term spectrum of sonorous speech is characterized by its fine harmonic formant structure. The fine harmonic structure is a consequence of the almost periodicity of speech and can be attributed to the vibration of the vocal cords. The structure of formants (spectral envelope) is due to the interaction of the source and the vocal tracts. The vocal tract consists of the pharynx and the oral cavity. The shape of the spectral envelope that fits the short-term spectrum of sound speech is associated with the characteristics of transferring the vocal tract and the spectral inclination (6 dB / octave), due to the glottal pulse. The spectral envelope is characterized by a set of peaks that are called formants. Formants are the resonance modes of. vocal tract .-. For the average vocal tract, —there are “three to five 'formants below 5 kHz. The amplitudes and positions of the first three formants, occurring generally below 3 kHz, are very important, both in speech synthesis and perception.

Formantes mais elevados são também importantes para a banda larga e representações de fala surda, As propriedades da fala estão relacionados com o sistema de produção física da fala como se segue. A fala sonora é produzida por excitação do trato vocal com pulsos de ar glotal quase-periódicos gerados pela vibração das cordas vocais. A frequência dos pulsos periódicos é referida como a frequência fundamental ou tom. A fala surda é produzida ao forçar o ar através de uma constrição no trato vocal. Sons nasais devem-se ao acoplamento acústico do trato nasal ao trato vocal, θHigher formants are also important for broadband and deaf speech representations. Speech properties are related to the physical speech production system as follows. Sound speech is produced by vocal tract excitation with quasi-periodic glottal air pulses generated by the vibration of the vocal cords. The frequency of the periodic pulses is referred to as the fundamental frequency or tone. Deaf speech is produced by forcing air through a constriction in the vocal tract. Nasal sounds are due to the acoustic coupling of the nasal tract to the vocal tract, θ

51/114 os sons plosivos são produzidos pela liberação abrupta da pressão do ar que foi construído por trás do fechamento no trato.51/114 plosive sounds are produced by the abrupt release of air pressure that was built behind the closure in the tract.

Assim, uma porção como ruído do sinal de áudio não mostra nem qualquer estrutura de domínio de tempo como impulso, nem estrutura de domínio da frequência harmônica, como ilustrada na Fig. 5c e na Fig. 5d, que é diferente da porção como impulsos quase-periódicos como, por exemplo, ilustrada na Fig. 5a e na Fig. 5e. Como será descrito mais adiante, porém, a diferenciação entre as porções como ruído e porções como impulso quase-periódico também pode ser observada após um LPC para o sinal de excitação. O LPC é um método que modela o trato vocal e realiza a extração a partir do sinal de excitação do trato vocal.Thus, a portion as noise of the audio signal does not show either a time domain structure as a pulse, nor a harmonic frequency domain structure, as illustrated in Fig. 5c and in Fig. 5d, which is different from the portion as pulses almost -periodic as, for example, illustrated in Fig. 5a and Fig. 5e. As will be described later, however, the differentiation between portions as noise and portions as quasi-periodic pulse can also be observed after an LPC for the excitation signal. LPC is a method that models the vocal tract and extracts it from the excitation signal of the vocal tract.

Além disso, porções como impulso quase-periódicas e porções como ruído podem ocorrer de maneira oportuna, isto é, o que significa que uma porção de sinal de áudio em tempo é ruidosa e outra porção-de sinal de- áudio -em tempo é quase-periódicaj isto é, tonal. Alternativamente, ou adicionalmente, a característica de um sinal pode ser diferente em diferentes bandas de frequência.In addition, portions like quasi-periodic pulse and portions like noise can occur in a timely manner, that is, which means that one portion of the audio signal in time is noisy and another portion of the audio signal in time is almost -periódicaj that is, tonal. Alternatively, or in addition, the characteristic of a signal may be different in different frequency bands.

Assim, a determinação, se o sinal de áudio é ruidoso ou tonal, também pode ser realizada em frequência seletiva de modo que certa banda de frequência ou várias bandas de frequência são consideradas ruidosas e outras bandas de frequência são consideradas tonais. Neste caso, certa porção de sinal de áudio pode incluir componentes tonais e componentes ruidosos.Thus, the determination, whether the audio signal is noisy or tonal, can also be performed at selective frequency so that a certain frequency band or several frequency bands are considered noisy and other frequency bands are considered tonal. In this case, a certain portion of the audio signal may include tonal components and noisy components.

A Fig. 7 ilustra um modelo linear de um sistema de produção da fala. Este sistema pressupõe uma excitação em dois estágios, isto é, um conjunto de impulso para a fala sonora, como indicado na figura 7c, e um ruído aleatório para a fala surda, talFig. 7 illustrates a linear model of a speech production system. This system presupposes two-stage excitation, that is, a set of impulses for sound speech, as shown in figure 7c, and a random noise for deaf speech, as

52/114 como indicado na figura 7d. O trato vocal é modelado como um filtro de polo total 70 que processa os pulsos da Fig. 7c ou Fig.52/114 as shown in figure 7d. The vocal tract is modeled as a total pole filter 70 that processes the pulses of Fig. 7c or Fig.

7d, gerados pelo modelo glotal 72. Assim, o sistema da figura 7a pode ser reduzido a um modelo de filtro de polo total da Fig. 7b, tendo um estágio de ganho 77, um caminho progressivo 78, um caminho de retorno de 79 anos, e um estágio da adição de 80. No caminho de retorno 79, há um filtro de previsão 81, e de todo sistema de síntese de modelo de fonte ilustrado na Fig. 7b pode ser representado usando funções de domínio z, como se segue:7d, generated by the glottal model 72. Thus, the system of figure 7a can be reduced to a total pole filter model of Fig. 7b, having a gain stage 77, a progressive path 78, a return path of 79 years , and an addition stage of 80. On return path 79, there is a forecast filter 81, and the entire source model synthesis system illustrated in Fig. 7b can be represented using z domain functions, as follows:

S (z)=g/ (l-A(z) ) -X(z) , onde g representa o ganho, A(z) é o filtro de previsão conforme determinado por uma análise LP, X(z) é o sinal de excitação, e S(z) é a saída de fala de síntese.S (z) = g / (lA (z)) -X (z), where g represents the gain, A (z) is the prediction filter as determined by an LP analysis, X (z) is the excitation signal , and S (z) is the synthesis speech output.

As figuras 7c e 7d dão uma descrição de domínio de tempo gráfica de síntese de fala surda e sonora utilizando o modelo de sistema fonte linear. Este--sistema e -os “parâmetros de excitação na equação acima são desconhecidos e devem ser determinados a partir de um conjunto finito de amostras de fala.Figures 7c and 7d give a description of the graphical time domain of speech synthesis using the linear source system model. This - system and -the “excitation parameters in the above equation are unknown and must be determined from a finite set of speech samples.

Os coeficientes de A(z) são obtidos usando uma previsão linear do sinal de entrada e uma quantização dos coeficientes de filtro. Em um previsor linear de encaminhamento de ordem p-th, a presente amostra da sequência de fala é prevista a partir de uma combinação linear de amostras passadas de p. Os coeficientes do previsor podem ser determinados por algoritmos bem conhecidos, tais como o algoritmo de Levinson-Durbin, ou em geral um método de autocorrelação ou um método de reflexão.The coefficients of A (z) are obtained using a linear prediction of the input signal and a quantization of the filter coefficients. In a linear p-th forwarding predictor, the present speech sequence sample is predicted from a linear combination of past samples of p. The predictor coefficients can be determined by well-known algorithms, such as the Levinson-Durbin algorithm, or in general an autocorrelation method or a reflection method.

A Fig. 7e ilustra uma implementação mais detalhada do bloco de análise de LPC 510. O sinal de áudio éFig. 7e illustrates a more detailed implementation of the LPC 510 analysis block. The audio signal is

53/114 inserido em um bloco de determinação de filtro que determina a informação filtro A(z) . Esta informação realiza a saída como a informação de previsão de curto prazo necessária para um decodificador. A informação de previsão de curto prazo é exigida pela filtro de previsão real 85. Em um subtrator 86, é inserida uma amostra atual do sinal de áudio e um valor de previsão para a amostra atual é subtraída de modo que, para esta amostra, o sinal de erro de previsão é gerado na linha 84. Uma sequência de tais amostras de sinal de erro de previsão é esquematicamente bastante ilustrada nas figuras 7c e 7d. Portanto, a Fig. 7a, 7b podem ser consideradas como uma espécie de sinal como impulso retificado.53/114 inserted in a filter determination block that determines the filter information A (z). This information outputs as the short-term forecast information needed for a decoder. The short-term forecast information is required by the actual forecast filter 85. In a subtractor 86, a current sample of the audio signal is inserted and a forecast value for the current sample is subtracted so that, for this sample, the forecast error signal is generated on line 84. A sequence of such forecast error signal samples is schematically illustrated in figures 7c and 7d. Therefore, Fig. 7a, 7b can be considered as a kind of signal as a rectified pulse.

Enquanto a Fig. 7e ilustra uma forma preferida para calcular o sinal de excitação, a Fig. 7f ilustra uma forma preferida para calcular o sinal ponderado. Em contraste com a figura 7e, o filtro 85 é diferente, quando γ é diferente de 1. UmWhile Fig. 7e illustrates a preferred way to calculate the excitation signal, Fig. 7f illustrates a preferred way to calculate the weighted signal. In contrast to figure 7e, filter 85 is different, when γ is different from 1. A

Valor menor do que 1 é preferido para γ. Além disso, o bloco 87 está presente, εμέ preferencialmente um número menor do que 1.A value less than 1 is preferred for γ. In addition, block 87 is present, εμέ preferably a number less than 1.

Geralmente, os elementos na Fig. 7e e 7f podem ser implementados como em 3GPP TS 26.190 ou 3GPP TS 26.290.Generally, the elements in Fig. 7e and 7f can be implemented as in 3GPP TS 26.190 or 3GPP TS 26.290.

A Fig. 7g ilustra um processamento inverso, que pode ser aplicado no lado do decodif icador, tal como no elemento 537 da figura 2b. Particularmente, o bloco 88 gera um sinal não ponderado do sinal ponderado e o bloco 89 calcula uma excitação do sinal não ponderado. Geralmente, todos os sinais exceto o sinal não ponderado na Fig. 7g estão no domínio de LPC, mas o sinal de excitação e o sinal ponderado são sinais diferentes no mesmo domínio. O bloco 89 realiza saída de um sinal de excitação que pode, então, ser usado com a saída do bloco 536. Então, aFig. 7g illustrates reverse processing, which can be applied to the decoder side, as in element 537 of figure 2b. In particular, block 88 generates an unweighted signal from the weighted signal and block 89 calculates an excitation of the unweighted signal. Generally, all signals except the unweighted signal in Fig. 7g are in the LPC domain, but the excitation signal and the weighted signal are different signals in the same domain. Block 89 outputs an excitation signal that can then be used with the output of block 536. Then, the

54/114 transformação LPC inversa comum pode ser realizada no bloco 540 de54/114 common reverse LPC transformation can be performed in block 540 of

Fig. 2b.Fig. 2b.

Subsequentemente, um codificador CELP de análisepor-síntese será discutido em conexão com Fig. 6 a fim de ilustrar as modificações aplicadas a este algoritmo. Este codificador CELP é discutido em detalhe noSpeech Coding: A Tutorial Review,Subsequently, an analysis-by-synthesis CELP encoder will be discussed in connection with Fig. 6 in order to illustrate the modifications applied to this algorithm. This CELP encoder is discussed in detail in thepeech Coding: A Tutorial Review,

Andreas Spanias, Proceedings of the IEEE, Vol. 82, n° 10, outubro de 1994, páginas 1541-1582. O codificador CELP, conforme ilustrado na Fig. 6 inclui um componente de previsão de longo prazo 60 e um componente de previsão de curto prazo 62. Além disso, é usado um codebook que é indicado em 64. Um filtro de ponderação perceptualAndreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pages 1541-1582. The CELP encoder, as shown in Fig. 6 includes a long-term forecast component 60 and a short-term forecast component 62. In addition, a codebook that is indicated at 64 is used. A perceptual weighting filter

W(z) é implementado em 66, e um controlador de minimização de erro é-provido em__68. s_(n) é o sinal de entrada de domínio de tempo.W (z) is implemented in 66, and an error minimization controller is provided in __68. s_ (n) is the time domain input signal.

Depois de ter sido perceptualmente ponderado, o sinal ponderado é inserido em um subtrator 69, que calcula o erro entre o sinal de síntese ponderado ^—na sãída “dò bloco *66 e“o sinal -ponderado original s_w(n). Geralmente, os coeficientes do filtro de previsão de curto prazo A(z) são calculados por um estágio de análise LP e seus coeficientes são quantizados em Â(z), como indicado na figura 7e. A informação de previsão de longo prazo A_L(z), incluindo ganho de previsão de longo prazo g e índice de quantização de vetor, isto é, as referências do codebook são calculados sobre o sinal de erro de previsão para na saída da estágio de análise LPC referido como 10a na Fig. 7e. Os parâmetros LTP são o atraso de tom e ganho. Em CELP isso geralmente é implementado como um codebook adaptativo contendo o sinal de excitação passado (não o residual). 0 atraso e ganho de CB adaptativo são encontrados pela minimização do erro ponderado de média quadrada (pesquisa de tom de cicloAfter being weighted perceptually, the weighted signal is inserted in a subtractor 69, which calculates the error between the weighted synthesis signal ^- in the output “dò block * 66 and“ the original weighted signal s _w (n). Generally, the coefficients of the short-term forecast filter A (z) are calculated by an analysis stage LP and their coefficients are quantized in Â (z), as shown in figure 7e. The long-term forecast information A _L (z), including long-term forecast gain and vector quantization index, that is, the codebook references are calculated on the forecast error signal for at the output of the analysis stage LPC referred to as 10a in Fig. 7e. The LTP parameters are the tone and gain delay. In CELP this is usually implemented as an adaptive codebook containing the past excitation signal (not the residual). The delay and gain of adaptive CB are found by minimizing the weighted square mean error (cycle tone search

55/114 fechado) .55/114 closed).

O algoritmo CELP codifica então o sinal residual obtido após a previsões de curto prazo e longo prazo utilizando um codebook das, por exemplo, sequências de Gauss. O algoritmo de LPC, onde o A significa Algébrica tem um codebook específico projetado algebricamente.The CELP algorithm then encodes the residual signal obtained after short-term and long-term predictions using a codebook of, for example, Gaussian sequences. The LPC algorithm, where A stands for Algebraic has a specific codebook designed algebraically.

Um codebook pode conter mais ou menos vetores onde cada vetor é algumas amostras longas. Um fator de ganho g dimensiona o vetor código e o código adquirido é filtrado pelo filtro de síntese de previsão de longo prazo e filtro de síntese de previsão de curto prazo. O vetor de código ótimo é selecionado de modo que a o erro da média quadrada perceptualmente ponderada na saída do subtrator 69 é minimizado. O processo de pesquisa em CELP é feita por uma otimização de análise-por-síntese como ilustrado na Fig. 6.A codebook can contain more or less vectors where each vector is a few long samples. A gain factor g scales the code vector and the acquired code is filtered by the long-term forecast synthesis filter and short-term forecast synthesis filter. The optimal code vector is selected so that the error of the perceptually weighted square mean at the output of subtractor 69 is minimized. The research process at CELP is done by an analysis-by-synthesis optimization as illustrated in Fig. 6.

··—- -Para casos específ icos, quando um—frame é uma mistura de fala surda e sonora ou quando ocorre fala sobre a música, uma codificação de TCX pode ser mais apropriada para o código de excitação no domínio de LPC. A codificação de TCX processa o sinal ponderado no domínio da frequência sem fazer qualquer suposição de produção de excitação. O TCX é, então, mais genérico do que a codificação CELP e não está restrito a uma modelo de fonte surda ou sonora da excitação. O TCX é ainda uma codificação de modelo de fonte-orientada utilizando um filtro preditivo linear para modelagem dos formantes dos sinais como fala.·· —- For specific cases, when a —frame is a mixture of soft and loud speech or when speech about music occurs, a TCX encoding may be more appropriate for the excitation code in the LPC domain. TCX encoding processes the weighted signal in the frequency domain without making any assumptions about excitation production. TCX is therefore more generic than CELP encoding and is not restricted to a model of deafness or excitation sound source. TCX is also a source-oriented model encoding using a linear predictive filter for modeling the signal formants like speech.

Na codificação como AMR-WB+, uma seleção entre os diferentes modelos de TCX e ACELP ocorre como é conhecido a partirIn coding as AMR-WB +, a selection between the different models of TCX and ACELP occurs as it is known from

56/114 da descrição AMR-WB+. Os modos TCX são diferentes em que o comprimento da Transformada de Fourier Discreta em bloco é diferente para os diferentes modos e o melhor modo pode ser selecionado por uma abordagem de análise por síntese ou por um modo feedforward direto.56/114 of the AMR-WB + description. The TCX modes are different in that the length of the discrete block Fourier Transform is different for the different modes and the best mode can be selected by a synthesis analysis approach or by a direct feedforward mode.

Conforme discutido em conexão com Fig. 2a e 2b, o estágio de pré-processamento comum 100 de preferência inclui um conjunto multi-canal (dispositivo surround/joint stereo) 101 e, adicionalmente, um estágio de extensão de largura de banda 102.As discussed in connection with Fig. 2a and 2b, the common pre-processing stage 100 preferably includes a multi-channel set (surround / joint stereo device) 101 and, in addition, a bandwidth extension stage 102.

Correspondentemente, o decodificador inclui um estágio de extensão da largura de banda 701 e um estágio de conjunto multi-canal conectado subsequentemente 702. De preferência, o estágio de conjunto de multi-canal 101 é, no que diz respeito ao codificador, conectado antes do estágio de extensão de largura de banda 102, e, no lado do decodif icador, o estágio de extensão da largura de banda-701 é-conectada antes do estágio de conjunto multi-canal^-702 no que diz respeito à direção de processamento de sinal.Correspondingly, the decoder includes a bandwidth extension stage 701 and a subsequently connected multi-channel set stage 702. Preferably, the multi-channel set stage 101 is, with respect to the encoder, connected before the bandwidth extension stage 102, and, on the decoder side, the bandwidth extension stage-701 is connected before the multi-channel array stage ^- 702 with respect to the signal processing direction .

Alternativamente, no entanto, o estágio de pré-processamento comum pode incluir um estágio de conjunto multi-canal sem o estágio de extensão de largura de banda conectada subsequentemente ou um estágio de extensão da largura de banda sem um estágio de conjunto de multi-canal conectado.Alternatively, however, the common preprocessing stage can include a multi-channel set stage without the subsequently connected bandwidth extension stage or a bandwidth extension stage without a multi-channel set stage connected.

Um exemplo preferido para um estágio de conjunto multi-canal no lado do codificador 101a, 101B e no lado do decodif icador 702a e 702b é ilustrado no contexto da Fig. 8. Um número de canais de entrada originais E é inserido no downmixer 101a para que o downmixer gere um número de canais transmitidos K, onde o número K é maior ou igual a um e é menor ou igual a E.A preferred example for a multi-channel set stage on the encoder side 101a, 101B and on the decoder side 702a and 702b is illustrated in the context of Fig. 8. A number of original input channels E is inserted into the downmixer 101a for that the downmixer manages a number of transmitted channels K, where the number K is greater than or equal to one and is less than or equal to E.

57/11457/114

De preferência, os canais de entrada E realizam a entrada em um analisador de parâmetro de conjunto multi-canal 101b que gera informação paramétrica. Essa informação paramétrica é, de preferência, codificada entropicamente tal como por uma codificação de diferença e codificação Huffman subsequente ou, alternativamente, codificação aritmética subsequentes. A saída de informação paramétrica codificada por bloco 101b é transmitida a um decodif icador de parâmetro 702b que pode ser parte do item 702 na Fig. 2b. O decodificador de parâmetro 702b decodifica a informação paramétrica transmitida e encaminha a informação paramétrica decodificada para o upmixer 702a. O upmixer 702a recebe os canais de K transmitidos e gera um número de canais de saída L, onde o número de L é maior ou igual a K e menor ou igual a E.Preferably, input channels E perform input on a multi-channel set parameter analyzer 101b that generates parametric information. This parametric information is preferably encoded entropically such as by a difference encoding and subsequent Huffman encoding or, alternatively, subsequent arithmetic encoding. The block-encoded parametric information output 101b is transmitted to a parameter decoder 702b which can be part of item 702 in Fig. 2b. The parameter decoder 702b decodes the transmitted parametric information and forwards the decoded parametric information to the upmixer 702a. The upmixer 702a receives the transmitted K channels and generates a number of output channels L, where the number of L is greater than or equal to K and less than or equal to E.

Informação paramétrica pode apresentar diferenças de nível, inter-canai, diferenças* de—tempo inter-canal,-diferenças de fase inter-canal e/ou medições de coerência inter-canal como· é conhecida a partir da técnica BCC ou como é conhecida e descrita em detalhes no padrão MPEG surround. O número de canais transmitidos pode ser um canal mono single para aplicações com taxa de bits ultra-baixas ou pode incluir uma aplicação estéreo compatível ou pode incluir um sinal estéreo compatível, isto é, dois canais. Normalmente, o número de canais de entrada E pode ser cinco ou talvez até mais. Alternativamente, o número de canais de entrada E também pode ser objetos de áudio E como é conhecido no contexto de codificação de objeto de áudio espacial (SAOC).Parametric information can have level differences, inter-channel, inter-channel time differences *, inter-channel phase differences and / or inter-channel coherence measurements as is known from the BCC technique or as it is known and described in detail in the MPEG surround standard. The number of channels transmitted can be a single mono channel for applications with ultra-low bit rate or it can include a compatible stereo application or it can include a compatible stereo signal, that is, two channels. Typically, the number of input channels E can be five or maybe even more. Alternatively, the number of input channels E can also be audio objects E as it is known in the context of spatial audio object coding (SAOC).

Em uma implementação, o downmixer realiza uma soma ponderada ou não ponderada dos canais de entrada inicialIn an implementation, the downmixer performs a weighted or unweighted sum of the initial input channels

58/114 originais E ou uma adição dos objetos de áudio de entrada E. No caso de objetos de áudio como canais de entrada, o analisador de parâmetro de conjunto multi-canal 101b calculará os parâmetros de objeto de áudio tal como uma matriz de correlação entre os objetos de áudio, de preferência, para cada porção do tempo e ainda mais de preferência, para cada banda de frequência. Para este fim, a gama de frequências pode ser dividida em pelo menos 10 e preferencialmente 32 ou 64 bandas de frequência.58/114 original E or an addition of the input audio objects E. In the case of audio objects such as input channels, the multi-channel set parameter analyzer 101b will calculate the audio object parameters such as a correlation matrix between audio objects, preferably for each portion of time and even more preferably for each frequency band. For this purpose, the frequency range can be divided into at least 10 and preferably 32 or 64 frequency bands.

A Fig. 9 ilustra uma configuração preferida para a implementação do estágio de extensão da largura de banda 102 naFig. 9 illustrates a preferred configuration for implementing the bandwidth extension stage 102 in the

Fig. 2a e estágio de extensão de largura de banda correspondenteFig. 2a and corresponding bandwidth extension stage

701 na Fig. 2b. No lado do codificador, o bloco de extensão da largura de banda 102, de preferência, inclui um bloco de filtragem de baixa passagem 102b, um bloco de downsarapler, que segue o lowpass, ou que é parte do QMF inverso, que atua apenas em metade das .bandas QMF,.— e um analisador de al-ta banda 102a. A entrada de sinal de áudio original para o bloco de extensão de largura de banda 102 é filtrada em lowpass para gerar o sinal de banda baixa, que é, então, inserido para os ramos de codificação e/ou comutação. O filtro de passagem baixa tem uma frequência de corte que pode estar em uma faixa de 3kHz a 10kHz. Além disso, o bloco de extensão de largura de banda 102 inclui um analisador de banda alta para o cálculo dos parâmetros de extensão de largura de banda tal como uma informação de parâmetro de envelope espectral, uma informação de parâmetro de ruído de chão, uma informação de parâmetro de filtragem inversa, maior informação paramétrica relativa a certas linhas harmônicas na banda alta e parâmetros adicionais, como discutido em detalhe no padrão MPEG-4, no701 in Fig. 2b. On the encoder side, the bandwidth extension block 102 preferably includes a low pass filter block 102b, a downsarapler block, which follows the lowpass, or which is part of the inverse QMF, which acts only on half of the QMF bands, .— and a high band 102a analyzer. The original audio signal input for the bandwidth extension block 102 is low-pass filtered to generate the low-band signal, which is then inserted into the coding and / or switching branches. The low pass filter has a cutoff frequency that can be in the range of 3kHz to 10kHz. In addition, the bandwidth extension block 102 includes a high-band analyzer for the calculation of the bandwidth extension parameters such as a spectral envelope parameter information, a floor noise parameter information, an information of the reverse filtering parameter, greater parametric information related to certain harmonic lines in the high band and additional parameters, as discussed in detail in the MPEG-4 standard, in

59/114 capítulo relacionado à replicação de banda espectral.59/114 chapter related to spectral band replication.

No lado do decodif icador, o bloco de extensão de largura de banda 701 inclui um patcher 701a, um regulador 701b e um combinador 701c. O combinador 701C combina o sinal de banda baixa decodificado e a saída de sinal de banda alta reconstruída e ajustada pelo regulador 701b. A entrada para o regulador 701b é fornecida por um patcher que é operado para obter o sinal de banda alta do sinal de banda baixa tal como pela replicação de banda espectral ou, em geral, por extensão de largura de banda. A emenda realizada pelo patcher 701a pode ser um emenda realizada de forma harmônica ou de forma não-harmônica. O sinal gerado pelo patcherOn the decoder side, the bandwidth extension block 701 includes a patcher 701a, a regulator 701b and a combiner 701c. The combiner 701C combines the decoded low band signal and the reconstructed high band signal output adjusted by regulator 701b. The input for regulator 701b is provided by a patcher which is operated to obtain the high band signal from the low band signal such as by spectral band replication or, in general, by bandwidth extension. The splice performed by the patcher 701a can be a splice performed in a harmonic or non-harmonic way. The signal generated by the patcher

701a é, subsequentemente, ajustado pelo regulador 701b usando a informação de extensão de largura de banda paramétrica transmitida.701a is subsequently adjusted by regulator 701b using the transmitted parametric bandwidth extension information.

Como indicado na Fig. 8 e Fig. 9, os blocos descritos - podem -ter— uma entrada -de -controle do modo em Urna configuração preferida. Este entrada de controle de modo é derivada do estágio de decisão 300. Em tal configuração preferida, uma característica de um bloco correspondente pode ser adaptado para a saída de estágio de decisão, isto é, se, em uma configuração preferida, a decisão para a fala ou uma decisão para a música for feita para certa porção de tempo do sinal de áudio. De preferência, o controle de modo se refere apenas a um ou mais das funcionalidades destes blocos, mas não a todas as funcionalidades dos blocos. Por exemplo, a decisão pode influenciar apenas o patcher 701a, mas pode não influenciar os outros blocos na Fig. 9, ou pode, por exemplo, influenciar apenas o analisador de parâmetro do conjunto multi-canal 101b na Fig. 8As shown in Fig. 8 and Fig. 9, the described blocks - can have a mode control input in a preferred configuration. This mode control input is derived from decision stage 300. In such a preferred configuration, a characteristic of a corresponding block can be adapted for the decision stage output, that is, if, in a preferred configuration, the decision for the speech or a decision for the song is made for a certain amount of time of the audio signal. Preferably, the mode control refers only to one or more of the functionality of these blocks, but not to all the functionality of the blocks. For example, the decision may influence only the patcher 701a, but it may not influence the other blocks in Fig. 9, or it may, for example, influence only the parameter analyzer of the multi-channel set 101b in Fig. 8

60/114 mas não os outros blocos na figura 8. Esta implementação é, preferencialmente, de forma que uma maior flexibilidade e maior qualidade e menor saída de sinal de taxa de bits é obtida ao fornecer flexibilidade na estágio de pré-processamento comum. Por outro lado, no entanto, o uso de algoritmos na estágio de préprocessamento comum para ambos os tipos de sinais permite implementar um esquema eficiente de codificação/decodificação.60/114 but not the other blocks in figure 8. This implementation is preferably such that greater flexibility and higher quality and lower bit rate signal output is achieved by providing flexibility in the common pre-processing stage. On the other hand, however, the use of algorithms in the common preprocessing stage for both types of signals allows an efficient coding / decoding scheme to be implemented.

A Fig. 10 e Fig. 10b ilustra duas implementações diferentes do estágio de decisão 300. Na Fig. 10, é indicada uma decisão de ciclo aberto. Aqui, o analisador de sinal 300a no estágio de decisão tem certas regras a fim de decidir se certa porção de tempo ou certa porção de frequência do sinal de entrada tem uma característica que requer que esta porção do sinal esteja codificada pelo primeiro ramo de codificação 400 ou pelo o segundo ramo de codificação 500. Para este fim, o analisador de sinal 300a pode analisarão sinal de entrada de áudio para o^—estágio de préprocessamento comum ou pode analisar a saída de sinal de áudio pelo estágio de pré-processamento comum, isto é, o sinal de áudio intermediário ou pode analisar um sinal intermediário dentro do estágio de pré-processamento comum tal como a saída do sinal de downmix que pode ser um sinal mono ou que pode ser um sinal tendo canais k indicados na Fig. 8. No lado da saída, o analisador de sinal 300a gera a decisão de comutação para controlar o comutador 200 no lado do codificador e a comutação correspondente 600 ou o combinador 600 no lado do decodificador.Fig. 10 and Fig. 10b illustrate two different implementations of decision stage 300. In Fig. 10, an open cycle decision is indicated. Here, the signal analyzer 300a at the decision stage has certain rules in order to decide whether a certain portion of time or a certain portion of frequency of the input signal has a characteristic that requires that this portion of the signal to be encoded by the first encoding branch 400 or by the second coding branch 500. For this purpose, the signal analyzer 300a can analyze the audio input signal for the ^- common preprocessing stage or can analyze the audio signal output by the common preprocessing stage, i.e. that is, the intermediate audio signal or can analyze an intermediate signal within the common pre-processing stage such as the output of the downmix signal which can be a mono signal or which can be a signal having k channels indicated in Fig. 8. On the output side, signal analyzer 300a generates the switching decision to control switch 200 on the encoder side and the corresponding switch 600 or combiner 600 on the decoder side.

Embora não discutido em detalhes para a segunda comutação 521, é de se salientar que a segunda comutação 521 pode ser posicionada de forma semelhante como a primeira comutação 200,Although not discussed in detail for the second switch 521, it should be noted that the second switch 521 can be positioned similarly as the first switch 200,

61/114 conforme discutido em conexão com a Fig. 4a e Fig. 4b. Assim, uma posição alternativa de comutação 521 na Fig. 3c é a saída de ambos os ramos de processamento 522, 523, 524, de modo que ambos os ramos de processamento operem em paralelo e apenas a saída de um ramo de processamento é escrita em um fluxo de bits via um fluxo de bits anterior que não é ilustrado na Fig. 3d.61/114 as discussed in connection with Fig. 4a and Fig. 4b. Thus, an alternative switching position 521 in Fig. 3c is the output of both processing branches 522, 523, 524, so that both processing branches operate in parallel and only the output of one processing branch is written in a bit stream via a previous bit stream that is not illustrated in Fig. 3d.

Além disso, segundo o combinador 600 pode ter uma funcionalidade cross fading específica, como discutido na Fig. 4c.In addition, according to the combiner 600, it may have specific cross fading functionality, as discussed in Fig. 4c.

Alternativamente ou adicionalmente, o primeiro combinador 532 pode ter a mesma funcionalidade cross fading. Além disso, ambos os combinadores podem ter a mesma funcionalidade cross fading ou podem ter diferentes funcionalidades cross fading ou podem não ter as funcionalidades cross fading por completo de modo que ambos os combinadores são comutações sem qualquer funcionalidade adicional de cross fading.Alternatively or in addition, the first 532 combiner can have the same cross fading functionality. In addition, both combiners may have the same cross fading functionality or may have different cross fading functionality or may not have cross fading functionality at all so that both combiners are switching without any additional cross fading functionality.

-— ------- Como-discutido-anteriormente, ambas^as comutações podem ser controladas via uma decisão de ciclo aberto ou uma decisão de ciclo fechado, como discutido em conexão com a Fig. 10a e Fig. 10b, onde o controlador 300, 525 da Fig. 3c pode ter diferentes ou as mesmas funcionalidades de ambas as comutações.-— ------- As-discussed-earlier, both ^ switching can be controlled via an open cycle decision or a closed cycle decision, as discussed in connection with Fig. 10a and Fig. 10b, where the controller 300, 525 of Fig. 3c can have different or the same functionalities of both switching.

Além disso, uma funcionalidade de deformação de tempo que é sinal-adaptativo pode existir não só no primeiro ramo de codificação ou primeiro ramo de decodif icação, mas também pode existir no segundo ramo de processamento do segundo ramo de codificação no lado do codificador, bem como no lado do decodificador. Dependendo do sinal processado, ambas as funcionalidades de deformação de tempo podem ter a mesma informação de deformação de tempo de modo que a mesma deformaçãoIn addition, a time warp functionality that is signal-adaptive can exist not only in the first coding branch or first decoding branch, but it can also exist in the second processing branch of the second coding branch on the encoder side, as well as on the decoder side. Depending on the processed signal, both time deformation features may have the same time deformation information so that the same deformation

62/114 de tempo se aplica aos sinais no primeiro domínio e no segundo domínio. Isso economiza carga de processamento e pode ser útil em alguns exemplos, nos casos onde os blocos subsequentes têm uma característica de deformação de tempo similar. Em configurações alternativas, no entanto, é preferível ter estimadores de deformação de tempo independentes para o primeiro ramo da codificação e o segundo ramo de processamento no segundo ramo de codificação.62/114 time applies to signals in the first domain and the second domain. This saves processing load and can be useful in some examples, in cases where subsequent blocks have a similar time warping characteristic. In alternative configurations, however, it is preferable to have independent time strain estimators for the first branch of coding and the second processing branch in the second branch of coding.

0 sinal de áudio codificado inventivo pode The inventive encoded audio signal can ser to be armazenado stored em in um meio de armazenamento digital ou podem a digital storage medium or can ser to be transmitido transmitted em in um meio de transmissão tal como um meio a means of transmission such as a means de in transmissão streaming sem without fio ou um meio de transmissão com fio, tal como a wire or a wired transmission medium, such as the

Internet.Internet.

Em uma configuração diferente, a comutação 200 daIn a different configuration, switching 200 from

Fig. Ia e 2a comuta entre os dois ramos de codificação 400, 500.Fig. 1a and 2a switches between the two coding branches 400, 500.

_Em_uma. outra configuração,__pode.... _haver ramos de codificação adicionais, como um terceiro ramo de codificação ou mesmo um quarto ramo de codificação ou até mais ramos de codificação. No lado do decodif icador, o comutação 600 da Fig. lb ou 2b comuta entre os dois ramos de decodif icação 431, 440 e 531, 532, 533,_In a. another configuration, __ can .... _ there are additional coding branches, such as a third coding branch or even a fourth coding branch or even more coding branches. On the decoder side, switch 600 of Fig. Lb or 2b switches between the two decoder branches 431, 440 and 531, 532, 533,

534, 540. Em uma outra configuração, pode haver ramos de decodificação adicionais, tais como um terceiro ramo de decodif icação ou até mesmo um quarto ramo de decodif icação ou até mais ramos de decodificação. Similarmente, as outras comutações 521 ou 532 podem comutar entre mais de dois algoritmos de codificação diferentes, quando são fornecidos tais ramos de codificação/decodificação adicionais.534, 540. In another configuration, there may be additional decoding branches, such as a third decoding branch or even a fourth decoding branch or even more decoding branches. Similarly, the other 521 or 532 switches can switch between more than two different encoding algorithms, when such additional encoding / decoding branches are provided.

Fig. 12A ilustra uma configuração preferida deFig. 12A illustrates a preferred configuration of

63/114 uma implementação de codificador, e a Fig. 12B ilustra uma configuração preferida de implementação de decodificador correspondente. Além dos elementos discutidos antes no que diz respeito aos números de referência correspondente, a configuração da Fig. 12A ilustra um módulo psicoacústico separado 1200 e, adicionaimente, ilustra uma implementação preferencial das ferramentas do codificador ilustrados no bloco 421 da Fig. 11A. Estas ferramentas adicionais são uma ferramenta de modelagem de ruído temporal (TNS) 1201 e uma ferramenta de codificação mid/side (M/S) 1202. Além disso, funcionalidades adicionais dos elementos63/114 is an encoder implementation, and Fig. 12B illustrates a preferred configuration of corresponding decoder implementation. In addition to the elements discussed above with respect to the corresponding reference numbers, the configuration of Fig. 12A illustrates a separate psychoacoustic module 1200 and, furthermore, illustrates a preferred implementation of the encoder tools illustrated in block 421 of Fig. 11A. These additional tools are a temporal noise modeling tool (TNS) 1201 and a mid / side (M / S) coding tool 1202. In addition, additional element functionality

421 e 524 são ilustradas no bloco 421/542 como uma implementação combinada de dimensionamento, análise de preenchimento de ruído, quantizaçâo, codificação aritmética dos valores espectrais.421 and 524 are illustrated in block 421/542 as a combined implementation of scaling, noise filling analysis, quantization, arithmetic coding of spectral values.

Na implementação do decodificador correspondente Fig.., . 12B, elementos adicionais são ilustrados, que são uma ferramenta de decodif icação M/S 1203 e uma ' 'ferramenta decodificador TNS 1204. Além disso, um postfilter de baixo não ilustrado nas figuras anteriores é indicado em 1205. A bloco de janelas de transição 532 corresponde ao elemento 532 na Fig. 2B, que é ilustrado como uma comutação, mas que realiza uma espécie de cross fading que pode ser um excesso de amostra cross fading ou cross fading crucialmente amostrado. Esta última é implementada como uma operação MDCT, em duas porções de tempo serrilhadas são sobrepostas e adicionadas. Esse processamento de transição crucialmente amostrada é, de preferência, utilizada onde apropriadas, uma vez que a taxa de bits total pode ser reduzida sem perda de qualidade. 0 bloco de janelas de transição adicionalIn the implementation of the corresponding decoder Fig ..,. 12B, additional elements are illustrated, which are a decoding tool M / S 1203 and a '' TNS decoder tool 1204. In addition, a bottom postfilter not shown in the previous figures is indicated in 1205. The transition window block 532 corresponds to element 532 in Fig. 2B, which is illustrated as a switch, but which performs a kind of cross fading that can be a crucially sampled cross fading or cross fading excess. The latter is implemented as an MDCT operation, in which two serrated time portions are superimposed and added. This crucially sampled transition processing is preferably used where appropriate, since the total bit rate can be reduced without loss of quality. 0 additional transition window block

600 corresponde ao combinador 600 na Fig. 2B, que está outra vez600 corresponds to combiner 600 in Fig. 2B, which is again

64/114 ilustrada como uma comutação, mas é claro que este elemento realiza um tipo de cross fading ou crucialmente amostrado ou nãocrucialmente amostrado, a fim de evitar artefatos de bloco e, especificamente artefatos de comutação, quando um bloco foi processado no primeiro ramo e outro bloco foi processado no segundo ramo. Quando, entretanto, o processamento em ambos os ramos é perfeitamente correspondido com seu outro, então a operação de cross fading pode degradar para uma comutação difícil, enquanto uma operação de cross fading é entendida como64/114 illustrated as a switch, but it is clear that this element performs a type of cross fading either crucially sampled or not crucially sampled, in order to avoid block artifacts and, specifically switching artifacts, when a block was processed in the first branch and another block was processed in the second branch. When, however, the processing in both branches is perfectly matched with its other, then the cross fading operation can degrade to a difficult switching, while a cross fading operation is understood as

uma comutação soft entre os soft switching between dois ramos. two branches. permite a allows the O O conceito concept na at Fig. 12A e 12B Fig. 12A and 12B codificação de sinais tendo signal coding having uma an mistura arbitrária arbitrary mixing de fala e of speech and

conteúdo dê* áudio, e este conceito se realiza comparável a ou melhor do que a melhor tecnologia de codificação que pode ser sob medida, especificamente para a codificação tanto de fala quanto de conteúdo de áudio geral. A estrutura geral do codificador * e - o decodif icador pode ser descrita em que há um pré/pós-processamento comum que consiste em um unidade funcional MPEG surround (MPEGs) para lidar com processamento em estéreo ou multi-canal e uma unidade intensificada SBR (eSBR), que trata a representação paramétrica de frequências de áudio mais elevadas no sinal de entrada. Então, existem dois ramos, um constituído por um caminho da ferramenta avançado de codificação de áudio modificado (AAC) e o outro consiste de um caminho de base (domínio LP ou LPC) de codificação de predição linear, que por sua vez apresenta tanto uma representação de domínio de frequência quanto uma representação de domínio de tempo de LPC residual. Todos os espectros transmitidos para ambos, AAC e LPC, são representados no* audio content, and this concept is comparable to or better than the best coding technology that can be tailored, specifically for the coding of both speech and general audio content. The general structure of the encoder * and - the decoder can be described in that there is a common pre / post processing that consists of a functional MPEG surround unit (MPEGs) to handle stereo or multi-channel processing and an enhanced SBR unit (eSBR), which deals with the parametric representation of higher audio frequencies in the input signal. So, there are two branches, one consisting of an advanced modified audio encoding tool (AAC) path and the other consisting of a base path (LP or LPC domain) of linear prediction encoding, which in turn presents both a frequency domain representation as well as a residual LPC time domain representation. All spectra transmitted for both AAC and LPC are represented in the

65/114 domínio MDCT seguindo quantização e codificação aritmética. A representação de domínio de tempo utiliza um esquema de codificação de excitação de LPC. A estrutura básica é mostrada na65/114 MDCT domain following quantization and arithmetic coding. The time domain representation uses an LPC excitation coding scheme. The basic structure is shown in

Fig. 12A para o codificador e Fig. 12B para o decodificador. O fluxo de dados neste diagrama é da esquerda para a direita, de cima para baixo. As funções do decodificador são encontrar a descrição do espectro de áudio quantizados ou representação de domínio de tempo na carga de fluxo de bits e decodificar os valores quantizados e outras informações de reconstrução.Fig. 12A for the encoder and Fig. 12B for the decoder. The data flow in this diagram is from left to right, top to bottom. The functions of the decoder are to find the quantized audio spectrum description or time domain representation in the bitstream payload and to decode the quantized values and other reconstruction information.

No caso de informação espectral transmitida, o decodificador deve reconstruir os espectros quantizados, processar o espectro reconstruído através de quaisquer ferramentas são átivós' na carga do fluxo .de bits, a; fim de chegar ao espectro de sinal real, como descrito pela carga de fluxo de bits de entrada, e, finalmente converter o espectro de domínio de frequência no domínio de tempo. Seguindo a reconstrução inicial e~ ampliação da* - - reconstrução dô^-' “espectroj— -existem—-ferramentas opcionais que modificam um ou mais dos espectros, a fim de fornecer uma codificação mais eficiente.In the case of transmitted spectral information, the decoder must reconstruct the quantized spectra, process the reconstructed spectrum through any tools that are atoms in the load of the bit stream, a; order to arrive at the actual signal spectrum, as described by the input bitstream payload, and, finally, convert the frequency domain spectrum into the time domain. Following the initial reconstruction and ~ enlargement of the * - - do reconstruction ^- '“spectroj— -exist —- optional tools that modify one or more of the spectra, in order to provide more efficient coding.

Em caso de representação de sinal de domínio de tempo transmitido, o decodificador deve reconstruir o sinal de tempo quantizado, processar o sinal de tempo reconstruído através de quaisquer ferramentas que estejam ativas na carga do fluxo de bits, a fim de chegar ao sinal de domínio de tempo real como descrito pela carga de fluxo de bits de entrada.In the case of representation of the transmitted time domain signal, the decoder must reconstruct the quantized time signal, process the reconstructed time signal through any tools that are active in the bitstream load, in order to arrive at the domain signal real-time as described by the input bitstream payload.

Para cada uma das ferramentas opcionais que operam nos dados de sinal, a opção para pass through é mantida, e em todos os casos onde o processamento é omitido, as amostras deFor each of the optional tools that operate on the signal data, the option for pass through is maintained, and in all cases where processing is omitted,

66/114 espectro ou tempo em sua entrada são passadas diretamente através da ferramenta sem modificação.66/114 spectrum or time at its entry is passed directly through the tool without modification.

Nos lugares onde o fluxo de bits muda sua representação de sinal a partir do domínio de tempo para a representação o domínio de frequência ou do domínio de LP para o domínio de não-LP ou vice-versa, o decodificador deve facilitar a transição de um domínio para outro por meio de janela de adição de sobreposição de transição apropriada.In places where the bit stream changes its signal representation from the time domain to the representation of the frequency domain or from the LP domain to the non-LP domain or vice versa, the decoder should facilitate the transition from one domain to another through the appropriate transition overlay addition window.

O processamento eSBR e MPEGS é aplicado da mesma maneira para ambos os caminhos de codificação após o manuseio de transição.ESBR and MPEGS processing is applied in the same way for both coding paths after transition handling.

A entrada para a ferramenta de demultiplexador de carga de fluxo de bits é uma carga de fluxo de bits. O demultiplexador separa a carga de fluxo de bits para as partes de cada ferramenta e fornece para cada uma das ferramentas a informação de carga de fluxo de bits relacionadas~ àquela* -fer-ramenta__________:_______________The input to the bitstream load demultiplexer tool is a bitstream load. The demultiplexer separates the bitstream payload for the parts of each tool and provides for each of the tools the bitstream payload information related to that * tool-_________ _: _______________

As saídas da ferramenta de demultiplexador de carga de fluxo de bits são:The outputs of the bitstream load demultiplexer tool are:

- Dependendo do tipo de codificação do núcleo no quadro atual, quer:- Depending on the type of core coding in the current framework, either:

os espectros codificados quantizados e sem ruído representados pela(s)the quantized and noise-free coded spectra represented by (s)

- informação do fator de escala- scale factor information

- linhas espectrais codificadas aritmeticamente- arithmetically coded spectral lines

- ou: parâmetros de previsão linear (LP) com um sinal de excitação representado por meio de:- or: linear prediction parameters (LP) with an excitation signal represented by:

- linhas espectrais quantizadas e codificadas- quantized and coded spectral lines

67/114 aritmeticamente (excitação codificada de transformação, TCX) ou67/114 arithmetically (encoded transformation excitation, TCX) or

- excitação de domínio do tempo de ACELP codificada- encoded ACELP time domain excitation

A informação de preenchimento de ruído espectral (opcional)Spectral noise fill information (optional)

- A informação de decisão M/S(opcional)- M / S decision information (optional)

- A informação de modelagem de ruído temporal (TNS) (opcional)- Temporal noise modeling (TNS) information (optional)

- A informação de controle de banco de filtro- The filter bank control information

- A informação de controle de não deformação de tempo (TW) (opcional)- Time deformation control information (TW) (optional)

- A informação de controle (eSBR) de replicação de_largura de banda espectral enriquecida- Enriched spectral bandwidth replication control information (eSBR)

A informação de controle de MPEG Surround (MPEGS)The control information of MPEG Surround (MPEGS)

A ferramenta de decodificaçãó~ silenciosa hde^fator de-escala—le-va_informação,_a_par_tir_ do demultiplexador de carga de fluxo de bits, analisa essa informação e descodifica pelo fatores de escala codificados Huffman e DPCM codificada.The scale decoder tool has a scale factor — le-va_information, _a_par_tir_ of the bitstream load demultiplexer, analyzes this information and decodes it using Huffman and DPCM encoded scale factors.

A entrada para a ferramenta de decodificação silenciosa de fator de escala é:The entry for the scale factor silent decoding tool is:

A informação do fator de escala para os espectros codificados sem ruídoThe scaling factor information for the noise-encoded spectra

A saída da ferramenta de decodificação silenciosa de fator de escala é:The output of the scale factor silent decoding tool is:

A representação inteira decodificada dos fatores de escala:The entire decoded representation of the scale factors:

A ferramenta de decodificação silenciosaThe silent decoding tool

68/114 espectral leva informação a partir do demultiplexador de carga de fluxo de bits, analisa essa informação, decodifica os dados codificados aritmeticamente, e reconstrói os espectros quantizados. A entrada para esta ferramenta de decodificação silenciosa é:68/114 spectral takes information from the bitstream charge demultiplexer, analyzes that information, decodes the arithmetically encoded data, and reconstructs the quantized spectra. The entry for this silent decoding tool is:

- Os espectros codificados silenciosamente- Silently encoded spectra

A saída desta ferramenta de decodificação silenciosa é.The output of this silent decoding tool is.

- Os valores quantizados dos espectros- The quantized values of the spectra

A ferramenta de quantização inversa toma os valores quantizados para os espectros e converte os valores inteiros para os espectros reconstruído não em escala. Este quantizador é um quantizador tipo companding (compressão), cujo fator de compressão depende do modo de codificação do núcleo escolhido.The inverse quantization tool takes the quantized values for the spectra and converts the whole values for the reconstructed non-scale spectra. This quantizer is a companding quantizer (compression), whose compression factor depends on the coding mode of the chosen core.

~ - A^—entrada para “a férramenta^Inverse^Quantizer é:~ - A ^- entry for “the tool ^ Inverse ^ Quantizer is:

- Os valores quantizados para os espectros- Quantized values for the spectra

A saída da ferramenta quantizadora inversa é:The output of the inverse quantizer tool is:

Os espectros quantizados inversamente nãodimensionados,The inverse quantized spectra are not dimensioned,

A ferramenta de preenchimento de ruído é usada para preencher as lacunas espectrais nos espectros decodificados, que ocorrem quando os valores espectrais são quantizados para zero, por exemplo, devido a uma forte restrição na demanda de bits no codificador. O uso da ferramenta de preenchimento de ruído é opcional.The noise filling tool is used to fill the spectral gaps in the decoded spectra, which occur when the spectral values are quantized to zero, for example, due to a strong restriction in the demand for bits in the encoder. The use of the noise fill tool is optional.

As entradas para a ferramenta de preenchimento de ruído são:The inputs for the noise fill tool are:

69/11469/114

Os espectros quantizados inversamente nãodimensionado,The inverse quantized spectra are not dimensioned,

- Parâmetros de preenchimento de ruído- Noise filling parameters

- A representação inteira decodificada do fatores de escala- The entire decoded representation of the scale factors

As saídas para a ferramenta de preenchimento de ruído são:The outputs for the noise fill tool are:

- Os valores espectrais quantizados inversamente não-dimensionados para linhas espectrais que foram previamente quantizadas a zero.- Inversely quantized spectral values not dimensioned for spectral lines that were previously quantized to zero.

- Representação inteira modificada do fatores de escala- Modified entire representation of scale factors

A ferramenta de redimensionamento converte a representação inteira dos fatores de escala para os valores reais, e multiplica o espectros quantizados inversamente nãodimensionados pelos ‘fatores de escala relevantes. -- — —The resizing tool converts the entire representation of the scale factors to the actual values, and multiplies the inverse quantized spectra not dimensioned by the ‘relevant scale factors. - - -

As entradas para a ferramenta de fatores de escala são:The inputs for the scale factor tool are:

- Os espectros quantizados inversamente nãodimensionados- The inverse quantized spectra are not dimensioned

A saída da ferramenta de fatores de escala é:The output of the scale factor tool is:

- Os espectros quantizados inversamente em escala Para uma visão geral sobre a ferramenta M/S, consulte a norma ISO/IEC 14496-3, subitem 4.1.1.2.- Spectra inversely quantized in scale For an overview of the M / S tool, refer to the ISO / IEC 14496-3 standard, subitem 4.1.1.2.

Para uma visão geral sobre a ferramenta de modelagem de ruído temporal (TNS), consulte a norma ISO/IEC 1449670/114For an overview of the temporal noise modeling (TNS) tool, see ISO / IEC 1449670/114

3, subitem 4.1.1.2.3, sub-item 4.1.1.2.

O banco de filtro/ ferramenta de comutação de bloco aplica o inverso do mapeamento da frequência que foi realizado no codificador. Ά transformação do cosseno discreto inverso modificado (IMDCT) é usado para a ferramenta de banco de filtro. O IMDCT pode ser configurado para amparar os coeficientes espectrais 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024 ouThe filter bank / block switching tool applies the inverse of the frequency mapping that was performed on the encoder. Ά Modified inverse discrete cosine transformation (IMDCT) is used for the filter bank tool. The IMDCT can be configured to support the spectral coefficients 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024 or

1152 .1152.

As entradas para a ferramenta de banco de filtro filtro é (são):The entries for the filter bank filter tool is (are):

domínio de tempotime domain

- Os espectros (inversamente quantizados)- Spectra (inversely quantized)

- A informação de controle do banco de filtro- The filter bank control information

A(s) saída(s) a partir da ferramenta de banco deThe output (s) from the database tool

O(s) sinal(is) de áudio reconstruído(s) deThe reconstructed audio signal (s) from

O banco de filtro de tempo desfigurado/ferramenta filtro banco de de comutação de bloco substitui o normal/ferramenta de comutação de bloco quando o modo de deformação de tempo está habilitado. O Banco de filtro é o mesmo (IMDCT) do banco de filtro normal. Adicionalmente às amostras de domínio de tempo em janela são mapeados a partir do domínio de tempo desfigurado para o domínio de tempo linear pela reamostragem de tempo variado.The defaced time filter bank / block switching bank filter tool replaces the normal / block switching tool when the time warp mode is enabled. The filter bank is the same (IMDCT) as the normal filter bank. In addition to windowed time domain samples, they are mapped from the disfigured time domain to the linear time domain by varying time resampling.

As entradas para as ferramentas de banco de filtro de tempo desfigurado são:The entries for the defaced time filter bank tools are:

- Os espectros quantizados inversamente- Inverse quantized spectra

71/11471/114

- A informação de controle de tempo desfigurado- Disfigured time tracking information

A(s) saída(s) a partir da ferramenta de banco de filtro é (são):The output (s) from the filter bank tool is (are):

- 0(s) sinal(is) de áudio reconstruído(s) de domínio de tempo linear.- 0 (s) audio signal (s) reconstructed from linear time domain.

A ferramenta de SBR (eSBR) realçado regenera a banda alta do sinal de áudio. É baseado na replicação das sequências de harmônicas truncadas durante a codificação. Ela ajusta o envelope espectral da banda alta gerada, aplica filtragem inversa, e adiciona ruído e componentes senoidais, a fim de recriar as características espectrais do sinal original.The highlighted SBR (eSBR) tool regenerates the high bandwidth of the audio signal. It is based on the replication of the truncated harmonic sequences during encoding. It adjusts the spectral envelope of the generated high band, applies reverse filtering, and adds noise and sinusoidal components in order to recreate the spectral characteristics of the original signal.

A entrada para a ferramenta eSBR é:The entry for the eSBR tool is:

- Os dados de envelope quantizados- Quantized envelope data

- Dados de controle Misc.- Misc control data.

Um sinal de domínio de tempo a partir do decodificador de núcleo—de AAC — _ “ ~ ” _ _ - ·A time domain signal from the core decoder — from AAC - _ “~” _ _ - ·

A saída de ferramenta eSBR é:The eSBR tool output is:

- um sinal de domínio de tempo ou uma representação de domínio de QMF de um sinal, por exemplo, no caso da ferramenta de MPEG Surround ser utilizada.- a time domain signal or a QMF domain representation of a signal, for example, if the MPEG Surround tool is used.

A ferramenta de MPEG Surround (MPEGS) produz múltiplos sinais de um ou mais sinais de entrada ao aplicar um procedimento upmix sofisticado para o(s) sinal(is) de entrada controlado por parâmetros espaciais apropriados. No contexto de USAC, o MPEGs é usado para codificação de um sinal multi-canal, pela transmissão de informação colateral paramétrica ao lado de um sinal de downmix transmitido.The MPEG Surround tool (MPEGS) produces multiple signals from one or more input signals by applying a sophisticated upmix procedure to the input signal (s) controlled by appropriate spatial parameters. In the context of USAC, MPEGs are used to encode a multi-channel signal, by transmitting parametric collateral information alongside a transmitted downmix signal.

72/11472/114

A entrada para a ferramenta MPEGS é:The entry for the MPEGS tool is:

- um sinal de domínio de tempo downmix; ou- a downmix time domain signal; or

- uma representação e domínio de QMF de um sinal de downmix a partir da ferramenta eSBR- a QMF representation and domain of a downmix signal from the eSBR tool

A saída da ferramenta MPEGS é:The output of the MPEGS tool is:

- um sinal de domínio de tempo multi-canal- a multi-channel time domain signal

A ferramenta Signal Classifier (classificadora de sinal) analisa o sinal de entrada original e gera a partir dele a informação de controle que desencadeia a seleção dos diferentes modos de codificação. A análise do sinal de entrada é dependente da implementação e tentará escolher o modo do núcleo de codificação ideal para um dado quadro de sinal de entrada. A saída do classif icador de sinais pode (opcionalmente) também ser usada para influenciar o comportamento de outras ferramentas, por exemplo, a de MPEG -Surround, de SBR 'realçada, de banco dê filtro de tempo desfigurado e outras.The Signal Classifier tool analyzes the original input signal and generates from it the control information that triggers the selection of the different coding modes. The analysis of the input signal is implementation dependent and will attempt to choose the ideal coding core mode for a given input signal frame. The output of the signal classifier can (optionally) also be used to influence the behavior of other tools, for example, MPEG -Surround, enhanced SBR ', defaced time filter and others.

A entrada para a ferramenta Signal Classifier é:The entry for the Signal Classifier tool is:

- o sinal de entrada original sem modificações- the original input signal unchanged

- - parâmetros dependentes de implementação adicional- - parameters dependent on additional implementation

A saída da ferramenta Signal Classifier é:The output of the Signal Classifier tool is:

- um sinal de controle para controlar a seleção do codec núcleo (codificação de domínio de frequência filtrada não-LP, codificação de domínio da frequência filtrada LP ou codificação de domínio de tempo filtrada LP)- a control signal to control the selection of the core codec (non-LP filtered frequency domain coding, LP filtered frequency domain coding or LP filtered time domain coding)

De acordo com a presente invenção, a resolução de tempo/frequência no bloco 410 da Fig. 12A e no conversor 523 daAccording to the present invention, the time / frequency resolution in block 410 of Fig. 12A and in converter 523 of

73/11473/114

Fig. 12A é dependente de controle no sinal de áudio. A interrelação entre o comprimento da janela, comprimento de transformação, resolução de tempo e resolução de frequência é ilustrada na figura 13A, onde se torna claro que, para um comprimento de janela longo, a resolução de tempo fica baixa, mas a resolução de frequência fica alta, e por um pequeno comprimento de janela, a resolução de tempo é alta, mas a resolução de frequência é baixa.Fig. 12A is dependent on the control of the audio signal. The interrelation between the window length, transformation length, time resolution and frequency resolution is illustrated in figure 13A, where it becomes clear that, for a long window length, the time resolution is low, but the frequency resolution it gets high, and for a small window length, the time resolution is high, but the frequency resolution is low.

No primeiro ramo de codificação, que é de preferência o ramo de codificação AAC indicado por elementos 410,In the first coding branch, which is preferably the AAC coding branch indicated by elements 410,

1201, 1202, 4021 da Fig. 12A, janelas diferentes podem ser usadas, onde a forma de janela é determinada por um analisador de sinal que é, de preferência, codificado no bloco de classificador de sinal 300, mas que também pode ser um módulo separado. O codificador seleciona uma das janelas ilustradas na Fig. 13B, que têm—diferentes resoluções 'de tempo'/frequência. A” resolução de tempo/frequência da primeira janela longa, da segunda janela, da quarta janela, da quinta janela e sexta janela é igual a 2.048 valores de amostragem para um comprimento de transformação de1201, 1202, 4021 of Fig. 12A, different windows can be used, where the window shape is determined by a signal analyzer which is preferably encoded in the signal classifier block 300, but which can also be a module separate. The encoder selects one of the windows illustrated in Fig. 13B, which have — different 'time' / frequency resolutions. The "time / frequency resolution of the first long window, the second window, the fourth window, the fifth window and the sixth window is equal to 2,048 sample values for a transformation length of

1.02-4. A pequena janela ilustrada na terceira linha da Fig. 13B tem uma resolução de tempo de 256 valores de amostragem correspondentes ao tamanho da janela. Isso corresponde a uma comprimento de transformação de 128.1.02-4. The small window illustrated in the third line of Fig. 13B has a time resolution of 256 sample values corresponding to the size of the window. This corresponds to a transformation length of 128.

Analogamente, as duas últimas janelas têm um comprimento de janela igual a 2.304, que é uma resolução de frequência melhor do que a janela na primeira linha, mas uma resolução de tempo menor. O comprimento de transformação das janelas nas duas últimas linhas é igual a 1.152.Similarly, the last two windows have a window length of 2,304, which is a better frequency resolution than the window in the first line, but a smaller time resolution. The transformation length of the windows in the last two lines is equal to 1,152.

74/11474/114

No primeiro ramo de codificação, as sequências de janelas diferentes, que são erigidas a partir das janelas de transformação na Fig. 13B, podem ser construídas. Embora na Fig.In the first branch of coding, the sequences of different windows, which are erected from the transformation windows in Fig. 13B, can be constructed. Although in Fig.

13C apenas uma curta sequência é ilustrada, enquanto as outras sequências consistem em apenas uma janela única, sequências maiores consistindo de mais janelas também podem ser construídas.13C only a short sequence is illustrated, while the other sequences consist of only a single window, larger sequences consisting of more windows can also be constructed.

Note-se que de acordo com a Fig. 13B, para o menor número de coeficientes, isto é, 960 em vez de 1.024, a resolução de tempo também é menor do que o número maior correspondente de coeficientes, tais como 1024.Note that according to Fig. 13B, for the smallest number of coefficients, that is, 960 instead of 1,024, the time resolution is also less than the corresponding largest number of coefficients, such as 1024.

A Fig. 14A - 14G ilustra resoluções diferentes/tamanhos de janela no segundo ramo de codificação. Em uma configuração preferida da presente invenção, o segundo ramo de codificação tem um primeiro ramo de processamento, que é um codificador de domínio do tempo de ACELP 526, e o segundo ramo de processamento compreende c banco “de filtro ”523 7 Neste ramo, um super quadro de, por exemplo, 2.048 amostras, é sub-dividido em quadros de 256 amostras. Quadros individuais de 256 amostras podem ser utilizados separadamente, de modo que uma sequência de quatro janelas, cada janela abrangendo dois quadros, podem ser aplicadas quando um MDCT com uma sobreposição de 50 por cento é aplicada. Então, uma alta resolução de tempo é usada como ilustrada na Fig.Fig. 14A - 14G illustrates different resolutions / window sizes in the second coding branch. In a preferred embodiment of the present invention, the second branch of coding has a first branch of processing, which is an ACELP 526 time domain encoder, and the second processing branch comprises a “filter” bank 523 7 In this branch, a super frame of, for example, 2,048 samples, is sub-divided into frames of 256 samples. Individual 256 sample frames can be used separately, so that a sequence of four windows, each window spanning two frames, can be applied when an MDCT with a 50 percent overlap is applied. Then, a high time resolution is used as illustrated in Fig.

14D. Alternativamente, quando o sinal permite janelas mais longas, a sequência como na Fig. 14C podem ser aplicada, onde é aplicado um tamanho de janela dupla tendo 1.024 amostras para cada janela (janelas médias) , de modo que uma janela abrange quatro quadros e há uma sobreposição de 50 por cento.14D. Alternatively, when the signal allows for longer windows, the sequence as in Fig. 14C can be applied, where a double window size is applied having 1,024 samples for each window (medium windows), so that a window covers four frames and there are a 50 percent overlap.

Finalmente, quando o sinal é tal que uma janelaFinally, when the signal is such that a window

75/114 longa pode ser usada, esta janela longa se estende por 4.096 amostras novamente com uma sobreposição de 50 por cento.75/114 long can be used, this long window spans 4,096 samples again with a 50 percent overlap.

Na configuração preferida, na qual existem dois ramos, onde uma ramo tem um codificador de ACELP, a posição do quadro ACELP indicado por A no super quadro também pode determinar o tamanho da janela aplicado para dois quadros adjacentes de TCX indicados por T na Fig. 14E. Basicamente, há interesse no uso janelas longas sempre que possível. No entanto, a janelas curtas têm de ser aplicadas quando um quadro único T está entre dois quadros A. Janelas médias podem ser aplicadas quando existem dois quadros adjacentes T. Porém, quando há três quadros adjacentes T, uma janela maior correspondente não pode ser eficiente devido à complexidade adicional. Portanto, o terceiro quadro T, embora não seja precedida por um quadro A, pode ser processado por uma janela curta. Quando todo o super quadro só tem quadros- T-, então, uma- janela-longa pode ser aplicada.In the preferred configuration, in which there are two branches, where a branch has an ACELP encoder, the position of the ACELP frame indicated by A in the super frame can also determine the size of the window applied to two adjacent TCX frames indicated by T in Fig. 14E. Basically, there is an interest in using long windows whenever possible. However, short windows must be applied when a single T frame is between two A frames. Medium windows can be applied when there are two adjacent T frames. However, when there are three adjacent T frames, a corresponding larger window cannot be efficient. due to the added complexity. Therefore, the third T frame, although not preceded by an A frame, can be processed by a short window. When the entire super frame only has T-frames, then a long-window can be applied.

A Fig. 14F ilustra várias alternativas para janelas, onde o tamanho da janela é sempre 2x o número lg de coeficientes espectrais devido a uma sobreposição de 50 por cento preferencial. No entanto, outras porcentagens de sobreposição para todos os ramos de codificação podem ser aplicadas de modo que a relação entre o tamanho da janela e comprimento da transformação também possa ser diferente de dois e até mesmo se aproximar a um, quando não é aplicado um serrilhado de domínio de tempo.Fig. 14F illustrates several alternatives for windows, where the window size is always 2x the lg number of spectral coefficients due to a preferred 50 percent overlap. However, other percentages of overlap for all branches of coding can be applied so that the relationship between window size and transformation length can also be different from two and even approach one when no serrated is applied. time domain.

A Fig. 14G ilustra as regras para a construção de uma janela baseada nas regras dadas na figura 14F. O valor ZL ilustra zeros no início da janela. O valor L ilustra um número de coeficientes de janela em uma zona serrilhada. Os valores naFig. 14G illustrates the rules for building a window based on the rules given in figure 14F. The ZL value illustrates zeros at the beginning of the window. The value L illustrates a number of window coefficients in a serrated zone. The values in the

76/114 porção M são valores 1 não introduzindo qualquer serrilhando devido a uma sobreposição com uma janela adjacente, que tem valores zero na porção correspondente a Μ. A porção M é seguida por zona de sobreposição direita R, que é seguida por uma zona ZR de zeros, que correspondería a uma porção M de uma janela subsequente.76/114 M portion are 1 values without introducing any serrations due to an overlap with an adjacent window, which has zero values in the portion corresponding to Μ. The M portion is followed by the right overlapping zone R, which is followed by a ZR zone of zeros, which would correspond to a M portion of a subsequent window.

É feita referência ao anexo abaixo, que descreve uma implementação preferida e detalhada de um esquema de codificação/decodificação de áudio inventivo, particularmente com respeito ao lado do decodificador.Reference is made to the annex below, which describes a preferred and detailed implementation of an inventive audio encoding / decoding scheme, particularly with respect to the decoder side.

AnexoAttachment

1. Janelas e sequência de janelas1. Windows and window sequence

A quantização e codificação são feitas no domínio de frequência. Para este propósito, o sinal de tempo é mapeado para o domínio de frequência no codificador. O decodificador realiza Ό mapeamento inverso; conforme^- descrito no subitem 2.Quantization and coding are done in the frequency domain. For this purpose, the time signal is mapped to the frequency domain in the encoder. The decoder performs Ό reverse mapping; as ^- described in subitem 2.

Dependendo do sinal, o codificador pode alterar a resolução de tempo/frequência ao utilizar de três tamanhos diferentes janelas:Depending on the signal, the encoder can change the time / frequency resolution using three different window sizes:

2304, 2048 e 256. Para comutar entre as janelas, são usadas as janelas de transição LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD, STOP_WINDOW_1152, STOP_START_WINDOW e2304, 2048 and 256. To switch between windows, the LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD, STOP_WINDOW_1152, STOP_START_WINDOW and transition windows are used

STOP_START_WINDOW_1152. A tabela 5.11 lista as janelas, especifica o comprimento de transformação correspondente e mostra o formato das janelas de esquematicamente. Três comprimentos de transformação são usados: coeficientes 1152, 1024 (ou 960) (referidos como transformação longa) e 128 (ou 120) (referido como transformação curta).STOP_START_WINDOW_1152. Table 5.11 lists the windows, specifies the corresponding transformation length and shows the windows format schematically. Three transformation lengths are used: coefficients 1152, 1024 (or 960) (referred to as long transformation) and 128 (or 120) (referred to as short transformation).

Sequências de janelas são compostas de janelas emWindow sequences are composed of windows in

77/114 uma maneira que um raw_data_block sempre contém dados representando amostras de saída 1024 (ou 960) . O elemento de dados windowjsequence indica a sequência janela que é realmente utilizada. A Fig. 13C lista como as sequências de janelas são compostas de janelas individuais. Consulte o subitem 2 para obter informações mais detalhadas sobre a transformação e as janelas.77/114 a way that a raw_data_block always contains data representing 1024 (or 960) output samples. The windowjsequence data element indicates the window sequence that is actually used. Fig. 13C lists how the window sequences are composed of individual windows. See sub-item 2 for more detailed information about the transformation and the windows.

1.2 Bandas de fator de escala e agrupamento1.2 Scale factor and grouping bands

Veja a norma ISO/IEC 14496-3, subparte 4, subitemSee ISO / IEC 14496-3, subpart 4, subitem

4.5.2.3.44.5.2.3.4

Como explicado em ISO/IEC 14496-3, subparte 4, subitem 4.5.2.3.4, a largura das bandas do fator de escala é construída à imitação das bandas cruciais do sistema auditivo humano. Por essa razão, o número de bandas de fator de escala em um espectro e sua largura dependem do comprimento de transformação e a frequência de amostragem. Da tabela 4.110 para a Tabela 4.128, em- .ISO/IEC- 14496-3,- -subparte 4,~ subitem 4.5.4, lista o deslocamento para o início de cada banda de fator de escala_mos.As explained in ISO / IEC 14496-3, subpart 4, sub-item 4.5.2.3.4, the width of the scale factor bands is built to imitate the crucial bands of the human auditory system. For this reason, the number of scale factor bands in a spectrum and their width depend on the transformation length and the sampling frequency. From table 4.110 to Table 4.128, in- .ISO / IEC- 14496-3, - subpart 4, ~ subitem 4.5.4, list the offset to the beginning of each scalar factor band.

comprimentos de transformação 1024 (960) e 128 (120) e sobre as frequências de amostragem. As tabelas originalmente projetadas para LONG_WINDOW, LONG_START_WINDOW e LONG_STOP_WINDOW são usadas também para START_WINDOW_LPD e STOP_START_WINDOW. As tabelas de deslocamento para STOP WINDOW_1152 e STOP_START_WINDOW_1152 estão da Tabela 4 para a Tabela 10.transformation lengths 1024 (960) and 128 (120) and on the sampling frequencies. Tables originally designed for LONG_WINDOW, LONG_START_WINDOW and LONG_STOP_WINDOW are also used for START_WINDOW_LPD and STOP_START_WINDOW. The shift tables for STOP WINDOW_1152 and STOP_START_WINDOW_1152 are from Table 4 to Table 10.

1.3 Decodif icação de lpd_channel_stream ()1.3 Decoding of lpd_channel_stream ()

O elemento de fluxo de bits lpd_channel_stream () contém todas as informações necessárias para decodificar um quadro de sinal codificado de domínio de previsão linear. Ele contém a carga útil para um quadro de sinal codificado que foiThe bit stream element lpd_channel_stream () contains all the information needed to decode a linear predicted domain encoded signal frame. It contains the payload for an encoded signal frame that has been

78/114 codificado no domínio de LPC, isto é, incluindo uma etapa de filtragem LPC. O resíduo deste filtro (chamado excitação) é, então, representado quer com a ajuda de um módulo de ACELP ou no domínio de transformação MDCT (excitação codificada de transformação, TCX). Para permitir adaptação mais próxima às características do sinal, um frame é dividido em quatro unidades menores de igual tamanho, cada um das quais é codificada, seja com esquema de codificação de ACELP ou TCX.78/114 encoded in the LPC domain, that is, including an LPC filtering step. The residue of this filter (called excitation) is then represented either with the help of an ACELP module or in the transformation domain MDCT (encoded transformation excitation, TCX). To allow a closer adaptation to the signal characteristics, a frame is divided into four smaller units of equal size, each of which is encoded, either with an ACELP or TCX coding scheme.

Este processo é semelhante ao esquema de codificação descrito no 3GPP TS 26.290. Herdado deste documento, é uma terminologia ligeiramente diferente, onde um super quadro significa um segmento do sinal de 1024 amostras, em que um quadro é exatamente um quarto disto, isto é, 256 amostras. Cada um desses quadros é subdividido em quatro sub quadros de igual comprimento. Observe que este sub-capítulo adota essa terminologia _ « , - - - -- - * 1.4 Definiçõesj Elementos Ide Dados acelp_core_mode Este campo de bits indica o, exato esquema de alocação de bits no caso de ACELP ser usado como um modo de codificação lpd.This process is similar to the coding scheme described in 3GPP TS 26.290. Inherited from this document, it is a slightly different terminology, where a super frame means a segment of the 1024 sample signal, where a frame is exactly one quarter of this, that is, 256 samples. Each of these frames is subdivided into four sub frames of equal length. Note that this sub-chapter adopts this terminology _ «, - - - - - * 1.4 Definitionsj Elements Ide Data acelp_core_mode This bit field indicates the exact bit allocation scheme in case ACELP is used as a lpd encoding mode .

lpd mode O modo de campo de bit define os modos de codificação para cada um dos quatro quadros dentro de um super quadro de lpd_channel_stream () (corresponde a um quadro de AAC). Os modos de codificação são armazenados em um array mod[] e pode assumir valores de 0 a 3. O mapeamento de lpd_mode to mod [] pode ser determinado na Tabela 1 abaixo.lpd mode The bit field mode defines the encoding modes for each of the four frames within a super frame of lpd_channel_stream () (corresponds to an AAC frame). The encoding modes are stored in an array mod [] and can take values from 0 to 3. The mapping of lpd_mode to mod [] can be determined in Table 1 below.

Tabela 1 - Mapeamento dos modos de codificação para lpd_channel_s tream ( )Table 1 - Mapping of encoding modes for lpd_channel_s tream ()

significado dos bits in modo campo meaning of bits in field mode entradas Appetizer

79/11479/114

de bits bit mod[] mod [] remane s cen t remains s cen t es es lpd_mode lpd_mode bit 4 bit 4 bit 3 bit 3 bit 2 bit 2 bit 1 bit 1 bit 0 bit 0 0. . 15 0.. 15 0 0 mmod [ mmod [ mmod [ mmod [ mmod [ mmod [ mmod [ mmod [ 3] 3] 2] 2] 1] 1] 0] 0] 16..19 16..19 1 1 0 0 0 0 mmod [ mmod [ mmod [ mmod [ mod[1]=2 mod [1] = 2 3] 3] 2] 2] mod[0]=2 mod [0] = 2 20..23 20..23 1 1 0 0 1 1 mmod [ mmod [ mmod [ mmod [ mod[3]=2 mod [3] = 2 1] 1] 0] 0] mod[2]=2 mod [2] = 2 24 24 1 1 1 1 0 0 0 0 0 0 mod[3]=2 mod [3] = 2 mod[2]=2 mod [2] = 2 - - - - - - - - mod[l]=2 „ .. mod [l] = 2 „.. mod[0]=2 mod [0] = 2 25 25 1 1 1 1 0 0 0 0 1 1 mod[3]=3 mod [3] = 3 - - - - - - - - mod[2]=3 mod [2] = 3 -mod [-1-] =3·- -mod [-1-] = 3 · - mod[0]=3 mod [0] = 3 26..31 26..31 reservado reserved

mod [0 .. 3] Os valores em array mod [ ] indicam os respectivos modos de codificação em cada quadro:mod [0 .. 3] The values in array mod [] indicate the respective encoding modes in each frame:

Tabela 2 - Modos de codificação indicados por mod[]Table 2 - Coding modes indicated by mod []

valor de mod[x] mod value [x] modo de codificação em quadro encoding mode in picture Elemento de fluxo de bits Flow element bits 0 0 ACELP ACELP Acelp coding () Acelp coding () 1 1 um quadro de TCX a TCX frame tcx coding () tcx coding ()

80/11480/114

2 2 TCX abrangendo metade de um super quadro TCX covering half a super painting tcx_coding() tcx_coding () 3 3 TCX abrangendo todo super quadro TCX covering all super frame tcx_coding () tcx_coding ()

acelp_coding() Elemento de sintaxe que contém todos os dados para decodificar um quadro de excitação deacelp_coding () Syntax element that contains all the data to decode an excitation frame from

LPC.LPC.

tcx_coding() Elemento de sintaxe que contém todos os dados para decodificar um quadro de excitação codificada de transformação baseada em MDCT (TCX).tcx_coding () Syntax element that contains all the data to decode an MDCT-based encoded transformation excitation frame (TCX).

first_tcx_flag Sinalizador que indica se o quadro processado atual TCX é o primeiro no super quadro.first_tcx_flag Flag indicating whether the current processed TCX frame is the first in the super frame.

lpc_data() Elemento de sintaxe que contém todos os dados para decodificar todos as configurações de parâmetro de —£Litro “ de ~ LPC 'necessárias para decodificar o super quadro atual. ______ _ ____._·____— first_lpd_flag Sinalizador que indica se o super quadro atual é o primeiro de uma sequência de super quadros que são codificados no domínio de LPC. Este sinalizador também pode ser determinado a partir da história do elemento de fluxo de bits core_mode (core_mode0 e core_model no caso de um channel_pair_element) de acordo com a Tabela 3.lpc_data () Syntax element that contains all data to decode all parameter settings of - £ Liter “of ~ LPC 'required to decode the current superframe. ______ _ ____._ · ____— first_lpd_flag Flag indicating whether the current super frame is the first in a sequence of super frames that are encoded in the LPC domain. This flag can also be determined from the history of the bit stream element core_mode (core_mode0 and core_model in the case of a channel_pair_element) according to Table 3.

Tabela 3 - Definição de f irst_lpd._f lagTable 3 - Definition of f irst_lpd._f lag

core_mode do quadro anterior (super core_mode previous frame (super core mode do quadro atual (super core mode of the current frame (super f irs t_lpd_flag f irs t_lpd_flag quadro) painting) quadro) painting)

81/11481/114

0 0 1 1 1 1 1 1 1 1 0 0

last_lpd_mode Indica o lpd_mode do quadro previamente decodificado.last_lpd_mode Indicates the lpd_mode of the previously decoded frame.

1.5 Processo de Decodificação1.5 Decoding Process

Em lpd_channel_stream, a ordem de decodificação é:In lpd_channel_stream, the decoding order is:

Obter acelp_core_modeGet acelp_core_mode

Obter lpd_mode e determinar a partir dele o conteúdo do mod[] variável auxiliarGet lpd_mode and determine from it the content of the auxiliary variable []

Obter os dados acelp_coding ou tcx_coding, dependendo do conteúdo do mod[] variável auxiliarGet the data acelp_coding or tcx_coding, depending on the contents of the auxiliary variable [] mod

Obter lpc_data _ _ __ .......Get lpc_data _ _ __ .......

- - - ·* 1.6 combinações de modo de codificação de- - - · * 1.6 mode coding combinations

ACELP/TCX . Em - analogia· a* ’ ['8 J ' seção 5.2.2, existem 2 6 combinações permitidas de ACELP ou TCX dentro de um..super—quadro--de uma carga lpd_channel_stream. Uma dessas 26 combinações de modo é sinalizada no elemento de fluxo de bits lpd_mode. O mapeamento de lpd_mode para os modos de codificação reais de cada quadro em um sub-quadro é mostrada na Tabela 1 e Tabela 2.ACELP / TCX. In - analogy · a * ’['8 J' section 5.2.2, there are 2 6 allowed combinations of ACELP or TCX within a..super — frame - of a lpd_channel_stream load. One of these 26 mode combinations is signaled in the bit stream element lpd_mode. The mapping of lpd_mode to the actual encoding modes of each frame in a sub-frame is shown in Table 1 and Table 2.

Tabela 4 - bandas de fator de escala para um comprimento de janela de 2304 paraTable 4 - scale factor bands for a window length of 2304 for

STOP_START_1152_WINDOW e STOP_1152_WINDOW a 44,1 e 48 kHz fs [kHz]STOP_START_1152_WINDOW and STOP_1152_WINDOW at 44.1 and 48 kHz fs [kHz]

44.1,4844.1.48

82/11482/114

num swb lon g window in a lon swb g window 49 49 swb swb swb offset long window swb offset long window n n n n 1 1 4 4 2 2 8 8 3 3 12 12 4 4 16 16 5 5 20 20 6 6 24 24 7 7 28 28 8 8 32 32 9 9 36 36 10 10 40 40 11 11 48 48 12 12 56 56 13 13 64 64 14 14 72 72 15 - - 15 - - 80 - - · 80 - - · 16 16 88 88 17 17 96 96 18 18 108 108 19 19 120 120 20 - - - 20 - - - 132 - ~ 132 - ~ 21 21 144 144 22 22 160 160 23 23 -17 6---- -17 6 ---- 24 24 196 196

TabelaTable

swb swb swb_offse t long wi ndow swb_offse t long wi ndow 9 R 9 R 91 Λ 91 Λ 26 26 240 240 27 27 264 264 28 28 292 292 29 29 320 320 30 30 352 352 31 31 384 384 32 32 416 416 33 33 448 448 34 34 480 480 35 35 512 512 36 36 544 544 37 37 576 576 38 38 608 608 39 39 640 640 40 - · 40 - · 672 - · 672 - · 41 41 704 704 42 42 736 736 43 43 768 768 44 44 800 800 45 “ ---- 45 "---- 832 ~ ~ 832 ~ ~ 46 46 864 864 47 47 896 896 -48 -48 -92 8 -92 8 1152 1152

bandas de fator de escala para comprimento de janela de 2304 parascale factor bands for 2304 window length for

STOP START 1152 WINDOW e STOP 1152 WINDOW a 32 kHzSTOP START 1152 WINDOW and STOP 1152 WINDOW at 32 kHz

fs [kHz] fs [kHz] 32 32 num swb lon g window in a lon swb g window 51 51 swb swb swb offset long window swb offset long window n n n n

Swb Swb swb offse t long wi ndow swb offse t long wi ndow 9fi 9fi 9zin 9zin

83/11483/114

1 1 4 4 2 2 8 8 3 3 12 12 4 4 16 16 5 5 20 20 6 6 24 24 7 7 28 28 8 8 32 32 9 9 36 36 10 10 40 40 11 11 48 48 12 12 56 56 13 13 64 64 14 14 72 72 15 15 80 80 16 16 88 88 17 17 96 96 18 18 108 108 19 19 120 120 20 20 132 132 21 21 144 144 22 22 160 160 23 23 17 6 17 6 24 24 196 196 25 25 216 216

27 27 264 264 28 28 292 292 29 29 320 320 30 30 352 352 31 31 384 384 32 32 416 416 33 33 448 448 34 34 480 480 35 35 512 512 36. 36. 544 544 37 37 576 576 38 38 608 608 39 39 640 640 40 40 672 672 41 41 704 704 42 42 736 736 43 43 768 768 44 44 800 800 45 45 832 832 46 46 8 64 8 64 47 47 896 896 48 48 928 928 '49 '49 >960 > 960 50 50 992 992 1152 1152

__ ___Tabela 6 - bandas de fator de escala para comprimento de janela de 2304 para__ ___Table 6 - scale factor bands for 2304 window length for

STOP START 1152 WINDOW e STOP 1152 WINDOW a 8 kHzSTOP START 1152 WINDOW and STOP 1152 WINDOW at 8 kHz

fs [kHz] fs [kHz] 8 8 num swb lon in a lon swb 40 40 g window g window swb swb swb offs et_long_ window swb offs et_long_ window n n n n 1 1 12 12 2 2 24 24 3 3 36 36 4 4 48 48 5 5 60 60 6 6 72 72 7 7 84 84 8 8 96 96 9 9 108 108 10 10 120 120 11 11 132 132 12 12 144 144 13 13 156 156

swb swb Swb offse t long wi ndow Swb offse t long wi ndow 91 91 9fifi 9fifi 22 22 308 308 23 23 328 328 24 24 348 348 25 25 372 372 26 26 396 396 27 27 420 420 28 28 448 448 29 29 476 476 30 30 508 508 31 31 544 544 32 32 580 580 33 33 620 620 34 34 664 664

84/11484/114

14 14 172 172 15 15 188 188 16 16 204 204 17 17 220 220 18 18 236 236 19 19 252 252 20 20 268 268

35 35 712 712 36 36 764 764 37 37 820 820 38 38 880 880 39 39 944 944 1152 1152

Tabela 7 - bandas de fatos de escala para comprimento de janela de 2304 paraTable 7 - bands of scale facts for 2304 window length for

STOP_START_1152_WINDOW e STOP_1152_WXNDOWSTOP_START_1152_WINDOW and STOP_1152_WXNDOW

11,025, 12 and 16 kHz11,025, 12 and 16 kHz

f s f s [kHz] [kHz] 11.025, 12, 16 11,025, 12, 16 num on one swb long swb long 43 43 window window swb swb swb offse swb offse t long wi ndow t long wi ndow n n n n i - i - . _ — . _ - 8 8 2 2 16 16 3 3 24 24 •4 • 4 —--_— —--_— -32------- -32 ------- 5 5 40 40 6 6 48 48 7 7 56 56 8 8 64 64 9 9 72 72 10 10 80 80 11 11 88 88 12 12 100 100 13 13 112 112 14 14 124 124 15 15 136 136 16 16 148 148 17 17 160 160 18 18 172 172 19 19 184 184 20 20 196 196 21 21 212 212

Swb Swb swb offse t long wi ndow swb offse t long wi ndow 79 79 99fi 99fi 23 23 244 244 24 24 260 260 25 25 280 280 .26 . .26. .30.0 .30.0 27 27 320 320 28 28 344 344 29 29 368 368 30 30 396 396 31 31 424 424 32 32 456 456 33 33 492 492 34 34 532 532 35 35 572 572 36 36 616 616 37 37 664 664 38 38 716 716 39 39 772 772 40 40 832 832 41 41 896 896 42 42 960 960 1152 1152

Tabela 8 - bandas de fator de escala para um comprimento de janela de 2304 paraTable 8 - scale factor bands for a window length of 2304 for

STOP_START_1152_WINDOW e STOP_1152_WINDOW a 22,05STOP_START_1152_WINDOW and STOP_1152_WINDOW at 22.05

85/114 e 24 kHz85/114 and 24 kHz

f s f s [kHz] [kHz] 22.05 e 24 22.05 and 24 num_swb_lon g window num_swb_lon g window 47 47 swb swb swb offs et long window swb offs et long window n n n n 1 1 4 4 2 2 8 8 3 3 12 12 4 4 16 16 5 5 20 20 6 6 24 24 7 7 28 28 8 8 32 32 9 ' 9 ' -1 1 1---- -1 1 1 ---- 36 36 10 10 40 40 11 11 44 44 12 12 52 52 13 13 60 60 14 14 68 68 15 15 7 6 7 6 16 16 84 84 17 17 92 92 too- — too- - 18 18 19 19 108 108 20 20 116 116 21 21 124 124 22 22 136 136 23 23 148 148

Tabela 9Table 9

swb swb swb offse t long wi ndow swb offse t long wi ndow i sn i sn 25 25 172 172 26 26 188 188 27 27 204 204 28 28 220 220 29 29 240 240 30 30 260 260 31 31 284 284 32 32 308 308 33 33 336 336 34 34 364 364 35 35 396 396 36 36 432 432 37 37 468 468 38 38 508 508 39 39 552 552 40 40 600 600 41 41 652 652 -42 -42 '704.... ..... '704 .... ..... 43 43 768 768 44 44 832 832 45 45 896 896 46 46 960 960 1152 1152

fator de escala bandas de para comprimento de janela descale factor bands of for window length of

2304 para2304 for

STOP START 1152 WINDOW e STOP 1152 WINDOW a kHzSTOP START 1152 WINDOW and STOP 1152 WINDOW at kHz

fs [kHz] fs [kHz] 64 64 num swb Íon in an Ion swb 47 (46) 47 (46) g_ window g_ window

86/11486/114

swb swb swb_offs et long window swb_offs et long window n n n n 1 1 4 4 2 2 8 8 3 3 12 12 4 4 16 16 5 5 20 20 6 6 24 24 7 7 28 28 8 8 32 32 9 9 36 36 10 10 40 40 11 11 44 44 12 12 48 48 13 13 52 52 14 14 56 56 15 15 64 64 16 16 72 72 17 17 80 80 18 18 .88 .88 19 19 100 100 20 20 112 112 21 21 124 124 22 22 140 140 23 23 156 156

swb swb swb offse t_long window swb offse t_long window 9 Δ 9 Δ 199 199 25 25 192 192 26 26 216 216 27 27 240 240 28 28 268 268 29 29 304 304 30 30 344 344 31 31 384 384 32 32 424 424 33 33 464 464 34 34 504 504 35 35 544 544 36 36 584 584 37 37 624 624 38 38 664 664 39 39 704 704 40 40 744 744 41 41 784 784 42 42 824 824 43 43 864 864 44 44 904 904 45 45 944 944 46 46 984 984 1152 1152

Tabela 10 — bandas de fator de escala para um comprimento de janela de 2304 para STOP_START_1152_WINDOW e STOP_1152_WINDOW_ a_88., 2_e_9 6_kHz___________ „Table 10 - scale factor bands for a window length of 2304 for STOP_START_1152_WINDOW and STOP_1152_WINDOW_ a_88., 2_e_9 6_kHz___________ „

fs [kHz] fs [kHz] 8 8.2 and 96 8 8.2 and 96 num swb lon in a lon swb 41 41 g window g window swb swb swb offs et long window swb offs et long window n n n n 1 1 4 4 2 2 8 8 3 3 12 12 4 4 16 16 5 5 20 20

swb swb swb offse t long wi ndow swb offse t long wi ndow 91 91 1 9fl 1 9fl 22 22 132 132 23 23 144 144 24 24 156 156 25 25 172 172 26 26 188 188

87/11487/114

6 6 24 24 7 7 28 28 8 8 32 32 9 9 36 36 10 10 40 40 11 11 44 44 12 12 48 48 13 13 52 52 14 14 56 56 15 15 64 64 16 16 72 72 17 17 80 80 18 18 88 88 19 19 96 96 20 20 108 108

1.7 Referências1.7 References

27 27 212 212 28 28 240 240 29 29 276 276 30 30 320 320 31 31 384 384 32 32 448 448 33 33 512 512 34 34 576 576 35 35 640 640 36 36 704 704 37 37 768 768 38 38 832 832 39 39 896 896 40 40 960 960 1152 1152

de tabelas de banda de fator de escalaof scale factor band tables

Para todas as outras tabelas de banda de fator de escala, consulte a norma ISO/IEC 14496-3 subparte 4, seção 4.5.4,For all other scale factor band tables, refer to ISO / IEC 14496-3 subpart 4, section 4.5.4,

Tabela 4.129 a Tabela 4.147.Table 4,129 to Table 4,147.

1.8 Quantização Para a quantização dos coeficientes espectrais de1.8 Quantization For the quantization of the spectral coefficients of

AAC no codificador, é utilizado um quantizador não uniforme.AAC in the encoder, a non-uniform quantizer is used.

Portanto, o decodificador deve realizar a quantização não uniforme inversa após a decodificação de Huffman dos fatores de escala (vide subitêm 6”. 3) e a descodificação silenciosa dos dados espectrais (vide subitem 6.1).Therefore, the decoder must perform inverse non-uniform quantization after Huffman decoding the scale factors (see subitem 6 ”. 3) and the silent decoding of spectral data (see subitem 6.1).

Para a quantização dos coeficientes espectrais deFor the quantization of the spectral coefficients of

TCX, é utilizado um quantizador uniforme. Quantização não inversa é necessária no decodificador, após a decodificação silenciosa dos dados espectrais.TCX, a uniform quantizer is used. Non-inverse quantization is required in the decoder, after the silent decoding of spectral data.

2. Banco de filtro e comutação de bloco2. Filter bank and block switching

2.1 Descrição de ferramenta2.1 Tool description

A representação de tempo/frequência do sinal é mapeado no domínio de tempo ao alimentá-lo para o módulo de banco de filtro. Este módulo consiste em uma transformação discreta deThe time / frequency representation of the signal is mapped into the time domain when fed to the filter bank module. This module consists of a discrete transformation of

88/114 cosseno inverso modificado (IMDCT), uma janela e uma função de sobreposição adicional. A fim de adaptar a resolução de tempo/frequência do banco de filtro às características do sinal de entrada, uma ferramenta de comutação de bloco também é adotada. N representa o comprimento da janela, onde N é uma função da window_sequence (vide subitem 1.1). Para cada canal, os valores N/2 de tempo-f requência Xi,k são transformados em valores de domínio de tempo N Xi,_n via o IMDCT. Após a aplicação da função de janela, para cada canal, a primeira metade da sequência z_i(n é adicionada à segunda metade da sequência de janela de bloco anterior z₍i-i),_n para reconstruir as amostras de saída para cada canal exterior_i/n.88/114 modified inverse cosine (IMDCT), a window and an additional overlay function. In order to adapt the filter bank's time / frequency resolution to the characteristics of the input signal, a block switching tool is also adopted. N represents the length of the window, where N is a function of the window_sequence (see subitem 1.1). For each channel, the N / 2 time-frequency values Xi, k are transformed into time domain values N Xi, _n via the IMDCT. After applying the window function, for each channel, the first half of the sequence z _{i (n} is added to the second half of the previous block window sequence z ₍ ii), _n to reconstruct the output samples for each outer channel _{i / n} .

' “ “ 2.2 Definições - _ _ _ .'““ 2.2 Definitions - _ _ _.

window_sequence 2-bit indicando que a sequência de janela (tamanho do bloco, por exemplo) é usado.window_sequence 2-bit indicating that the window sequence (block size, for example) is used.

window_shape 1 bit que indica que a função de janela é selecionada.window_shape 1 bit that indicates that the window function is selected.

13C mostra as oito window sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE,13C shows the eight window sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE,

LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).

O seguinte LPD_SEQUENCE refere-se a todas as combinações de modo de janela/codificação permitidas dentro do chamado codec de domínio de previsão linear (vide seção 1.3) . No contexto da decodificação de um quadro codificado de domínio de frequência é importante saber se apenas um quadro seguinte é codificado com modos de codificação de domínio de LP, que é representado por um LPD_SEQUENCE. No entanto, a estrutura exataThe following LPD_SEQUENCE refers to all window mode / coding combinations allowed within the so-called linear forecast domain codec (see section 1.3). In the context of decoding a frequency domain encoded frame it is important to know if only one next frame is encoded with LP domain encoding modes, which is represented by an LPD_SEQUENCE. However, the exact structure

89/114 dentro do LPD_SEQUENCE é cuidada quando da decodificação de um quadro codificado de domínio de LP.89/114 within LPD_SEQUENCE is taken care of when decoding an encoded LP domain frame.

2.3 O processo de decodificação2.3 The decoding process

2.3.1 IMDCT2.3.1 IMDCT

A expressão analítica do IMDCT é:The analytical expression of IMDCT is:

Q<n<N ^N , para ⁼ — X^^ecft]R]cos^-^(« + onde:Q <n <N ^N , for ⁼ - X ^ ^ec ft] R] cos ^ - ^ («+ where:

n = índice simples i = índice de janela k = índice de coeficiente espectraln = simple index i = window index k = spectral coefficient index

N = comprimento de janela baseado no valor windowj^sequence^ - - — — nO = (N / 2 + 10) /2N = window length based on the value windowj ^ sequence ^ - - - - nO = (N / 2 + 10) / 2

O comprimento de janela de síntese N para a transformação inversa é uma função do elemento de sintaxe window__sequence e do contexto_de algoritmos . Ele_é_definido- como se segue:The synthesis window length N for the inverse transformation is a function of the window__sequence syntax element and the algorithm_text. It_is_defined- as follows:

Comprimento de janela 2304:Window length 2304:

2304, if STOP_1152_SEQUENCE 2304, if STOP_START_1152_SEQUENCE2304, if STOP_1152_SEQUENCE 2304, if STOP_START_1152_SEQUENCE

Comprimento de janela 2048:Window length 2048:

90/11490/114

2048, se ONLYLONGSEQUENCE 2048, se LONG_START_SEQUENCE 256, se EIGHTSHORTSEQUENCE 2048, se LONGSTOPSEQUENCE 2048, se STOP_START_SEQUENCE 2048, se LPD_START_SEQUENCE2048, if ONLYLONGSEQUENCE 2048, if LONG_START_SEQUENCE 256, if EIGHTSHORTSEQUENCE 2048, if LONGSTOPSEQUENCE 2048, if STOP_START_SEQUENCE 2048, if LPD_START_SEQUENCE

As transições de seguintes:The following transitions:

De ONLY_LONG_SEQUENCE para de LONG_START_SEQUENCE para de LONG_STOP_SEQUENCE para...From ONLY_LONG_SEQUENCE to from LONG_START_SEQUENCE to from LONG_STOP_SEQUENCE to ...

de EIGHT_SHORT_SEQUENCE para de LPD_SEQUENCE para de STOP_START_SEQUENCE para de LPD_START_SEQUENCE para de STOP_1152_SEQUENCE para de STOP_START_1152_SEQUENCE blocos significativas são asfrom EIGHT_SHORT_SEQUENCE to from LPD_SEQUENCE to from STOP_START_SEQUENCE to from LPD_START_SEQUENCE to from STOP_1152_SEQUENCE to from STOP_START_1152_SEQUENCE significant blocks are

ONLY_LONG_SEQUENCEONLY_LONG_SEQUENCE

LONGSTARTSEQUENCELONGSTARTSEQUENCE

LPD_START_SEQUENCELPD_START_SEQUENCE

I EIGHT_SHORT_SEQUENCE [ LONG STOP SEOUENCEI EIGHT_SHORT_SEQUENCE [LONG STOP SEOUENCE

ONLY_LONG_SEQUENCE < LONG_START_SEQUENC1 LPD_START_SEQUENCE ' EIGHT_SHORT_SEQUENCEONLY_LONG_SEQUENCE <LONG_START_SEQUENC1 LPD_START_SEQUENCE 'EIGHT_SHORT_SEQUENCE

LONG_STOP_SEQUENCE STOP START SEQUENCE___ '“lpõ/sêquênceLONG_STOP_SEQUENCE STOP START SEQUENCE___ '“lpõ / sêquênce

STOPl 152SEQUENCESTOPl 152SEQUENCE

STOP_START_1152SEQUENCESTOP_START_1152SEQUENCE

EIGHTSHORTSEQUENCEEIGHTSHORTSEQUENCE

LONGSTOPSEQUENCE { LPDSEQUENCELONGSTOPSEQUENCE {LPDSEQUENCE

ONLYLONGSEQUENCE LONGSTARTSEQUENCEONLYLONGSEQUENCE LONGSTARTSEQUENCE

EIGHTSHORTSEQUENCE P^ara 1 LONGSTOPSEQUENCEEIGHTSHORTSEQUENCE P ^ara 1 LONGSTOPSEQUENCE

91/11491/114

2.3.2 Comutação de janela e bloco2.3.2 Window and block switching

Dependendo do elemento window sequence e window_shape, são utilizadas diferentes janelas de transformação. Uma combinação das metades de janela descrita da seguinte forma oferece todas os possíveis window_sequences.Depending on the element window sequence and window_shape, different transformation windows are used. A combination of the window halves described as follows offers all possible window_sequences.

Para window_shape == 1, os coeficientes de janela são dados pela janela derivada Kaiser - Bessel (KBD) da seguinte forma:For window_shape == 1, the window coefficients are given by the Kaiser - Bessel derived window (KBD) as follows:

KBD LEFT,NKBD LEFT, N

() =() =

W (n) =W (n) =

KBD RIGHT,'KBD RIGHT, '

Onde:Where:

p=0p = 0

)])]

ΣΜρ,α)] p=0 para 0 < n <ΣΜρ, α)] p = 0 to 0 <n <

N para — < η < NN for - <η <N

W, função de janela kernel Kaiser-Bessel, veja também [5], é definida a seguirW, Kaiser-Bessel kernel window function, see also [5], is defined below

II

W (n,a) = _ιη (n-NI4\ πα, 1.0— V l Λ7/4 ) _paxa 0 < « < γ /₀[ττα]W (n, a) = _ιη (n-NI4 \ πα, 1.0— V l Λ7 / 4) _paxa 0 <«<γ / ₀ [ττα]

I.W= Σ k = 0I.W = Σ k = 0

k\ _a — fator alpha da janela kernelk \ _a - kernel window alpha factor

Caso contrário, para empregada uma janela de seno da seguinte í 4 for N = 2048(1920) ^a~ [óforN = 256(240) window_shape == 0 forma:Otherwise, to use a sine window from the following í 4 is N = 2048 (1920) ^to ~ [óforN = 256 (240) window_shape == 0 form:

92/114 , χ π 1 Ν92/114, χ π 1 Ν

W„„_{T τ Λ}Λη) = sin(—(« + —)) P^ara Ο < η < —W "" _{T τ Λ Λη)} = sin (- ( '+ -)) T ^o Ο <η <-

SIN LEFT,N^{y 7} 2 2 / X . π 1 ΝSIN LEFT, N ^{y 7} 2 2 / X. π 1 Ν

IF ΓΛ'Ζ*Γ^ ^rl^W/ ^{= S}Íⁿ(-(« + ~)) Ρ^ΓΗ - < Π < ΝIF ΓΛ'Ζ * Γ ^ ^ rl ^W / ^{= S} Í ⁿ (- («+ ~)) Ρ ^ ΓΗ - <Π <Ν

SIN_RIGHT,N^{K 7} Ν 2 2SIN_RIGHT, N ^{K 7} Ν 2 2

0 0 comprimento length de janela from window N pode ser N can be 2048 2048 (1920) (1920) ou or 256 256 (240) para (240) for o KBD e the KBD and a janela the window senoidal. sinusoidal. Em In caso case de in STOP_ STOP_ _1152_SEQUENCE _1152_SEQUENCE e STOP_START_1152_SEQUENCE, N and STOP_START_1152_SEQUENCE, N ainda still pode can ser to be

2048 ou 256, os coeficientes angulares da janela são semelhantes, mas as regiões planas superiores são mais longas.2048 or 256, the window slopes are similar, but the upper plane regions are longer.

Apenas no caso de LPD_START_SEQUENCE parte direita da janela é uma janela de seno de 64 amostras.Only in the case of LPD_START_SEQUENCE the right part of the window is a 64-sample sine window.

Como obter as sequências de janela possíveis é explicado nas partes a) a h) deste subitem.How to obtain the possible window sequences is explained in parts a) to h) of this sub-item.

Para todos os tipos de window_sequences, é determinada o window_shape da metade esquerda da primeira janela de transformação pela forma da janela do bloco anterior. A seguinte—fórmula—ex-pressa—esse—f a t o':For all types of window_sequences, the window_shape of the left half of the first transformation window is determined by the shape of the previous block window. The following — formula — ex-hurry — that — f a t o ':

^LEFT,n(F) ~^ LEFT, n (F) ~

WkbD_ LEFT, seWkbD_ LEFT, if

W_SI_N ΕΕΕΤ,Ν^⁷⁷)’ ^Se W _S I _N ΕΕΕΤ, Ν ^ ⁷⁷ ) ' ^If

V. — window shape_previousblock == 1 window shape_previousblock =— 0 onde:V. - window shape_previousblock == 1 window shape_previousblock = - 0 where:

window_shape_previous_block·. window_shape do bloco anterior (i-1) .window_shape_previous_block ·. window_shape of the previous block (i-1).

Para o primeiro raw_data_block() a ser decodificado, o window_shape da metade esquerda e direita da janela são idênticos.For the first raw_data_block () to be decoded, the window_shape of the left and right half of the window are identical.

a) ONLY_LONG_SEQUENCE:a) ONLY_LONG_SEQUENCE:

93/11493/114

O window_sequence ==ONLY_LONG_SEQUENCE é igual a um LONG_WINDOW com um comprimento de janela total de 2048 (1920).The window_sequence == ONLY_LONG_SEQUENCE is equal to a LONG_WINDOW with a total window length of 2048 (1920).

Para window_shape == 1 a janela paraFor window_shape == 1 the window to

ONLY_LONG_SEQUENCE é dada da seguinte forma:ONLY_LONG_SEQUENCE is given as follows:

\ _ í^íEFr,N_t(ⁿ)’ ^para θ — η < N_ ι / 2 ^U p- N_ 1 / 2 < η < N_ 1\ _ í ^ íEFr, N_t ( ⁿ ) ' ^for θ - η <N_ ι / 2 ^U p- N_ 1/2 <η <N_ 1

Se window_shape == 0 a janela paraIf window_shape == 0 the window stops

ONLY_LONG_SEQUENCE pode ser descrita da seguinte forma:ONLY_LONG_SEQUENCE can be described as follows:

w(n] =w (n] =

W,W,

LEFT,N_LEFT, N_

SIN _RIGHT,N _ l ζλ?), para 0 < Π < N_/ / 2 _z(w), Para N __ l / 2 < Π < N_ lSIN _RIGHT, N _ l ζλ?), For 0 <Π <N_ / / 2 _z (w), For N __ l / 2 <Π <N_ l

Depois da janela, os valores de domínio _de. tempo (Zi,_n) podem ser expressos como: . „After the window, the _de domain values. time (Zi, _n ) can be expressed as:. „

Α,η = w{rí)-x_in;Α, η = w (rí) -x _in ;

b) LONG_START_SEQUENCE:b) LONG_START_SEQUENCE:

O LONG_START_SEQUENCE é necessário para obter uma sobreposição correta e adicionar uma transição de bloco a partir, de um ONLY_LONG_SEQUENCE para um EIGHT_SHORT_SEQUENCE.LONG_START_SEQUENCE is required to obtain a correct overlay and add a block transition from, from ONLY_LONG_SEQUENCE to EIGHT_SHORT_SEQUENCE.

O comprimento de janela N_1 e N_s está definido para 2048 (1920) e 256 (240), respectivamente.The window length N_1 and N_s is set to 2048 (1920) and 256 (240), respectively.

Se window_shape == 1, aIf window_shape == 1, the

LONG START SEQUENCE é dada da seguinte forma:LONG START SEQUENCE is given as follows:

janela para w(n) =window for w (n) =

LEFT,N_LEFT, N_

1.0, para o < η < N 1/21.0, for <η <N 1/2

KBD _RIGHT ,N _sKBD _RIGHT, N _s

0.0,0.0,

-» τ ί z /«x 3./V 1~Ή_s para l / 2 < n < j para ³^^ZT^ < _n <- »τ ί z /« x 3./V 1 ~ Ή_s for l / 2 <n <j for ³ ^ ^Z T ^ < _n <

parafor

3N l+N s <n<N l3N l + N s <n <N l

S e window_shapeS and window_shape

0, janela para0, window to

94/11494/114

LONG_START_SEQUENCE terá a seguinte aparência:LONG_START_SEQUENCE will look like this:

W, w(n) =W, w (n) =

LEFT,NLEFT, N

1.0,1.0,

M, para o < η < N 1/2M, for <η <N 1/2

SIN _RIGHT ,N _sSIN _RIGHT, N _s

0.0, (n +0.0, (n +

N s 3N l-N s para j para paraN s 3N l-N s for j for for

7V_//2<n< —7V _ // 2 <n <-

3N _l-N _s < _{n <} 3N _l+N _s3N _l-N _s < _{n <} 3N _l + N _s

3N l+N s <n<N l3N l + N s <n <N l

Os valores de janela de domínio de tempo podem ser calculados com a fórmula explicada em a).The time domain window values can be calculated with the formula explained in a).

c) EXGHT SHORTc) EXGHT SHORT

O window_sequence == EIGHT_SHORT compreende oito SHORT_WINDOWS sobrepostos e adicionados com um comprimento N_s de 256 (240) cada. O comprimento total do window_sequence com os zeros à esquerda e seguintes é de 2048 (1920) . Cada um dos oito blocos curtos são primeiro separados, das janelas. O número de bloco curto está indexado à variável j = 0, . .., ^{M = N_l/N_s'⁾ The window_sequence == EIGHT_SHORT comprises eight overlapping and added SHORT_WINDOWS with an N_s length of 256 (240) each. The total length of the window_sequence with leading and trailing zeros is 2048 (1920). Each of the eight short blocks is first separated from the windows. The short block number is indexed to the variable j = 0,. .., ^{ M = N_l / N_s' ⁾

O window_shape do bloco anterior influencia somente o primeiro dos oito blocos curtos (Wo_(n)_)_._Se_window—shape== 1, as funções de janela podem ser dadas da seguinte forma:The window_shape of the previous block influences only the first of the eight short blocks (Wo_ (n) _) _._ Se_window — shape == 1, the window functions can be given as follows:

ζ X _ [W_LEFT,N_s(ⁿ)> para 0< Π < N_S/ 2 θ y^siN_R/GHT,N_s(ⁿ)f para N_s/ 2 Π < N_Sζ X _ [W _LEF T, N_s ( ⁿ )> for 0 <Π <N_S / 2 θ y ^ siN_R / GHT, N_s ( ⁿ ) f for N_s / 2 Π <N_S

W_s/n_lef T,N_s(ⁿ), y^SIN_RIGHT, para 0< n < N_s/2 para N_s/ 2 < n < N_sW _{s / n} _lef T, N_s ( ⁿ ), y ^ SIN_RIGHT, for 0 <n <N_s / 2 for N_s / 2 <n <N_s

Caso contrário, se window_shape de janela podem ser descritas da seguinte forma:Otherwise, if window_shape of window can be described as follows:

0, as funções0, the functions

95/114 [W_LEFTN__s(n), for 0< n < N_s!2 u™ ~ \ W_SIN__RIGHTN__s(ri), for N_s/ 2 < n < N_s95/114 [W _LEFTN _ _s (n), for 0 <n <N_s! 2 u ™ ~ \ W _SIN _ _RIGHTN _ _s (laughs), for N_s / 2 <n <N_s

W_Sin_LEF T,N_s(ⁿ)>W _S in_LEF T, N_s ( ⁿ )>

z x_ I--o/;v_r_Cr,,,_v_₅v-,> para 0< n < N_ s/ 2z x_ I - o /; v_r _C r ,,, _v _ ₅ v -,> to 0 <n <N_ s / 2

1-(/14-1) \W_SiN_RiGHT,N_s(ⁿ)> para N_s/2 < n < N_S1 - (/ 14-1) \ W _S iN_RiGHT, N_s ( ⁿ )> for N_s / 2 <n <N_S

A sobreposição e adição entre o window_sequence EIGHT_SHORT resultando nos valores de domínio de tempo de janela zi,_n são descritas da seguinte forma:The overlap and addition between the window_sequence EIGHT_SHORT resulting in the window time domain values zi, _n are described as follows:

N l-N sN l-N s

0,n-^o(«para0, n- ^ o ('for

N l-N_s\ paraN l-N_s \ for

N l-N s N I+N s λ ~ <n< —~ . -N l-N s N I + N s λ ~ <n <- ~. -

ÍV/+(2/-3>íV,ÍV / + (2 / -3> íV,

N _l+(2j—3)N _s 4N _l + (2j — 3) N _s 4

N_l+(2j-\)N~S' )+-/ /y_/+(2/-i)/y_, · ₄ /,N_l + (2j - \) N ~ S ') + - / / y _ / + (2 / -i) / y_, · ₄ /,

J >ⁿ 4 ^J J> ⁿ 4 ^J

M—\,nNJ+(2M-3)N sM - \, nNJ + (2M-3) N s

W_M_Snpara W _M _Snpara

N 1+(2M-3')N s ),N 1+ (2M-3 ') N s),

i)7v;_í 0,i) 7v; _í 0,

N 1+(2Μ-Γ)Ν s - N l+(2M+V)N s para - ₄—< Π < ~ ₄— para <_n<N_J tste wmaow sequence e necessário para comutar ae um. EXGHI—S-BOT^SEQUENCE-de—vo±ta—pãfãHüm—ONLY_LONG_SEQUENCE.N 1+ (2Μ-Γ) Ν s - N l + (2M + V) N s for - ₄ - <Π <~ ₄ - for < _{n <N} _J this wmaow sequence is necessary to switch to and one. EXGHI — S-BOT ^ SEQUENCE-de-vo ± ta — pãfãHüm — ONLY_LONG_SEQUENCE.

Se window_shape == 1, a janelaIf window_shape == 1, the window

LONG_STOP SEQUENCE é dada da seguinte forma:LONG_STOP SEQUENCE is given as follows:

para w(n) =for w (n) =

0.0, w0.0, w

LEFT ,N _sLEFT, N _s

1.0, w, (nN l-N s ),1.0, w, (nN l-N s),

KBD_R1GHT ,N _l («)»KBD_R1GHT, N _l («)»

SeIf

LONG_START_SEQUENCE é determinada por:LONG_START_SEQUENCE is determined by:

N l-N s para 0 < n <N l-N s for 0 <n <

NJ-N_s N_l+N_s para 4 — n < ₄ para ^/^<n<JV_Z/2 para window_shapeNJ-N_s N_l + N_s for 4 - n < ₄ for ^ / ^ <n <JV_Z / 2 for window_shape

N_l/2<n<N_l == 0, a janela paraN_l / 2 <n <N_l == 0, the window for

96/114 w(n) =96/114 w (n) =

0.0, w0.0, w

^rr LEFT,N_s ^rr LEFT, N_s

1.0, z N l—N s\ (n ~ ~ 4 ~ ), \N para para N_l-N_s1.0, z N l — N s \ (n ~ ~ 4 ~), \ N stops for N_l-N_s

N l+N s para para ^^<n<N_l/2 N l/2<n<N lN l + N s for for ^^ <n <N_l / 2 N l / 2 <n <N l

SIN RIGHT.SIN RIGHT.

Os valores de domínio de tempo com janela podem ser calculados com a fórmula explicada em a).The time domain values with window can be calculated with the formula explained in a).

e) STOP_START_SEQÜENCE:e) STOP_START_SEQÜENCE:

O STOP_START_SEQUENCE é necessário para obter uma sobreposição e adição correta para transição de bloco deSTOP_START_SEQUENCE is required to achieve correct overlap and addition for block transition

EIGHT_SHORT_SEQUENCE para um EIGHT_SHORT_SEQUENCE quando é necessária apenas um ONLY_LONG_SEQUENCE.EIGHT_SHORT_SEQUENCE for an EIGHT_SHORT_SEQUENCE when only one ONLY_LONG_SEQUENCE is needed.

O comprimento de janela 2\7_1 e N_s está configurado para 2048 (1920) e 256__(240) , respectivamente.__The window length 2 \ 7_1 and N_s is set to 2048 (1920) and 256 __ (240), respectively .__

Se window_shãpe == 1, a janela paraIf window_shãpe == 1, the window to

STOP START SEQÜENCE é dada da seguinte forma:STOP START SEQÜENCE is given as follows:

0.0,0.0,

N l — N s para 0 < n < —=-=W(ri) =N l - N s for 0 <n <- = - = W (laughs) =

W,W,

WlEFT,N s(ⁿ )7WlEFT, N s ( ⁿ ) 7

-paraJV-forJV

KBD RIGHT,N _s (n +KBD RIGHT, N _s (n +

1.0, para1.0, for

N S 3N l — N Λ', paraN S 3N l - N Λ ', for

3N l — N s3N l - N s

0.0,0.0,

3N l + N s para3N l + N s for

STOP_START_SEQUENCE se parecerá da seguinte forma:STOP_START_SEQUENCE will look like this:

N l + N s —=-=— < n <N l + N s - = - = - <n <

N l + NN l + N

37V 37V 4 l-N s 4 l-N s 4 4 - ^3N.- ^3N . l + N s l + N s

97/11497/114

W,W,

0.0, , N l-N s ç_n--=_—=_), _c N l-N s for 0 < n < —=-= W(n) =0.0,, N lN s ç _n - = _— = _), _c N lN s for 0 <n <- = - = W (n) =

LEFT,N_s - 4LEFT, N_s - 4

1.0, para1.0, for

N l-N sN l-N s

SIN RIGHT.N s (n +SIN RIGHT.N s (n +

N _s 3N_l — N s 2 4N _s 3N_l - N s 2 4

0.0, para0.0, for

3N l-N s ),3N l-N s),

N l + N s <n<N l + N s <n <

3JV 3JV 1 1 o> 1 1 o> 4 4 . ^3ΛΓ.. ^3ΛΓ . l + N s l + N s 4 4

_nara 3N l + N s para -=-<_n<N / _nara 3N l + N s for - = - < _n <N /

Os valores de domínio de tempo com janela podem ser calculados com a formula explicada em a)The time domain values with window can be calculated with the formula explained in a)

f) LPD_START_SEQUENCE:f) LPD_START_SEQUENCE:

O LPD_START_SEQÜENCE é necessário para obter uma correta sobreposição e adição para uma transição de bloco de. ONLY_LONG_SEQUENCE a um LPD_SEQUENCE.LPD_START_SEQÜENCE is required to obtain correct overlap and addition for a block transition. ONLY_LONG_SEQUENCE to an LPD_SEQUENCE.

O comprimento de janela 2\7_1 e N_s está configurado para 2048 (1920) e 256 (240), respectivamente.The window length 2 \ 7_1 and N_s is set to 2048 (1920) and 256 (240), respectively.

Se window_shape == 1, a janela paraIf window_shape == 1, the window to

LPD START SEQUENCE é dada_da_segu-i-nte—fvrntarLPD START SEQUENCE is dada_da_segu-i-nte — fvrntar

W,W,

LEFT,NLEFT, N

1.0,1.0,

W(ri) = paraW (laughs) = for

N l para Q<_n<-—N l for Q < _{n <} -—

N l 3N l-N s —=— <n < =KBD RIGHT,^N-^s/.N l 3N lN s - = - <n <= KBD RIGHT, ^N - ^s /.

, N s 3N l-N S' 3N l-N s 3N l , (n + —=----=—), ^para =-=— <n< -=^~, N s 3N lN S '3N lN s 3N l, (n + - = ---- = -), ^for = - = - <n <- = ^ ~

0.0,0.0,

3N l para -1 <_n<N l3N l to -1 < _{n <} N l

Se windowjshapeIf windowjshape

0, a janela para0, the window for

LPD_START_SEQUENCE terá a seguinte aparência:LPD_START_SEQUENCE will look like this:

98/11498/114

W_T W _T

LEFT,N ,(«)>LEFT, N, («)>

W(n) =W (n) =

SIN RIGHTSIN RIGHT

N s.N s.

(n +(n +

1.0, ;V_s 3N_l-N_s 4 41.0,; V_s 3N_l-N_s 4 4

0.0, para ), para0.0, to), to

N l p³™ 0<n<—^=—N lp ³ ™ 0 <n <- ^ = -

N l 3N l-N s —=— < n < = —N l 3N l-N s - = - <n <= -

44

3N l-N s 3N l -—--- - < n <-=— para ^L=L<_n<N /3N lN s 3N l -—--- - <n <- = - for ^ L = L < _{n <N} /

Os valores de domínio de tempo com janela podem ser calculados com a fórmula explicada em a) .The time domain values with window can be calculated with the formula explained in a).

g) STOP_1152_SEQUENCE:g) STOP_1152_SEQUENCE:

O STOP_1152_SEQUENCE é necessário para obter uma correta sobreposição e adição para uma transição de bloco deSTOP_1152_SEQUENCE is required to obtain correct overlap and addition for a block transition

LPD_SEQUENCE ONLY_LONG_SEQUENCE.LPD_SEQUENCE ONLY_LONG_SEQUENCE.

_ .C comprimento ¹ dá' ' janela e 2V_s está configurado para 2048 (1920) e 256 (240), respectivamente._ .C length ¹ gives '' window and 2V_s is set to 2048 (1920) and 256 (240), respectively.

Se window_shape == 1, a janela paraIf window_shape == 1, the window to

STOP_1152_SEQUENCE é dada da seguinte forma:STOP_1152_SEQUENCE is given as follows:

0.0/0.0 /

W_Left,n ~Aⁿ )»W _L eft, n ~ A ⁿ ) »

W(n) = w_t W (n) = w _t

1.0,1.0,

N l 2N 1 + 3N s 'N Ϊ para 0 < n < —— _Dara N / N 1 + 2N s para —_ _ < _M < — -=—N l 2N 1 + 3N s' N Ϊ for 0 <n <—— _Dara N / N 1 + 2N s for —_ _ < _M <- - = -

44

N 1 + 2N s 2N 1 + 3N s para —=- -— < n <-=KBD RIGHT,N 1 + 2N s 2N 1 + 3N s for - = - -— <n <- = KBD RIGHT,

0.0, ), para 2 JV _ / + 3 TV _ s <_{n<N l +} 3N_s0.0,), for 2 JV _ / + 3 TV _ s < _{n <N l +} 3N_s

3N s para _{N 1+} ³¹ - - <, _n < N l + tf _s4 “3N s for _{N 1+} ³¹ - - <, _n <N l + tf _s 4 “

Se window_shapeIf window_shape

0, a janela para0, the window for

STOP_1152_SEQUENCE terá a seguinte aparência:STOP_1152_SEQUENCE will look like this:

99/11499/114

0.0, θ < „ _< X_=L0.0, θ <„ _< X_ = L

W,W,

LEFT,N_sLEFT, N_s

C ^N-\ (ⁿ—;-)>C ^N - \ ( ⁿ -; -)>

Para N l N 1 + 2N s —=— <n< —=-=—For N l N 1 + 2N s - = - <n <- = - = -

W(n) =W (n) =

1.0, _Dara N 1 + 2N s 2N 1 + 3N s P ^d -₌-<_n<---=—1.0, _Dara N 1 + 2N s 2N 1 + 3N s P ^d - ₌ - < _{n <} --- = -

SIN RIGHT.N ,(n + ,_r 7 nxr , O AT oara 2JV I + 3N S , 3N SSIN RIGHT.N, (n +, _r 7 nxr, O at 2JV I + 3N S, 3N S

N_l 2N_l + 3N_s_Á ^para -=—_:-— <,n<N 1 +-=N_l 2N_l + 3N_s _Á ^for - = - _: -— <, n <N 1 + - =

0.0,0.0,

4 para N _l +^3N ~^S- < η < N _l + N _s4 for N _l + ^3N ~ ^S - <η <N _l + N _s

h) STOP_START_1152_SEQUENCE:h) STOP_START_1152_SEQUENCE:

O STOP_START_1152_SEQUENCE é necessário para obter uma correta sobreposição e _adição- para uma transição de bloco de um LPD_SEQUENCE a um EIGHT_SHORT_SEQUENCE quando é necessário apenas um ONLY_LONG_SEQUENCE.STOP_START_1152_SEQUENCE is necessary to obtain correct overlap and _addition- for a block transition from an LPD_SEQUENCE to an EIGHT_SHORT_SEQUENCE when only one ONLY_LONG_SEQUENCE is needed.

O comprimento de janela 7\7_1 e N_s está configurado para 2048 (1920) e 256 (240), respectivamente.___ __—------^—— Sé window_shape == 1, a janela paraThe window length 7 \ 7_1 and N_s is set to 2048 (1920) and 256 (240), respectively .___ __—------ ^- - See window_shape == 1, the window for

STOP START SEQUENCE é dada da seguinte forma:STOP START SEQUENCE is given as follows:

0.0,0.0,

W(ri) =W (laughs) =

W,W,

LEFT,N_s(ⁿ )’LEFT, N_s ( ⁿ ) '

1.0,1.0,

KBD R1GHT.N s (n +KBD R1GHT.N s (n +

N _s 3N_l N s 2 4 ⁺ N _s 3N_l N s 2 4 ⁺

0.0,0.0,

Se „ N l para 0 < « < —— para N l N l + 2N S —< n < —=-=— para NJ + 2N_s^ 3N_l _| N_sIf „N l for 0 <« <—— for N l N l + 2N S - <n <- = - = - for NJ + 2N_s ^ 3N_l _| N_s

3N l N s para -— +-< n <3N l N s for -— + - <n <

), 4 2 para 3N l), 4 2 for 3N l

22

3N ¹ RT -=—\-N s + N s<n<N l + N s window shape3N ¹ RT - = - \ - N s + N s <n <N l + N s window shape

0, janela para0, window to

STOP_START_SEQUENCE terá a seguinte aparência:STOP_START_SEQUENCE will look like this:

100/114100/114

W,W,

0.0,0.0,

LEr-Τ,Ν_s (ⁿ 4 )’ para n ^{N 1} para 0 < n <-=—LEr-Τ, Ν_s ( ⁿ 4) 'for n ^{N 1} for 0 <n <- = -

N l N 1 + 2N s —=— < n < —=-=—N l N 1 + 2N s - = - <n <- = - = -

W(n) =W (n) =

1.0,1.0,

S1N RIGHT.N s (« +S1N RIGHT.N s («+

N 1 + 2N s 3N l N s —=-=— <n< — H =—N 1 + 2N s 3N l N s - = - = - <n <- H = -

4 24 2

3N l N s 3N l _xr4 2 43N l N s 3N l _xr 4 2 4

3N l para =— + N S < η < N l + N S para3N l for = - + N S <η <N l + N S for

N S 3N l N paraN S 3N l N for

0.0, ),0.0,),

2.3.3 Sobreposição e adição com sequência de janela anterior2.3.3 Overlay and addition with previous window sequence

Além da sobreposição e adição dentro do window_sequence EIGHT_SHORT _a primeira, parte --(esquerda) de cada window_sequence é sobreposta e acrescida de uma segunda parte(direita) do window sequence anterior, resultando nos valores de domínio de tempo final out,,In addition to the overlap and addition within the window_sequence EIGHT_SHORT _the first, part - (left) of each window_sequence is superimposed and added with a second (right) part of the previous window sequence, resulting in the final time domain values out ,,

Ά expressão matemática para essa operação pode ser descrita_da_segu-inte—formalMatemática mathematical expression for this operation can be described

Em caso deIn case of

LONG_START_SEQUENCE, EIGHT_SHORT_ _para NCE, STOP START SEQUENCE,LPD START SEQUENCE:LONG_START_SEQUENCE, EIGHT_SHORT_ _for NCE, STOP START SEQUENCE, LPD START SEQUENCE:

ONLY_LONG_SEQUENCE,ONLY_LONG_SEQUENCE,

LONG STOP SEQUENCE, = ^z,;„ + ^z. , n t-\,n+— 2 ; forOS«<—, N = 2048 (1920) *2.LONG STOP SEQUENCE, = ^z ,; „+ ^z . , n t - \, n + - 2; forOS «<-, N = 2048 (1920) * 2.

em caso dein case of

STOP 1152 SEQUENCE,STOP 1152 SEQUENCE,

STOP START 1152 SEQUENCE ^OU^i,n “ ^Zi,n ^{+ Z} , N l 3N s ’ ;-!,«+——+-— para )<«< N l = 2048, N_s = 256STOP START 1152 SEQUENCE ^OU ^ i, n “ ^Z i, n ^{+ Z} , N l 3N s'; - !,« + —— + -— to) <«<N l = 2048, N_s = 256

101/114101/114

Em caso de LPD_START_SEQUENCE, a próxima sequência é um LPD_SEQUENCE. Uma janela SIN ou KBD é aplicada na parte esquerda do LPD_SEQUENCE para ter boa sobreposição e adição.In the case of LPD_START_SEQUENCE, the next sequence is an LPD_SEQUENCE. A SIN or KBD window is applied to the left of LPD_SEQUENCE to have good overlap and addition.

WW

SINSIN

LEFT,NLEFT, N

para _Λ ^No<«<—for _Λ ^N o <«<-

Com N = 128With N = 128

Em caso de STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE, a sequência anterior é um LPD_SEQUENCE. Uma janela de TDAC é aplicada na parte direita do LPD_SEQUENCE para se ter uma boa sobreposição e adição.In case of STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE, the previous sequence is an LPD_SEQUENCE. A TDAC window is applied to the right of the LPD_SEQUENCE to have a good overlap and addition.

Previous LPD framePrevious LPD frame

Lk+1— RkLk + 1— Rk

TDA iTDATDA iTDA

Legenda da figura: Current frame=quadro atual, Previous__LPD_.frame=qu-adro·^-de EPD'anterior, Windowing= janelamento, Folc/ing=dobra (dobramento) , Unjfo2ding=des dobramento,Figure caption: Current frame = current frame, Previous__LPD_.frame = qu-adro · ^- from EPD'anterior, Windowing = windowing, Folc / ing = fold (folding), Unjfo2ding = des folding,

Adding=adição.Adding = addition.

3. IMDCT3. IMDCT

Veja subitem 2.3.1See subsection 2.3.1

3.1 Comutação de janelamento e bloco3.1 Window and block switching

Dependendo do uso dos protótipos de janela de transformação sobre-amostrados de elemento diferente window_shape, o comprimento das janelas de sobre-amostragem éDepending on the use of oversampled transformation window prototypes of a different element window_shape, the length of oversampled windows is

N_os = 2 · n_ long · os _ factor _ winN _os = 2 · n_ long · os _ factor _ win

Para window_shape == 1, os coeficientes de janelaFor window_shape == 1, the window coefficients

102/114 são dados pela janela derivada de Kaiser - Bessel (KBD) da seguinte forma:102/114 are given by the Kaiser-Bessel-derived window (KBD) as follows:

Nns-n-iNns-n-i

KBD f N n--^k 2 )KBD f N n - ^ k 2)

Zk(p.“)]Zk (p. “)]

P=° /Vos/2 paraP = ° / Vos / 2 for

N, os <n <N, osN, the <n <N, the

Σ[^(λ«)] p=0 onde:Σ [^ (λ «)] p = 0 where:

W\ função de janela kemel Kaisser-Bessel, veja também [5], é definida abaixo:W \ kemel Kaisser-Bessel window function, see also [5], is defined below:

!οΜ = Σ fc=0 λ X! οΜ = Σ fc = 0 λ X

2a k\ ⁿ *os !2a k \ ⁿ * os!

N_OJ^N _O J ^

I_O|>6Z] para Q < _n <I _O |> 6Z] for Q < _n <

N, os a — fator alpha de janela kemel, a = 4N, os a - kemel window alpha factor, a = 4

Caso contrário, para wmdow_shape -= 0, uma janela de seno é empregada da seguinte forma:Otherwise, for wmdow_shape - = 0, a sine window is used as follows:

SINSIN

N, os = sinN, os = sin

Vi paraI saw for

N, os <n <N, osN, the <n <N, the

Para todos os tipos de window_sequences, o protoype usado para a parte da janela esquerda é o determinado pela forma de janela do bloco anterior. A seguinte fórmula expressa esse fato:For all types of window_sequences, the protoype used for the left window part is determined by the window shape of the previous block. The following formula expresses this fact:

103/114 left_window_shape\p\ =103/114 left_window_shape \ p \ =

Wkbd [n], se window_shape_previous_block — 1 W sin [n], se window_shape_previous_block =- 0Wkbd [n], if window_shape_previous_block - 1 W sin [n], if window_shape_previous_block = - 0

Da mesma forma, o protótipo para a forma de janela direita é determinado pela seguinte fórmula:Likewise, the prototype for the right window shape is determined by the following formula:

rzg/zZ_wz«6/ow_5/zape[n] =rzg / zZ_wz «6 / ow_5 / zape [n] =

W kbd [n], se window _shape = 1 - W sin [n], se window _shape = 0W kbd [n], if window _shape = 1 - W sin [n], if window _shape = 0

Uma vez que os comprimentos de transição já estão determinados, estes devem ser apenas diferenciados entre os EIGHT_SHORT_SEQUENCE e todos os outros:Since the transition lengths are already determined, they should only be differentiated between EIGHT_SHORT_SEQUENCE and all others:

a) EIGHT SHORT SEQUENCE:a) EIGHT SHORT SEQUENCE:

O seguinte c-código como porção descreve a .sobreposição-adiçãõ' de janelamento e interna de um EIGHT_SHORT_SEQUENCE:The following c-code as a portion describes the window and internal overlap-addition of an EIGHT_SHORT_SEQUENCE:

tw_windowing_short (X [ ] [ ] , z[],first_pos, last_pos, warpe_trans_len_left, warped_trans_len_right, left_window_s hape [] , right window shaqeJJJJ______—--' ’ offset = n_long - 4*n_short - n_short/2; tr_scale_l ⁼ tw_windowing_short (X [] [], z [], first_pos, last_pos, warpe_trans_len_left, warped_trans_len_right, left_window_s hape [] shaqeJJJJ right window ______--- 'offset = n_long - 4 * n_short - n_short / 2; tr_scale_l ⁼

0.5*n_long/warped_trans_len_left*os_factor_win;0.5 * n_long / warped_trans_len_left * os_factor_win;

tr_pos_l = warped_trans_len_left+(first_posn_long/2)0,5)*tr_scale_l;tr_pos_l = warped_trans_len_left + (first_posn_long / 2) 0.5) * tr_scale_l;

tr_scale_r = 8*os_factor_win;tr_scale_r = 8 * os_factor_win;

tr_pos_r = tr_scale_r/2;tr_pos_r = tr_scale_r / 2;

for (i = 0 ; i < n_short ; i++ ) { z[i] = X[0] [i] ;for (i = 0; i <n_short; i ++) {z [i] = X [0] [i];

for(i=0;i<first pos;i++)for (i = 0; i <first pos; i ++)

104/114 z[i] = Ο . ;104/114 z [i] = Ο. ;

for(i=n_long-l-first_pos;i>=first_pos;1-) { z[i] *= left_window_shape[floor(tr_pos_l)]; tr_pos_l += tr_scale_l;for (i = n_long-l-first_pos; i> = first_pos; 1-) {z [i] * = left_window_shape [floor (tr_pos_l)]; tr_pos_l + = tr_scale_l;

} for(i=0;i<n_short;i++) { z[offset+i+n short] =} for (i = 0; i <n_short; i ++) {z [offset + i + n short] =

X[0] [i+n_short]*right_window_shape[floor(tr_pos_r)] ;X [0] [i + n_short] * right_window_shape [floor (tr_pos_r)];

tr_pos_r += tr_scale_r;tr_pos_r + = tr_scale_r;

} offset += n_short;} offset + = n_short;

for ( k = 1 ; k < 7 ; k+ + ) { tr_scale_l = n_short*os_factor_win; tr_pos_l = tr_scale_l/2;for (k = 1; k <7; k + +) {tr_scale_l = n_short * os_factor_win; tr_pos_l = tr_scale_l / 2;

tr_pos_r = os_factor_win*n_long-tr_pos_l; for ( i = 0 ; i < n_short ; i++ ) { ________ ______z [-i——~ ’ + offset] +=tr_pos_r = os_factor_win * n_long-tr_pos_l; for (i = 0; i <n_short; i ++) {________ ______z [-i—— ~ ’+ offset] + =

X [k] [i ]*right_window_shape[floor(tr_pos_r)];X [k] [i] * right_window_shape [floor (tr_pos_r)];

z[offset + n_short + i] =z [offset + n_short + i] =

X[k][n_short +X [k] [n_short +

i]*right_window_shape[floor(tr_pos_l)];i] * right_window_shape [floor (tr_pos_l)];

tr_pos_l += tr_scale_l; tr_pos_r -= tr_scale_l;tr_pos_l + = tr_scale_l; tr_pos_r - = tr_scale_l;

} offset += n_short;} offset + = n_short;

} tr_scale_l = n_short*os_factor_win;} tr_scale_l = n_short * os_factor_win;

105/114 tr_pos_l = tr_scale_l/2;105/114 tr_pos_l = tr_scale_l / 2;

for ( i = n_short - 1 ; i >= 0 ; i-- ) { z[i + offset] +for (i = n_short - 1; i> = 0; i--) {z [i + offset] +

X [7] [i]*right_window_shape[(int) floor(tr_pos_l)];X [7] [i] * right_window_shape [(int) floor (tr_pos_l)];

tr_pos_l += tr_scale_l;tr_pos_l + = tr_scale_l;

} for ( i = 0 ; i < n_short ; i++ ) { z[offset + n_short + i] = X[7][n_short + i];} for (i = 0; i <n_short; i ++) {z [offset + n_short + i] = X [7] [n_short + i];

} tr_scale_r} tr_scale_r

0.5*n_long/warpedTransLenRight*os_factor_win;0.5 * n_long / warpedTransLenRight * os_factor_win;

tr_pos_r = 0.5*tr_scale_r+. 5; ' ' tr_pos_r = (1.5*n_long-(float)wEnd0.5+warpedTransLenRight)*tr_scale_r;tr_pos_r = 0.5 * tr_scale_r +. 5; '' tr_pos_r = (1.5 * n_long- (float) wEnd0.5 + warpedTransLenRight) * tr_scale_r;

for(i=3*n_long-l-last_pos ;i<=wEnd;i++) { z[i] *= right window shape[floor (tr pos r)];_ _________-1r3dõsHr+=—t'r_s cal e_r ;for (i = 3 * n_long-l-last_pos; i <= wEnd; i ++) {z [i] * = right window shape [floor (tr pos r)]; _ _________- 1r3dõsHr + = - t'r_s cal e_r;

} for(i=lsat_pos+l;i<2*n_long;i++) z [ i ] = 0 . ;} for (i = lsat_pos + l; i <2 * n_long; i ++) z [i] = 0. ;

b) todos os outros:b) all others:

tw_windowing_long(X[] [] , z [] , first_pos,last_pos,wa rpe_trans_len_left,warped_trans_len_right, left_window_shape [ ] , righ t_window_shape[]){ for(i=0;i<first_pos;i++) z[i] = 0.;tw_windowing_long (X [] [], z [], first_pos, last_pos, wa rpe_trans_len_left, warped_trans_len_right, left_window_shape [], righ t_window_shape []) {for (i = 0; i <first_pos; i ++) z [i] = 0. ;

for(i=last pos+1;i<N;i++)for (i = last pos + 1; i <N; i ++)

106/114 ζ [ i ] = 0 .;106/114 ζ [i] = 0 .;

tr_scale =tr_scale =

tr_pos = (warped_trans_len_left+first_posN/4)+0.5)*tr_scale;tr_pos = (warped_trans_len_left + first_posN / 4) +0.5) * tr_scale;

for(i=N/2-l-first_pos;i>=first_pos;i—) { z [i]for (i = N / 2-l-first_pos; i> = first_pos; i—) {z [i]

X [0] [i]*left_window_shape(floor(tr_pos)]);X [0] [i] * left_window_shape (floor (tr_pos)]);

tr_pos += tr_scale;tr_pos + = tr_scale;

} tr_scale =} tr_scale =

0.5*n_long/warped_trans_len_right*os_factor_win;0.5 * n_long / warped_trans_len_right * os_factor_win;

_ tr__pos - - - = “ - - - (3*N/4-lastJpos0.5+warped_trans_len_right)*tr_scale;_ tr__pos - - - = “- - - (3 * N / 4-lastJpos0.5 + warped_trans_len_right) * tr_scale;

for(i=3*N/2-l-last_pos;i<=last_pos;i++) { z [i]for (i = 3 * N / 2-l-last_pos; i <= last_pos; i ++) {z [i]

X [0] [i]*right_window_shape[floor(tr_pos)]) ;X [0] [i] * right_window_shape [floor (tr_pos)]);

tr_pos += tr_scale;tr_pos + = tr_scale;

} }}}

4. TCX baseado em MDCT4. MDCT-based TCX

4.1 Descrição da ferramenta4.1 Description of the tool

Quando o core_mode é igual ale quando um ou mais dos três modos de TCX são selecionados como codificação domínio-previsão linear, isto é, uma das 4 entradas de matriz de mod [ ] é maior do que 0, é usada a ferramenta de TCX baseado emWhen core_mode is equal to ale when one or more of the three TCX modes are selected as linear domain-prediction encoding, that is, one of the 4 matrix entries of mod [] is greater than 0, the TCX tool based on in

MDCT. O TCX baseado em MDCT recebe os coeficientes espectrais quantizados do decodificador aritmético. Os coeficientesMDCT. The MDCT-based TCX receives the quantized spectral coefficients from the arithmetic decoder. The coefficients

107/114 quantizados são primeiramente completados por um ruído de conforto antes de aplicar uma transformação MDCT inversa para obter uma síntese ponderada de domínio de tempo, que é então alimentado para o filtro de LPC de síntese ponderado.Quantities 107/114 are first completed by a comfort noise before applying an inverse MDCT transformation to obtain a weighted time domain synthesis, which is then fed into the weighted synthesis LPC filter.

4.2 Definições lg Número de saída de coeficientes espectrais quantizados pelo decodificador aritmético noise_factor índice de quantização de nível de ruído noise levei Nível de ruído injetado no espectro reconstruído noise [] Vetor de ruído gerado global_gain índice de quantização_ de ..ganho.4.2 Definitions lg Number of output of spectral coefficients quantized by the arithmetic decoder noise_factor noise level quantization index noise led Noise level injected into the reconstructed spectrum noise [] Generated noise vector global_gain quantization index_of.

redimensionado g Ganho redimensionado rms raiz média quadrática do sinal de domínio de tempo sintizado, x[],resized g Resized gain rms root mean quadratic root of the synthesized time domain signal, x [],

-------- xy-j Sinal de domínio de tempo sintetizado-------- xy-j Synthesized time domain signal

4.3 O processo de decodificação4.3 The decoding process

O TCX baseado em MDCT requer do decodificador aritmético um número de coeficientes espectrais quantizados, lg, que é determinado por mod[] e valores last_lpd_mode. Esses dois valores também definem o comprimento de janela e a forma que serão aplicados no MDCT inverso. A janela é composta de três partes, uma sobreposição de lado esquerdo das amostras de L, uma parte no meio das amostras M e uma parte de sobreposição direita das amostras R.The MDCT-based TCX requires from the arithmetic decoder a number of quantized spectral coefficients, lg, which is determined by mod [] and last_lpd_mode values. These two values also define the window length and the shape that will be applied in the reverse MDCT. The window is composed of three parts, a left side overlay of the L samples, a part in the middle of the M samples and a right overlap part of the R samples.

Para obter uma janela de MDCT de comprimento 2*lg, são adicionadosTo obtain a 2 * lg length MDCT window,

108/114 zeros ZL à esquerda e zeros ZR à direita, conforme indicado na fi.108/114 ZL zeros on the left and ZR zeros on the right, as indicated in fi.

14G para a Tabela 3/Fig. 14F.14G for Table 3 / Fig. 14F.

Tabela 3 - Número de Coeficientes Espectrais como uma função de last_lpd_mode e mod[]Table 3 - Number of Spectral Coefficients as a function of last_lpd_mode and mod []

Valor de last lpd mo de Value of last lpd mo in Valor de mod[x] Value of mod [x] Número lg de coeficientes espectrais Lg number of coefficients spectral ZL ZL L L M M R R ZR ZR 0 0 1 1 320 320 160 160 0 0 256 256 128 128 96 96 0 0 2 2 576 576 288 288 0 0 512 512 128 128 224 224 0 0 3 3 1152 1152 512 512 128 128 1024 1024 128 128 512 512 1. .3 1. .3 1 1 256 256 64 64 128 128 128 128 128 128 64 64 1. .3 1. .3 2 2 512 512 192 192 128 128 384 384 128 128 192 192 1. . 3 1. . 3 3 3 1024 . 1024. , 44 8 . , 44 8. 128 128 - 896 - - 896 - - 12 8 - - 12 8 - ‘ 448 ‘448

A janela MDCT is dada ί^(ή)The MDCT window is given ί ^ (ή)

P^ara 0 < n < ZLI ⁿ 0 <n <ZL

W_SÍN _ left,l (ⁿ ~ ___para_______ZL_<m^~ZL^. L ----1 para ZL + L<n<ZL + L + M right r(P ~ ZL — L — Μ} P ZL + L + M<n<ZL + L + M + R 0 ZL + L + Af + R < n < 2 lgW _SÍN _ left, l ( ⁿ ~ ___ for _______ ZL_ <m ^ ~ ZL ^. L ---- 1 for ZL + L <n <ZL + L + M right r (P ~ ZL - L - Μ} P ZL + L + M <n <ZL + L + M + R 0 ZL + L + Af + R <n <2 lg

Os coeficientes quantizados espectrais, quant[], emitidos pelo decodificador aritmético são completados por um ruído de conforto. O nivel de ruído injetado é determinado pelo noise__factor decodificado da seguinte forma:The spectral quantized coefficients, quant [], emitted by the arithmetic decoder are completed by a comfort noise. The level of injected noise is determined by the noise__factor decoded as follows:

noise_level = 0.0625*(8-noise_factor)noise_level = 0.0625 * (8-noise_factor)

Um vetor de ruídos, noise[], é então computado usando uma função aleatória, random_sign(), emitindo aleatoriamente o valor -1 ou +1.A noise vector, noise [], is then computed using a random function, random_sign (), emitting -1 or +1 at random.

109/114 noise[i] = random_sign()*noise_level;109/114 noise [i] = random_sign () * noise_level;

Os vetores quant[] e noise[] são combinados para formar o vetor de coeficientes espectrais reconstruídos, r[], de forma que a execução de 8 zeros consecutivos em quant [ ] são substituídos pelos componentes de noise[]. Uma execução de 8 nãozeros são detectados de acordo com a fórmula:The vectors quant [] and noise [] are combined to form the vector of reconstructed spectral coefficients, r [], so that the execution of 8 consecutive zeroes in quant [] are replaced by the noise [] components. An execution of 8 nonzero is detected according to the formula:

r/[z] = 1 for i e [0, lg/ 6[ r/[lg/ 6 + z] = yj |^zzízzzí[lg/ 6 + 8.[_z / 8j + Ãr]J for z e [0,7. lg/ 6[ fc=0r / [z] = 1 for ie [0, lg / 6 [r / [lg / 6 + z] = yj | ^ zzízzzí [lg / 6 + 8. [[z / 8j + Ãr] J for ze [0, 7. lg / 6 [fc = 0

Obtém-se o espectro reconstruído da seguinte forma:The reconstructed spectrum is obtained as follows:

r[z] quant\í\ se r/[z] = 1 noise[i] caso contrárior [z] quant \ í \ se r / [z] = 1 noise [i] otherwise

Anterior à aplicação do MDCT inverso, um espectro de-formação é aplicado de acordo com os seguintes passos:Prior to the application of the inverse MDCT, a deformation spectrum is applied according to the following steps:

1. Calcular a eneraia..£\..do-bloco-de—8^dimensões no índice m para cada bloco de 8-dimensões do primeiro quarto de espectro1. Calculate the eneraia .. £ \ .. of the 8-dimensional block in the index m for each 8-dimensional block of the first quarter of the spectrum

2. Calcular a razão de R_m-sqrt (E_m/Ei) , onde I é o índice de bloco com o valor máximo de todas E_m 2. Calculate the ratio of R _m -sqrt (E _m / Ei), where I is the block index with the maximum value of all E _m

3. Se R_m<0,l, então configurar R_m=0,l3. If R _m <0, l, then set R _m = 0, l

4. Se R_m<R_m-l, então configurar R_m=R_m-l4. If R _m <R _m -l, then set R _m = R _m -l

Cada bloco de 8-dimensões pertencendo ao primeiro quarto de espectro é, então, multiplicado pelo fator de R_m.Each 8-dimensional block belonging to the first quarter of the spectrum is then multiplied by the factor of R _m .

O espectro reconstruído é alimentado em um MDCT inverso. O sinal de saída não-janelado, x[], é novamente re110/114 dimensionado pelo ganho, g, obtido por uma quantização inversa do índice global_gain decodificado:The reconstructed spectrum is fed into an inverse MDCT. The non-windowed output signal, x [], is again re110 / 114 scaled by the gain, g, obtained by an inverse quantization of the decoded global_gain index:

g _ j Qglobal-gainf28l(2.rms)g _ j Qglobal-gainf28l (2.rms)

Onde rms é calculado como:Where rms is calculated as:

3*lg/2-l <=lg/2 rms =3 * lg / 2-l <= lg / 2 rms =

L + M + RL + M + R

O sinal de cúpula redimensionado é, então, igual a:The resized dome signal is then equal to:

= *[/]·£= * [/] · £

Após o redimensionamento, são aplicados o janelamento e a adição de sobreposição. - · ' 'After resizing, windowing and adding overlay are applied. - · ''

O TCX alvo reconstruído x(n) é, então, filtrado através do filtro de síntese ponderado inverso do estado-zero • ^: , - para localizar o sinal de excitação, que seráThe reconstructed TCX target x (n) is then filtered through the weighted synthesis inverse filter state zero ^•: - to find the excitation signal which is

A(z)(l — az~^l) /(A(z / λ) aplicado para o filtro de síntese. Obs.er.ve_que—o—f-i-itro—de EP' de tempo sintetizado interpolado por subquadro é usado na filtragem. Uma vez que a excitação é determinada, o sinal é reconstruído através da filtragem da excitação através de filtro de síntese a e, 1/A(z) então, a desênfase por filtragem através do filtro ,A (z) (l - az ~ ^l ) / (A (z / λ) applied to the synthesis filter. Obs.er.ve_que — the synthesized time EP-fi-iter interpolated by subframe is used in Once the excitation is determined, the signal is reconstructed by filtering the excitation through the synthesis filter ae, 1 / A (z) then the de-emphasis by filtering through the filter,

1/(1 —0.68z ) como descrito acima.1 / (1 — 0.68z) as described above.

Note-se que a excitação é necessária também para atualizar o codebook de ACELP adaptativo e permitir comutação do TCX para o ACELP em um quadro subsequente. Note também que o comprimento da síntese de TCX é dado pelo comprimento do quadro (sem sobreposição) de TCX: amostras de 256, 512 ou 1024 para oNote that the excitation is also required to update the adaptive ACELP codebook and allow switching from TCX to ACELP in a subsequent frame. Also note that the length of the TCX synthesis is given by the length of the TCX frame (without overlapping): samples of 256, 512 or 1024 for the

111/114 mod[] de 1,2 ou 3, respectivamente.111/114 mod [] of 1.2 or 3, respectively.

Referências Normativas [1] ISO/IEC 11172-3:1993, Information technologyNormative References [1] ISO / IEC 11172-3: 1993, Information technology

- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit / s, Part 3: Audio.

[2] ITÜ-T Rec.H.222.0(1995) | ISO/IEC 138181:2000, Information technology - Generic coding of moving pictures and associated audio Information: - Part 1: Systems.[2] ITÜ-T Rec.H.222.0 (1995) | ISO / IEC 138181: 2000, Information technology - Generic coding of moving pictures and associated audio Information: - Part 1: Systems.

[3] ISO/IEC 13818-3:1998, Information technology[3] ISO / IEC 13818-3: 1998, Information technology

Generic coding of moving pictures and associated audioGeneric coding of moving pictures and associated audio

Information: - Part 3: Audio.Information: - Part 3: Audio.

[4] ISO/IEC 13818-7:2004, Information technology[4] ISO / IEC 13818-7: 2004, Information technology

Generic coding of moving pictures and associated - audioGeneric coding of moving pictures and associated - audio

Information: - Part 7: Advanced Audio Coding (AAC).Information: - Part 7: Advanced Audio Coding (AAC).

[5] ISO/IEC 14496-3:2005, Information technology[5] ISO / IEC 14496-3: 2005, Information technology

- Coding of audio-visual objects - Part 1: Systems [6] ISO/IEC 14496-3:2005, Information technology ç. .Coding—of-audi-o—vi-sual-Ob j'éct“s^--^__Part 3: Audio [7] ISO/IEC 23003-1:2007, Information technology — MPEG audio technologies — Part 1: MPEG Surround [8] 3GPP TS 26.290 V6.3.0, Extended Adaptive- Coding of audio-visual objects - Part 1: Systems [6] ISO / IEC 14496-3: 2005, Information technology ç. .Coding — of-audi-o — vi-sual-Ob j'éct “s ^- - ^__ Part 3: Audio [7] ISO / IEC 23003-1: 2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround [8] 3GPP TS 26.290 V6.3.0, Extended Adaptive

Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions [9] 3GPP TS 26.190, Adaptive Multi-Rate Wideband (AMR-WB) speech codec; Transcoding functions [10] 3GPP TS 26,090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functionsMulti-Rate - Wideband (AMR-WB +) codec; Transcoding functions [9] 3GPP TS 26.190, Adaptive Multi-Rate Wideband (AMR-WB) speech codec; Transcoding functions [10] 3GPP TS 26,090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions

DefiniçõesDefinitions

As definições podem ser encontradas no ISO/IECDefinitions can be found in ISO / IEC

112/114112/114

14496-3, subparte 1, subitem 1.3 (Termos e definições) e em 3GPP14496-3, subpart 1, subitem 1.3 (Terms and definitions) and in 3GPP

TS 26.290, Seção 3 (Definições e abreviaturas).TS 26.290, Section 3 (Definitions and abbreviations).

Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma fase do método ou uma característica de uma fase do método. Analogamente, os aspectos descritos no contexto de uma fase do método também representam uma descrição de um bloco correspondente, ou item ou característica de um aparelho correspondente.Although some aspects have been described in the context of an apparatus, it is evident that these aspects also represent a description of the corresponding method, where a block or device corresponds to a method phase or a characteristic of a method phase. Similarly, the aspects described in the context of a method phase also represent a description of a corresponding block, or item or characteristic of a corresponding device.

O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, tal^ como ,um meio- -de transmissão sem fio ou um meio de transmissão com fio, tal como aThe inventive encoded audio signal can be stored on a digital storage medium or can be transmitted on a transmission medium, such as a wireless transmission medium or a wired transmission medium, such as

Internet.Internet.

Dependendo de certos requisitos de implementação, configurações da invenção podem ser implementados em hardware ou software-A—implementaçãd~pdciê ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, CD, ROM, PROM, EPRÕM, EEPROM ou memória FLASH, tendo sinais de controle eletronicamente legíveis nela armazenados, que cooperam ( ou são capazes de cooperar) com um sistema de computador programável de tal forma que é realizado o respectivo método.Depending on certain implementation requirements, configurations of the invention can be implemented in hardware or software-A — implementation can be performed using a digital storage medium, for example, a floppy disk, a DVD, CD, ROM, PROM, EPRÕM, EEPROM or FLASH memory, having electronically readable control signals stored there, which cooperate (or are capable of cooperating) with a programmable computer system in such a way that the respective method is carried out.

Algumas configurações de acordo com a invenção compreendem um portador de dados tendo sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de modo que é realizado um dos métodos descritos aqui.Some configurations according to the invention comprise a data carrier having electronically readable control signals, which are able to cooperate with a programmable computer system, so that one of the methods described here is performed.

113/114113/114

Geralmente, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código do programa sendo operativo para a realização de um dos métodos, quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador de leitura óptica.Generally, the configurations of the present invention can be implemented as a computer program product with a program code, the program code being operative to perform one of the methods, when the computer program product is run on a computer. The program code can, for example, be stored on an optical reader.

Outras configurações compreendem um programa de computador para a realização de um dos métodos descritos aqui, armazenado em um transportador de leitura óptica.Other configurations include a computer program for carrying out one of the methods described here, stored in an optical reading conveyor.

Em outras palavras, uma configuração do método inventivo é, portanto, um programa de computador tendo um código de programa para executar um dos métodos descritos.aqui, quando oprograma de computador é executado em um computador.In other words, a configuration of the inventive method is, therefore, a computer program having a program code to execute one of the described methods. Here, when the computer program is executed on a computer.

Uma outra configuração dos métodos inventivos é, portanto, um portador 'de dados (ou um meio de armazenamento digital, ou um meio legível por computador), compreendendo, grayado_nele,—-o-programa^-dê^-'computador para a realização de um dos métodos descritos aqui.Another configuration of the inventive methods is, therefore, a data carrier '(or a digital storage medium, or a computer-readable medium), comprising, grayado_nele, —- the-program ^- give ^- ' computer for the realization of a of the methods described here.

Uma outra configuração do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para a realização de um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurado para ser transferido via conexão de comunicação de dados, por exemplo, via Internet.Another configuration of the inventive method is, therefore, a data stream or a sequence of signals representing the computer program for carrying out one of the methods described here. The data flow or signal sequence can, for example, be configured to be transferred via a data communication connection, for example, via the Internet.

Uma outra configuração compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para executar um dosAnother configuration comprises processing means, for example, a computer or a programmable logic device, configured or adapted to execute one of the

114/114 métodos descritos aqui.114/114 methods described here.

Uma outra configuração compreende um computador que tenha instalado nele o programa de computador para a realização de um dos métodos descritos aqui.Another configuration comprises a computer that has the computer program installed on it to perform one of the methods described here.

Em algumas configurações, um dispositivo lógico programável (por exemplo, um campo gate array programável) pode ser utilizado para executar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas configurações, um gate array de campo programável pode cooperar com um microprocessador para executar um dos métodos descritos aqui. Geralmente, os métodos são, de preferência, realizados por qualquer aparelho de hardware.In some configurations, a programmable logic device (for example, a programmable gate array field) can be used to perform some or all of the functionality of the methods described here. In some configurations, a programmable field gate array can cooperate with a microprocessor to perform one of the methods described here. Generally, the methods are preferably performed by any hardware device.

—As configurações descritas acima· são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações dos arranjos e os detalhes descritos neste documento serão aparentes para os outros qualificados na técnica. É a intenção, portanto, estar limitado pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explanação das configurações aqui apresentadas.—The configurations described above · are merely illustrative for the principles of the present invention. It is understood that the modifications and variations of the arrangements and the details described in this document will be apparent to others qualified in the art. It is the intention, therefore, to be limited by the scope of the impending patent claims and not by the specific details presented through the description and explanation of the configurations presented here.

Claims

1. Audio encoder to encode an audio signal characterized by comprising:

a first code conversion branch to encode an audio signal using a first code conversion algorithm to capture a first encoded signal, the first code conversion branch comprising the first converter to convert an input signal in a spectral domain;

a second code conversion branch to encode an audio signal using a second code conversion algorithm to capture a second encoded signal, where the first code conversion algorithm is different from the second code conversion algorithm, the second branch of code conversion comprising a domain converter for converting an input signal from an input domain to an output domain, and a second converter for converting an input signal to a spectral domain;

a switch to switch between the first code conversion branch and the second code conversion branch so that, for a portion of the audio input signal, both the first encoded signal and the second encoded signal are on an output signal of encoder;

a signal analyzer for analyzing the audio signal portion to determine whether the audio signal portion is represented as the first encoded signal or as the second encoded signal in the encoder output signal,

Petition 870190024003, of 03/13/2019, p. 14/176

2/17 wherein the signal analyzer is additionally configured to variablely determine a respective time / frequency resolution of the first converter and the second converter, when the first encoded signal or the second encoded signal representing the audio signal portion is generated; and an output interface for generating an encoder output signal comprising the first encoded signal and the second encoded signal and information indicating the first encoded signal and the second encoded signal, and information indicating the time / frequency resolution applied to encode the first encoded signal and to encode the second encoded signal, in which the signal analyzer is configured to determine the time / frequency resolution to be selected from a plurality of different window lengths, the different window lengths being are at least two out of 2304, 2048, 256, 1920, 2160, 240 samples, or use a plurality of different transformed lengths, where the different transformed lengths comprise at least two of the group comprising 1152, 1024, 1080, 960, 128, 120 coefficients per transformed block, or where the signal analyzer is configured to determine the resolution time / frequency of the second converter as one of a plurality of different window lengths, with the plurality of different window lengths being at least two out of 640, 1152,

Petition 870190024003, of 03/13/2019, p. 15/176

3/17

2304, 512, 1024 or 2048 samples, or use a plurality of different transformed lengths, wherein the different transformed lengths comprise at least two of the group comprising 320, 576, 1152, 256, 512, 1024 spectral coefficients per transformed block.

Audio encoder according to claim 1, characterized in that the signal analyzer is configured to classify the portion of the audio signal as a speech audio signal or a music audio signal and to perform a transient detection in the case of a music signal to determine the time / frequency resolution of the first converter or to perform synthesis analysis processing to determine the time / frequency resolution of the second converter.

Audio encoder according to claim 1, characterized in that the first converter and the second converter comprise a variable window transformation processor comprising a window function with a variable window size and a transformation function with a length of variable transformation, and in which the signal analyzer is configured to control, based on the signal analysis, the window size and / or the transformation length.

claim 1, characterized

audio, according to the fur second branch in branch of processing for domain determined fur that a second branch in

Petition 870190024003, of 03/13/2019, p. 16/176

4/17 processing comprises the second converter, in which the signal analyzer is configured to subdivide the portion of the audio signal into a sequence of sub-portions, and in which the signal analyzer is configured to determine the time / frequency resolution of the second converter that depends on the position of the sub-portion processed by the first processing branch in relation to a sub-portion of the portion processed by the second processing branch.

Audio encoder according to claim 4, characterized in that the first processing branch comprises an ACELP encoder, in which the second processing branch comprises an MDCT-TCX processing device, in which the signal analyzer is configured to configure the time resolution of the second converter to a first value determined by a length of a sub-portion or a second value determined by a length of the sub-portion multiplied by an integer value greater than one, where the second value is less than the first value .

6. Audio encoder according to claim 1, characterized in that the signal analyzer is configured to determine a signal rating in a constant scan that covers a plurality of blocks of equal size of audio samples, and to subdivide a block into a variable number of blocks that depend on the audio signal, where a length of the sub-block determines the first time / frequency resolution or the second time / frequency resolution.

Petition 870190024003, of 03/13/2019, p. 17/176

5/17

7. Audio encoder according to claim 1, characterized by the second branch of conversion into code comprising:

a first processing branch for processing an audio signal;

a second processing branch, the second processing branch comprising the second converter;

and an additional switch to switch between the first processing branch and the second processing branch so that, for a portion of the audio signal input in the second code conversion branch, both a first processed signal and a second processed signal are in the second coded signal.

8. Audio coding method an audio signal characterized by comprising:

encode, in a first branch of conversion into code, an audio signal using the first algorithm of conversion into code to capture a first encoded signal, the first branch of conversion in code comprising the first converter to convert a signal entry into a spectral domain;

encode, in a second branch of code conversion, an audio signal using a second code conversion algorithm to capture a second encoded signal, in which the first code conversion algorithm is different from the second conversion algorithm code, and the second branch of conversion into code comprises a data converter

Petition 870190024003, of 03/13/2019, p. 18/176

6/17 domain to convert an input signal from an input domain to an output domain, and a second converter to convert an input signal to a spectral domain;

switching between the first code conversion branch and the second code conversion branch so that, for a portion of the audio input signal, both the first encoded signal and the second encoded signal are on an encoder output signal;

analyze the audio signal portion to determine whether the audio signal portion is represented as the first encoded signal or as the second encoded signal in the encoder output signal, variablely determine the respective time / frequency resolution of the first converter and the second converter, when the first encoded signal or the second encoded signal representing the portion of the audio signal is generated; and

generate one exit sign in encoder that comprises the first coded signal and the second sign encoded and information indicating O first sign encoded And the second encoded signal, and information that indicate the resolution of time / frequency applied to

encode the first encoded signal and to encode the second encoded signal, in which the analysis determines the time / frequency resolution to be selected from a plurality of different window lengths, the different

Petition 870190024003, of 03/13/2019, p. 19/176

7/17 window lengths are at least two out of 2304, 2048,

256, 1920, 2160, 240 samples, or use the plurality of different transformed lengths, where the different transformed lengths comprise at least two of the group comprising 1152, 1024, 1080, 960, 128, 120 coefficients per transformed block, or where the analysis determines the time / frequency resolution of the second converter as one of a plurality of different window lengths, the plurality of different window lengths being at least two out of 640, 1152, 2304, 512, 1024 or 2048 samples, or uses a plurality of different transformed lengths, where the different transformed lengths comprise at least two of the group comprising 320, 576, 1152,

256, 512, 1024 spectral coefficients per transformed block.

9. Audio decoder to decode an encoded signal, the encoded signal comprising a first encoded signal, a second encoded signal, an indication indicating the first encoded signal and the second encoded signal and time / frequency resolution information to be used to decode the first encoded signal and the second encoded audio signal, characterized by comprising:

a first decoding branch to decode the first encoded signal using a first controllable frequency / time converter, the first controllable frequency / time converter being configured to be controlled using the information from

Petition 870190024003, of 03/13/2019, p. 20/176

8/17 time / frequency resolution for the first encoded signal to capture a first decoded signal;

a second decoding branch to decode the second encoded signal using a second controllable frequency / time converter, the second controllable frequency / time converter being configured to be controlled using the time / frequency resolution information for the second encoded signal;

a controller for controlling the first frequency / time converter and the second frequency / time converter using the time / frequency resolution information;

a domain converter for generating a synthesis signal using the second decoded signal; and a combiner to combine the first decoded signal and the synthesis signal to capture a decoded audio signal, in which the controller is configured to control the first frequency / time converter and the second frequency / time converter so that, for the first frequency / time converter, the time / frequency resolution is selected from a plurality of different window lengths, with the different window lengths being at least two

2304, 2048, 256, 1920, 2160, 240 samples, ie selected from a plurality of different transformed lengths, with the different transformed lengths comprising at least two of

Petition 870190024003, of 03/13/2019, p. 21/176

9/17 the group comprising 1152, 1024, 1080, 960, 128, 120 coefficients per transformed block, or for the second frequency / time converter, the time / frequency resolution is selected as one of a plurality of different lengths of window, the plurality of different window lengths being at least two out of 640, 1152, 2304, 512, 1024 or 2048 samples, or selected from a plurality of different transformed lengths, with the different transformed lengths comprising at least two among the group comprising 320, 576, 1152, 256, 512, 1024 spectral coefficients per transformed block.

Audio decoder according to claim 9, characterized in that the second decoding branch comprises a first reverse processing branch for reverse processing of a first processed signal which is further comprised in the encoded signal to capture a first reverse processed signal;

wherein the second controllable frequency / time converter is located in a second reverse processing branch configured for reverse processing of the second encoded signal in a domain identical to the domain of the first reverse processed signal to capture a second reverse processed signal;

an additional combiner to combine the first reverse processed signal and the second reverse processed signal to capture a combined signal; and

Petition 870190024003, of 03/13/2019, p. 22/176

10/17

in that the sign combined is inserted at the combiner. 11. Decoder audio, a deal with The claim 9, featured for the first converter in

frequency / time and the second frequency / time converter are time domain override converters that comprise an overlap / addition unit to cancel a time domain spectrum overlap comprised in the first encoded signal and on the second encoded signal.

Audio decoder according to claim 9, characterized in that the encoded signal comprises code conversion mode information that identifies whether an encoded signal is the first encoded signal and the second encoded signal, and wherein the decoder further comprises a input interface for interpreting the code conversion mode information to determine whether the encoded signal is to be provided in both the first decoding branch and the second decoding branch.

Audio decoder according to claim 9, characterized in that the first encoded signal is arithmetically encoded, and wherein the first branch of code conversion comprises an arithmetic decoder.

Audio decoder according to claim 9, characterized in that the first code conversion branch comprises a quantizer that comprises a non-uniform quantizer characteristic for canceling a

Petition 870190024003, of 03/13/2019, p. 23/176

11/17 result of a non-uniform quantization applied when generating the first coded signal, in which the second branch of conversion into code comprises a dequantizer using the different dequantization characteristic.

15. Audio decoder according to claim 9, characterized in that the controller is configured to control the first frequency / time converter and the second frequency / time converter, applying a discrete time / frequency resolution to each converter of several different possible discrete time / frequency resolutions, with the various possible different discrete time / frequency resolutions being superior for the second converter compared to the various possible different time / frequency resolutions for the first converter.

16. Audio decoder, according to claim 9, characterized in that the domain converter is an LPC synthesis processor that generates the synthesis signal using PC filter information, the LPC filter information being comprised in the signal encoded.

17. Method of audio decoding an encoded signal, the encoded signal comprising a first encoded signal, a second encoded signal, an indication indicating the first encoded signal and the second encoded signal and time / frequency resolution information a be used to decode the first encoded signal and the second encoded audio signal,

Petition 870190024003, of 03/13/2019, p. 24/176

12/17 characterized by understanding:

decode, by a first decoding branch, the first signal encoded using a first controllable frequency / time converter, the first controllable frequency / time converter being configured to be controlled using the time resolution information / frequency for the first encoded signal to capture a first decoded signal;

decode, by a second decoding branch, the second encoded signal using a second controllable frequency / time converter, and the second controllable frequency / time converter is configured to be controlled using the time resolution information / frequency for the second coded signal;

control the first frequency / time converter and the second frequency / time converter using the time / frequency resolution information;

generate, by a domain converter, a synthesis signal using the second decoded signal; and combining the first decoded signal and the synthesis signal to capture a decoded audio signal, where the control of the first frequency / time converter and the second frequency / time converter is so that, for the first frequency / time converter , the time / frequency resolution is selected from a plurality of different window lengths, with the different window lengths being at least two

Petition 870190024003, of 03/13/2019, p. 25/176

13/17

2304, 2048, 256, 1920, 2160, 240 samples, ie selected from a plurality of different transformed lengths, with the different transformed lengths comprising at least two of the group comprising 1152, 1024,1080, 960, 128, 120 coefficients per transformed block, or for the second frequency / time converter, the time / frequency resolution is selected as one of a plurality of different window lengths, with the plurality of different window lengths being at least two out of 640, 1152, 2304, 512, 1024 or 2048 samples, or is selected from a plurality of different transformed lengths, with the different transformed lengths comprising at least two of the group comprising 320, 576, 1152, 256, 512, 1024 spectral coefficients per transformed block.

18. Non-transitory storage media characterized by having stored in it a computer program to execute, when executed in a processor, an audio coding method of an audio signal, the method comprising:

Petition 870190024003, of 03/13/2019, p. 26/176

14/17 encode, in a second branch of code conversion, an audio signal using a second code conversion algorithm to capture a second encoded signal, in which the first code conversion algorithm is different from the second algorithm code conversion, the second branch of code conversion comprises a domain converter to convert an input signal from an input domain to an output domain, and a second converter to convert an input signal to an spectral domain;

analyze the audio signal portion to determine whether the audio signal portion is represented as the first encoded signal or as the second encoded signal in the encoder output signal, variablely determine the respective time / frequency resolution of the first converter and the second converter, when the first encoded signal or the second encoded signal representing the portion of the audio signal is generated; and generating an encoder output signal comprising the first encoded signal and the second encoded signal and information indicating the first encoded signal and the second encoded signal and information that

Petition 870190024003, of 03/13/2019, p. 27/176

15/17 indicate the time / frequency resolution applied to encode the first encoded signal and to encode the second encoded signal, in which the analysis determines the time / frequency resolution to be selected from a plurality of different window lengths, being that the different window lengths are at least two out of 2304, 2048,

256, 1920, 2160, 240 samples, or use of the plurality of different transformed lengths, where the different transformed lengths comprise at least two of the group comprising 1152, 1024, 1080, 960, 128, 120 coefficients per transformed block, or where the analysis determines the time / frequency resolution of the second converter as one of a plurality of different window lengths, the plurality of different window lengths being at least two out of 640, 1152, 2304, 512, 1024 or 2048 samples, or uses a plurality of different transformed lengths, where the different transformed lengths comprise at least two of the group comprising 320, 576, 1152,

256, 512, 1024 spectral coefficients per transformed block.

19. Non-transitory storage media characterized by having stored in it a computer program to execute, when executed in a processor, an audio decoding method of an encoded signal, the encoded signal comprising a first encoded signal, a second signal coded, an indication indicating the first coded signal and the second signal

Petition 870190024003, of 03/13/2019, p. 28/176

16/17 encoded and time / frequency resolution information to be used to decode the first encoded signal and the second encoded audio signal, where the method comprises:

generate, by a domain converter, a synthesis signal using the second decoded signal; and combining the first decoded signal and the synthesis signal to capture a decoded audio signal, where the control of the first frequency / time converter and the second frequency / time converter is so that, for the first frequency / time converter , the time / frequency resolution is selected from among

Petition 870190024003, of 03/13/2019, p. 29/176

17/17 plurality of different window lengths, with different window lengths being at least two among