BR122021012125B1 - EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION - Google Patents

EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION Download PDF

Info

Publication number
BR122021012125B1
BR122021012125B1 BR122021012125-7A BR122021012125A BR122021012125B1 BR 122021012125 B1 BR122021012125 B1 BR 122021012125B1 BR 122021012125 A BR122021012125 A BR 122021012125A BR 122021012125 B1 BR122021012125 B1 BR 122021012125B1
Authority
BR
Brazil
Prior art keywords
representation
patch
values
spectral domain
frequency
Prior art date
Application number
BR122021012125-7A
Other languages
Portuguese (pt)
Other versions
BR122021012125A2 (en
Inventor
Frederik Nagel
Max Neuendorf
Nikolaus Rettelbach
Jérémie Lecomte
Markus Multrus
Bernhard Grill
Sascha Disch
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09181008A external-priority patent/EP2239732A1/en
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BR122021012125A2 publication Critical patent/BR122021012125A2/en
Publication of BR122021012125B1 publication Critical patent/BR122021012125B1/en

Links

Abstract

EQUIPAMENTO, MÉTODO E PROGRAMA DE COMPUTADOR PARA A GERAÇÃO DE UMA REPRESENTAÇÃO DE UM SINAL DE BANDA LARGA ESTENDIDA COM BASE EM UMA REPRESENTAÇÃO DO SINAL DE ENTRADA USANDO UMA COMBINAÇÃO DE UMA EXTENSÃO DE LARGURA DE BANDA HARMÔNICA E UMA EXTENSÃO DE LARGURA DE BANDA NÃO HARMÔNICA. Equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada. O equipamento também compreende um copiador de valores configurado para copiar um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter a representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.(...).COMPUTER EQUIPMENT, METHOD AND PROGRAM FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION. Equipment for generating a representation of an extended broadband signal based on a representation of the input signal comprises a phase vocoder configured to obtain values from a spectral domain representation of a first patch of the extended broadband signal based on in the representation of the input signal. The equipment also comprises a value copier configured to copy a set of values from the spectral domain representation of the first patch, values that are provided by the phase vocoder, to obtain a set of values from a spectral domain representation of a second patch, where the second patch is associated with higher frequencies than the first patch. The equipment is configured to obtain the representation of the extended broadband signal using the values of the representation in the spectral domain of the first patch and the values of the representation in the spectral domain of the second patch.(...).

Description

DESCRIÇÃODESCRIPTION CAMPO TÉCNICOTECHNICAL FIELD

[0001] As configurações de acordo com a invenção se referem a um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. Outras configurações de acordo com a invenção se relacionam a um método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. Outras configurações de acordo com a invenção se relacionam a um programa de computador para a realização deste método.[0001] The configurations according to the invention relate to equipment for generating a representation of an extended broadband signal based on a representation of the input signal. Other embodiments according to the invention relate to a method for generating a representation of an extended broadband signal based on a representation of the input signal. Other configurations according to the invention relate to a computer program for carrying out this method.

[0002] Algumas configurações de acordo com a invenção se relacionam a novos métodos de patching dentro da replicação de banda espectral.[0002] Some configurations according to the invention relate to new patching methods within spectral band replication.

HISTÓRICO DA INVENÇÃOHISTORY OF THE INVENTION

[0003] A armazenagem ou a transmissão de sinais de áudio está geralmente submetida a estritas restrições de taxas de bits. Essas restrições são geralmente superadas pela codificação do sinal. No passado, os codificadores eram forçados a reduzir drasticamente a largura de banda de áudio transmitido quando houvesse disponível somente uma taxa de bits muito pequena. Os modernos codecs de áudio podem hoje preservar a largura de banda audível usando métodos de extensão de largura de banda (BWE). Esses métodos são descritos, por exemplo, nas referências [1] a [12]. Esses algoritmos dependem de uma representação paramétrica do conteúdo de alta frequência (HF), que é gerado pela parte com forma de onda codificada de baixa frequência (LF) do sinal decodificado por meio da transposição na região espectral HF (“patching”) e a aplicação de um pós-processamento parametrizado.[0003] The storage or transmission of audio signals is generally subject to strict bit rate restrictions. These restrictions are usually overcome by encoding the signal. In the past, encoders were forced to drastically reduce the bandwidth of transmitted audio when only a very small bitrate was available. Modern audio codecs can today preserve audible bandwidth using bandwidth extension (BWE) methods. These methods are described, for example, in references [1] to [12]. These algorithms rely on a parametric representation of the high-frequency (HF) content, which is generated by the low-frequency (LF) encoded waveform portion of the decoded signal through transposition into the HF spectral region (“patching”) and the application of parameterized post-processing.

[0004] Na técnica, os métodos de extensão de largura de banda, como a replicação de banda espectral (SBR) são usados como um método eficiente para gerar sinais de alta frequência nos codecs baseados em HFR (reconstrução de alta frequência).[0004] In the art, bandwidth extension methods such as spectral band replication (SBR) are used as an efficient method for generating high frequency signals in HFR (high frequency reconstruction) based codecs.

[0005] A replicação de banda espectral descrita na referência [1], que também é indicada abreviadamente por “SBR”, usa um banco de filtro em espelho de quadratura (QMF) para a geração das informações HF. Com a ajuda do denominado processo de “patching”, são copiadas as menores bandas QMF para uma posição superior (frequência) produzindo em uma replicação das informações da parte LF na parte HF. A HF gerada é depois adaptada à parte HF original com a ajuda de parâmetros que adotam (ou ajustam) o envelope espectral e a tonalidade (por exemplo, usando uma formatação de envelope).[0005] The spectral band replication described in reference [1], which is also referred to as “SBR” for short, uses a quadrature mirror filter bank (QMF) to generate the HF information. With the help of the so-called “patching” process, the smallest QMF bands are copied to a higher position (frequency), producing a replication of information from the LF part in the HF part. The generated HF is then adapted to the original HF part with the help of parameters that adopt (or adjust) the spectral envelope and tonality (e.g. using an envelope formatting).

[0006] Em SBR padrão, o patching é sempre feito por uma operação de cópia no domínio QMF. Foi descoberto que isto algumas vezes pode levar a problemas de audição, particularmente se sinusóides forem copiados em suas vizinhanças no limite do LF e da parte gerada HF. Assim, pode-se dizer que o SBR padrão tem o problema de defeitos auditivos. Também, algumas implementações convencionais de conceito de extensão de largura de banda trazem complexidade comparativamente alta. Além disso, em algumas implementações da invenção de conceitos de extensão de largura de banda, o espectro fica muito esparso em altos patches (grandes fatores de estiramento), que podem causar indesejáveis problemas de áudio (audíveis).[0006] In standard SBR, patching is always done by a copy operation in the QMF domain. It has been found that this can sometimes lead to hearing problems, particularly if sinusoids are copied into their vicinity at the boundary of the LF and the HF generated part. Therefore, it can be said that the standard SBR has the problem of hearing defects. Also, some conventional implementations of bandwidth extension concept bring comparatively high complexity. Furthermore, in some implementations of the invention of bandwidth extension concepts, the spectrum becomes very sparse at high patches (large stretch factors), which can cause undesirable audio (audible) problems.

[0007] Em vista da discussão acima, trata-se de um objetivo da presente invenção criar um conceito para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, que traga junto uma melhor escolha conflitante entre a complexidade e a qualidade de áudio.[0007] In view of the above discussion, it is an objective of the present invention to create a concept for generating a representation of an extended broadband signal based on a representation of the input signal, which brings together a better choice conflicting between complexity and audio quality.

SUMÁRIO DA INVENÇÃOSUMMARY OF THE INVENTION

[0008] As configurações de acordo com a invenção criam um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O equipamento compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada. O equipamento também compreende um copiador de valores configurado para copiar um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch. O segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter a representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.[0008] Configurations according to the invention create equipment for generating a representation of an extended broadband signal based on a representation of the input signal. The equipment comprises a phase vocoder configured to obtain values from a spectral domain representation of a first patch of the extended broadband signal based on the representation of the input signal. The equipment also comprises a value copier configured to copy a set of values from the spectral domain representation of the first patch, values that are provided by the phase vocoder, to obtain a set of values from a spectral domain representation of a second patch. The second patch is associated with higher frequencies than the first patch. The equipment is configured to obtain the extended broadband signal representation using the spectral domain representation values of the first patch and the spectral domain representation values of the second patch.

[0009] Trata-se da idéia principal da presente invenção que uma determinada boa escolha entre a complexidade computacional e a qualidade de áudio de um sinal de banda larga estendida é obtida combinando um vocoder de fase com um copiador de valores, de maneira que o primeiro patch do sinal de banda larga estendida seja obtido pelo vocoder de fase, e de maneira que o segundo patch do sinal de banda larga estendida seja obtido com base no primeiro patch usando o copiador de valores. Assim, o conteúdo do primeiro patch é uma versão harmonicamente transposta do conteúdo da parte de baixa frequência (LF) do sinal de entrada (representado pela representação do sinal de entrada), e o segundo patch seja (ou represente) uma versão com frequência (não harmonicamente) deslocada do conteúdo de sinal do primeiro patch. Assim, o segundo patch pode ser obtido com complexidade computacional relativamente baixa, porque a cópia dos valores é computacionalmente mais simples que uma operação de vocodificação da fase. Também, é evitado que existam grandes furos espectrais no segundo patch, porque os valores espectrais do primeiro patch são tipicamente populados (isto é, compreendem valores não zero) de maneira suficiente, para que os problemas de audição que fossem causados, em alguns casos, se o segundo patch fosse populado somente de forma esparsa, fossem reduzidos ou evitados.[0009] It is the main idea of the present invention that a certain good trade-off between the computational complexity and the audio quality of an extended broadband signal is obtained by combining a phase vocoder with a value copier, so that the first patch of the extended broadband signal is obtained by the phase vocoder, and in such a way that the second patch of the extended broadband signal is obtained based on the first patch using the value copier. Thus, the content of the first patch is a harmonically transposed version of the content of the low-frequency (LF) part of the input signal (represented by the input signal representation), and the second patch is (or represents) a frequency version ( non-harmonically) offset from the signal content of the first patch. Thus, the second patch can be obtained with relatively low computational complexity, because copying the values is computationally simpler than a phase vocoding operation. Also, it is avoided that there are large spectral holes in the second patch, because the spectral values of the first patch are typically populated (i.e., comprise non-zero values) sufficiently so that the hearing problems that would be caused, in some cases, if the second patch were only sparsely populated, they would be reduced or avoided.

[0010] Para resumir, o conceito da invenção traz consigo vantagens significativas com relação aos métodos de patching convencionais, devido à extensão de largura de banda harmônica, usando o vocoder de fase, ser somente aplicada para a obtenção de valores da representação no domínio espectral do primeiro patch, isto é, para a parte inferior do espectro, enquanto uma extensão de largura de banda não harmônica, que depende da cópia dos valores da representação no domínio espectral do primeiro patch para a obtenção dos valores da representação no domínio espectral do primeiro patch, é usada em maiores frequências. Assim, a menor faixa (que também é denominada de “primeiro patch”) da porção de frequência de extensão (que é uma porção da frequência acima da frequência de cruzamento) é provida como uma extensão harmônica da faixa fundamental da frequência (isto é, na faixa de frequência do sinal de entrada, que cobre frequências inferiores às frequências da porção da frequência de extensão, por exemplo, frequências abaixo da frequência de cruzamento), que traz uma boa impressão de audição do sinal de banda larga estendida. Também, foi determinado que a simples geração dos valores da representação no domínio espectral da faixa superior da porção de frequência de extensão (que também é denominada de "segundo patch"), que é feito usando o copiador, não traz significativos problemas de audição porque a audição humana não é particularmente sensível aos detalhes espectrais da faixa superior da porção de frequência de extensão (segundo patch).[0010] To summarize, the concept of the invention brings with it significant advantages over conventional patching methods, due to the extension of harmonic bandwidth, using the phase vocoder, being only applied to obtain representation values in the spectral domain of the first patch, that is, to the lower part of the spectrum, as a non-harmonic bandwidth extension, which depends on copying the values of the spectral domain representation of the first patch to obtain the values of the spectral domain representation of the first patch, is used at higher frequencies. Thus, the smallest band (which is also called the “first patch”) of the extension frequency portion (which is a portion of the frequency above the crossover frequency) is provided as a harmonic extension of the fundamental frequency band (i.e. in the frequency range of the input signal, which covers frequencies lower than the frequencies of the extension frequency portion, for example, frequencies below the crossover frequency), which brings a good listening impression of the extended broadband signal. Also, it was determined that the simple generation of values from the spectral domain representation of the upper range of the extension frequency portion (which is also called the "second patch"), which is done using the copier, does not cause significant hearing problems because human hearing is not particularly sensitive to the spectral details of the upper range of the extension frequency portion (second patch).

[0011] Para resumir, o conceito da invenção traz uma boa impressão auditiva com uma complexidade computacional comparativamente menor.[0011] To summarize, the concept of the invention makes a good auditory impression with a comparatively lower computational complexity.

[0012] Em uma configuração preferida, o vocoder de fase está configurado para copiar um conjunto de valores de magnitude associados a uma pluralidade de dadas subfaixas de frequência da representação espectral de entrada, para obter um conjunto de valores de magnitude associados às subfaixas de frequência correspondentes do primeiro patch, onde um par de uma determinada subfaixa de frequência da representação espectral de entrada e uma subfaixa de frequência correspondente do primeiro patch cobrem (ou compreendem) um par de frequências fundamentais e um harmônico da frequência fundamental (por exemplo, um primeiro harmônico da frequência fundamental). O vocoder de fase também é preferivelmente configurado para multiplicar valores de fase associados à pluralidade das dadas subfaixas de frequência da representação espectral de entrada por um fator predeterminado (por exemplo, 2), para obter valores de fase associados às subfaixas de frequência correspondentes do primeiro patch. De preferência, o copiador de valores está configurado para copiar um conjunto de valores associado a uma pluralidade de dadas subfaixas de frequência do primeiro patch, para obter um conjunto de valores associados às subfaixas de frequência correspondentes do segundo patch. O copiador de valores está, de preferência, configurado para manter os valores de fase inalterados na cópia. Assim, o vocoder de fase faz, pelo menos aproximadamente, uma transposição harmônica, enquanto o copiador de valores faz um deslocamento de frequência não harmônica. As subfaixas de frequência podem, por exemplo, ser as faixas de frequência associadas aos coeficientes de uma Transformada Rápida de Fourier (ou qualquer transformada comparável). De forma alternativa, as subfaixas de frequência podem estar na faixa de frequências associadas aos sinais individuais de um banco de filtros QMF. Tipicamente, a largura das subfaixas de frequência é comparativamente pequena com relação à frequência central, de maneira que as subfaixas de frequência cobrem um vão de frequências com taxa de frequências entre uma frequência de extremidade e uma frequência de partida, que é significativamente menor que 2:1. Em outras palavras, mesmo que as subfaixas de frequência da representação espectral de entrada (que podem, por exemplo, ter a forma de coeficientes FFT, ou a forma de sinais de banco de filtros QMF) e as subfaixas de frequência do primeiro patch não precisem ser exatamente harmônicas entre si, é tipicamente possível identificar uma associação entre a subfaixa de frequência (por exemplo, tendo um índice de frequência k) da representação espectral de entrada e uma subfaixa de frequência correspondente (por exemplo, tendo um índice de frequência 2k) do primeiro patch, de maneira que a subfaixa de frequência (2k) do primeiro patch represente, pelo menos aproximadamente, uma frequência harmônica da subfaixa de frequência correspondente (k) da representação espectral de entrada.[0012] In a preferred configuration, the phase vocoder is configured to copy a set of magnitude values associated with a plurality of given frequency subbands from the input spectral representation, to obtain a set of magnitude values associated with the frequency subbands. corresponding frequency subband of the first patch, where a pair of a given frequency subband of the input spectral representation and a corresponding frequency subband of the first patch cover (or comprise) a pair of fundamental frequencies and a harmonic of the fundamental frequency (e.g., a first harmonic of the fundamental frequency). The phase vocoder is also preferably configured to multiply phase values associated with the plurality of the given frequency subbands of the input spectral representation by a predetermined factor (e.g., 2), to obtain phase values associated with the corresponding frequency subbands of the first patch. Preferably, the value copier is configured to copy a set of values associated with a plurality of given frequency subbands of the first patch to obtain a set of values associated with corresponding frequency subbands of the second patch. The value copier is preferably configured to keep the phase values unchanged in the copy. Thus, the phase vocoder makes, at least approximately, a harmonic transposition, while the value copier makes a non-harmonic frequency shift. The frequency subbands may, for example, be the frequency bands associated with the coefficients of a Fast Fourier Transform (or any comparable transform). Alternatively, the frequency subbands may be in the range of frequencies associated with the individual signals of a QMF filter bank. Typically, the width of the frequency subbands is comparatively small with respect to the center frequency, so that the frequency subbands cover a frequency gap with a frequency ratio between an edge frequency and a starting frequency that is significantly less than 2 :1. In other words, even though the frequency subbands of the input spectral representation (which may, for example, be in the form of FFT coefficients, or in the form of QMF filter bank signals) and the frequency subbands of the first patch do not need to be be exactly harmonic to each other, it is typically possible to identify an association between the frequency subband (e.g., having a frequency index k) of the input spectral representation and a corresponding frequency subband (e.g., having a frequency index 2k) of the first patch, such that the frequency subband (2k) of the first patch represents, at least approximately, a harmonic frequency of the corresponding frequency subband (k) of the input spectral representation.

[0013] Assim, a transposição harmônica é feita pelo vocoder de fase, levando em conta os valores de fase, que são processados usando uma ponderação de fase. Em contraste, o copiador de valores somente faz (pelo menos aproximadamente), a operação não harmônica de deslocamento de frequência.[0013] Thus, the harmonic transposition is done by the phase vocoder, taking into account the phase values, which are processed using phase weighting. In contrast, the value copier only does (at least approximately) the non-harmonic frequency shift operation.

[0014] Em uma configuração preferida, o copiador de valores está configurado para copiar os valores de maneira que seja obtido um deslocamento espectral comum (ou deslocamento de frequência) dos valores do primeiro patch para os valores do segundo patch.[0014] In a preferred configuration, the value copier is configured to copy the values so that a common spectral shift (or frequency shift) from the values of the first patch to the values of the second patch is obtained.

[0015] Em uma configuração preferida, o vocoder de fase está configurado para obter os valores da representação no domínio espectral do primeiro patch de maneira que os valores da representação no domínio espectral do primeiro patch representem uma versão harmonicamente convertida para cima de uma faixa fundamental de frequência da representação do sinal de entrada (por exemplo, a faixa fundamental da frequência abaixo da denominada frequência de cruzamento). O copiador de valores está, de preferência, configurado para obter os valores da representação no domínio espectral do segundo patch de maneira que os valores da representação no domínio espectral do segundo patch representem a versão com frequência deslocada do primeiro patch. Assim, são obtidas as vantagens supramencionadas. Em particular, a implementação é simples, obtendo-se uma boa impressão auditiva.[0015] In a preferred configuration, the phase vocoder is configured to obtain the spectral domain representation values of the first patch such that the spectral domain representation values of the first patch represent a harmonically upconverted version of a fundamental range. frequency representation of the input signal (e.g. the fundamental frequency range below the so-called crossover frequency). The value copier is preferably configured to obtain the values of the spectral domain representation of the second patch such that the values of the spectral domain representation of the second patch represent the frequency-shifted version of the first patch. Thus, the above-mentioned advantages are obtained. In particular, the implementation is simple, obtaining a good auditory impression.

[0016] Em uma configuração preferida, o equipamento está configurado para receber dados de áudio de entrada pulso-código- modulados (PCM), sub-amostrar os dados de áudio de entrada pulso- código-modulados para obter dados de áudio pulso-código-modulados sub-amostrados. Também, o equipamento está configurado para janelar os dados de áudio pulso-código-modulados sub-amostrados, para obter dados janelados de entrada, e para converter ou transformar os dados de entrada janelados em um domínio da frequência, para obter a representação do sinal de entrada. O equipamento também é preferivelmente configurado para computar valores de magnitude ak (também indicados por αk) e valores de fase Φk, representando um coletor de frequências k (onde k é um índice do coletor de frequências) da representação do sinal de entrada, e para copiar os valores de magnitude ak, para obter valores de magnitude copiados ask (também indicados por αsk) representando um coletor de frequências com um índice de coletor de frequências sk do primeiro patch, onde s é um fator de estiramento com s=2. Também, o equipamento está, de preferência, configurado para copiar e ponderar os valores de fase Φk associados a um coletor de frequências tendo índice de coletor de frequências k da representação do sinal de entrada, para obter valores de fase copiados e ponderados Φsk associados a um coletor de frequências com o índice de frequência sk do primeiro patch. Também, o equipamento está, de preferência, configurado para copiar valores βk-iz associados a um coletor de frequências k- iZ da representação no domínio espectral do primeiro patch, para obter valores βk da representação no domínio espectral do segundo patch. Também, o equipamento está, de preferência, configurado para converter a representação do sinal de banda larga estendida (que compreende a representação no domínio espectral do primeiro patch e a representação no domínio espectral do segundo patch) no domínio do tempo, para obter a representação no domínio do tempo, e aplicar uma janela de síntese à representação no domínio do tempo. Usando o conceito supramencionado, é possível obter um sinal de banda larga estendida com moderada complexidade computacional. A extensão da largura de banda é feita no domínio da frequência, onde pode ser feita uma transformação para o domínio espectral, por exemplo, em um domínio FFT ou um domínio QMF.[0016] In a preferred configuration, the equipment is configured to receive pulse-code-modulated (PCM) input audio data, sub-sample the pulse-code-modulated input audio data to obtain pulse-code audio data. -modulated sub-sampled. Also, the equipment is configured to window the subsampled pulse-code-modulated audio data, to obtain windowed input data, and to convert or transform the windowed input data into a frequency domain, to obtain the signal representation. input. The equipment is also preferably configured to compute magnitude values ak (also denoted by αk) and phase values Φk, representing a frequency collector k (where k is an index of the frequency collector) from the input signal representation, and to copy magnitude values ak, to obtain copied magnitude values ask (also denoted by αsk) representing a frequency collector with a frequency collector index sk of the first patch, where s is a stretch factor with s=2. Also, the equipment is preferably configured to copy and weight the phase values Φk associated with a frequency collector having frequency collector index k from the input signal representation, to obtain copied and weighted phase values Φsk associated with a frequency collector with the frequency index sk of the first patch. Also, the equipment is preferably configured to copy βk-iz values associated with a k-iZ frequency collector from the spectral domain representation of the first patch, to obtain βk values from the spectral domain representation of the second patch. Also, the equipment is preferably configured to convert the representation of the extended broadband signal (comprising the spectral domain representation of the first patch and the spectral domain representation of the second patch) into the time domain to obtain the representation in the time domain, and apply a synthesis window to the time domain representation. Using the aforementioned concept, it is possible to obtain an extended broadband signal with moderate computational complexity. Bandwidth extension is done in the frequency domain, where a transformation can be made to the spectral domain, for example in an FFT domain or a QMF domain.

[0017] Em uma configuração preferida, o equipamento compreende um conversor do domínio de tempo para o domínio espectral (por exemplo, um meio de Transformada Rápida de Fourier ou um banco de filtros QMF) configurado para prover, como representação do sinal de entrada, valores de uma representação no domínio espectral (por exemplo, coeficientes da Transformada Rápida de Fourier ou sinais de sub-banda QMF) de um sinal de entrada de áudio, ou de uma versão pré-processada (por exemplo sub-amostrada e/ou janelada) do sinal de entrada de áudio (por exemplo um sinal pulso-código-modulado provido por um núcleo de decodificador de áudio). O equipamento, de preferência, compreende um conversor do domínio espectral para o domínio do tempo (por exemplo, um meio de Transformada Rápida de Fourier inversa ou um meio de síntese QMF) configurado para prover uma representação no domínio do tempo do sinal de banda larga estendida usando valores da representação no domínio espectral (por exemplo, coeficientes FFT ou sinais de sub-banda QMF) do primeiro patch e valores da representação no domínio espectral (por exemplo, coeficientes FFT ou sinais de sub-banda QMF) do segundo patch. O conversor do domínio espectral para o domínio do tempo está, de preferência, configurado de maneira que um número de diferentes valores espectrais (por exemplo, coletores FFT ou bandas QMF) recebido pelo conversor do domínio espectral para o domínio do tempo seja maior que o número de diferentes valores espectrais (por exemplo, um número de coletores de frequências FFT, ou um número de bandas QMF) fornecido pelo conversor do domínio do tempo para o domínio espectral (por exemplo meios de Transformada Rápida de Fourier ou bancos de filtros QMF), de maneira que o conversor do domínio espectral para o domínio do tempo esteja configurado para processar um maior número de coletores de frequências (por exemplo, coletores de frequências da Transformada Rápida de Fourier ou bandas de frequências QMF) que o conversor do domínio de tempo para o domínio da frequência. Assim, uma extensão de largura de banda é obtida pelo fato que o conversor do domínio espectral para o domínio do tempo compreende um maior número de coletores de frequências que o conversor do domínio de tempo para o domínio da frequência.[0017] In a preferred configuration, the equipment comprises a time domain to spectral domain converter (e.g., a Fast Fourier Transform medium or a QMF filter bank) configured to provide, as a representation of the input signal, values from a spectral domain representation (e.g. Fast Fourier Transform coefficients or QMF subband signals) of an audio input signal, or from a pre-processed version (e.g. subsampled and/or windowed ) of the audio input signal (e.g. a pulse-code-modulated signal provided by an audio decoder core). The equipment preferably comprises a spectral domain to time domain converter (e.g., an inverse Fast Fourier Transform means or a QMF synthesis means) configured to provide a time domain representation of the wideband signal. extended using values from the spectral domain representation (e.g., FFT coefficients or QMF subband signals) of the first patch and values from the spectral domain representation (e.g., FFT coefficients or QMF subband signals) from the second patch. The spectral domain to time domain converter is preferably configured such that a number of different spectral values (e.g., FFT collectors or QMF bands) received by the spectral domain to time domain converter are greater than the number of different spectral values (e.g., a number of FFT frequency collectors, or a number of QMF bands) provided by the converter from the time domain to the spectral domain (e.g., Fast Fourier Transform means or QMF filter banks) , such that the spectral domain to time domain converter is configured to process a greater number of frequency collectors (for example, Fast Fourier Transform frequency collectors or QMF frequency bands) than the time domain converter for the frequency domain. Thus, a bandwidth extension is obtained by the fact that the spectral domain to time domain converter comprises a greater number of frequency collectors than the time domain to frequency domain converter.

[0018] Em uma configuração preferida, o equipamento compreende um janelador de análise configurado para janelar um sinal de entrada de áudio no domínio do tempo, para obter uma versão janelada do sinal de entrada de áudio no domínio do tempo, que forma a base para a obtenção da representação do sinal de entrada. Também, o equipamento compreende um janelador de síntese configurado para janelar uma parte de uma representação no domínio do tempo do sinal de banda larga estendida, para obter a porção janelada da representação no domínio do tempo do sinal de banda larga estendida. Assim, os problemas no sinal de banda larga estendida são reduzidos ou mesmo evitados.[0018] In a preferred configuration, the equipment comprises an analysis windower configured to window an input audio signal in the time domain, to obtain a windowed version of the input audio signal in the time domain, which forms the basis for obtaining the representation of the input signal. Also, the equipment comprises a synthesis windower configured to window a portion of a time domain representation of the extended broadband signal, to obtain the windowed portion of the time domain representation of the extended broadband signal. Thus, problems with the extended broadband signal are reduced or even avoided.

[0019] Em uma configuração preferida, o equipamento está configurado para processar uma pluralidade de porções deslocadas no tempo temporalmente sobrepostas do sinal de entrada de áudio no domínio do tempo, para obter uma pluralidade de porções janeladas deslocadas no tempo temporalmente sobrepostas da representação no domínio do tempo do sinal de banda larga estendida. Um deslocamento de tempo entre porções deslocadas no tempo temporalmente adjacentes do sinal de entrada de áudio no domínio do tempo é menor ou igual a um quarto de um comprimento de janela da janela de análise. Foi descoberto que uma sobreposição temporal comparativamente grande entre partes adjacentes deslocadas no tempo do sinal de entrada de áudio no domínio do tempo (e/ou uma sobreposição temporal comparativamente grande entre porções deslocadas no tempo temporalmente adjacentes da representação no domínio do tempo do sinal de banda larga estendida) resulta em uma extensão de largura de banda que traz uma boa impressão auditiva, porque as não estacionaridades do sinal são levadas em conta devido à sobreposição temporal comparativamente grande.[0019] In a preferred embodiment, the equipment is configured to process a plurality of overlapping time-shifted portions of the input audio signal in the time domain, to obtain a plurality of overlapping time-shifted windowed portions of the time-domain representation. extended broadband signal time. A time offset between temporally adjacent time-shifted portions of the time-domain audio input signal is less than or equal to one-quarter of a window length of the analysis window. It has been discovered that a comparatively large temporal overlap between adjacent time-shifted portions of the time-domain audio input signal (and/or a comparatively large temporal overlap between adjacent time-shifted portions of the time-domain representation of the band signal extended bandwidth) results in a bandwidth extension that makes a good auditory impression, because signal non-stationarities are taken into account due to the comparatively large temporal overlap.

[0020] Em uma configuração preferida, o equipamento compreende um provedor de informações transientes configurado para prover informações indicando a presença de um transiente no sinal de entrada (representado pela representação do sinal de entrada). O equipamento também compreende um primeiro ramal de processamento para prover uma representação de uma porção do sinal de banda larga estendida com base na porção não transiente da representação do sinal de entrada e um segundo ramal de processamento para prover uma representação de uma porção do sinal de banda larga estendida com base na porção transiente da representação do sinal de entrada. O segundo ramal de processamento está configurado para processar a representação no domínio espectral do sinal de entrada tendo uma maior resolução espectral que a representação no domínio espectral do sinal de entrada processada pelo primeiro ramal de processamento. Assim, partes do sinal que compreendem um transiente podem ser tratadas com maior resolução espectral, que evita problemas de audição na presença de transientes. Por outro lado, pode ser usada uma resolução espectral reduzida para porções não transientes do sinal (isto é, para porções do sinal em que o provedor de informações transientes não identifica um transiente). Assim, a eficiência computacional é mantida alta, e sendo usada a crescente resolução espectral somente quando trouxer vantagens (por exemplo, quando resultar em uma melhor impressão auditiva na proximidade de transientes).[0020] In a preferred configuration, the equipment comprises a transient information provider configured to provide information indicating the presence of a transient in the input signal (represented by the input signal representation). The equipment also comprises a first processing branch for providing a representation of a portion of the extended broadband signal based on the non-transient portion of the input signal representation and a second processing branch for providing a representation of a portion of the input signal. extended bandwidth based on the transient portion of the input signal representation. The second processing branch is configured to process the spectral domain representation of the input signal having a higher spectral resolution than the spectral domain representation of the input signal processed by the first processing branch. Thus, parts of the signal that comprise a transient can be treated with greater spectral resolution, which avoids hearing problems in the presence of transients. On the other hand, reduced spectral resolution may be used for non-transient portions of the signal (i.e., for portions of the signal where the transient information provider does not identify a transient). Thus, computational efficiency is kept high, and increasing spectral resolution is used only when it brings advantages (for example, when it results in a better auditory impression in the proximity of transients).

[0021] Em uma configuração preferida, o equipamento compreende um zero-padder no domínio do tempo configurado para completar com zeros (zero-pad) uma porção transiente do sinal de entrada, para obter a porção temporalmente estendida transiente do sinal de entrada. Nesse caso, o primeiro ramal de processamento compreende um (primeiro) conversor do domínio de tempo para o domínio da frequência configurado para prover um primeiro número de valores no domínio espectral associado a uma porção não transiente do sinal de entrada, e o segundo ramal de processamento compreende um (segundo) conversor do domínio de tempo para o domínio da frequência configurado para prover um segundo número de valores no domínio espectral associado à porção temporalmente estendida transiente do sinal de entrada. O segundo número de valores no domínio espectral é maior, pelo menos por um fator de 1,5, que o primeiro número de valores no domínio espectral. Assim, é obtida uma boa administração de transientes.[0021] In a preferred configuration, the equipment comprises a time domain zero-padder configured to zero-pad a transient portion of the input signal, to obtain the temporally extended transient portion of the input signal. In this case, the first processing branch comprises a (first) time domain to frequency domain converter configured to provide a first number of values in the spectral domain associated with a non-transient portion of the input signal, and the second processing branch Processing comprises a (second) time domain to frequency domain converter configured to provide a second number of values in the spectral domain associated with the transient temporally extended portion of the input signal. The second number of values in the spectral domain is greater, at least by a factor of 1.5, than the first number of values in the spectral domain. Thus, good transient management is achieved.

[0022] Em uma configuração preferida, o segundo ramal de processamento compreende um zero-stripper configurado para remover uma pluralidade de valores zero de uma porção de sinal de banda larga estendida obtida com base na porção temporalmente estendida transiente do sinal de entrada. Assim, a extensão temporal do sinal de entrada, que é obtida pelo zero-padding, é revertida.[0022] In a preferred configuration, the second processing branch comprises a zero-stripper configured to remove a plurality of zero values from an extended broadband signal portion obtained based on the transient temporally extended portion of the input signal. Thus, the temporal extension of the input signal, which is obtained by zero-padding, is reversed.

[0023] Em uma configuração preferida, o equipamento compreende um sub-amostrador configurado para sub-amostrar a representação no domínio do tempo do sinal de entrada. Fazendo a sub- amostragem do sinal de entrada, a eficiência computacional pode ser aperfeiçoada caso o sinal de entrada não cubra toda a largura de banda Nyquist de um fluxo de entrada de amostra pulso-código-modulada.[0023] In a preferred configuration, the equipment comprises a subsampler configured to subsample the time domain representation of the input signal. By subsampling the input signal, computational efficiency can be improved if the input signal does not cover the entire Nyquist bandwidth of a pulse-code-modulated sample input stream.

[0024] Outra configuração de acordo com a invenção cria um equipamento, em que a ordem de processamento do processamento pelo copiador de valores e do vocoder de fase é invertida 15. Este equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada (110; 383) compreende um copiador de valores configurado para copiar um conjunto de valores da representação do sinal de entrada, para obter um conjunto de valores de uma representação no domínio espectral de um primeiro patch, onde o primeiro patch está associado a maiores frequências que a representação do sinal de entrada. O equipamento também compreende um vocoder de fase (130; 406) configurado para obter valores (β2z - β3z) de uma representação no domínio espectral de um segundo patch do sinal de banda larga estendida com base nos valores (β4/3z - β2z) da representação no domínio espectral do primeiro patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O equipamento está configurado para obter uma representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.[0024] Another configuration according to the invention creates equipment, in which the processing order of processing by the value copier and the phase vocoder is inverted 15. This equipment for generating a representation of an extended broadband signal based on an input signal representation (110; 383) comprises a value copyer configured to copy a set of values from the input signal representation, to obtain a set of values from a spectral domain representation of a first patch, where the first patch is associated with higher frequencies than the representation of the input signal. The equipment also comprises a phase vocoder (130; 406) configured to obtain values (β2z - β3z) of a spectral domain representation of a second patch of the extended broadband signal based on the values (β4/3z - β2z) of the representation in the spectral domain of the first patch, where the second patch is associated with higher frequencies than the first patch. The equipment is configured to obtain a (120;426) representation of the extended broadband signal using the values of the spectral domain representation of the first patch and the values of the spectral domain representation of the second patch.

[0025] Este equipamento pode obter um sinal de banda larga estendida com complexidade computacional comparativamente menor, enquanto ainda obtém uma boa impressão auditiva do sinal de banda larga estendida. Fazendo a vocodificação de fase após a operação de cópia, o vocoder de fase pode ser operado com uma taxa de frequências comparativamente menor (razão entre a frequência de saída do vocoder e a frequência de entrada do vocoder), que resulta em um bom preenchimento espectral e evita a presença de grandes furos espectrais. Também, foi descoberto que a impressão auditiva usando este conceito é ainda melhor que para um conceito que somente dependa de operações de cópia, sem a ação do vocoder de fase, mesmo que o primeiro patch (patch de menor frequência) seja obtido usando a operação de cópia, e somente o segundo patch (patch de maior frequência) seja obtido usando a operação de vocodificação da fase. Também, a complexidade computacional é menor que nos sistemas em que todos os patches sejam gerados usando vocoders das fases, sendo os furos espectrais reduzidos quando comparados com esses conceitos.[0025] This equipment can obtain an extended broadband signal with comparatively lower computational complexity, while still obtaining a good auditory impression of the extended broadband signal. By doing phase vocoding after the copy operation, the phase vocoder can be operated with a comparatively lower frequency ratio (ratio of vocoder output frequency to vocoder input frequency), which results in good spectral filling and avoids the presence of large spectral holes. Also, it was discovered that the auditory impression using this concept is even better than for a concept that only depends on copy operations, without the action of the phase vocoder, even if the first patch (lowest frequency patch) is obtained using the operation copy, and only the second patch (highest frequency patch) is obtained using the phase vocoding operation. Also, the computational complexity is lower than in systems in which all patches are generated using phase vocoders, with spectral holes being reduced when compared to these concepts.

[0026] Naturalmente, esta configuração pode ser suplementada por qualquer das funcionalidades supramencionadas.[0026] Naturally, this configuration can be supplemented by any of the aforementioned functionalities.

[0027] Outras configurações de acordo com a invenção criam métodos para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O referido método se baseia nas mesmas idéias do equipamento supramencionado.[0027] Other embodiments in accordance with the invention create methods for generating a representation of an extended broadband signal based on a representation of the input signal. This method is based on the same ideas as the aforementioned equipment.

[0028] Outra configuração de acordo com a invenção cria um programa de computador para a implementação do método.[0028] Another configuration according to the invention creates a computer program for implementing the method.

BREVE DESCRIÇÃO DAS FIGURASBRIEF DESCRIPTION OF FIGURES

[0029] A Fig. 1 mostra um diagrama esquemático de bloco de um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;[0029] Fig. 1 shows a schematic block diagram of equipment for generating a representation of an extended broadband signal based on a representation of the input signal, in accordance with an embodiment of the invention;

[0030] A Fig. 2 mostra uma representação esquemática do conceito de extensão de largura de banda, de acordo com a presente invenção;[0030] Fig. 2 shows a schematic representation of the concept of bandwidth extension, according to the present invention;

[0031] A Fig. 3 mostra um diagrama de bloco esquemático detalhado de um decodificador de áudio compreendendo um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;[0031] Fig. 3 shows a detailed schematic block diagram of an audio decoder comprising equipment for generating a representation of an extended broadband signal based on a representation of the input signal, in accordance with a configuration of the invention;

[0032] A Fig. 4 mostra um fluxograma de um método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, de acordo com uma configuração da invenção;[0032] Fig. 4 shows a flowchart of a method for generating a representation of an extended broadband signal based on a representation of the input signal, in accordance with an embodiment of the invention;

[0033] A Fig. 5 mostra um diagrama de bloco esquemático de um decodificador de áudio, de acordo com um primeiro exemplo de comparação; e[0033] Fig. 5 shows a schematic block diagram of an audio decoder, according to a first comparison example; It is

[0034] A Fig. 6 mostra um diagrama de bloco esquemático de um decodificador de áudio, de acordo com um segundo exemplo de comparação.[0034] Fig. 6 shows a schematic block diagram of an audio decoder, according to a second comparison example.

DESCRIÇÃO DETALHADA DAS CONFIGURAÇÕESDETAILED DESCRIPTION OF SETTINGS EQUIPAMENTO DE ACORDO COM A FIG. 1EQUIPMENT ACCORDING TO FIG. 1

[0035] A Fig. 1 mostra um bloco esquemático de um equipamento 100 para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada. O equipamento 100 é configurado para receber uma representação do sinal de entrada 110 e prover, nessa base, um sinal de banda larga estendida 120. O equipamento 100 compreende um vocoder de fase configurado para obter valores de uma representação no domínio espectral 130 de um primeiro patch do sinal de banda larga estendida 120 com base na representação do sinal de entrada 110. Os valores da representação no domínio espectral do primeiro patch são indicados, por exemplo, por βz a β2Z- O equipamento 100 também compreende um copiador de valores 140 configurado para copiar um conjunto de valores da representação no domínio espectral 132 do primeiro patch, que são providos pelo vocoder de fase 130, para obter um conjunto de valores da representação no domínio espectral 142 de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. Os valores da representação no domínio espectral 142 do segundo patch são indicados, por exemplo, por β2z a β3z- O equipamento 100 é configurado para obter uma representação 120 do sinal de banda larga estendida usando os valores βz a β2z da representação no domínio espectral 132 do primeiro patch e os valores β2z a β3z da representação no domínio espectral 142 do segundo patch. Por exemplo, a representação 120 do sinal de banda larga estendida pode compreender ambos os valores da representação no domínio espectral 132 do primeiro patch e da representação no domínio espectral 142 do segundo patch. Além disso, a representação 120 do sinal de banda larga estendida pode, por exemplo, compreender valores de uma representação no domínio espectral do sinal de entrada (representada, por exemplo, pela representação do sinal de entrada 110). Entretanto, a representação 120 do sinal de banda larga estendida pode também ser uma representação no domínio do tempo, que pode se basear nos valores da representação no domínio espectral 132 do primeiro patch e nos valores da representação no domínio espectral 142 do segundo patch (e, opcionalmente, em outros valores, por exemplo, valores da representação no domínio espectral 116 do sinal de entrada, e/ou valores de uma representação no domínio espectral de outros patches).[0035] Fig. 1 shows a schematic block of equipment 100 for generating a representation of an extended broadband signal based on a representation of the input signal. Equipment 100 is configured to receive a representation of input signal 110 and provide, on that basis, an extended broadband signal 120. Equipment 100 comprises a phase vocoder configured to obtain values from a spectral domain representation 130 of a first patch of the extended broadband signal 120 based on the representation of the input signal 110. The values of the spectral domain representation of the first patch are denoted, for example, by βz to β2Z. The equipment 100 also comprises a value copier 140 configured to copy a set of values from the spectral domain representation 132 of the first patch, which are provided by the phase vocoder 130, to obtain a set of values from the spectral domain representation 142 of a second patch, where the second patch is associated with larger frequencies than the first patch. The values of the spectral domain representation 142 of the second patch are denoted, for example, by β2z to β3z. The equipment 100 is configured to obtain a representation 120 of the extended broadband signal using the values βz to β2z of the spectral domain representation 132 of the first patch and the values β2z to β3z of the representation in the spectral domain 142 of the second patch. For example, the representation 120 of the extended broadband signal may comprise both the values of the spectral domain representation 132 of the first patch and the spectral domain representation 142 of the second patch. Furthermore, the extended broadband signal representation 120 may, for example, comprise values of a spectral domain representation of the input signal (represented, for example, by the input signal representation 110). However, the representation 120 of the extended broadband signal may also be a time domain representation, which may be based on the values of the spectral domain representation 132 of the first patch and the values of the spectral domain representation 142 of the second patch (and , optionally, in other values, e.g., values of the spectral domain representation 116 of the input signal, and/or values of a spectral domain representation of other patches).

[0036] A seguir, a funcionalidade e operação do equipamento 100 serão descritas em detalhes com referência à Fig. 2, que mostra a representação esquemática do conceito da invenção para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada.[0036] In the following, the functionality and operation of equipment 100 will be described in detail with reference to Fig. 2, which shows the schematic representation of the concept of the invention for generating a representation of an extended broadband signal based on a representation of the input signal.

[0037] Uma primeira representação gráfica 200 mostra a transposição harmônica do sinal de entrada (representada pela representação do sinal de entrada 110), que é feita pelo vocoder de fase 130. Como pode ser visto, o sinal de entrada é representado, por exemplo, por um conjunto de valores de magnitude αk. O índice k designa um coletor espectral (por exemplo um coletor com índice k de uma Transformada Rápida de Fourier, ou uma banda de frequência tendo índice k de uma conversão QMF). A representação do sinal de entrada 110 pode, por exemplo, compreender valores de magnitude αk para k = 1 a k = Z, onde Z pode indicar um denominado coletor de frequências cruzadas e descreve uma partida de frequência da extensão de largura de banda. A faixa fundamental da frequência é ainda descrita, por exemplo, por valores de fase Φk, onde k é um índice do coletor de frequências, como acima discutido.[0037] A first graphical representation 200 shows the harmonic transposition of the input signal (represented by the input signal representation 110), which is done by the phase vocoder 130. As can be seen, the input signal is represented, e.g. , by a set of values of magnitude αk. The index k designates a spectral collector (for example a collector with index k from a Fast Fourier Transform, or a frequency band having index k from a QMF conversion). The input signal representation 110 may, for example, comprise values of magnitude αk for k = 1 to k = Z, where Z may indicate a so-called cross-frequency collector and describes a frequency departure from the bandwidth extension. The fundamental frequency range is further described, for example, by phase values Φk, where k is an index of the frequency collector, as discussed above.

[0038] De forma similar, o primeiro patch é descrito por um conjunto de valores de uma representação no domínio espectral, por exemplo, valores βk com k entre Z e 2Z. De forma alternativa, o primeiro patch pode ser representado por valores de magnitude αk e valores de fase Φk, com o índice de coletor de frequências k entre Z e 2Z.[0038] Similarly, the first patch is described by a set of values of a representation in the spectral domain, for example, βk values with k between Z and 2Z. Alternatively, the first patch can be represented by magnitude values αk and phase values Φk, with the frequency collector index k between Z and 2Z.

[0039] Como mencionado, o vocoder de fase 130 é configurado para realizar uma transposição harmônica com base na representação do sinal de entrada 110 para obter valores da representação no domínio espectral 132 do primeiro patch. Para tanto, o vocoder de fase 130 pode estabelecer um valor de magnitude α2k de um coletor de frequências tendo índice (coletor de frequências) 2k sendo igual ao valor da magnitude αk de um coletor de frequências com índice (coletor de frequências) k. Também, o vocoder de fase 130 pode ser configurado para estabelecer o valor de fase Φ2k de um coletor de frequências com índice 2k para um valor igual a 2 vezes o valor de fase Φk associado ao coletor de frequências com índice k. Nesse caso, o coletor de frequências com índice k pode ser um coletor de frequências da representação do sinal de entrada 110, e o coletor de frequências com índice 2k pode ser um coletor de frequências da representação no domínio espectral 132 do primeiro patch. Também, um coletor de frequências com índice 2k pode compreender uma frequência, que é de um primeiro harmônico de uma frequência incluída no coletor de frequências com índice k. Assim, podem ser obtidos valores de magnitude α2k e valores de fase Φ2k, que são valores da representação no domínio espectral 132 do primeiro patch, para 2k variando de Z a 2Ç, de maneira que α2k= ak e Φ2k=2Φk- De forma alternativa, e de forma equivalente, valores β2k, que são valores da representação no domínio espectral 132 do primeiro patch, podem ser obtidos para 2k entre Z e 2Z, de maneira queβ2k = αkej2<t'k .[0039] As mentioned, phase vocoder 130 is configured to perform a harmonic transposition based on the input signal representation 110 to obtain values from the spectral domain representation 132 of the first patch. To this end, the phase vocoder 130 can establish a magnitude value α2k of a frequency collector having index (frequency collector) 2k being equal to the magnitude value αk of a frequency collector with index (frequency collector) k. Also, the phase vocoder 130 can be configured to set the phase value Φ2k of a frequency collector with index 2k to a value equal to 2 times the phase value Φk associated with the frequency collector with index k. In this case, the frequency collector with index k may be a frequency collector of the input signal representation 110, and the frequency collector with index 2k may be a frequency collector of the spectral domain representation 132 of the first patch. Also, a frequency collector with index 2k can comprise a frequency, which is a first harmonic of a frequency included in the frequency collector with index k. Thus, magnitude values α2k and phase values Φ2k can be obtained, which are values of the representation in the spectral domain 132 of the first patch, for 2k varying from Z to 2Ç, so that α2k= ak and Φ2k=2Φk- Alternatively , and equivalently, β2k values, which are values of the spectral domain representation 132 of the first patch, can be obtained for 2k between Z and 2Z, so that β2k = αkej2<t'k .

[0040] Para resumir, supondo que os coletores de frequências tenham índices k (ou de forma equivalente, 2k, e assim por diante), que são, por exemplo, coletores de frequências de uma representação da Transformada Rápida de Fourier ou da banda de frequências de uma representação no domínio QMF, são espaçadas linearmente na frequência (de maneira que o índice de coletor de frequências, por exemplo, k ou 2k, seja pelo menos aproximadamente proporcional a uma frequência compreendida no respectivo coletor de frequências, por exemplo, uma frequência central de um coletor de frequências de ordem k da Transformada Rápida de Fourier ou uma frequência central de uma banda QMF de ordem k), a transposição harmônica é obtida pelo vocoder de fase 130.[0040] To summarize, assuming that the frequency collectors have indices k (or equivalently, 2k, and so on), which are, for example, frequency collectors of a representation of the Fast Fourier Transform or the band of frequencies of a representation in the QMF domain, are linearly spaced in frequency (such that the frequency collector index, e.g., k or 2k, is at least approximately proportional to a frequency comprised in the respective frequency collector, e.g., a center frequency of a k-order Fast Fourier Transform frequency collector or a center frequency of a k-order QMF band), the harmonic transposition is achieved by the phase vocoder 130.

[0041] Entretanto, os valores da representação no domínio espectral 142 do segundo patch são obtidos pelo copiador de valores 140, que faz uma cópia não harmônica dos valores da representação no domínio espectral 132 do primeiro patch.[0041] However, the values of the representation in the spectral domain 142 of the second patch are obtained by the value copyer 140, which makes a non-harmonic copy of the values of the representation in the spectral domain 132 of the first patch.

[0042] Tendo agora como referência a representação gráfica 250, será brevemente discutido o processo de cópia não harmônica. Como pode ser visto, o primeiro patch é representado pelos valores βz a β2z (ou, de forma equivalente, pelos valores de magnitude αz a α2z e valores de fase Φz a Φ2Z- Assim, os valores β2z a β3z (ou, de forma equivalente, valores de magnitude α2z a α3z e valores de fase Φ2z a Φ3z) da representação no domínio espectral 142 do segundo patch são obtidos por uma cópia não harmônica, que é feita pelo copiador de valores 140. Por exemplo, valores espectrais de valoração complexa β2z a β3z da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores correspondentes βz a β2z da representação no domínio espectral 132 do primeiro patch de acordo com βk=βk—z para k entre 2z e 3 z. De forma equivalente, valores de magnitude α2z a α3z da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores de magnitude da representação no domínio espectral 132 do primeiro patch de acordo com αk=αk—z para k entre 2z e 3z. Nesse caso, os valores de fase Φ2z a Φ3z da representação no domínio espectral 142 do segundo patch podem ser obtidos com base nos valores de fase Φz a Φ2z da representação no domínio espectral 132 do primeiro patch de acordo com Φk= Φk-z para k entre 2 Z e 3 Z.[0042] Now taking graphical representation 250 as reference, the non-harmonic copy process will be briefly discussed. As can be seen, the first patch is represented by the values βz to β2z (or, equivalently, by the magnitude values αz to α2z and phase values Φz to Φ2Z). , magnitude values α2z to α3z and phase values Φ2z to Φ3z) of the spectral domain representation 142 of the second patch are obtained by a non-harmonic copy, which is made by the value copier 140. For example, spectral values of complex valuation β2z the β3z of the spectral domain representation 142 of the second patch can be obtained based on the corresponding values βz to β2z of the spectral domain representation 132 of the first patch according to βk=βk—z for k between 2z and 3 z Equivalently. , magnitude values α2z to α3z of the spectral domain representation 142 of the second patch can be obtained based on the magnitude values of the spectral domain representation 132 of the first patch according to αk=αk—z for k between 2z and 3z. case, the phase values Φ2z to Φ3z of the spectral domain representation 142 of the second patch can be obtained based on the phase values Φz to Φ2z of the spectral domain representation 132 of the first patch according to Φk= Φk-z for k between 2Z and 3Z.

[0043] Assim, os valores da representação no domínio espectral 142 do segundo patch representam um sinal, que não é deslocado harmonicamente (isto é linearmente) na frequência com relação a um sinal representado pelos valores da representação no domínio espectral 132 do primeiro patch.[0043] Thus, the values of the spectral domain representation 142 of the second patch represent a signal, which is not harmonically (that is, linearly) shifted in frequency with respect to a signal represented by the values of the spectral domain representation 132 of the first patch.

[0044] Os valores βZ a β2Z da representação no domínio espectral 132 do primeiro patch e os valores β2Z a β3Z da representação no domínio espectral 142 do segundo patch podem ser usados para obter a representação 120 do sinal de banda larga estendida. Dependendo das exigências, a representação 120 do sinal de banda larga estendida pode ser uma representação no domínio espectral ou uma representação no domínio do tempo. Se for desejado obter a representação no domínio do tempo, pode ser usado um conversor do domínio da frequência para o domínio do tempo para obter a representação no domínio do tempo com base nos valores βZ a β2Z da representação no domínio espectral 132 do primeiro patch e os valores β2Z a β3Z da representação no domínio espectral 142 do segundo patch. De forma alternativa, (e de forma equivalente) os valores αz a α2z, ΦZ a ΦZZ, α2z a αsz e ΦZZ a ΦSZ podem ser usados para obter a representação 120 do sinal de banda larga estendida (tanto no domínio espectral como no domínio do tempo).[0044] The βZ to β2Z values of the spectral domain representation 132 of the first patch and the β2Z to β3Z values of the spectral domain representation 142 of the second patch can be used to obtain the representation 120 of the extended broadband signal. Depending on the requirements, the representation 120 of the extended broadband signal may be a spectral domain representation or a time domain representation. If it is desired to obtain the time domain representation, a frequency domain to time domain converter may be used to obtain the time domain representation based on the βZ to β2Z values of the spectral domain representation 132 of the first patch and the β2Z to β3Z values of the spectral domain 142 representation of the second patch. Alternatively, (and equivalently) the values αz to α2z, ΦZ to ΦZZ, α2z to αsz and ΦZZ to ΦSZ can be used to obtain the 120 representation of the extended broadband signal (both in the spectral domain and in the signal domain). time).

[0045] Como discutido acima, o conceito descrito com relação às Figs. 1 e 2 traz uma boa impressão auditiva e de complexidade computacional comparativamente baixa. A vocodização de fase é somente necessária uma vez, mesmo que seja usada uma pluralidade de patches (por exemplo, o primeiro patch e o segundo patch). Também, é evitado que haja grandes furos espectrais no segundo patch, que ocorreria caso outro vocoder de fase fosse usado para obter o segundo patch. Assim, o conceito da invenção traz consigo uma ótima escolha entre complexidade computacional e uma possível impressão auditiva.[0045] As discussed above, the concept described with respect to Figs. 1 and 2 give a good auditory impression and comparatively low computational complexity. Phase vocodization is only necessary once, even if a plurality of patches are used (e.g., the first patch and the second patch). Also, it is avoided that there are large spectral holes in the second patch, which would occur if another phase vocoder was used to obtain the second patch. Thus, the concept of the invention brings with it a great choice between computational complexity and a possible auditory impression.

[0046] Além disso, deve ser notado que outros patches podem ser obtidos com base nos valores da representação no domínio espectral 132 do primeiro patch em certas configurações. Por exemplo, em uma extensão opcional do conceito da invenção, os valores de uma representação no domínio espectral de um terceiro patch podem ser obtidos com base nos valores da representação no domínio espectral 132 do primeiro patch usando outro copiador de valores, como será descrito em mais detalhes com referência à Fig. 3.[0046] Furthermore, it should be noted that other patches may be obtained based on the values of the spectral domain representation 132 of the first patch in certain configurations. For example, in an optional extension of the concept of the invention, the values of a spectral domain representation of a third patch may be obtained based on the values of the spectral domain representation 132 of the first patch using another value copier, as will be described in more details with reference to Fig. 3.

[0047] As configurações de acordo com as Figs. 1 e 2 (e também as outras configurações) podem ser modificadas nas mais variadas formas. Por exemplo, um primeiro patch pode ser obtido usando um vocoder de fase, e segundo, terceiro e quarto patches podem ser obtidos copiando a operação de valores espectrais. De forma alternativa, um primeiro e um segundo patch podem ser obtidos usando vocoders das fases, e um terceiro e quarto patches podem ser obtidos usando a cópia dos valores espectrais. Naturalmente, diferentes combinações da operação de vocodificação da fase e da cópia da operação podem se aplicar.[0047] The configurations according to Figs. 1 and 2 (and also the other settings) can be modified in a variety of ways. For example, a first patch can be obtained using a phase vocoder, and second, third and fourth patches can be obtained by copying the spectral values operation. Alternatively, a first and second patch can be obtained using phase vocoders, and a third and fourth patch can be obtained using copying of the spectral values. Naturally, different combinations of the phase vocoding operation and the copy operation may apply.

[0048] De forma alternativa, entretanto, um primeiro patch pode ser obtido usando uma cópia da operação (copiador de valores) de valores espectrais da representação do sinal de entrada, e um segundo patch pode ser obtido usando um vocoder de fase (com base nos valores copiados do primeiro patch, obtidos usando o copiador de valores).[0048] Alternatively, however, a first patch can be obtained using a copy of the spectral values operation (value copy) of the input signal representation, and a second patch can be obtained using a phase vocoder (based on on the values copied from the first patch, obtained using the value copier).

CONFIGURAÇÃO DE ACORDO COM A FIG. 3CONFIGURATION ACCORDING TO FIG. 3

[0049] A seguir, será descrito um decodificador de áudio 300 tomando por referência a Fig. 3, onde a Fig. 3 mostra um diagrama de bloco esquemático detalhado desse decodificador de áudio 300 compreendendo um equipamento para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada.[0049] Next, an audio decoder 300 will be described with reference to Fig. 3, where Fig. 3 shows a detailed schematic block diagram of such an audio decoder 300 comprising equipment for generating a representation of a signal extended bandwidth based on a representation of the input signal.

2.1. VISÃO GERAL DO DECODIFICADOR DE ÁUDIO2.1. AUDIO DECODER OVERVIEW

[0050] O decodificador de áudio 300 é configurado para receber um fluxo de dados 310 e prover, nessa base, uma forma de onda de áudio 312. O decodificador de áudio 300 compreende um decodificador núcleo 320, que é configurado para prover, por exemplo, dados pulso-código-modulados (“dados PCM”) 322 com base no fluxo de dados 310. O decodificador núcleo 320 pode, por exemplo ser um decodificador de áudio como descrito no padrão internacional ISO/IEC 14496-3:2005(e), part 3: audio, subpart 4: general audio coding (GA)-AAC, Twin VQ, BSAC. Por exemplo, o decodificador núcleo 320 pode ser o denominado decodificador núcleo de codificação de áudio avançado (AAC), descrito no referido padrão, e que é bem conhecido pelos peritos no assunto. Assim, os dados de áudio pulso-código-modulados 322 podem ser providos pelo decodificador núcleo 220 com base no fluxo de dados 310. Por exemplo, os dados de áudio pulso-código-modulados 322 podem compreender um comprimento de quadro de 1024 amostras.[0050] The audio decoder 300 is configured to receive a data stream 310 and provide, on that basis, an audio waveform 312. The audio decoder 300 comprises a core decoder 320, which is configured to provide, e.g. , pulse-code-modulated data (“PCM data”) 322 based on the data stream 310. The core decoder 320 may, for example, be an audio decoder as described in the international standard ISO/IEC 14496-3:2005 (and ), part 3: audio, subpart 4: general audio coding (GA)-AAC, Twin VQ, BSAC. For example, the decoder core 320 may be the so-called advanced audio coding (AAC) decoder core, described in said standard, and which is well known to those skilled in the art. Thus, pulse-code-modulated audio data 322 may be provided by core decoder 220 based on data stream 310. For example, pulse-code-modulated audio data 322 may comprise a frame length of 1024 samples.

[0051] O decodificador de áudio 300 também compreende uma extensão de largura de banda (ou extensor de largura de banda) 330, que é configurado para receber os dados de áudio pulso- código-modulados 322 (por exemplo, um comprimento de quadro de 1024 amostras) e prover, nessa base, a forma de onda 312. A extensão de largura de banda (ou extensor de largura de banda) 330 também recebe alguns dados de controle 332 do fluxo de dados 310. A extensão de largura de banda 330 compreende uma provisão de dados QMF patched (ou provedor de dados QMF patched) 340, que recebe os dados de áudio pulso-código-modulados 322 e que provê, nessa base, dados QMF patched 342. A extensão de largura de banda 330 também compreende uma formatação de envelope (ou formatador de envelope) 344, que recebe os dados QMF patched 342 e os dados de controle de formatação de envelope 346 e provê, nessa base, os dados QMF com formatação de envelope e patched 348. A extensão de largura de banda 330 também compreende uma síntese QMF (ou sintetizador QMF) 350, que recebe os dados QMF com formatação de envelope e patched 348 e provê, nessa base, a forma de onda 312 fazendo uma síntese QMF.[0051] Audio decoder 300 also comprises a bandwidth extender (or bandwidth extender) 330, which is configured to receive pulse-code-modulated audio data 322 (e.g., a frame length of 1024 samples) and provide, on that basis, the waveform 312. The bandwidth extender (or bandwidth extender) 330 also receives some control data 332 from the data stream 310. The bandwidth extender 330 The bandwidth extension 330 also comprises a QMF patched data provision (or QMF patched data provider) 340, which receives the pulse-code-modulated audio data 322 and which provides, on that basis, patched QMF data 342. The bandwidth extension 330 also comprises an envelope formatter (or envelope formatter) 344, which receives the patched QMF data 342 and the envelope formatting control data 346 and provides, on that basis, the envelope-formatted and patched QMF data 348. The width extension bandwidth 330 also comprises a QMF synthesis (or QMF synthesizer) 350, which receives the envelope-formatted and patched QMF data 348 and provides, on that basis, the waveform 312 making a QMF synthesis.

2.2. PROVISÃO DE DADOS QMF PATCHED 3402.2. QMF PATCHED 340 DATA PROVISION 2.2.1. PROVISÃO DE DADOS QMF PATCHED - VISÃO GERAL2.2.1. QMF PATCHED DATA PROVISION - OVERVIEW

[0052] A provisão de dados QMF patched 340 (que pode ser feita por um provedor de dados QMF patched 340 em uma implementação de hardware) pode ser cambiável entre dois modos, isto é, um primeiro modo, em que é feito o patching da replicação de banda espectral (SBR), e um segundo modo em que é feito o patching da extensão de largura de banda harmônica (HBE). Por exemplo, os dados de áudio pulso-código-modulados 322 podem ser retardados por um retardador 360, para obter dados de áudio pulso- código-modulados retardados 362, e os dados de áudio pulso-código- modulados retardados 362 podem ser convertidos em um domínio QMF usando um analisador QMF de 32 bandas 364. O resultado do analisador QMF de 32 bandas 364, por exemplo, uma representação do domínio QMF de 32 bandas (isto é, domínio espectral) 365 dos dados de áudio pulso-código-modulados retardados 362, pode ser provida a um patcher SBR 366 e a um patcher de extensão de largura de banda harmônica 368.[0052] The provision of QMF patched data 340 (which may be made by a QMF patched data provider 340 in a hardware implementation) may be switchable between two modes, i.e., a first mode, in which patching of the spectral bandwidth replication (SBR), and a second mode in which harmonic bandwidth extension (HBE) patching is performed. For example, the pulse-code-modulated audio data 322 may be delayed by a retarder 360 to obtain delayed pulse-code-modulated audio data 362, and the delayed pulse-code-modulated audio data 362 may be converted into a QMF domain using a 32-band QMF analyzer 364. The output of the 32-band QMF analyzer 364, for example, a 32-band QMF domain (i.e., spectral domain) 365 representation of the pulse-code-modulated audio data delays 362, may be provided with an SBR patcher 366 and a harmonic bandwidth extension patcher 368.

[0053] O patcher de replicação de banda espectral 366 pode, por exemplo, fazer o patching de replicação de banda espectral, que é descrito, por exemplo, na seção 4.6.18 “SBR tool” do padrão internacional ISO/IEC 14496-3:2005(e), part 3, subpart 4. Assim, pode ser provida uma representação no domínio QMF de 64 bandas 370 pelo patcher de replicação de banda espectral 366.[0053] The spectral band replication patcher 366 can, for example, perform spectral band replication patching, which is described, for example, in section 4.6.18 “SBR tool” of the international standard ISO/IEC 14496-3 :2005(e), part 3, subpart 4. Thus, a 64-band QMF domain representation 370 can be provided by the spectral band replication patcher 366.

[0054] De forma alternativa, ou além disso, o patcher de extensão de largura de banda harmônica 368 pode prover uma representação no domínio QMF de 64 bandas 372, que é uma representação de largura de banda estendida dos dados de áudio PCM 322. Um comutador 374, que é controlado na dependência da extensão de largura de banda dados de controle 332 extraído do fluxo de dados 310, pode ser usado para decidir se o patching de replicação de banda espectral 366 ou o patching de extensão de largura de banda harmônica 368 é aplicado para obter os dados QMF patched 342 (que pode ser igual à representação no domínio QMF de 64 bandas 370 ou igual à representação no domínio QMF de 64 bandas 372, dependendo do estado do comutador 374) .[0054] Alternatively, or in addition, the harmonic bandwidth extension patcher 368 may provide a 64-band QMF domain representation 372, which is an extended bandwidth representation of the PCM audio data 322. An switch 374, which is controlled in dependence on the control data bandwidth extension 332 extracted from the data stream 310, can be used to decide whether to perform spectral bandwidth replication patching 366 or harmonic bandwidth extension patching 368 is applied to obtain patched QMF data 342 (which may be equal to the representation in the 64-band QMF domain 370 or equal to the representation in the 64-band QMF domain 372, depending on the state of the switch 374).

2.2.2. PROVISÃO DE DADOS QMF PATCHED - EXTENSÃO DE LARGURA DE BANDA HARMÔNICA 3682.2.2. QMF PATCHED DATA PROVISION - HARMONIC BANDWIDTH EXTENSION 368

[0055] A seguir, será descrito em maiores detalhes o patching da (pelo menos parcialmente) extensão de largura de banda harmônica 368. O patching da extensão de largura de banda harmônica 368 compreende um caminho do sinal, onde os dados de áudio pulso-código-modulados 322, ou sua versão pré-processada, são convertidos em um domínio espectral (por exemplo em um domínio do coeficiente da Transformada Rápida de Fourier ou um domínio QMF), onde a extensão de largura de banda harmônica é feita no domínio espectral, e onde a representação no domínio espectral do sinal de banda larga estendida obtida, ou a representação daí derivada, é usada para o patching da extensão de largura de banda harmônica.[0055] In the following, the patching of the (at least partially) harmonic bandwidth extension 368 will be described in greater detail. The patching of the harmonic bandwidth extension 368 comprises a signal path, where the pulsed audio data code-modulated 322, or its pre-processed version, are converted into a spectral domain (e.g. into a Fast Fourier Transform coefficient domain or a QMF domain), where the harmonic bandwidth extension is done in the spectral domain , and where the spectral domain representation of the obtained extended broadband signal, or the representation derived therefrom, is used for patching the harmonic bandwidth extension.

[0056] Na configuração da Fig. 3, os dados de áudio pulso-código-modulados 322 são sub-amostrados em um sub-amostrador 380, por exemplo, por um fator de 2, para obter dados de áudio pulso-código-modulados 381 sub-amostrados. Os dados de áudio pulso-código-modulados sub-amostrados 381 são depois janelados por um janelador 382, que pode, por exemplo, compreender um comprimento de janela de 512 amostras. Deve ser notado que a janela é, por exemplo, alterada por 64 amostras dos dados de áudio pulso-código-modulados sub-amostrados 381 nas subsequentes etapas de processamento, de maneira que seja obtida uma sobreposição comparativamente grande das porções janeladas 383 dos dados de áudio pulso-código-modulados sub-amostrados.[0056] In the configuration of Fig. 3, pulse-code-modulated audio data 322 is subsampled in a sub-sampler 380, for example, by a factor of 2, to obtain pulse-code-modulated audio data 381 sub-sampled. The subsampled pulse-code-modulated audio data 381 is then windowed by a windower 382, which may, for example, comprise a window length of 512 samples. It should be noted that the window is, for example, changed by 64 samples of the subsampled pulse-code-modulated audio data 381 in subsequent processing steps, so that a comparatively large overlap of the windowed portions 383 of the signal data is obtained. sub-sampled pulse-code-modulated audio.

[0057] O decodificador de áudio 300 também compreende um detector de transientes 384, que é configurado para detectar um transiente dentro dos dados de áudio pulso-código-modulados 322. O detector de transientes 384 pode detectar a presença de um transiente, seja com base no próprio PCM audio data 322, ou com base nas informações auxiliares, que estão incluídas no fluxo de dados 310.[0057] The audio decoder 300 also comprises a transient detector 384, which is configured to detect a transient within the pulse-code-modulated audio data 322. The transient detector 384 can detect the presence of a transient, either with based on the PCM audio data 322 itself, or based on auxiliary information, which is included in the data stream 310.

[0058] As porções janeladas 383 dos dados de áudio PCM sub-amostrados 381 podem ser processadas seletivamente usando um primeiro ramal de processamento 386 ou um segundo ramal de processamento 388. O primeiro ramal 386 pode ser usado para o processamento de uma porção janelada não transiente 383 dos dados de áudio PCM sub-amostrados (para os quais o detector de transientes 384 nega a presença de um transiente), e um segundo ramal 388 pode ser usado para o processamento de uma porção janelada transiente 383 dos dados de áudio PCM sub-amostrados (para os quais o detector de transientes 384 indica a presença de um transiente).[0058] The windowed portions 383 of the subsampled PCM audio data 381 may be selectively processed using a first processing branch 386 or a second processing branch 388. The first branch 386 may be used for processing a non-windowed portion. transient 383 of the subsampled PCM audio data (for which the transient detector 384 denies the presence of a transient), and a second branch 388 may be used for processing a transient windowed portion 383 of the subsampled PCM audio data. -sampled (for which the transient detector 384 indicates the presence of a transient).

[0059] O primeiro ramal 386 recebe uma porção janelada não transiente 383 e provê, nessa base, uma representação de largura de banda estendida 387,434 da porção janelada 383. De forma similar, o segundo ramal 388 recebe uma porção janelada transiente 383 dos dados de áudio PCM sub-amostrados 381 e provê, nessa base, uma representação de largura de banda estendida 389 da porção (transiente) janelada 383. Como discutido acima, o detector de transientes 384 decide se a porção janelada corrente 383 é uma porção janelada não transiente ou uma porção janelada transiente, de maneira que o processamento da porção janelada corrente 383 é feito seja usando o primeiro ramal 386 ou o segundo ramal 388. Assim, diferentes porções janeladas 383 podem ser processadas pelos diferentes ramais 386, onde houver uma significativa sobreposição temporal entre as subsequentes representações de largura de banda estendidas 387, 389 das porções janeladas subsequentes 383 (porque há uma significativa sobreposição temporal das temporalmente subsequentes porções janeladas 383).[0059] The first branch 386 receives a non-transient windowed portion 383 and provides, on that basis, an extended bandwidth representation 387,434 of the windowed portion 383. Similarly, the second branch 388 receives a transient windowed portion 383 of the data from subsampled PCM audio 381 and provides, on that basis, an extended bandwidth representation 389 of the windowed (transient) portion 383. As discussed above, the transient detector 384 decides whether the current windowed portion 383 is a non-transient windowed portion or a transient windowed portion, such that processing of the current windowed portion 383 is done using either the first branch 386 or the second branch 388. Thus, different windowed portions 383 may be processed by the different branches 386 where there is significant temporal overlap between the subsequent extended bandwidth representations 387, 389 of the subsequent windowed portions 383 (because there is significant temporal overlap of the temporally subsequent windowed portions 383).

[0060] A extensão de largura de banda harmônica 368 ainda compreende um meio de sobreposição e adição 390, que é configurado para sobrepor e adicionar as diferentes representações de largura de bandas estendidas 387, 389 associadas às diferentes (temporalmente subsequentes) porções janeladas 383. Um incremento de sobreposição e adição pode, por exemplo, ser ajustado em 256 amostras. Assim, é obtido um sinal sobreposto e adicionado 392.[0060] The harmonic bandwidth extension 368 further comprises an overlay and addition means 390, which is configured to overlay and add the different extended bandwidth representations 387, 389 associated with the different (temporally subsequent) windowed portions 383. An overlay and add increment can, for example, be adjusted to 256 samples. Thus, a superimposed and added signal 392 is obtained.

[0061] A extensão de largura de banda harmônica 368 também compreende um analisador QMF de 64 bandas 394, que é configurado para receber o sinal sobreposto e adicionado 392 e prover, nessa base, um sinal no domínio QMF de 64 bandas 396. O sinal no domínio QMF de 64 bandas 396 pode, por exemplo representar uma faixa de frequência mais ampla que o sinal no domínio QMF de 32 bandas 365 provido pelo analisador QMF de 32 bandas 364.[0061] The harmonic bandwidth extension 368 also comprises a 64-band QMF analyzer 394, which is configured to receive the superimposed and added signal 392 and provide, on that basis, a signal in the 64-band QMF domain 396. The signal in the 64-band QMF domain 396 may, for example, represent a wider frequency range than the signal in the 32-band QMF domain 365 provided by the 32-band QMF analyzer 364.

[0062] A extensão de largura de banda harmônica 368 também compreende um combiner 398, que é configurado para receber tanto o sinal no domínio QMF de 32 bandas provido pelo analisador QMF de 32 bandas 364 como o sinal no domínio QMF de 64 bandas 396 para a combinação desses sinais. Por exemplo, os componentes da faixa de baixa frequência (ou faixa fundamental da frequência) do sinal no domínio QMF de 64 bandas 396 podem ser substituídos ou combinados com o sinal no domínio QMF de 32 bandas 365 provido pelo analisador QMF de 32 bandas 364, de maneira que, por exemplo, os componentes da faixa inferior de frequência 32 (ou faixa fundamental da frequência) do sinal no domínio QMF de 64 bandas 372 sejam determinados pela saída do analisador QMF de 32 bandas 364, e de maneira que os 32 componentes na faixa de maior frequência do sinal no domínio QMF de 64 bandas 372 sejam determinados pelos 32 componentes na faixa de maior frequência do sinal no domínio QMF de 64 bandas 396.[0062] The harmonic bandwidth extension 368 also comprises a combiner 398, which is configured to receive both the signal in the 32-band QMF domain provided by the 32-band QMF analyzer 364 and the signal in the 64-band QMF domain 396 for the combination of these signals. For example, the low-frequency range (or fundamental frequency range) components of the 64-band QMF domain signal 396 may be replaced or combined with the 32-band QMF domain signal 365 provided by the 32-band QMF analyzer 364, such that, for example, the lower frequency range components 32 (or fundamental frequency range) of the signal in the 64-band QMF domain 372 are determined by the output of the 32-band QMF analyzer 364, and such that the 32 components in the highest frequency range of the signal in the 64-band QMF domain 372 are determined by the 32 components in the highest frequency range of the signal in the 64-band QMF domain 396.

[0063] Naturalmente, o número de componentes dos sinais no domínio QMF pode variar, dependendo das necessidades específicas. Naturalmente, uma posição de frequência de uma transição entre a faixa fundamental da frequência (também denominada de faixa inferior de frequência) e a faixa de frequência de largura de banda estendida (também denominada de faixa superior de frequência) pode depender da frequência de cruzamento, ou, de forma equivalente, da largura de banda do sinal de áudio representado pelos dados de áudio pulso- código-modulados 322.[0063] Naturally, the number of signal components in the QMF domain may vary, depending on specific needs. Naturally, a frequency position of a transition between the fundamental frequency range (also called the lower frequency range) and the extended bandwidth frequency range (also called the upper frequency range) may depend on the crossover frequency, or, equivalently, the bandwidth of the audio signal represented by the pulse-code-modulated audio data 322.

[0064] A seguir, serão descritos os detalhes referentes ao primeiro ramal de processamento 386. O primeiro ramal 386 compreende um conversor do domínio de tempo para o domínio da frequência 400, que é implementado, por exemplo, sob a forma de uma Transformada Rápida de Fourier configurada para prover 512 coeficientes da Transformada Rápida de Fourier com base na porção janelada 383 de 512 amostras no domínio do tempo dos dados de áudio pulso-código-modulados sub-amostrados 381. Assim, os coletores de frequências da Transformada Rápida de Fourier são denominados por subsequentes índices de coletor de frequências inteiros k na faixa entre 1 e N=512.[0064] Next, details relating to the first processing branch 386 will be described. The first branch 386 comprises a time domain to frequency domain converter 400, which is implemented, for example, in the form of a Fast Transform Fourier transform configured to provide 512 Fast Fourier Transform coefficients based on the windowed portion 383 of 512 time-domain samples of the subsampled pulse-code-modulated audio data 381. Thus, the Fast Fourier Transform frequency collectors are named by subsequent integer frequency collector indices k in the range between 1 and N=512.

[0065] O primeiro ramal 386 também compreende um provedor de valor de magnitude 402, que é configurado para prover valores de magnitude αk dos coeficientes da Transformada Rápida de Fourier. Também, o primeiro ramal 386 compreende um provedor de valores de fase 404 configurado para prover valores de fase Φk dos coeficientes da Transformada Rápida de Fourier.[0065] The first branch 386 also comprises a magnitude value provider 402, which is configured to provide magnitude values αk of the Fast Fourier Transform coefficients. Also, the first branch 386 comprises a phase value provider 404 configured to provide phase values Φk of the Fast Fourier Transform coefficients.

[0066] O primeiro ramal 386 também compreende um vocoder de fase 406, que pode receber os valores de magnitude αk e os valores de fase Φk como uma representação do sinal de entrada, e que pode compreender a funcionalidade do vocoder de fase 130 supramencionado. Assim, o vocoder de fase 406 pode produzir valores β2k, em uma faixa entre β^ e β2^, de uma representação no domínio espectral de um primeiro patch. Os valores β2k são indicados por 408, e podem ser equivalentes aos valores da representação no domínio espectral 132 de um primeiro patch. O primeiro ramal 386 também compreende um copiador de valores 410, que pode conter a funcionalidade do copiador de valores 140, e que pode receber, como informação de entrada, os valores β2k (por exemplo em uma faixa entre β^ e β2<) . Assim, o primeiro copiador de valores 410 pode prover valores βk em uma faixa entre β-■■ e β3^, que são indicados por 412 e que podem ser equivalentes aos valores β-■■ a β3^ da representação no domínio espectral 142 do segundo patch. Também, o primeiro ramal 386 pode (opcionalmente) compreender um segundo copiador de valores 414, que é configurado para receber os valores β^ e β2^. (também indicados por 408) providos pelo vocoder de fase 406 e prover, nessa base, valores espectrais β3^ a β4^ usando a operação de cópia (que efetivamente resulta em um deslocamento não harmônico de frequência do espectro descrito pelos valores β^ a β2^ (408)). Assim, o segundo copiador de valores 414 provê valores espectrais β3^ a β4^ de uma representação no domínio espectral de um terceiro patch, que também são indicados por 416.[0066] The first branch 386 also comprises a phase vocoder 406, which can receive the magnitude values αk and the phase values Φk as a representation of the input signal, and which can comprise the functionality of the aforementioned phase vocoder 130. Thus, phase vocoder 406 can produce β2k values, in a range between β^ and β2^, from a spectral domain representation of a first patch. The β2k values are denoted by 408, and may be equivalent to the values of the spectral domain representation 132 of a first patch. The first branch 386 also comprises a value copier 410, which may contain the functionality of the value copier 140, and which may receive, as input information, the values β2k (for example in a range between β^ and β2<). Thus, the first value copier 410 may provide values βk in a range between β-■■ and β3^, which are denoted by 412 and which may be equivalent to the values β-■■ to β3^ of the spectral domain representation 142 of the second patch. Also, the first extension 386 may (optionally) comprise a second value copier 414, which is configured to receive the values β^ and β2^. (also denoted by 408) provided by phase vocoder 406 and provide, on that basis, spectral values β3^ to β4^ using the copy operation (which effectively results in a non-harmonic frequency shift of the spectrum described by the values β^ to β2 ^ (408)). Thus, the second value copier 414 provides spectral values β3^ to β4^ from a representation in the spectral domain of a third patch, which are also denoted by 416.

[0067] O primeiro ramal 386 pode compreender um interpolador opcional 420, que pode ser configurado para receber os valores 412, 416 das representações nos domínios espectrais do segundo patch e do terceiro patch (e, opcionalmente, também os valores 408 da representação no domínio espectral do primeiro patch) e prover valores interpolados 422 da representação no domínio espectral do segundo e do terceiro patches (e, opcionalmente, também do primeiro patch).[0067] The first branch 386 may comprise an optional interpolator 420, which may be configured to receive the values 412, 416 of the spectral domain representations of the second patch and the third patch (and, optionally, also the values 408 of the spectral domain representation spectral domain of the first patch) and provide interpolated values 422 of the representation in the spectral domain of the second and third patches (and, optionally, also of the first patch).

[0068] O primeiro ramal 386 pode, além disso compreender um zero-padder 424, que é configurado para receber os valores interpolados 422 (ou, de forma alternativa, os valores originais 412, 416) das representações nos domínios espectrais do segundo e do terceiro patches (e, opcionalmente também do primeiro patch) e para obter, nessa base, uma versão zero-padded dos valores de uma representação no domínio espectral, que é zero-padded para ser adaptada a uma dimensão de um conversor do domínio espectral para o domínio do tempo 428.[0068] The first branch 386 may further comprise a zero-padder 424, which is configured to receive the interpolated values 422 (or, alternatively, the original values 412, 416) of the representations in the spectral domains of the second and the third patches (and optionally also the first patch) and to obtain, on that basis, a zero-padded version of the values of a representation in the spectral domain, which is zero-padded to be adapted to one dimension of a converter from the spectral domain to the domain of time 428.

[0069] O conversor do domínio espectral para o domínio do tempo 428 pode ser implementado, por exemplo, como uma Transformada Rápida de Fourier inversa. Por exemplo, a Transformada Rápida de Fourier inversa 428 pode ser configurada para receber um conjunto de 2048 (opcionalmente interpolados e zero-padded) valores espectrais, e prover, nessa base, uma representação no domínio do tempo 430 da porção do sinal de banda larga estendida. O primeiro caminho 386 também compreende um janelador de síntese 432, que é configurado para receber a representação no domínio do tempo 430 da porção do sinal de banda larga estendida e aplicar um janelamento de síntese, para obter uma representação no domínio do tempo com janelamento de síntese da porção do sinal de banda larga estendida 430.[0069] The spectral domain to time domain converter 428 can be implemented, for example, as an inverse Fast Fourier Transform. For example, the inverse Fast Fourier Transform 428 can be configured to receive a set of 2048 (optionally interpolated and zero-padded) spectral values, and provide, on that basis, a time-domain representation 430 of the broadband portion of the signal. extended. The first path 386 also comprises a synthesis windower 432, which is configured to receive the time domain representation 430 of the extended broadband signal portion and apply synthesis windowing to obtain a windowed time domain representation. synthesis of the extended broadband signal portion 430.

[0070] O decodificador de áudio 300 também compreende um segundo caminho de processamento 388, que realiza um processamento muito similar se comparado ao primeiro caminho 386. Entretanto, o segundo caminho 388 compreende um zero-padder no domínio do tempo 438, que está configurado para receber a porção janelada transiente 383 dos dados de áudio pulso-código-modulados sub- amostrados 381 e obter uma versão zero-padded 439 da porção janelada 383, de maneira que um início da porção zero-padded 439 e uma extremidade da porção zero-padded 439 sejam completadas com zeros, e de maneira que o transiente seja disposto em uma região central (entre as amostras iniciais zero padded e as amostras finais zero-padded) da porção zero-padded 439.[0070] The audio decoder 300 also comprises a second processing path 388, which performs very similar processing compared to the first path 386. However, the second path 388 comprises a time domain zero-padder 438, which is configured to receive the transient windowed portion 383 of the subsampled pulse-code-modulated audio data 381 and obtain a zero-padded version 439 of the windowed portion 383, such that a start of the zero-padded portion 439 and an end of the zero portion -padded 439 are completed with zeros, and so that the transient is arranged in a central region (between the initial zero-padded samples and the final zero-padded samples) of the zero-padded portion 439.

[0071] O segundo caminho 388 também compreende um transformador do domínio do tempo para o domínio espectral 440, por exemplo, uma Transformada Rápida de Fourier ou um QMF (banco de filtros de quadratura de espelho). O transformador do domínio do tempo para o domínio espectral 440 tipicamente compreende um maior número de coletores de frequências (por exemplo, coletores de frequências da Transformada Rápida de Fourier ou bandas QMF) que o transformador do domínio do tempo para o domínio espectral 400 do primeiro ramal. Por exemplo, a Transformada Rápida de Fourier 440 pode ser configurada para obter coeficientes da 1024 Transformada Rápida de Fourier de uma porção zero-padded 439 de 1024 amostras no domínio do tempo.[0071] The second path 388 also comprises a transformer from the time domain to the spectral domain 440, for example, a Fast Fourier Transform or a QMF (mirror quadrature filter bank). The time domain to spectral domain transformer 440 typically comprises a greater number of frequency collectors (e.g., Fast Fourier Transform frequency collectors or QMF bands) than the time domain to spectral domain transformer 400 of the first ext. For example, the Fast Fourier Transform 440 can be configured to obtain 1024 Fast Fourier Transform coefficients from a zero-padded portion 439 of 1024 samples in the time domain.

[0072] O segundo ramal 388 também compreende um determinador de valor de magnitude 442 e um determinador de valor de fase 444, que pode compreender a mesma funcionalidade do meio correspondente 402, 404 do primeiro ramal 386, apesar de ser com dimensão aumentada N=1024. De forma similar, o segundo ramal 388 também compreende um vocoder de fase 446, um primeiro copiador de valores 450, um segundo copiador de valores 454, um interpolador opcional 460, e um zero-padder opcional 464, que pode compreender as mesmas funcionalidades do meio correspondente do primeiro ramal 386, apesar de ser com dimensão aumentada. Em particular, o índice Ç da banda cruzada pode ser maior no segundo ramal 388 que no primeiro ramal 386, por exemplo, por um fator de 2.[0072] The second branch 388 also comprises a magnitude value determiner 442 and a phase value determiner 444, which may comprise the same functionality as the corresponding means 402, 404 of the first branch 386, despite being with an increased dimension N= 1024. Similarly, the second branch 388 also comprises a phase vocoder 446, a first value copier 450, a second value copier 454, an optional interpolator 460, and an optional zero-padder 464, which may comprise the same functionalities as the corresponding means of the first branch 386, despite being increased in size. In particular, the crossband index Ç may be greater in the second branch 388 than in the first branch 386, for example, by a factor of 2.

[0073] Assim, a representação no domínio espectral compreendendo, por exemplo, 4096 coeficientes da Transformada Rápida de Fourier pode ser provida a uma Transformada Rápida de Fourier inversa 468, que por sua vez provê um sinal no domínio do tempo 470 com 4096 amostras.[0073] Thus, the spectral domain representation comprising, for example, 4096 Fast Fourier Transform coefficients can be provided to an inverse Fast Fourier Transform 468, which in turn provides a time domain signal 470 with 4096 samples.

[0074] O segundo ramal 388 também compreende a janelador de síntese 472, que é configurado para prover uma versão janelada da representação no domínio do tempo 470 da porção do sinal de banda larga estendida.[0074] The second branch 388 also comprises the synthesis windower 472, which is configured to provide a windowed version of the time domain representation 470 of the extended broadband signal portion.

[0075] O segundo ramal 388 também compreende a zero stripper configurado para prover uma representação no domínio do tempo encurtada e janelada 478 da porção do sinal de banda larga estendida, cuja representação no domínio do tempo encurtada e janelada 478 pode, por exemplo, compreender 2048 amostras.[0075] The second branch 388 also comprises a zero stripper configured to provide a shortened and windowed time domain representation 478 of the portion of the extended broadband signal, which shortened and windowed time domain representation 478 may, for example, comprise 2048 samples.

[0076] Assim, a representação no domínio do tempo 387 é usada para porções não transientes (por exemplo, frames de áudio) dos dados de áudio pulso-código-modulados 322, e a representação no domínio do tempo 478 é usada para porções transientes dos dados de áudio pulso-código-modulados 322. Assim, as porções transientes são processadas com maior resolução no domínio espectral no segundo ramal de processamento 388, enquanto as porções não transientes são processadas com menor resolução espectral no primeiro ramal de processamento 386.[0076] Thus, the time domain representation 387 is used for non-transient portions (e.g., audio frames) of the pulse-code-modulated audio data 322, and the time domain representation 478 is used for transient portions of pulse-code-modulated audio data 322. Thus, the transient portions are processed with higher resolution in the spectral domain in the second processing branch 388, while the non-transient portions are processed with lower spectral resolution in the first processing branch 386.

2.3. FORMATAÇÃO DE ENVELOPE 3442.3. ENVELOPE FORMATTING 344

[0077] A seguir, será brevemente resumida a formatação de envelope 344. Além disso, é feita referência às respectivas observações na seção de introdução, que também se aplica ao conceito da invenção.[0077] In the following, envelope formatting 344 will be briefly summarized. In addition, reference is made to the respective observations in the introduction section, which also apply to the concept of the invention.

[0078] Os dados QMF patched 342, que são obtidos com base no sinal no domínio QMF de 64 bandas 396, são processados pela formatação de envelope 344, para obter a representação de sinal 348, que é uma entrada no sintetizador QMF 350. A formatação de envelope pode, por exemplo, adaptar os sinais de banda no domínio QMF dos dados QMF patched 342 para fazer um preenchimento de ruídos, para a reconstrução de harmônicos faltantes, e/ou para obter uma filtragem inversa. As variações de preenchimento de ruídos, a inserção de harmônicos faltantes e a filtragem inversa podem, por exemplo, ser controladas pelas informações auxiliares 346, que podem ser extraídas do fluxo de dados 310. Para maiores detalhes, é feita referência, por exemplo, à discussão da ferramenta SBR na seção 4.6.18 do International Standard ISC/IEC 14496-3:2005(e), part 3, subpart 4. Entretanto, também podem ser aplicados diferentes conceitos de formatação de envelope de acordo com as exigências.[0078] The patched QMF data 342, which is obtained based on the signal in the 64-band QMF domain 396, is processed by envelope formatting 344, to obtain the signal representation 348, which is an input to the QMF synthesizer 350. Envelope formatting can, for example, adapt the bandwidth signals in the QMF domain of the patched QMF data 342 to perform noise filling, to reconstruct missing harmonics, and/or to achieve inverse filtering. Noise filling variations, insertion of missing harmonics and inverse filtering can, for example, be controlled by auxiliary information 346, which can be extracted from data stream 310. For further details, reference is made, for example, to discussion of the SBR tool in section 4.6.18 of the International Standard ISC/IEC 14496-3:2005(e), part 3, subpart 4. However, different envelope formatting concepts can also be applied according to requirements.

DISCUSSÃO E COMPARAÇÃO DE DIFERENTES SOLUÇÕESDISCUSSION AND COMPARISON OF DIFFERENT SOLUTIONS

[0079] A seguir, será feita uma breve discussão e um resumo da solução da invenção.[0079] Next, a brief discussion and summary of the solution to the invention will be made.

[0080] As configurações de acordo com a presente invenção, por exemplo, o equipamento 100 de acordo com a Fig. 1 e o decodificador de áudio 300 de acordo com a Fig. 3, são (ou compreendem) novos algoritmos de patching no interior da replicação de banda espectral (SBR). Pode ser usado o patching no domínio espectral de várias maneiras para responder pelas diferentes características de sinal ou pelas restrições ditadas por requisitos de software ou hardware.[0080] The configurations according to the present invention, for example, the equipment 100 according to Fig. 1 and the audio decoder 300 according to Fig. 3, are (or comprise) new patching algorithms within of spectral band replication (SBR). Spectral domain patching can be used in a variety of ways to account for different signal characteristics or constraints dictated by software or hardware requirements.

[0081] Em SBR padrão, o patching é sempre feito por uma operação de cópia no interior do domínio QMF. Isto pode, por vezes, levar a problemas de audição, particularmente se forem copiadas sinusóides vizinhas entre si no limite de LF e de parte gerada HF. Portanto, foi introduzido um novo algoritmo de patching que evita alguns problemas usando um vocoder de fase (ver, por exemplo, a Referência [13]). Este algoritmo está ilustrado na Fig. 5 como exemplo comparativo.[0081] In standard SBR, patching is always done by a copy operation within the QMF domain. This can sometimes lead to hearing problems, particularly if neighboring sinusoids are copied to each other at the boundary of the LF and HF generated part. Therefore, a new patching algorithm was introduced that avoids some problems by using a phase vocoder (see, for example, Reference [13]). This algorithm is illustrated in Fig. 5 as a comparative example.

[0082] O SBR padrão tem o problema de dificuldades de audição. A abordagem do vocoder de fase apresentada na Referência [13] tem complexidade, particularmente devido ao grande número de Transformadas Rápidas de Fourier que deve ser calculado. Além disso, o espectro se torna muito esparso para grandes patches (altos fatores de estiramento), que pode resultar em dificuldades indesejadas de audição.[0082] Standard SBR has the problem of hearing difficulties. The phase vocoder approach presented in Reference [13] is not without complexity, particularly due to the large number of Fast Fourier Transforms that must be calculated. Furthermore, the spectrum becomes very sparse for large patches (high stretch factors), which can result in unwanted listening difficulties.

[0083] Duas configurações evitam o grande número de Transformadas Rápidas de Fourier, movendo a geração dos diferentes patches do domínio do tempo para o domínio da frequência. Na Fig. 6, é dado um exemplo onde a transformação para o domínio da frequência é obtido com a ajuda de uma Transformada Rápida de Fourier. Entretanto, ao invés da Transformação de Fourier, outras transformações tempo-frequência são utilizáveis.[0083] Two configurations avoid the large number of Fast Fourier Transforms, moving the generation of the different patches from the time domain to the frequency domain. In Fig. 6, an example is given where the transformation to the frequency domain is obtained with the help of a Fast Fourier Transform. However, instead of the Fourier Transformation, other time-frequency transformations are usable.

[0084] A Fig. 3 mostra uma solução híbrida do algoritmo da Fig. 6 para o patching SBR. Somente o primeiro patch é gerado pelo algoritmo do vocoder de fase (por exemplo, bloco 406 do primeiro ramal 386, e bloco 446 do segundo ramal 388) enquanto maiores patches (por exemplo, o segundo patch e o terceiro patch) são criados só pela cópia do primeiro patch (por exemplo, usando os copiadores de valores 410, 414 do primeiro ramal 386, e/ou os copiadores de valores 450, 454 do segundo ramal 388). Isto produz um espectro menos esparso.[0084] Fig. 3 shows a hybrid solution of the algorithm in Fig. 6 for SBR patching. Only the first patch is generated by the phase vocoder algorithm (e.g., block 406 of the first branch 386, and block 446 of the second branch 388) while larger patches (e.g., the second patch and the third patch) are created only by the phase vocoder algorithm. copying the first patch (e.g., using the value copiers 410, 414 of the first branch 386, and/or the value copiers 450, 454 of the second branch 388). This produces a less sparse spectrum.

[0085] A seguir, serão brevemente explicados o algoritmo de comparação, que é implementado no decodificador de áudio mostrado na Fig. 6, e o algoritmo da invenção, que é implementado no decodificador de áudio mostrado na Fig. 3:[0085] In the following, the comparison algorithm, which is implemented in the audio decoder shown in Fig. 6, and the invention algorithm, which is implemented in the audio decoder shown in Fig. 3, will be briefly explained:

[0086] O algoritmo de comparação ou algoritmo de referência, que é implementado no decodificador de áudio mostrado na Fig. 6, compreende as seguintes etapas:[0086] The comparison algorithm or reference algorithm, which is implemented in the audio decoder shown in Fig. 6, comprises the following steps:

[0087] 1. Sub-amostragem de sinal (caso o critério de Nyquist não for prejudicado).[0087] 1. Signal sub-sampling (if the Nyquist criterion is not impaired).

[0088] 2. O sinal é janelado (são propostas janelas de "Hann", mas podem ser usadas outras formas de janelas) e os denominados grãos (por exemplo, porções de sinal janelado 383) de comprimentos N são retirados do sinal. As janelas são deslocadas no sinal com um hop size proposto H. A N/H=8 vezes a sobreposição.[0088] 2. The signal is windowed ("Hann" windows are proposed, but other forms of windows may be used) and so-called grains (e.g., windowed signal portions 383) of lengths N are removed from the signal. The windows are shifted in the signal with a proposed hop size H. The N/H=8 times the overlap.

[0089] 3. Se o grão (por exemplo, uma porção de sinal janelado 383) contiver um evento transiente nas bordas, é completado (por exemplo, pelo zero-padder 438) com zeros, o que leva a uma sub-amostragem no domínio da frequência.[0089] 3. If the grain (e.g., a portion of windowed signal 383) contains a transient event at the edges, it is padded (e.g., by zero-padder 438) with zeros, which leads to undersampling in the frequency domain.

[0090] 4. Os grãos são transformados para o domínio da frequência (por exemplo, usando os transformadores do domínio do tempo para o domínio espectral 400,440).[0090] 4. The grains are transformed to the frequency domain (e.g., using time domain transformers to the spectral domain 400,440).

[0091] 5. Os grãos do domínio da frequência são (opcionalmente) completados até um comprimento de saída desejado do algoritmo de patching.[0091] 5. The frequency domain grains are (optionally) completed to a desired output length of the patching algorithm.

[0092] 6. A magnitude e a fase são calculados (por exemplo, usando os meios 402, 404, 442, 444).[0092] 6. Magnitude and phase are calculated (e.g., using means 402, 404, 442, 444).

[0093] 7. O conteúdo do coletor de frequências n é copiado para uma posição sn para um fator de estiramento s. A fase é multiplicada pelo fator de estiramento s. Isto é feito para todos os fatores de estiramento s (somente para as regiões do espectro que cobrem os patches desejados). (a) Ç-(s-1)/s<n<Z ou (b) Z/s<n<Z; (b) produz um espectro mais denso que (a) quando se sobrepõem os patches. O Z indica a frequência mais alta da parte LF, a denominada frequência de cruzamento. De modo geral, a fase é corrigida para uma nova posição de amostra (por exemplo, posição da frequência), que pode ser obtida usando o algoritmo discutido na presente ou qualquer algoritmo alternativo adequado.[0093] 7. The contents of the frequency collector n are copied to a position sn for a stretch factor s. The phase is multiplied by the stretching factor s. This is done for all stretch factors s (only for the regions of the spectrum that cover the desired patches). (a) Ç-(s-1)/s<n<Z or (b) Z/s<n<Z; (b) produces a denser spectrum than (a) when the patches overlap. The Z indicates the highest frequency of the LF part, the so-called crossover frequency. Generally, the phase is corrected to a new sample position (e.g., frequency position), which can be obtained using the algorithm discussed herein or any suitable alternative algorithm.

[0094] 8. Os coletores do domínio da frequência que não obtêm dados por cópia podem ser preenchidos aplicando uma função de interpolação (por exemplo, usando os interpoladores 420,460).[0094] 8. Frequency domain collectors that do not obtain data by copying can be populated by applying an interpolation function (e.g., using interpolators 420,460).

[0095] 9.Os grãos são transformados de volta para o domínio do tempo (por exemplo, usando as Transformadas Rápidas de Fourier inversas 428,468).[0095] 9. The grains are transformed back to the time domain (e.g. using inverse Fast Fourier Transforms 428,468).

[0096] 10. Os grãos do domínio do tempo são multiplicados por uma janela de síntese (novamente são propostas as janelas de Hann) (por exemplo, usando os janeladores de síntese 432,472).[0096] 10. The time domain grains are multiplied by a synthesis window (again Hann windows are proposed) (for example, using synthesis windowers 432,472).

[0097] 11. Se tiver sido feito o zero padding na etapa 3, os zeros passam por novo stripping (por exemplo, usando o zero stripper 476).[0097] 11. If zero padding was done in step 3, the zeros are stripped again (for example, using the zero stripper 476).

[0098] 12. O sinal ou frame de largura de banda estendida (por exemplo, sinal 392), respectivamente, são criados usando sobreposição e adição (OLA) (por exemplo, usando um meio de sobreposição e adição 390).[0098] 12. The extended bandwidth signal or frame (e.g., signal 392), respectively, is created using overlap and add (OLA) (e.g., using an overlap and add means 390).

[0099] Entretanto, a ordem das etapas individuais também pode ser trocada em algumas configurações alternativas, e algumas das etapas podem ser fundidas em uma única etapa em algumas configurações alternativas.[0099] However, the order of the individual steps may also be swapped in some alternative configurations, and some of the steps may be merged into a single step in some alternative configurations.

[0100] O algoritmo da invenção, que é implementado no decodificador de áudio mostrado na Fig. 3, compreende as seguintes etapas:[0100] The algorithm of the invention, which is implemented in the audio decoder shown in Fig. 3, comprises the following steps:

[0101] 1. Sub-amostragem de sinal (caso o critério de Nyquist não for prejudicado).[0101] 1. Signal sub-sampling (if the Nyquist criterion is not impaired).

[0102] 2. O sinal é janelado (são propostas janelas de "Hann", mas podem ser usadas outras formas de janelas) e os denominados grãos (por exemplo, porções de sinal janelado 383) de comprimentos N são retirados do sinal. As janelas são deslocadas no sinal com um hop size proposto H. A N/H=8 vezes a sobreposição.[0102] 2. The signal is windowed ("Hann" windows are proposed, but other forms of windows may be used) and so-called grains (e.g., windowed signal portions 383) of lengths N are removed from the signal. The windows are shifted in the signal with a proposed hop size H. The N/H=8 times the overlap.

[0103] 3. Se o grão (por exemplo, uma porção de sinal janelado 383) contiver um evento transiente nas bordas, é completado (por exemplo, pelo zero-padder 438) com zeros, o que leva a uma sub-amostragem no domínio da frequência.[0103] 3. If the grain (e.g., a windowed signal portion 383) contains a transient event at the edges, it is padded (e.g., by zero-padder 438) with zeros, which leads to undersampling in the frequency domain.

[0104] 4. Os grãos são transformados para o domínio da frequência (por exemplo, usando os transformadores do domínio do tempo para o domínio espectral 400,440).[0104] 4. The grains are transformed to the frequency domain (e.g., using time domain transformers to the spectral domain 400,440).

[0105] 5. Os grãos do domínio da frequência são (opcionalmente) completados até um comprimento de saída desejado do algoritmo de patching.[0105] 5. The frequency domain grains are (optionally) completed to a desired output length of the patching algorithm.

[0106] 6. A magnitude e a fase são calculados (por exemplo, usando os meios 402, 404, 442, 444).[0106] 6. Magnitude and phase are calculated (e.g., using means 402, 404, 442, 444).

[0107] 7. a) O conteúdo do coletor de frequências n é copiado para a posição 2n. A fase é multiplicada por 2. (a) Z'(s- 1)/s<n<Z ou (b) Z/s-n-Z (ver acima).[0107] 7. a) The contents of frequency collector n are copied to position 2n. The phase is multiplied by 2. (a) Z'(s- 1)/s<n<Z or (b) Z/s-n-Z (see above).

[0108] 7. b) O conteúdo do coletor de frequências 2n é copiado para a posição sn para todos os fatores de estiramento s > 2 nas faixas 1<n<Z.[0108] 7. b) The contents of frequency collector 2n are copied to position sn for all stretch factors s > 2 in bands 1<n<Z.

[0109] 8. Os coletores do domínio da frequência que não obtêm dados por cópia podem ser preenchidos aplicando uma função de interpolação (por exemplo, usando os interpoladores 420,460).[0109] 8. Frequency domain collectors that do not obtain data by copying can be populated by applying an interpolation function (e.g., using interpolators 420,460).

[0110] 9. Os grãos são transformados de volta para o domínio do tempo (por exemplo, usando as Transformadas Rápidas de Fourier inversas 428,468).[0110] 9. The grains are transformed back to the time domain (e.g., using inverse Fast Fourier Transforms 428,468).

[0111] 10. Os grãos do domínio do tempo são multiplicados por uma janela de síntese (novamente são propostas as janelas de Hann) (por exemplo, usando os janeladores de síntese 432,472).[0111] 10. The time domain grains are multiplied by a synthesis window (again Hann windows are proposed) (e.g., using synthesis windowers 432,472).

[0112] 11. Se tiver sido feito o zero padding na etapa 3, os zeros passam por novo stripping (por exemplo, usando o zero stripper 476).[0112] 11. If zero padding was done in step 3, the zeros are stripped again (for example, using the zero stripper 476).

[0113] 12. O sinal ou frame de largura de banda estendida (por exemplo, sinal 392), respectivamente, são criados usando sobreposição e adição (OLA) (por exemplo, usando o meio de sobreposição e adição 390).[0113] 12. The extended bandwidth signal or frame (e.g., signal 392), respectively, is created using overlap and addition (OLA) (e.g., using overlap and addition means 390).

[0114] Entretanto, a ordem das etapas individuais também pode ser trocada em algumas configurações alternativas, e algumas das etapas podem ser fundidas em uma única etapa em algumas configurações alternativas.[0114] However, the order of the individual steps may also be swapped in some alternative configurations, and some of the steps may be merged into a single step in some alternative configurations.

[0115] Assim, todas as etapas são idênticas no algoritmo de referência (que é implementado no decodificador de áudio mostrado na Fig. 6) e o algoritmo da invenção (que é implementado no decodificador de áudio mostrado na Fig. 3), exceto para a etapa 7, que foi substituída pelas seguintes etapas:[0115] Thus, all steps are identical in the reference algorithm (which is implemented in the audio decoder shown in Fig. 6) and the invention algorithm (which is implemented in the audio decoder shown in Fig. 3), except for step 7, which has been replaced by the following steps:

[0116] 7.a) O conteúdo do coletor de frequências n é copiado para a posição 2n. A fase é multiplicada por 2. (a) Z‘(s-1)/s-n-C ou (b) Z/s-n-Z (ver acima).[0116] 7.a) The contents of frequency collector n are copied to position 2n. The phase is multiplied by 2. (a) Z‘(s-1)/s-n-C or (b) Z/s-n-Z (see above).

[0117] 7.b) O conteúdo do coletor de frequências 2n é copiado para a posição sn para todos os fatores de estiramento s > 2 nas faixas 1-n-Z.[0117] 7.b) The contents of frequency collector 2n are copied to position sn for all stretch factors s > 2 in bands 1-n-Z.

[0118] Para resumir, as configurações de acordo com as Figs. 1, 2, 3 e 4 (e também o decodificador de áudio mostrado na Fig. 6) primeiro reduzem extremamente a complexidade quando comparados às soluções convencionais mencionadas. Segundo, permitem diferentes modificações de espectro, diferentes tanto do plano SBR ou como apresentadas na Fig. 5 (ver, por exemplo, a Referência [13]).[0118] To summarize, the configurations according to Figs. 1, 2, 3 and 4 (and also the audio decoder shown in Fig. 6) first greatly reduce complexity when compared to the conventional solutions mentioned. Second, they allow different spectrum modifications, different from either the SBR plane or as shown in Fig. 5 (see, for example, Reference [13]).

[0119] Por exemplo, sinais de fala podem beneficiar-se do algoritmo, que é feito pelo equipamento, decodificador de áudio e método de acordo com as Figs. 1, 2, 3 e 4, como a estrutura do trem de pulso, que é típica nos sinais de fala, é melhor mantida que a abordagem apresentada na Referência [13].[0119] For example, speech signals can benefit from the algorithm, which is made by the equipment, audio decoder and method according to Figs. 1, 2, 3 and 4, as the pulse train structure, which is typical in speech signals, is better maintained than the approach presented in Reference [13].

[0120] As mais importantes configurações de acordo com a invenção são os decodificadores de áudio, que são geralmente implementados em dispositivos manuais e assim operam por meio de baterias.[0120] The most important configurations according to the invention are audio decoders, which are generally implemented in handheld devices and thus operate using batteries.

MÉTODO DE ACORDO COM A FIG. 4.METHOD ACCORDING TO FIG. 4.

[0121] A seguir, será descrito um método 400 para a geração de uma representação de um sinal de largura de banda estendida com base em uma representação do sinal de entrada, levando em referência a Fig. 4, que mostra um fluxograma desse método. O método 400 compreende a etapa 410 de obtenção de valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada usando uma vocodificação de fase. O método 400 também compreende uma etapa 420 de cópia de um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são obtidos usando a vocodificação de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch. O método 400 também compreende uma etapa 430 de obtenção de uma representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch.[0121] Next, a method 400 for generating a representation of an extended bandwidth signal based on a representation of the input signal will be described, taking reference to Fig. 4, which shows a flowchart of this method. The method 400 comprises the step 410 of obtaining values from a spectral domain representation of a first patch of the extended broadband signal based on the representation of the input signal using phase vocoding. Method 400 also comprises a step 420 of copying a set of values from the spectral domain representation of the first patch, values which are obtained using phase vocoding, to obtain a set of values from a spectral domain representation of a second patch. , where the second patch is associated with higher frequencies than the first patch. The method 400 also comprises a step 430 of obtaining a representation of the extended broadband signal using the values of the spectral domain representation of the first patch and the values of the spectral domain representation of the second patch.

[0122] O método 400 pode ser suplementado por quaisquer meios e funcionalidades descritos na presente com relação ao equipamento da invenção.[0122] Method 400 may be supplemented by any means and functionalities described herein with respect to the equipment of the invention.

5. ALTERNATIVAS DE IMPLEMENTAÇÃO5. IMPLEMENTATION ALTERNATIVES

[0123] Apesar de alguns aspectos terem sido descritos no contexto de um equipamento, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a uma característica da etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição do bloco correspondente ou item ou característica de um equipamento correspondente. Algumas ou todas as etapas do método podem ser realizadas (ou usadas) por um equipamento de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas configurações, uma ou mais das mais importantes etapas do método podem ser realizadas por este equipamento.[0123] Although some aspects have been described in the context of an equipment, it is clear that these aspects also represent a description of the corresponding method, in which a block or device corresponds to a method step or a characteristic of the method step. Analogously, the aspects described in the context of a method step also represent a description of the corresponding block or item or characteristic of a corresponding piece of equipment. Some or all steps of the method may be performed (or used) by hardware equipment, such as a microprocessor, a programmable computer or an electronic circuit. In some configurations, one or more of the most important steps of the method can be performed by this equipment.

[0124] Dependendo de determinadas exigências de implementação, as configurações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser feita usando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controle de leitura eletrônica armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de maneira que seja realizado o respectivo método. Portanto, o meio de armazenamento digital pode ser lido por computador.[0124] Depending on certain implementation requirements, configurations of the invention can be implemented in hardware or software. The implementation can be done using a digital storage medium, for example, a floppy disk, a DVD, a Blue-Ray, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, with control signals of stored electronic reading, which cooperate (or are capable of cooperating) with a programmable computer system, so that the respective method is carried out. Therefore, the digital storage medium can be read by computer.

[0125] Algumas configurações de acordo com a invenção compreendem um portador de dados tendo sinais de controle de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de maneira que um dos métodos descritos na presente invenção seja realizado.[0125] Some configurations according to the invention comprise a data carrier having electronic readout control signals, which are capable of cooperating with a programmable computer system, so that one of the methods described in the present invention is carried out.

[0126] Em geral, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa operando para realizar um dos métodos quando o produto de programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um portador de leitura por máquina.[0126] In general, embodiments of the present invention may be implemented as a computer program product with a program code, the program code operating to perform one of the methods when the computer program product operates on a computer. Program code can, for example, be stored on a machine-readable carrier.

[0127] Outras configurações compreendem o programa de computador para a realização de um dos métodos descritos na presente invenção, armazenados em um portador de leitura por máquina.[0127] Other configurations comprise the computer program for carrying out one of the methods described in the present invention, stored on a machine-readable carrier.

[0128] Em outras palavras, uma configuração do método da invenção é, portanto, um programa de computador com um código de programa para a realização de um dos métodos descritos na presente invenção, quando o programa de computador opera em um computador.[0128] In other words, an embodiment of the method of the invention is therefore a computer program with a program code for carrying out one of the methods described in the present invention, when the computer program operates on a computer.

[0129] Outra configuração dos métodos da invenção é, portanto, um portador de dados (ou um meio de armazenamento digital, ou um meio de leitura por computador) compreendendo, nele registrado, o programa de computador para a realização de um dos métodos descritos na presente invenção.[0129] Another configuration of the methods of the invention is, therefore, a data carrier (or a digital storage medium, or a computer readable medium) comprising, registered therein, the computer program for carrying out one of the described methods in the present invention.

[0130] Outra configuração do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para a realização de um dos métodos descritos na presente invenção. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por uma conexão de comunicação de dados, por exemplo, via Internet.[0130] Another configuration of the method of the invention is, therefore, a data stream or a sequence of signals representing the computer program for carrying out one of the methods described in the present invention. The data stream or signal sequence can, for example, be configured to be transferred over a data communication connection, for example via the Internet.

[0131] Outra configuração compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos na presente invenção.[0131] Another configuration comprises a processing means, for example, a computer, or a programmable logic device, configured or adapted to carry out one of the methods described in the present invention.

[0132] Outra configuração compreende um computador com a instalação de um programa de computador para realizar um dos métodos descritos na presente invenção.[0132] Another configuration comprises a computer with the installation of a computer program to carry out one of the methods described in the present invention.

[0133] Em algumas configurações, um dispositivo lógico programável (por exemplo, um matriz tipo gate de campo programável) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos na presente invenção. Em algumas configurações, uma matriz tipo gate de campo programável pode cooperar com um microprocessador para realizar um dos métodos descritos na presente invenção. Em geral, os métodos são, de preferência, realizados por qualquer equipamento de hardware.[0133] In some configurations, a programmable logic device (e.g., a field programmable gate array) may be used to perform some or all of the functionality of the methods described in the present invention. In some configurations, a field programmable gate array may cooperate with a microprocessor to perform one of the methods described in the present invention. In general, the methods are preferably performed by any hardware equipment.

[0134] As configurações supramencionadas são meramente ilustrativas para os princípios da presente invenção. É entendido que modificações e variações das disposições e dos detalhes descritos na presente serão aparentes para os técnicos no assunto. Pretende-se, portanto, que sejam somente limitados pelo escopo das reivindicações de patentes pendentes e não por detalhes específicos apresentados como descrições e explicação das configurações da presente invenção.[0134] The aforementioned configurations are merely illustrative of the principles of the present invention. It is understood that modifications and variations of the provisions and details described herein will be apparent to those skilled in the art. They are therefore intended to be limited only by the scope of the pending patent claims and not by specific details presented as descriptions and explanations of the embodiments of the present invention.

6. EXEMPLO DE COMPARAÇÃO DE ACORDO COM A FIG. 56. COMPARISON EXAMPLE ACCORDING TO FIG. 5

[0135] A seguir, será brevemente discutido um exemplo de comparação com referência à Fig. 5. A funcionalidade do exemplo de comparação de acordo com a Fig. 5 é similar à função do decodificador de áudio de acordo com a Fig. 3, de maneira que os meios e as funcionalidades não serão explicadas novamente. Entretanto, o exemplo de comparação de acordo com a Fig. 5 depende do uso de três vocoders de fase 590, 592, 594 ou 596, 597, 598 por ramal. As Transformadas Rápidas de Fourier inversas individuais, os janeladores de síntese, os meios de sobreposição e adição são associados aos vocoders de fase individual, como pode ser visto na Fig. 5. Também, em alguns dos sub-ramais, são usados a sub- amostragem individual (fator j) e o retardo individual (z-samp|es) . Assim, o equipamento 500 de acordo com a Fig. 5 não é tão eficiente computacionalmente como o equipamento 300 de acordo com Fig. 3. Não obstante, o equipamento 500 traz aperfeiçoamentos significativos com relação a alguns decodificadores de áudio convencionais.[0135] In the following, a comparison example will be briefly discussed with reference to Fig. 5. The functionality of the comparison example according to Fig. 5 is similar to the function of the audio decoder according to Fig. 3, in that so that the means and functionalities will not be explained again. However, the comparison example according to Fig. 5 depends on the use of three phase vocoders 590, 592, 594 or 596, 597, 598 per branch. The individual inverse Fast Fourier Transforms, the synthesis windows, the superposition and addition means are associated with the individual phase vocoders, as can be seen in Fig. 5. Also, in some of the sub-branches, the sub- individual sampling (factor j) and individual delay (z-samp|es). Thus, equipment 500 according to Fig. 5 is not as computationally efficient as equipment 300 according to Fig. 3. Nevertheless, equipment 500 brings significant improvements over some conventional audio decoders.

7. EXEMPLO DE COMPARAÇÃO DE ACORDO COM A FIG. 67. COMPARISON EXAMPLE ACCORDING TO FIG. 6

[0136] A Fig. 6 mostra outro decodificador de áudio 600, de acordo com um exemplo de comparação. O decodificador de áudio 600 de acordo com a Fig. 6 é similar aos decodificadores de áudio 300, 500 de acordo com as Figs. 3 e 5. Entretanto, o decodificador de áudio 600 também se baseia no uso de uma pluralidade de vocoders das fases individuais 690, 692, 694 ou 696, 697, 698 por ramal, que torna o equipamento 600 computacionalmente mais exigente que o equipamento 300, e que traz problemas de audição em certos casos. Não obstante, o equipamento 500 traz significativos aperfeiçoamentos com relação a alguns decodificadores convencionais de áudio.[0136] Fig. 6 shows another audio decoder 600, according to a comparison example. The audio decoder 600 according to Fig. 6 is similar to the audio decoders 300, 500 according to Figs. 3 and 5. However, the audio decoder 600 is also based on the use of a plurality of individual phase vocoders 690, 692, 694 or 696, 697, 698 per extension, which makes the equipment 600 computationally more demanding than the equipment 300 , and which causes hearing problems in certain cases. Nevertheless, the 500 equipment brings significant improvements over some conventional audio decoders.

8. CONCLUSÃO8. CONCLUSION

[0137] Em vista da discussão acima, pode ser visto que o equipamento 100 de acordo com a Fig. 1, o decodificador de áudio 300 de acordo com a Fig. 3 e o método 400 de acordo com a Fig. 4 trazem várias vantagens com relação aos exemplos de comparação, que foram brevemente discutidos com referência às Figs. 5 e 6.[0137] In view of the above discussion, it can be seen that the equipment 100 according to Fig. 1, the audio decoder 300 according to Fig. 3 and the method 400 according to Fig. 4 bring several advantages with respect to the comparison examples, which were briefly discussed with reference to Figs. 5 and 6.

[0138] O conceito da invenção se aplica em uma ampla variedade de aplicações e pode ser modificado de várias formas. Em particular, as Transformadas Rápidas de Fourier podem ser substituídas por bancos de filtros QMF, e as Transformadas Rápidas de Fourier inversas podem ser substituídas por sintetizadores de QMF.[0138] The concept of the invention applies to a wide variety of applications and can be modified in various ways. In particular, Fast Fourier Transforms can be replaced by QMF filter banks, and inverse Fast Fourier Transforms can be replaced by QMF synthesizers.

[0139] Também, em algumas configurações algumas ou todas as etapas de processamento podem ser resumidas em uma única etapa. Por exemplo, uma sequência de processamento compreendendo uma síntese QMF e uma subsequente análise QMF podem ser simplificadas omitindo as transformadas repetidas.[0139] Also, in some configurations some or all of the processing steps can be summarized in a single step. For example, a processing sequence comprising a QMF synthesis and a subsequent QMF analysis can be simplified by omitting the repeated transforms.

REFERÊNCIAS:REFERENCES:

[0140] 1. M. Dietz, L. Liljeryd, K. Kjorling e O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.[0140] 1. M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.

[0141] 2. S. Meltzer, R. Bohm e F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, May 2002.[0141] 2. S. Meltzer, R. Bohm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, May 2002.

[0142] 3. T. Ziegler, A. Ehret, P. Ekstrand e M. Lutzky, “Enhancing mp3 SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, May 2002.[0142] 3. T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, May 2002.

[0143] 4. International Standard ISO/IEC 14496- 3:2001/FPDAM 1, “Bandwidth Extension,” ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.[0143] 4. International Standard ISO/IEC 14496- 3:2001/FPDAM 1, “Bandwidth Extension,” ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.

[0144] 5. E. Larsen, R. M. Aarts, e M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.[0144] 5. E. Larsen, R. M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.

[0145] 5. R. M. Aarts, E. Larsen, e O. Ouweltjes. A unified approach to low- and highfrequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.[0145] 5. R. M. Aarts, E. Larsen, and O. Ouweltjes. A unified approach to low- and high-frequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003.

[0146] 7. K. Kayhko. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics e Audio Signal Processing, 2001.[0146] 7. K. Kayhko. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.

[0147] 8. E. Larsen e R. M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.[0147] 8. E. Larsen and R. M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.

[0148] 9. E. Larsen, R. M. Aarts, e M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.[0148] 9. E. Larsen, R. M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002.

[0149] 10. J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio e Electroacoustics, AU-21(3), June 1973.[0149] 10. J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973.

[0150] 11. United States Patent Application 08/951,029, Ohmori , et al. Audio band width extending system and method.[0150] 11. United States Patent Application 08/951,029, Ohmori, et al. Audio band width extending system and method.

[0151] 12. United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech.[0151] 12. United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech.

[0152] 13. Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs,” ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.[0152] 13. Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs,” ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009.

Claims (3)

1.Equipamento, (100;386) para gerar uma representação (120; 426) de um sinal de banda larga estendida com base em uma representação do sinal de entrada (110; 383), compreender: um vocoder de fase (130; 406) configurado para obter valores (βz ... β2z, 408) de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada; e um copiador de valores (140; 410,416) configurado para copiar um conjunto de valores (βz . β2z, 408) da representação no domínio espectral do primeiro patch, valores que são fornecidos pelo vocoder de fase, para obter um conjunto de valores (β2z . β3z, 408) de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch; onde o equipamento é configurado para obter a representação (120;426) do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch, caracterizado por o vocoder de fase (130; 410) está configurado para obter os valores (βz . β2 z) da representação no domínio espectral (132; 408) do primeiro patch de maneira que os valores da representação no domínio espectral do primeiro patch representem uma versão harmonicamente dimensionada para cima de uma faixa fundamental de frequência da representação do sinal de entrada (110; 383).1. Equipment, (100; 386) for generating a representation (120; 426) of an extended broadband signal based on a representation of the input signal (110; 383), comprising: a phase vocoder (130; 406 ) configured to obtain values (βz ... β2z, 408) of a spectral domain representation of a first patch of the extended broadband signal based on the input signal representation; and a value copyer (140; 410,416) configured to copy a set of values (βz. β2z, 408) from the spectral domain representation of the first patch, values that are provided by the phase vocoder, to obtain a set of values (β2z . β3z, 408) of a representation in the spectral domain of a second patch, where the second patch is associated with higher frequencies than the first patch; where the equipment is configured to obtain the representation (120;426) of the extended broadband signal using the values of the representation in the spectral domain of the first patch and the values of the representation in the spectral domain of the second patch, characterized by the phase vocoder ( 130; 410) is configured to obtain the values (βz . β2 z) of the spectral domain representation (132; 408) of the first patch such that the values of the spectral domain representation of the first patch represent a harmonically scaled-up version of a fundamental frequency range of the input signal representation (110; 383). 2. Método (400) para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada, compreendendo: obtenção (410), usando um vocoder de fase, valores de uma representação no domínio espectral de um primeiro patch do sinal de banda larga estendida com base na representação do sinal de entrada; e copiar (420) de um conjunto de valores da representação no domínio espectral do primeiro patch, valores que são providos pelo vocoder de fase, para obter um conjunto de valores de uma representação no domínio espectral de um segundo patch, onde o segundo patch está associado a maiores frequências que o primeiro patch; e obtenção (430) da representação do sinal de banda larga estendida usando os valores da representação no domínio espectral do primeiro patch e os valores da representação no domínio espectral do segundo patch; caracterizado por os valores (βZ - β2Z) da representação no domínio espectral (132; 408) do primeiro patch são obtidos de maneira que os valores da representação no domínio espectral do primeiro patch representem uma versão harmonicamente dimensionada para cima de uma faixa fundamental de frequência da representação do sinal de entrada (110; 383).2. Method (400) for generating a representation of an extended broadband signal based on a representation of the input signal, comprising: obtaining (410), using a phase vocoder, values from a representation in the spectral domain of a first patch of the extended broadband signal based on the representation of the input signal; and copying (420) from a set of values of the spectral domain representation of the first patch, values that are provided by the phase vocoder, to obtain a set of values of a spectral domain representation of a second patch, where the second patch is associated with higher frequencies than the first patch; and obtaining (430) the representation of the extended broadband signal using the values of the spectral domain representation of the first patch and the values of the spectral domain representation of the second patch; characterized in that the values (βZ - β2Z) of the spectral domain representation (132; 408) of the first patch are obtained such that the values of the spectral domain representation of the first patch represent a harmonically scaled-up version of a fundamental frequency range of the representation of the input signal (110; 383). 3. Mídia de armazenamento não transitória tendo gravada instruções lida por um computador caracterizada por compreender instruções que quando executadas realizam o método das reivindicações 2.3. Non-transitory storage media having recorded instructions read by a computer characterized by comprising instructions that when executed carry out the method of claims 2.
BR122021012125-7A 2009-04-02 2010-04-01 EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION BR122021012125B1 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US16612509P 2009-04-02 2009-04-02
US61/166,125 2009-04-02
US16806809P 2009-04-09 2009-04-09
US61/168,068 2009-04-09
EP09181008.5 2009-12-30
EP09181008A EP2239732A1 (en) 2009-04-09 2009-12-30 Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
PCT/EP2010/054422 WO2010112587A1 (en) 2009-04-02 2010-04-01 Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension

Publications (2)

Publication Number Publication Date
BR122021012125A2 BR122021012125A2 (en) 2023-01-03
BR122021012125B1 true BR122021012125B1 (en) 2024-04-24

Family

ID=

Similar Documents

Publication Publication Date Title
EP2269189B1 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
TWI444991B (en) Apparatus and method for processing an audio signal using patch border alignment
US10909994B2 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
KR101425157B1 (en) Bandwidth extension encoder, bandwidth extension decoder and phase vocoder
BR122021012125B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BR122021012137B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BR122021012115B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BR122021012145B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BRPI1001239B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BR122021012290B1 (en) EQUIPMENT, NON-TRANSIENT MEDIA AND METHOD FOR GENERATING A REPRESENTATION OF AN EXTENDED BROADBAND SIGNAL BASED ON AN INPUT SIGNAL REPRESENTATION USING A COMBINATION OF A HARMONIC BANDWIDTH EXTENSION AND A NON-HARMONIC BANDWIDTH EXTENSION
BR122021019078B1 (en) Apparatus and method for processing an input audio signal using cascading filter banks