BRPI0910523B1 - Aparelho e método para gerar dados de saída de extensão de largura de banda - Google Patents

Aparelho e método para gerar dados de saída de extensão de largura de banda Download PDF

Info

Publication number
BRPI0910523B1
BRPI0910523B1 BRPI0910523-9A BRPI0910523A BRPI0910523B1 BR PI0910523 B1 BRPI0910523 B1 BR PI0910523B1 BR PI0910523 A BRPI0910523 A BR PI0910523A BR PI0910523 B1 BRPI0910523 B1 BR PI0910523B1
Authority
BR
Brazil
Prior art keywords
data
audio signal
frequency band
noise floor
components
Prior art date
Application number
BRPI0910523-9A
Other languages
English (en)
Inventor
Max Neuendorf
Bernhard Grill
Ulrich Kraemer
Markus Multrus
Harald Popp
Nikolaus Rettelbach
Frederik Nagel
Markus Lohwasser
Marc Gayer
Manuel Jander
Virgilio Bacigalupo
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BRPI0910523A2 publication Critical patent/BRPI0910523A2/pt
Publication of BRPI0910523B1 publication Critical patent/BRPI0910523B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Dental Tools And Instruments Or Auxiliary Dental Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

aparelho e método para gerar dados de saída de extensão de largura de banda. um aparelho (100) para gerar dados de saída de 5 extensão da largura de banda (102) para um sinal de áudio (105) compreendendo um medidor de patamar de ruído (110.) , um caracterizador de energia do sinal (120) e um processador (130) . o sinal de áudio (105) compreende componentes em uma primeira faixa de frequência (105a) e componentes em uma segunda faixa de : 10 frequência (105b), os dados de saída da extensão da largura de banda (102) são adaptados para controlar uma síntese dos componentes em uma segunda faixa de frequência (105b). o medidor, de patamar de ruído (110) mede os dados do patamar de ruído (115) da segunda faixa de frequência (105b) por uma porção de tempo (t) do sinal de áudio (105) . o caracterizador de energia do sinal (120) resulta em dados de distribuição de energia (125), os dadas de distribuição de energia em um espectro da porção de tempo (t) do sinal de áudio (105). o processador (130) combina os dados de patamar de ruído (115) e os dados de distribuição de energia (125) para obter dados de saída de extensão da largura de banda (102).

Description

DESCRIÇÃO
A presente invenção se refere a um aparelho e um 5 método para gerar dados de saída de extensão de largura de banda .* ... (BWE)t um codificador de áudio e um decodifiçador de áúdio.
Codificação natural de áudio e fala são duas grandes classes de codecs para sinais de áudio. Codificação natural de áudio é comumente usada para sinais musicais e 10 arbitrários em taxas medias de bits e geralmente oferece uma grande largura de banda de áudio.. Codificadores de fala são basicamente limitados para reprodução de fala e pode ser usado em uma taxa de bits muito baixa. Faia dê' ’ampla* faixa- -oferece uma grande melhoria subjetiva de qualidade comparada a uma fala de 15 faixa limitada". 'Mãí s"além,-- dev-ido.-ao^treraendo^crescimento do campo multimídia, transmissão de música e outros sinais de. não-fala bem como armazenamento e, por exemplo, transmissão para rádio/TV em alta qualidade para sistemas de telefone é um recurso desejável.
Para drasticamente reduzir a taxa de bit, 20 codificação da fonte pode ser realizado usando codecs de áudio perceptive com faixa dividida. Esses codecs naturais de áudio exploram irrelevância perceptiva e redundância estatística no sinal. Na exploração do caso do supramencionado apenas não é suficiente referente as restrições de taxa de bits, a taxa de 25 amostragem é reduzida. Também é comum diminuir o número de níveis de composição, permitindo distorção ocasional de quantização audível, e para empregar degradação do campo estéreo através de codificação joint stereo ou codificação paramétrica de dois ou mais canais. Uso excessivo de tais resultados de métodos em degradação perceptiva importuna. Para melhorar o desempenho de codificação, métodos de extensão de largura de banda como replicação de faixa espectral (SBR) são utilizados como um método 5 eficiente para gerar sinais de alta frequência em um codec baseado em HFR (reconstrução de alta frequência).
Na gravação e transmissão de sinais acústicos, um 1 patamar de ruído como ruído de fundo está sempre presente. Para gerar um sinal acústico autêntico no lado do decodificador, o patamar de ruído deve ser transmitido ou gerado. No caso de ser gerado, o patamar de ruído no sinal de áudio original deve ser determinado. Na replicação de faixa espectral, isso é realizado por ferramentas SBR ou módulos relacionados' à= SBR,' que • geram - parâmetros que caracterizam (além de outras coisas)o patamar de ruído e que são transmitidos para-o -decod.if tcadqr_ para reconstruir o patamar de ruído.
Em WO 00/45379, uma ferramenta de patamar de ruído adaptável é descrita, o que fornece conteúdo de ruído suficientes componentes de alta frequência sintetizados. Contudo, artefatos perturbadores nos componentes de frequência de faixa alta tensão gerados se., na faixa base, ocorrem flutuações de energia de curto tempo ou também chamados de provisórios. Esses artefatos são perceptivamente não aceitáveis e arte anterior não fornece uma solução aceitável (especialmente se a largura da faixa é limitada).
Üm objetivo da presente invenção é, portanto, fornecer um aparelho, que permite uma codificação eficiente sem artefatos perceptíveis, especialmente para sinais de fala.
Esse objetivo é alcançado por um aparelho para gerar dados de saída SBR de acordo com reivindicação 1, o codificador de acordo com a reivindicação 7, um método para gerar dados de saída SBR de acordo com reivindicação 10, um 5 decodif icador para reivindicação 14 ou um sinal de áudio codificado de acordo com reivindicação 16.
A presente invenção é baseada na descoberta que uma adaptação do patamar de ruído medido dependendo da distribuição de energia do sinal de áudio dentro da porção de 10 tempo pode melhorar a qualidade perceptiva do sinal de áudio sintetizado no lado do decodif icador. Apesar de que de um ponto de jrista teórico uma adaptação ou manipulação do patamar de ruído medido não é necessária, as técnicas convencionais ' para” gerar o patamar de ruído mostram um número de desvantagens. De um lado, a estimativa do patamat dè ruído-baseado- em uma medida de tonalidade, enquanto é realizada pelos métodos convencionais, é difícil e nem sempre preciso. De outro lado, o objetivo do patamar de ruido é reproduzir a impressão de tonalidade correta no lado do decodificador. Mesmo se a impressão subjetiva de tonalidade para o sinal de áudio original e o sinal decodificado forem o mesmo, ainda há a possibilidade dos artefatos gerados; por exemplo, para sinais de fala.
Testes subjetivos mostram que tipos diferentes dos sinais de fala devem ser tratados de forma diferente. Em 25 sinais de fala sonoros uma diminuição do patamar de ruído calculado resulta em uma maior qualidade perceptiva quando comparado ao patamar de ruído calculado. Como resultado a fala parece reverberar menos nesse caso. No caso do sinal de áudio conter sibilantes, um aumento artificial do patamar de ruído podem se sobrepor as desvantagens no método de correção relacionado as sibilantes. Por exemplo, flutuações de energia de curto tempo (provisórias) produzem artefatos perturbadores quando modificados ou transformados em uma faixa mais alta de frequência e um aumento no patamar de ruído pode se sobrepor as essas flutuações de energia.
Essas provisórias podem ser definidas como porções dentro de sinais convencionais, onde um aumento forte na energia aparece dentro de um período curto de tempo, que pode ou não ser restritos em uma região específica de frequência. Exemplos para provisórias são batidas de castanholas e instrumentos de percussão, mas também certos sons de voz humana como por exemplo, as letras: P, T, K, . .. . A detecção desse tipo de provisória é implementado até ~ agora-5 sempre o m esmo =modo- .ou _.p.elo mejsmo algoritmo (utilizando um limite de provisório) , que é independente do sinal, seja classificado como fala ou música. Além disso, uma possível distinção entre fala vociferada e não-vociferada não influencia ó mecanismo convencional ou clássico de detecção de provisória.
Então, configurações fornecem uma diminuição do patamar de ruído para sinais como fala vociferada e um aumento do patamar de ruído para sinais compreendidos, por exemplo, sibilantes.
Para distinguir os sinais diferentes, configurações utilizam dados de distribuição de energia (por exemplo, um parâmetro de sibilância) que mede se a energia está geralmente localizada nas frequências mais altas ou nas frequências mais baixas, ou em outras palavras, se a representação espectral do sinal de áudio mostra uma curva de aumento ou diminuição em direção as frequências mais altas. Outras configurações também utilizam o primeiro coeficiente LPC (LPC = codificação preditiva linear) para gerar o parâmetro de sibilância.
Existem duas possibilidades para modificar o patamar de ruido. A primeira é transmitir esse parâmetro de sibilância para que o decodificador possa utilizar o parâmetro de sibilância para ajustar o patamar de ruido (por exemplo, tanto - para aumentar ou diminuir o patamar de ruido além do patamar de ruido calculado) . Esse parâmetro de sibilância pode ser transmitido junto com o patamar de ruido calculado através "dé métodos convencionais ou calculados no lado do decodificador. Uma segunda possibilidade é modificar' “cr-patanar-de- xuido. transmitido utilizando o parâmetro de sibilância (ou os dados de distribuição de energia) para que o decodificador transmita dados de patamar de ruido modificado para o decodificador e nenhuma modificação é necessária no lado do decodificador - o mesmo decodificador pode ser usado. Portanto, a manipulação do patamar de ruido pode ser feita no lado do codificador bem como no lado do decodif icador.
As replicações da faixa espectral como exemplo para a extensão de largura de banda confia nas estruturas SBR definindo uma porção de tempo em que o sinal de áudio é separado em componentes na primeira banda de frequência e a segunda banda de frequência. O patamar de ruido pode ser medido e/ou modificado para toda a estrutura SBR. De forma alternativa, também é possível que a estrutura SBR esteja dividida em envelopes de ruido, para que para cada um dos envelopes de ruído, um ajuste para o patamar de ruído seja realizado. Em outras palavras, a resolução temporal das ferramentas de patamar de ruído é determinada pelos envelopes de ruído dentro das estruturas SBR. De acordo com o Padrão (ISO/IEC 14496-3), cada estrutura SBR compreende um máximo de dois envelopes de ruído, para que um ajuste do patamar de ruído possa ser feito nas bases parciais de estruturas SBR. Para algumas aplicações, isso pode ser suficiente. É, contudo, também possível aumentar o número de envelopes de ruído para melhorar o modelo para tonalidade que varia com tempo.
Então, configurações compreendem um aparelho para geração de dados de saída BWE para um sinal de áudio, onde o sinal de áudio compreende componentes em uma primeira faixa de frequência e uma segunda faixa de frequência e os dados de saída BWE são adaptados para controlar uma síntese dos componentes em uma segunda faixa de frequência. O aparelho compreende um medidor de patamar de frequência para medir dados do patamar de ruído da segunda faixa de frequência para porção de tempo do sinal de áudio. Já que o patamar de ruído medido influencia a tonalidade do sinal de áudio, o medidor do patamar de áudio pode compreender um medidor de tonalidade. De forma alternativa, o medidor de patamar de ruído pode ser implementado para medir o barulho de um sinal para obter o patamar de ruído. O aparelho compreende ainda um caracterizador de energia de sinal para dados de distribuição de energia resultantes, onde os dados de distribuição de energia caracterizam uma distribuição de energia em um espectro da porção de tempo do sinal de áudio e, finalmente, o aparelho compreende um processador para combinar os dados de patamar de ruído para obter os dados de saída BWE.
Em outras configurações, o caracterizador de energia de sinal é adaptado para usar o parâmetro de sibilância como os dados de distribuição de energia e o parâmetro de 5 sibilância pode, por exemplo, ser o primeiro coeficiente LPC. Em outras configurações, o processador é adaptado para adicionar os dados de distribuição de energia ao fluxo de bits dos dados de áudio codificado ou, de forma alternativa, o processador é adaptado para ajustar o parâmetro de patamar de ruído como o que o 10 patamar de ruido é tanto aumentado ou diminuído dependendo dos dados de distribuição de energia (dependente do sinal). Nessa configuração, o medidor do patamar de ruido irá medir primeiro o patamar de ruído parà gerar dados de patamar de ruído, que será ajustado ou modificado pelo processador em seguida.
Ene outras configurações, a porção de tempo é uma estrutura SBR e o caracterizador de energia de sinal é adaptado para gerar um número de envelopes de patamar de ruído pára cada estrutura SBR. Como consequência, o medidor de patamar de ruído bem como o caracterizador de energia de sinal pode ser adaptado 20 para medir os dados de patamar de ruído bem como os dados de distribuição de energia resultantes para cada envelope de patamar de ruído. O número de envelopes de patamar de ruido podem, por exemplo, ser 1, 2, 4, por estrutura SBR.
Mais configurações compreendem também ferramenta 25 de replicação de faixa espectral utilizada em um decodificador para gerar componentes em uma segunda faixa de frequência do sinal de áudio. Nessa geração dados de saída da replicação de faixa espectral e sinal bruto da representação espectral para Os componentes em uma segunda faixa de frequência são utilizados. A ferramenta de replicação de faixa espectral compreende uma unidade de cálculo de patamar de ruido para os dados de distribuição de energia, e um combinador para combinar o a representação espectral do sinal bruto com o patamar de ruído calculado para gerar os componentes na segunda faixa de frequência com o patamar de ruido calculado.
Uma vantagem das configurações é a combinação de decisão externa (fala/áudio) com um detector externo de fala vociferada ou um detector interno sibilante (um caracterizador de energia do sinal) controlando o evento de ruído adicional senso assinalado ao decodificador ou ajustando o patamar de ruído calculado. Para sinais não-falados, o cálculo do patamar de ruído usual é executado. Para sinais de fala (resultantes da decisão externa alternada), uma análise adicional da fala é realizada para determinar o sinal real da fala. A quantia de ruído a ser adicionada no codificador ou decodificador é escalonada dependendo do grau de sibilância (a ser contrário a sonorização) do sinal. O grau de sibilância pode ser determinado, por exemplo, medindo a inclinação espectral para as partes de sinais curto.
BREVE DESCRIÇÃO DOS DESENHOS
A presente invenção será agora descrita através de exemplos ilustrados. Recursos da invenção serão mais apreciados e melhor entendidos pela referência da seguinte descrição detalhada, que deve ser considerada com referência aos desenhos acompanhantes, em quais: Fig. 1 mostra um diagrama de bloco de um aparelho para gerar dados de saída BWE de acordo com configurações da presente invenção; Fig. 2a ilustra uma inclinação espectral negativa do sinal não-sibilante; Fig. 2b ilustra uma inclinação espectral positiva 5 do sinal não-sibilante; Fig. 2c explica o cálculo da inclinação espectral, baseada em parâmetros LPC de ordem baixa; Fig. 3 mostra um diagrama de bloco de um codificador; Fig. 4 mostra diagramas de bloco para processamento do fluxo de áudio codificado para amostras PCM de saida em um lado do decodificador; Fig. 5a, b mostra uma comparação da ferramenta de cálculo do patamar de ruido convencional com uma “1’5 ' férfámentà‘Hè cálculo modificada de patamar de ruido de acordo com as configurações; e Fig. 6 ilustra a partição de uma estrutura SBR em um número predeterminado de porções de tempo. Fig. 1 mostra um aparelho 11 para geração de dados de saida (BWE) de extensão de largura de banda 102 para um sinal de áudio 105. O sinal de áudio 105 compreende componentes em uma primeira faixa de frequência 105a e componentes de uma segunda faixa de frequência 105b. Os dados de saida BWE 102 são adaptados para controlar uma sintese dos componentes na segunda faixa de frequência 105b. O aparelho 100 compreende um medidor de patamar de ruido 110, um caracterizador de energia de sinal 120 e um processador 130. O medidor do patamar de ruido 110 é adaptado para medir ou determinar dados do patamar de ruido 115 da segunda faixa de frequência 105b para uma porção de tempo do sinal de áudio 105. Em detalhes, o patamar de ruido pode ser determinado comparando o ruído medido da faixa base com o ruído medido da faixa superior, para que a quantia de ruído necessária após correção para 5 reproduzir uma impressão de tonalidade natural possa ser determinada. O caracterizador de energia do sinal 120 resulta em dados de distribuição de energia 125 caracterizando uma distribuição de energia em um espectro da porção do tempo do sinal de áudio 105. Portanto, o medidor do patamar de ruído 110 recebe, 10 por exemplo, a primeira e/ou segunda faixa de frequência 105a, b e o caracterizador de energia do sinal 120 recebe, por exemplo, a primeira e/ou segunda faixa de frequência 105a, b. O processador 130 recebe os dados do patamar de ruído 115 e os dados da distribuição de energia 125 e os combina para obter os dados de saída- BWE’ '102". A rep li cação- de faixa espectral compreende um exemplo para a extensão da largura de banda, onde os dados da saída BWE 102 tornam-se dados de saída SBR. As seguintes configurações irão principalmente descrever o exemplo de SBR, mas o método/aparelho inventivo não é restrito a esse exemplo.
Os dados de distribuição de energia 125 indicam uma relação entrè a energia contida dentro da segunda faixa de frequência comparada com a energia contida na primeira faixa de frequência. O caso mais simples os dados de distribuição de energia são dados por um bit indicando se mais energia é armazenada dentro da faixa base comparada a faixa SBR (faixa superior) ou vice versa. A faixa SBR (faixa superior) pode, por exemplo, ser definida como componentes de frequência acima de um limite, que pode ser dado, por exemplo, por 4 . kHz e a faixa base (faixa inferior) pode ser os componentes do sinal, que estão abaixo dessa frequência limite (por exemplo, abaixo de 4kHz ou outra frequência). Exemplos para essas frequências limite seriam 5 kHz ou 6 kHz. Figs. 2a e 2b mostra duas distribuições de energia no espectro dentro de uma porção de tempo de um sinal de áudio 105» As distribuições de energia exibidas por um nível P como função da frequência F como sinal analógico, que também pode ser um envelope de um sinal dado por uma pluralidade de amostras ou linhas (transformadas no domínio da frequência). Os gráficos mostrados também são muito simplificados para visualizar o conceito de inclinação espectral. A faixa de frequência inferior ou superior podem, ser definidas como frequência abaixo ou acima da frequência limite Fo (frequência cruzadas, por exemplo, 500 Hz, 1 — ' ”15 "kHz òu 2' kHz) . Fig. 2a mostra uma distribuição de energia exibindo uma inclinação espectral em queda (diminuindo com frequências mais altas). Em. outras palavras, nesse caso, existe mais energia armazenada nos componentes de frequência baixa do que 20 nos componentes de frequência alta. Portanto o nivel P diminui para frequências mais altas indicando uma inclinação espectral negativa (função decrescente). Portanto, um nível P compreende uma inclinação espectral negativa se o nível de sinal P indicar que existe menos energia na faixa superior (F > Fo) do que na faixa de 25 frequência (F < Fó) . Esse tipo de sinal ocorre, por exemplo, para um sinal de áudio compreendendo uma quantia baixa ou nenhuma quantia de sibilância. Fig. 2b mostra o caso, onde o nivel P aumenta com as frequências F indicando uma inclinação espectral positive (uma função de aumento do nivel P dependendo das frequências). Portanto, um nivel P compreende uma inclinação espectral positiva se o nivel de sinal P indicar que existe mais energia na faixa 5 superior (F > Fo) comparado com a faixa de inferior (F < Fo) . Tal distribuição de energia é gerada se o sinal de áudio 105 compreende, por exemplo, ditas sibilantes. Fig. 2a ilustra um espectro de potência de um sinal tendo uma inclinação espectral negativa; Uma inclinação 10 espectral negativa significa um talude em queda do espectro;
Contrário a isto. Fig. 2b ilustra um espectro de potência de um sinal tendo uma inclinação espectral positiva; Dito _em_ outras palavras, essa inclinação espectral tem um talude ' ascendente. Naturalmente, cada espectro como o espectro ilustrado na Fig. 2a “15" <511 cT espectro" ilustrado na Fig. 2b terá variações na escala local que tem taludes diferentes da inclinação espectral. .
A inclinação espectral deve ser obtida, quando, por exemplo, uma linha reta é encaixada no espectro de potência como minimizar as diferenças quadradas entre linha reta e o 20 espectro real. Montagem de uma linha reta para o espectro pode ser uma das formas para o cálculo da inclinação espectral de um espectro de curto prazo. No entanto, é preferível calcular a inclinação espectral utilizando coeficientes LPC.
A publicação "Efficient calculation of espectral 25 tilt from various LPC parameters" por V. Goncharoff, Von Colin E. e R. Morris, Comando Naval, Controle e Centro de Vigilância do Oceano (NCCOSC), RDT e Divisão E, San Diego, CA 92152-52001, 23 de maio de 1996 revela várias maneiras de calcular a inclinação espectral.
Em uma implementação, a inclinação espectral é definida como a inclinação de pelo menos quadrados para ajuste linear do espectro de potência de log. No entanto, ajuste linear 5 para o espectro de potência não-log ou do espectro de amplitude ou qualquer outro tipo de espectro também pode ser aplicado. Isto é verdadeiro no contexto da invenção atual, onde, na modalidade preferida, um está interessado principalmente no sinal da inclinação espectral, ou seja, se a inclinação do resultado do 10 ajuste linear é positivo ou negativo. O valor real da inclinação espectral, entretanto, não é de grande importância em uma modalidade de alta eficiência desta invenção, jnas_ o ^yalpr ..real pode ser mais importante em configurações mais elaboradas.
Quando Codificação Linear preditiva (LPC) da fala 15 ~e utilizada para modelar o seu espectro de curta duração, é computacionalmente mais eficiente calcular a inclinação espectral diretamente dos parâmetros do modelo LPC, em vez de partir do espectro de potência de log. Fig. 2c ilustra uma equação para os coeficientes cepstral Ck correspondentes à ordem nth log de todos 20 os pólos do espectro de potência. Nesta equação, k é um indice inteiro, pn é o pólo nth na representação em todos os pólos da função de transferência do dominio H(z) do filtro LPC. A próxima equação na fig. 2c é a inclinação espectral em termos dos coeficientes cepstral. Especificamente, m é a inclinação 25 espectral, k e n são inteiros e N é o pólo da ordem mais alta do modelo de todos os pólos para H (z) . A próxima equação na fig. 2c define o log do espectro de potência S (m) do filtro LPC da ordem Nth. G é a constante de ganho e são os coeficientes lineares indicadores e o é igual a 2xnxf, onde f é a frequência. A equação mais baixa na figura. 2c resulta diretamente nos coeficientes cepstral como uma função dos coeficientes LPC otk. Os coeficientes Ck cepstral são então usados para calcular a inclinação espectral.
Geralmente, esse método será mais eficiente do que o fabricar o polinómio LPC para obter os valores do pólo, e resolvendo para inclinação espectral utilizando as equações de pólo. Assim, depois de ter calculado os coeficientes LPC ak, pode-se calcular os coeficientes cepstral Ck usando a equação na parte inferior da 10 figura. 2c e, em seguida, pode-se calcular os pólos pn a partir dos coeficientes cepstral usando a primeira equação na fig. 2c. Então, com base nos pólos, pode-se calculara ^J.ncld.naqão ...m espectral definida na segunda equação da figura 2c.
Foi constatado que o primeiro coeficiente al da T5 ordem LPC é suficiente para ter uma boa estimativa para o sinal da inclinação espectral. ax é, portanto, uma boa estimativa para Cl. Assim, a Ci é uma boa estimativa para o Pl. Quando px é inserido na equação para a inclinação espectral m, torna-se claro que, devido ao sinal negativo na segunda equação na fig. 2c, o sinal da 20 inclinação espectral m é inversa ao sinal do primeiro coeficiente LPC «i na definição do coeficiente LPC na fig. 2c. Preferencialmente, o caracterizador do sinal da energia 120 é configurado para gerar, como os dados de distribuição de energia, uma indicação de um sinal de inclinação 25 espectral do sinal de áudio em uma porção de tempo atual do sinal de áudio. Preferencialmente, o caracterizador do sinal da energia 120 é configurado para gerar, como dados de distribuição de energia, dados oriundos de uma análise LPC de uma porção de tempo do sinal de áudio para estimar um ou mais coeficientes LPC de baixa ordem e obter os dados de distribuição de energia a partir de um ou mais coeficientes LPC de ordem mais baixa,
Preferencialmente, o caracterizador do sinal da energia 120 é configurado apenas para calcular o primeiro coeficiente LPC e para não calcular coeficientes LPC adicionais e para obter os dados de distribuição de energia de um sinal do primeiro coeficiente LPC.
Preferencialmente, o caracterizador do sinal da energia 120 é configurado para determinar a inclinação espectral como uma inclinação negativa espectral, ^em que uma diminuição da._ energia espectral de frequências acontece a partir das mais baixas para as frequências mais altas, quando o primeiro coeficiente LPC 15 tem um sinal positivo, e para detectar a inclinação espectral como uma inclinação positiva espectral, em que a energia espectral aumenta das frequências mais baixas para as frequências mais altas, quando o primeiro coeficiente LPC tem um sinal negativo.
Em outras modalidades, o detector de inclinação espectral ou caracterizador do sinal da energia 120 está configurado para não só o cálculo dos coeficientes LPC de primeira ordem, mas para calcular vários coeficientes LPC de baixa ordem tais como coeficientes LPC até a ordem de 3 ou 4 ou superiores. Em tal configuração, a inclinação espectral é calculada com tal alta 25 precisão que não se pode apenas indicar o sinal como um parâmetro de sibilância, mas também um valor dependendo da inclinação, que tem mais de dois valores como a configuração do sinal.
Como dito acima sibilância compreende uma grande quantidade de energia na região de frequência superior, para peças com nenhuma ou pouca sibilância (por exemplo, as vogais) , a energia é distribuída principalmente na faixa de base (a faixa de baixa frequência) . Essa observação pode ser usada para determinar 5 se ou em qual medida uma parte do sinal de fala inclui um sibilante ou não.
Assim, o medidor de nivel de ruído 110 (detector) pode usar a inclinação espectral para a decisão sobre a quantidade de sibilância ou dar o grau de sibilância em um sinal. A 10 inclinação espectral pode ser obtida basicamente a partir de uma análise LPC simples da distribuição de energia. Pode, por exemplo, ser suficiente para o cálculo do primeiro coeficiente LPC a fim de determinar o parâmetro de inclinação espectral (parâmetro sibilância) , porque a partir do primeiro coeficiente LPC o ’15"“ comportamento do espectro (seja uma função crescente ou decrescente) pode ser inferida. Esta análise pode ser realizada dentro do caracterizador de energia do sinal 120. No caso do codificador de áudio utilizar LPC para decodificar o sinal de áudio, pode não haver necessidade de transmitir o parâmetro de 20 sibilância, já que o primeiro coeficiente LPC pode ser utilizado como dados de distribuição de energia no lado do decodificador.
Em configurações, o processador 130 pode ser configurado para alterar os dados de patamar de ruido 115, de acordo com os dados de distribuição de energia 125 (inclinação 25 espectral) para obter dados de patamar de ruído, e o processador de 130 pode ser configurado para adicionar os dados de patamar de ruido modificados para um fluxo de bit compreendendo os dados de saida BWE 102. A alteração dos dados de patamar de ruído 115 pode ser de tal forma que o ruido modificado é acrescido de um sinal de áudio 105 compreendendo mais sibilância (Fig. 2b) em comparação com um sinal de áudio 105 compreendendo menos sibilância (Fig. 2a) .
O aparelho 100 para a geração de dados de saida de extensão de faixa larga (BWE) 102 pode ser parte de um codificador de 300. A Fig. 3 mostra uma configuração para o codificador 300, que compreende módulos relacionados ao BWE 310 (que podem, por exemplo, compor módulos relacionados a SBR), uma análise do banco QMF 320, um filtro de passagem baixa (filtro LP) 330, um codificador AAC de núcleo 340 e um formatador de fluxo de bits de carga 350. Além disso, o codificador _300 compreende _ a „ calculadora de dados de envelope 210. O codificador 300 inclui uma entrada para amostras PGM (o sinal de áudio 105; PCM = Modulação do Código do Pulso), que está ligado à análise do banco QMF 320, e os módulos relacionados a BWE 310 e aos filtros LP 330. A análise do banco QMF 320 pode incluir um filtro de alta passagem para separar a segunda faixa de frequência 105b e está ligado a calculadora de dados envelope 210, que, por sua vez, é conectado ao formatador de fluxo de carga 350. O filtro LP 330 pode compreender um filtro de baixa passagem para separar a primeira faixa de frequência 105 e está ligado ao codificador AAC de núcleo 340, que, por sua vez, é conectado ao formatador de fluxo de carga 350. Finalmente, o módulo relacionado a BWE 310 é ligado a calculadora de dados envelope 210 e ao codificador AAC de núcleo 340.
Portanto, o codificador estabelece 300 amostras do sinal de áudio para gerar 105 componentes na faixa de frequência principal 105a (no filtro LP 330), que são introduzidos no codificador AAC de núcleo 340, que codifica o sinal de áudio na faixa de frequência principal e encaminha o sinal codificado 355 para o formatador de fluxo de carga 350 no qual o sinal de áudio 5 codificado 355 da faixa de frequência do núcleo é adicionado ao fluxo de áudio codificado 345 (um fluxo de bits) . Por outro lado, o sinal de áudio 105 é analisado pelo banco QMF de análise 320 e filtro de alta passagem do banco QMF de análise extrai componentes de frequência da faixa de alta frequência 105b e insere esse sinal 10 na calculadora de dados envelope 210 para gerar dados BWE 375. Por exemplo, um BANCO QMF de 64 sub-faixa 320 executa filtragem da sub-faixa do sinal de entrada. A saída do banco de ^filtro. (ou seja, as amostras de sub-faixa) são valores complexos e, portanto, sobre-amostragem por causa de um fator de dois comparados com um banco QMF' Têgürar 7 — ~
O módulo relacionado ao BWE 310 - pode, por exemplo, compor o aparelho 100 para gerar os dados de saída BWE 102 e controla a calculadora de dados de envelope 210, fornecendo, por exemplo, os dados de saída BWE 102 (parâmetro de sibilância) 20 para a calculadora de dados envelope 210. Usando os componentes de áudio 105b gerados pelo banco QMF de análise 320, a calculadora de dados envelope 210 calcula os dados BWE 375 e encaminha os dados BWE 375 para o formatador de fluxo de carga 350, que combina os dados BWE 375 com os componentes 355 codificados pelo codificador de núcleo 340 no fluxo de áudio codificado 345. Além disso, a calculadora de dados envelope 210 pode, por exemplo, usar o parâmetro de sibilância 125 para ajustar o os parâmetros de ruído dentro dos envelopes de ruído.
Alternativamente, o aparelho 100 para gerar os dados de saída BWE 102 também pode ser parte da calculadora de dados envelope 210 e o processador também pode ser parte do formatador de fluxo de bits 350. Portanto, Os diferentes 5 componentes do aparelho 100 podem ser parte de diferentes componentes do codificador da figura 3. A Fig., 4 mostra uma configuração de um decodif icador 400, onde o fluxo de áudio codificado 345 é de entrada em um desformatador de fluxo de bits de carga 357, que 10 separa o sinal codificado de áudio 355 dos dados BWE 375. O sinal de áudio codificado 355 é introduzido, por exemplo, em um decodificador AAC de núcleo 360, que gera o sinal de _ áudio decodificado 105 na primeira faixa de frequência, O sinal de áudio 105a (componentes na primeira faixa de frequência) é inserida em 15— uma-faixa de**32“banco QMF' de análise 370, gerando, por exemplo, 32 sub-faixas de frequência 10532 do sinal de áudio 105a na primeira faixa de frequência. A sub-faixa de frequência 10532 é inserida no gerador de patch 410 para gerar uma representação do sinal espectral bruto 425 (patch), que é inserida em uma ferramenta BWE 430a. A ferramenta BWE 430a pode, por exemplo, compreender uma unidade de cálculo do patamar de ruído para gerar um ruído de fundo. Além disso, a ferramenta BWE 430a pode reconstruir harmônicas perdidas ou executar uma etapa de filtragem inversa. A ferramenta BWE 430a pode implementar métodos conhecidos de replicação de faixa espectral a ser usado na saída de dados espectrais QMF do gerador de patch 410. O algoritmo de patching utilizado no domínio da frequência poderia, por exemplo, empregar o espelhamento simples ou cópia dos dados espectrais no domínio da frequência;
Por outro lado, os dados BWE 375 (por exemplo, compreendendo os dados de saída BWE 102) são inseridos em um analisador de fluxo de bits 380, que analisa os dados BWE 375 para 5 obter sub-informações diferentes 385 e inseri-las em, por exemplo, um decodificador Huffman e unidade de desquantização 390 que, por exemplo, extrai a informação de controle 412 e os parâmetros de replicação de faixa espectral 102. A informação de controle 412 controla o gerador de patch 430 (por exemplo, para usar um 10 algoritmo específico de patching) e o parâmetro BWE 102 incluir, por exemplo, os dados de distribuição de energia 125 (por exemplo, o parâmetro de sibilância). A informação de controle^ 412^ é inserida na ferramenta BWE para o 430a ferramenta BWE e os parâmetros de replicação de faixa espectral 102 são de entrada — i-5 “para“a ^ferramenta BWE 430a, bem como em um mecanismo de ajuste de envelope 430b. O mecanismo de ajuste de envelope 430b é operativo para ajustar o envelope para o patch gerado. Como resultado, o mecanismo de ajuste de envelope 430b gera o sinal ajustado 105b para a segunda faixa de frequência e inserem um banco QMF de 20 síntese 440, que combina os componentes da segunda faixa de frequência 105b com o sinal de áudio no domínio da frequência 10532. O banco QMF de síntese 440 pode, por exemplo, compor 64 faixas de frequência e gera através da combinação de ambos os sinais (os componentes da segunda faixa de frequência 105b e no 25 sinal de áudio do domínio da frequência 10532) o sinal de áudio de síntese 105 (por exemplo, uma saída de Amostras PCM, PCM = Modulação de Código de Pulso).
O banco QMF de síntese 4 40 pode incluir um combinador, que combina o sinal de dominio de frequência 10532 com a segunda faixa de frequência 105b antes de ser transformado no dominio do tempo e antes que ela será a inserida na saida como um sinal de áudio 105. Opcionalmente, o combinador pode emitir o 5 sinal de áudio 105 no dominio da frequência.
As ferramentas BWE 430a podem incluir uma ferramenta convencional de ferramenta de patamar de ruido, que adiciona ruido adicional ao espectro corrigido (a representação do sinal espectral bruto 425), de modo que os componentes espectrais 10 105a que tenham sido transmitidos por um codificador de núcleo 340 e são usados para sintetizar os componentes da segunda faixa de frequência 105b exibindo a tonalidade da segunda _faixa _dθ frequência 105b do sinal original. Especialmente nos caminhos da fala com voz, no entanto, o ruido adicional acrescentado pela T5 Tefrãmènta de patamar de ruido convencional pode prejudicar a qualidade percebida do sinal reproduzido.
De acordo com as configurações, a ferramenta de patamar de ruido pode ser modificada para que a ferramenta de patamar de ruido leve em conta os dados de distribuição de energia 125 (parte dos dados BWE 102) para mudar o patamar de ruido de acordo com o grau de sibilância detectado (ver Fig. 2) . De forma alternativa, conforme descrito acima o decodificador não pode ser modificado e, em vez disso o codificador pode alterar os dados de patamar de ruido de acordo com o grau de sibilância detectado. A Fig. 5 mostra uma comparação de uma ferramenta convencional de cálculo do patamar de ruido com uma ferramenta de cálculo de patamar ruido modificada de acordo com as configurações da presente invenção. Esta ferramenta de cálculo de patamar ruido modificada pode ser parte da ferramenta BWE 430. Fig. 5a mostra a ferramenta convencional de cálculo de patamar de ruido constituído por uma calculadora 433, que utiliza os parâmetros de replicação de faixa espectral 102 e 5 representação espectral do sinal bruto 425 a fim de calcular linhas espectrais brutas e as linhas de espectrais de ruido. Os dados BWE 102 podem incluir dados de envelope e os dados de nivel de ruido, que são transmitidos a partir do codificador como parte do fluxo de áudio codificado 345. A representação do sinal 10 espectral bruto 425 é, por exemplo, obtida a partir de um gerador de patch, que gera componentes do sinal de áudio na faixa de frequência superior (componentes sintetizados_ na_ segunda faixa _de = frequência 105b) . A.s linhas espectrais brutas e as linhas espectrais de ruido continuarão a serem processadas, o que pode ~ T5 implicâr^umã filtragem inversa, ajustando envelope, adicionando harmônicas perdidas e assim por diante. Finalmente, um combinador 434 combina as linhas espectrais brutas com as linhas espectrais de ruido calculadas para os componentes da segunda faixa de frequência 105b. Fig. 5b mostra uma ferramenta de cálculo de patamar de ruido de acordo com as configurações da presente invenção. Além da ferramenta de cálculo de patamar de ruido convencional, como mostrado na figura 5a, as configurações incluem uma unidade modificadora de patamar de ruido 431, que é 25 configurada, por exemplo, para alterar os dados de patamar de ruido transmitido com base nos dados de distribuição de energia 125 antes de serem processados na ferramenta de cálculo de patamar de ruido 433. Os dados de distribuição de energia 125 também podem ser transmitidos a partir do codificador como parte de ou em adição aos dados BWE 102. A modificação dos dados de patamar de ruido compreendem, por exemplo, um aumento de inclinação espectral positiva (ver fig. 2a) ou diminuição da inclinação espectral 5 negativa (ver fig. 2b) do nivel do patamar de ruido, por exemplo, um aumento de 3 dB ou uma diminuição de 3 dB ou qualquer outro valor discreto (por exemplo, +/- 1 dB ou +/- 2 dB) . O valor discreto pode ser um valor inteiro dB ou um valor dB não-inteiro. Também pode haver uma dependência funcional (por exemplo, uma 10 relação linear) entre a diminuição / aumento e a inclinação espectral.
Com base nesses dados modificados^ de patamar de. ruido a ferramenta de cálculo de patamar de ruido 433 calcula novamente linhas espectrais brutas e as linhas espectrais de ruido _ _ -15- -modifi-cado^corrf bãsèr na representação do sinal espectral bruto 425, que podem também ser obtidas a partir de um gerador de patch. A ferramenta de replicação de faixa espectral 430 da Fig. 5b compreendem também um combinador 434 para combinar as linhas espectrais brutas com o patamar de ruido calculado (com a 20 modificação da unidade de modificação 431) para gerar os componentes na segunda faixa de frequência 105b.
Os dados de distribuição de energia 125 podem indicar no caso mais simples uma modificação no nivel de transmissão dos dados de patamar de ruido. Como dito acima, também o primeiro coeficiente LPC pode ser utilizado como dados de distribuição de energia 125. Portanto, se o sinal de áudio 105 foi codificado usando LPC, configurações futuras usam o primeiro que já é transmitido pelo fluxo de áudio codificado 345, como os dados de distribuição de energia 125. Neste caso não há necessidade de transmitir os dados de distribuição de energia 125.
De forma alternativa, uma modificação do patamar 5 de ruido também pode ser realizada após o cálculo na calculadora 433 para que a unidade modificadora do patamar de ruido 431 possa ser ajustada como o processador 433. Em configurações os dados de distribuição de energia 125 podem ser diretamente inseridos no dispositivo calculador 433 modificando diretamente o cálculo do patamar de ruido como parâmetro de cálculo. Assim, a unidade modificadora do patamar de ruido 431 e a calculadora / o processador 433 pode ser combinado a uma ferramenta modificadora, de patamar de ruido 433, 431.
Em outra configuração a ferramenta BWE 430 que .15- -compõem- -a ferram'ehta:"dé“ patamar de ruido compreende um switch, onde o switch está configurado para alternar entre um alto nivel de patamar de ruido (inclinação espectral positiva) e um baixo nivel de patamar de ruido (inclinação espectral negativa). O alto nivel pode, por exemplo, corresponder ao caso em que o nivel de 20 transmissão para o ruido é dobrado (ou multiplicado por um fator), enquanto que o baixo nivel corresponde ao caso em que o nivel de transmissão é reduzido por um fator. O interruptor pode ser controlado por um bit em um fluxo de bits do sinal de áudio codificado 345, indicando uma inclinação positiva ou negativa do 25 espectro do sinal de áudio. De forma alternativa, a opção também pode ser ativada por uma análise do sinal de áudio decodificado 105 (componentes na primeira faixa de frequência) ou da sub-banda de frequência IO532 do sinal de áudio, por exemplo, com relação á inclinação espectral (se a inclinação espectral é positiva ou negativa). Como alternativa, o interruptor também pode ser controlado pelo primeiro coeficiente LPC, uma vez que este coeficiente indica a telha espectral (veja acima).
Embora algumas das Figuras 1, 3 à 5 sejam ilustradas como diagramas de bloco de aparelhos, estes números são simultaneamente uma ilustração de um método, onde as funcionalidades de bloco correspondem às etapas do método.
Como dito acima, uma unidade de tempo SBR (quadro SBR) ou uma porção de tempo pode ser dividida em vários blocos de dados, os chamados envelopes. Esta partição pode ser uniforme ao longo do quadro SBR e permite ajustar de forma flexivel^a _síntese_ do sinal de áudio dentro do SBR. A Fig. 6 ilustra tal partição para o quadro SBR — 1*5 = em um' número n de’ envelopes. O quadro SBR abrange um periodo de tempo ou parte do tempo T entre o momento inicial t0 e o tempo final tn. A porção de tempo T é, por exemplo, dividida em oito porções de tempo, uma porção primeira vez Tl, uma porção segunda vez T2, . . . , uma porção oitava vez T8. Neste exemplo, o número máximo de envelopes coincide com o número de porções de tempo e é dado por n = 8. A 8 porções de tempo Tl, ... , T8 são separadas por 7 fronteiras, o que significa uma borda 1 separa a primeira e a segunda parte do tempo Tl, T2, uma borda 2 está localizada entre a segunda porção T2 e uma terceira porção T3, e assim sucessivamente até a fronteira 7 que separa a sétima porção T7 e a oitava porção T8.
Em configurações adicionais, o quadro SBR é dividido em quatro envelopes de ruido (n dois envelopes de ruido (n = 2) . Na configuração como mostrado na figura 6, todos os envelopes compõem a mesma duração temporal, que pode ser diferente em outras configurações, para que os envelopes de ruido possam abranger diferentes intervalos de tempo. Em 5 detalhe, o caso de dois envelopes de ruido (n = 2) compreendem um primeiro envelope que se estende desde o tempo t0 nas primeiras quatro porções de tempo (Tl, T2, T3 e T4) e o segundo envelope de ruido cobrindo da quinta para a oitava porção de tempo (T5, T6, T7 e T8) . Devido à Norma ISO/IEC 14496-3, o número máximo de envelopes está restrito a dois. Mas incorporações podem usar qualquer número de envelopes (por exemplo, dois, quatro ou oito envelopes).
Em outras configurações a calculadora de dados de envelope 210 está configurada para alterar o número de envelopes -15- -dependendo ~ defumar "'alteração- dos ’ dados de patamar de ruido medidos 115. Por exemplo, se os dados de patamar de ruido 115 indicam um patamar de ruído variável (por exemplo, acima de um limite) o número de envelopes pode ser aumentado enquanto que no caso os dados de patamar de ruído 115 indicam um patamar de ruído 20 constante, o número de envelopes pode ser reduzido.
Em outras configurações, o caracterizador de energia do sinal 120 pode ser baseado em informações linguísticas, a fim de detectar sibilantes na fala. Quando, por exemplo, um sinal de fala tem meta informações associadas a uma ortografia 25 fonética internacional e, em seguida, uma análise dessa meta informação irá fornecer uma detecção de sibilante de uma porção da fala. Neste contexto, a porção de meta dados do sinal de áudio é analisada.
Embora alguns aspectos têm sido descritos no contexto de um aparelho, é evidente que estes aspectos constituem também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de método ou uma 5 característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa método também representam uma descrição de um bloco correspondente ou item ou recurso de um aparelho correspondente.
O sinal de áudio codificado inventivo pode ser 10 armazenado em um meio de armazenamento digital Ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.^ _ _ _
Dependendo de determinadas exigências de implementação, as configurações da invenção podem ser implementadasJnõ hardware õu~no software. A implementação pode ser realizada usando um armazenador digital médio, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória de FLASH, tendo sinais eletronicamente legíveis armazenados nele, no qual cooperam (ou são capazes de cooperar) 20 com o sistema de computador programável assim que o respectivo método seja realizado.
Algumas configurações de acordo com a invenção compreendem um portador de dados tendo sinais de controle de leitura eletrônica, que são capazes de cooperar com um sistema de 25 computador programável, de modo que um dos métodos descritos aqui seja realizado.
Geralmente, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código do programa sendo operativo para realização de um dos métodos, quando o produto programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um portador que pode ser lido 5 por máquina.
Outras modalidades incluem um programa de computador para a realização de um dos métodos descritos neste documento, armazenado em um portador que pode ser lido por máquina.
Em outras palavras, uma configuração do método inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos descritos aqui, quando_o . . -1 " * programa'de computador é executado em um computador.
Uma modalidade mais completa dos métodos criativos. _ ê,„ ^portanto-,* portador’ "de dados (ou um meio de armazenamento digital, ou um meio legível para computador) , que inclui, gravado nele, o programa de computador para a realização de um dos métodos descritos neste documento.
Uma modalidade adicional do método inventivo é, 20 portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para a realização de um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para ser transferido através de uma ligação de comunicação de dados, por 25 exemplo, através da Internet.
Uma configuração compreende ainda um meio de transformação, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou adaptado para executar um dos métodos descritos neste documento.
Uma configuração compreende ainda um computador que tenha instalado nele o programa de computador para a realização de um dos métodos descritos neste documento.
Em algumas configurações, um dispositivo lógico programável (por exemplo um campo gate array programável) pode ser usado para executar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas configurações, um campo gate array programável pode cooperar com um microprocessador 10 para executar um dos métodos descritos neste documento. Geralmente, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
Ãs configurações descritas acima são meramente ilustrações dos princípios da presente invenção. Entende-se que as modificações, e .variações ‘ do- ajuste e Ôs detalhes descritos neste documento serão aparentes para os outros com habilidade na área. É a intenção, portanto, a ser limitado apenas pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos, apresentados por meio de descrição e explicação das 20 configurações contidas aqui.

Claims (21)

1. Um codificador (300) para codificar um sinal de áudio, o sinal de áudio (105) compreendendo componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o codificador (300) CARACTERIZADO por compreender: um codificador de núcleo (340) para codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado (355); uma calculadora de dados de envelope (210) para calcular dados de extensão de largura de banda (BWE) com base nos componentes na segunda banda de frequência, a calculadora de dados de envelope (210) compreendendo um aparelho (100) para gerar dados de saída de extensão de largura de banda (102)para o sinal de áudio (105), os dados de saída de extensão de largura de banda (102)sendo adaptados para controlar um síntese dos componentes na segunda banda de frequência, o aparelho (100) compreendendo: uma calculadora de dados de envelope (210) espectral para calcular dados de envelope espectral da segunda banda de frequência; um medidor de nível de ruído para medir dados de nível de ruído da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio (105); um caracterizador de energia de sinal (120) para derivar dados de distribuição de energia, além dos dados de envelope espectral, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro da porção de tempo (T)do sinal de áudio (105); e um processador (130) para combinar os dados de piso de ruído, os dados de distribuição de energia (125)e os dados de envelope espectral para obter os dados de saída de extensão de largura de banda, em que os dados de saída de extensão de largura de banda (102)compreendem os dados de piso de ruído, os dados de distribuição de energia (125)e os dados de envelope espectral; e um formatador (350) de carga útil de fluxo de bits adaptado para emitir um fluxo de áudio codificado combinando os dados de saída de extensão de largura de banda (102)com o sinal de áudio codificado, em que o processador (130) é parte do formatador de carga útil (350) de fluxo de bits.
2. Codificador (300), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o caracterizador de energia de sinal (120) é configurado para usar, como dados de distribuição de energia (125), um parâmetro de sibilância ou um parâmetro de inclinação espectral, o parâmetro de sibilância ou parâmetro de inclinação espectral identificando um nível crescente ou decrescente do sinal de áudio com frequência.
3. Codificador (300), de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que o caracterizador de energia de sinal (120) é configurado para usar um primeiro coeficiente de codificação preditiva linear como o parâmetro de sibilância.
4. Codificador (300), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o processador (130) é configurado para adicionar os dados de piso de ruído e os dados de distribuição de energia espectral a um fluxo de bits como os dados de saída BWE (102).
5. Codificador (300), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o processador (130) é configurado para alterar os dados de piso de ruído de acordo com os dados de distribuição de energia (125) para adquirir dados de piso de ruído modificados, e em que o processador (130) é configurado para adicionar os dados de piso de ruído modificados a um fluxo de bits como os dados de saída do BWE (102).
6. Codificador (300), de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que a mudança dos dados de piso de ruído é tal que o piso de ruído (115) modificado é aumentado para um sinal de áudio que compreende mais sibilância em comparação com um sinal de áudio que compreende menos sibilância.
7. Codificador (300), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a porção de tempo (T) cobre um quadro SBR, o quadro SBR compreendendo uma pluralidade de envelopes de ruído e em que a calculadora de dados de envelope de ruído é configurada para calcular diferentes dados BWE para diferentes envelopes de ruído da pluralidade de ruído envelopes.
8. Codificador (300), de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a calculadora de dados de envelope é configurada para alterar uma série de envelopes dependendo de uma alteração dos dados de piso de ruído (115) medidos.
9. Método de codificação de um sinal de áudio, o sinal de áudio compreendendo componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o método CARACTERIZADO pelo fato de que compreende: codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado; cálculo de dados de extensão de largura de banda (102)por uma calculadora de dados de envelope (210) com base nos componentes na segunda banda de frequência, cálculo compreendendo a geração de dados de saída de extensão de largura de banda (102)para o sinal de áudio, os dados de saída de extensão de largura de banda (102) sendo adaptados para controlar uma síntese dos componentes na segunda banda de frequência , gerando dados de saída de extensão de largura de banda (102)compreendendo: calcular dados de envelope espectral da segunda banda de frequência; medir dados de piso de ruído (115) da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio; derivar dados de distribuição de energia (125), além dos dados de envelope espectral, os dados de distribuição de energia (125) caracterizando uma distribuição de energia (125) em um espectro da porção de tempo (T)do sinal de áudio; e combinar os dados de envelope espectral, os dados de piso de ruído e os dados de distribuição de energia (125) para obter os dados de saída de extensão de largura de banda; em que os dados de saída de extensão de largura de banda (102)compreendem os dados de piso de ruído, os dados de distribuição de energia (125) e os dados de envelope espectral, e formatação de carga útil de fluxo de bits e saída de um fluxo de áudio codificado combinando os dados de saída de extensão de largura de banda (102)com o sinal de áudio codificado, em que a combinação faz parte da formatação de carga útil de fluxo de bits.
10. Uma ferramenta de extensão de largura de banda (102) para gerar componentes em uma segunda banda de frequência de um sinal de áudio com base em dados de saída de extensão de largura de banda (102) e com base em uma representação espectral de sinal bruto (425) para os componentes na segunda banda de frequência, em que os dados de saída de extensão de largura de banda (102)compreendem dados de distribuição de energia (125), a ferramenta de extensão de largura de banda (102)CARACTERIZADA por compreender: uma ferramenta modificadora de piso de ruído, (433, 431), que é configurada para modificar um piso de ruído transmitido de acordo com os dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro de uma porção de tempo (T)do sinal de áudio, para obter um piso de ruído transmitido modificado ; uma ferramenta de cálculo de piso de ruído para calcular linhas espectrais de ruído modificadas e linhas de sinal bruto com base em dados de envelope espectral, o piso de ruído transmitido modificado e a representação espectral de sinal bruto; e um combinador (434) para combinar as linhas espectrais brutas com as linhas espectrais de ruído modificadas para gerar os componentes na segunda banda de frequência com o piso de ruído modificado, em que a ferramenta modificadora de piso de ruído ou o combinador (434) compreende uma implementação de hardware.
11. Ferramenta de extensão de largura de banda, de acordo com a reivindicação 10, CARACTERIZADA pelo fato de que o sinal de áudio compreende componentes em uma primeira banda de frequência e os dados de saída de extensão de largura de banda (102)compreendem ainda dados de piso de ruído transmitidos indicando um nível de ruído para o piso de ruído, e em que a ferramenta modificadora de piso de ruído é adaptada para aumentar o nível de ruído no caso de os dados de distribuição de energia (125)indicarem um sinal de áudio compreendendo mais energia nos componentes da segunda banda de frequência do que na primeira banda de frequência, ou para diminuir o nível de ruído no caso dos dados de distribuição de energia indicarem um sinal de áudio compreendendo mais energia nos componentes da primeira banda de frequência do que na segunda banda de frequência.
12. Decodificador (400) para decodificar um fluxo de áudio codificado para adquirir um sinal de áudio, CARACTERIZADO pelo fato de que compreende: um deformador de fluxo de bits que separa um sinal codificado e os dados de saída BWE; uma ferramenta de extensão de largura de banda (102)para gerar componentes em uma segunda banda de frequência de um sinal de áudio com base em dados de saída de extensão de largura de banda (102)e com base em uma representação espectral de sinal bruto (425) para os componentes na segunda banda de frequência, em que os dados de saída de extensão de largura de banda (102)compreendem dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia (125)em um espectro de uma porção de tempo (T)do sinal de áudio, a ferramenta de extensão de largura de banda (102) compreendendo: uma ferramenta modificadora de piso de ruído, que é configurada para modificar um piso de ruído transmitido de acordo com os dados de distribuição de energia (125)para obter um piso de ruído transmitido modificado; uma ferramenta de cálculo de piso de ruído para calcular linhas espectrais de ruído modificadas e linhas espectrais brutas com base em dados de envelope espectral, o piso de ruído transmitido modificado e a representação espectral de sinal bruto (425); e um combinador (434) para combinar as linhas de sinal bruto (425) com as linhas espectrais de ruído modificadas para gerar os componentes na segunda banda de frequência com o piso de ruído modificado; um decodificador de núcleo (360) para decodificar componentes em uma primeira banda de frequência do sinal de áudio codificado; e uma unidade de síntese (440) para sintetizar o sinal de áudio combinando os componentes da primeira e segunda banda de frequência, em que o deformador de fluxo de bits, a ferramenta de extensão de largura de banda (102), o decodificador de núcleo (360) ou a unidade de síntese (440) compreende uma implementação de hardware.
13. Método para decodificar um fluxo de áudio codificado para adquirir um sinal de áudio, o sinal de áudio compreendendo componentes em uma primeira banda de frequência e dados de saída de extensão de largura de banda, em que os dados de saída de extensão de largura de banda (102)compreendem dados de distribuição de energia (125)e dados de piso de ruído, a distribuição de energia (125)dados que caracterizam uma distribuição de energia (125)em um espectro de uma porção de tempo (T)do sinal de áudio, o método CARACTERIZADO pelo fato de que compreende: separar do fluxo de áudio codificado um sinal de áudio codificado e os dados de saída BWE; decodificar componentes em uma primeira banda de frequência do sinal de áudio codificado; gerar uma representação espectral de sinal bruto (425) para componentes em uma segunda banda de frequência a partir dos componentes na primeira banda de frequência; modificar um piso de ruído de acordo com os dados de distribuição de energia (125)e de acordo com os dados de piso de ruído transmitidos para obter um piso de ruído transmitido modificado; calcular linhas espectrais de ruído modificadas e linhas espectrais brutas com base em dados de envelope espectral, o piso de ruído transmitido modificado e a representação espectral bruta; combinar as linhas espectrais brutas com as linhas espectrais de ruído modificadas para gerar os componentes na segunda banda de frequência com o piso de ruído modificado; e sintetizar o sinal de áudio combinando os componentes da primeira e da segunda banda de frequência.
14. Memória lida por computador caracterizada por conter conjunto de instruções para realizar, quando executado em um computador, um método de codificação de um sinal de áudio, o sinal de áudio (105)compreendendo componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o método CARACTERIZADO pelo fato de que compreende: codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado; cálculo de dados de extensão de largura de banda (102)por uma calculadora de dados de envelope (210) com base nos componentes na segunda banda de frequência, cálculo compreendendo a geração de dados de saída de extensão de largura de banda (102)para o sinal de áudio, os dados de saída de extensão de largura de banda (102)sendo adaptados para controlar uma síntese dos componentes na segunda banda de frequência, gerar dados de saída de extensão de largura de banda (102)compreendendo: calcular dados de envelope espectral da segunda banda de frequência; medir dados de piso de ruído da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio; derivar dados de distribuição de energia, além dos dados de envelope espectral, os dados de distribuição de energia (125)caracterizando uma distribuição de energia (125)em um espectro da porção de tempo (T)do sinal de áudio; e combinar os dados de envelope espectral, os dados de piso de ruído e os dados de distribuição de energia (125)para obter os dados de saída de extensão de largura de banda; e em que os dados de saída de extensão de largura de banda (102)compreendem os dados de envelope espectral, os dados de piso de ruído e os dados de distribuição de energia; e formatação de carga útil de fluxo de bits e saída de um fluxo de áudio codificado combinando os dados de extensão de largura de banda (102)com o sinal de áudio codificado (355), em que a combinação faz parte da formatação de fluxo de bits
15. Memória lida por computador caracterizada por conter conjunto de instruções para realizar, quando executado em um computador, um método para decodificar um fluxo de áudio codificado para adquirir um sinal de áudio, o sinal de áudio (105) compreendendo componentes em uma primeira banda de frequência e saída de extensão de largura de banda (102)dados, CARACTERIZADO pelo fato de que os dados de saída de extensão de largura de banda (102)compreendem dados de distribuição de energia (125)e dados de piso de ruído, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro de uma porção de tempo (T)do sinal de áudio, o método compreendendo: separar do fluxo de áudio codificado um áudio codificado sinal e os dados de saída do BWE; decodificar componentes em uma primeira banda de frequência do sinal de áudio codificado; gerar uma representação espectral de sinal bruto (425) para componentes em uma segunda banda de frequência a partir dos componentes na primeira banda de frequência; modificar um piso de ruído de acordo com os dados de distribuição de energia (125)e de acordo com os dados de piso de ruído transmitidos; combinar a representação espectral do sinal bruto (425) com o piso de ruído modificado para gerar os componentes na segunda banda de frequência com o piso de ruído calculado; e sintetizar o sinal de áudio (105)combinando os componentes da primeira e segunda banda de frequência.
16. Memória lida por computador caracterizada por conter conjunto de instruções, tendo armazenado nele um fluxo de áudio codificado, CARACTERIZADO pelo fato de que compreende: um sinal de áudio codificado para componentes em uma primeira banda de frequência de um sinal de áudio; dados de piso de ruído adaptados para controlar uma síntese de um piso de ruído para componentes em uma segunda banda de frequência do sinal de áudio; dados de distribuição de energia (125)adaptados para controlar uma modificação do nível de ruído; e dados de envelope espectral que descrevem um envelope espectral dos componentes na segunda banda de frequência.
17. Método para gerar componentes em uma segunda banda de frequência de um sinal de áudio (105)com base em dados de saída de extensão de largura de banda (102)e com base em uma representação espectral de sinal bruto (425) para os componentes na segunda banda de frequência, em que os dados de saída de extensão de largura de banda (102) compreendem dados de distribuição de energia, o método CARACTERIZADO pelo fato de que compreende: modificar um piso de ruído transmitido de acordo com os dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia (125)em um espectro de uma porção de tempo (T)do sinal de áudio, para obter um piso de ruído transmitido modificado; calcular linhas espectrais de ruído modificadas e linhas espectrais brutas com base em dados de envelope espectral, o piso de ruído transmitido modificado e a representação espectral de sinal bruta; e combinar as linhas espectrais brutas com as linhas espectrais de ruído modificadas para gerar os componentes na segunda banda de frequência com o piso de ruído modificado.
18. Memória lida por computador caracterizada por conter conjunto de instruções para realizar, quando executado em um computador, um método para gerar componentes em uma segunda banda de frequência de um sinal de áudio (105)com base em dados de saída de extensão de largura de banda (102)e com base em uma representação espectral de sinal bruto (425) para os componentes na segunda banda de frequência, CARACTERIZADO pelo fato de que os dados de saída de extensão de largura de banda (102)compreendem dados de distribuição de energia, o método compreendendo: modificar um piso de ruído transmitido de acordo com os dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro de uma porção de tempo (T)do sinal de áudio (105)para obter um piso de ruído transmitido modificado; calcular linhas espectrais de ruído modificadas e linhas espectrais brutas com base em dados de envelope espectral, o piso de ruído transmitido modificado e a representação espectral de sinal bruta; e combinar as linhas espectrais brutas com as linhas espectrais de ruído modificadas para gerar os componentes na segunda banda de frequência com o piso de ruído modificado.
19. Um codificador para codificar um sinal de áudio, o sinal de áudio (105)compreendendo componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o codificador CARACTERIZADO pelo fato de que compreende: um codificador de núcleo (340) para codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado (355); uma calculadora de dados de saída de extensão de largura de banda (102)para calcular dados de saída de extensão de largura de banda (102)com base nos componentes na segunda banda de frequência, a calculadora de dados de saída de extensão de largura de banda (102)compreendendo: um medidor de nível de ruído (110) para medir dados de nível de ruído da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio; um caracterizador de energia de sinal (120) para derivar dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro da porção de tempo (T)do sinal de áudio; e um processador (130) para combinar os dados de piso de ruído e os dados de distribuição de energia (125)para adquirir os dados de saída de extensão de largura de banda, em que o processador (130) é configurado para alterar os dados de piso de ruído de acordo com os dados de distribuição de energia para obter dados de piso de ruído modificados, em que o processador (130) é configurado para alterar os dados de piso de ruído de modo que o piso de ruído modificado seja aumentado para um sinal de áudio (105)que compreende mais sibilância em comparação com um sinal de áudio (105)que compreende menos sibilância; e um formatador de carga útil (350)de fluxo de bits adaptado para emitir um fluxo de áudio codificado combinando os dados de saída de extensão de largura de banda (102)compreendendo os dados de piso de ruído modificados com o sinal de áudio (355) codificado.
20. Método para codificar um sinal de áudio, o sinal de áudio (105)compreendendo componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o método CARACTERIZADO pelo fato de que compreende: codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado (355); cálculo de dados de saída de extensão de largura de banda (102)com base nos componentes na segunda banda de frequência, os dados de saída de extensão de largura de banda (102)sendo adaptados para controlar uma síntese dos componentes na segunda banda de frequência, o cálculo de dados de saída de extensão de largura de banda (102)compreendendo: medir dados de piso de ruído da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio; derivar dados de distribuição de energia (125), os dados de distribuição de energia caracterizando uma distribuição de energia em um espectro da porção de tempo (T)do sinal de áudio; e combinar os dados de piso de ruído e os dados de distribuição de energia (125)para adquirir os dados de saída de extensão de largura de banda (102)compreendendo a alteração dos dados de piso de ruído de acordo com os dados de distribuição de energia (125)para obter dados de piso de ruído modificados, em que o nível de ruído modificado é aumentado para um sinal de áudio (105)que compreende mais sibilância em comparação com um sinal de áudio (105)que compreende menos sibilância; e emitir um fluxo de áudio codificado combinando os dados de saída de extensão de largura de banda (102)compreendendo os dados de piso de ruído modificados com o sinal de áudio codificado (355).
21. Memória lida por computador caracterizada por conter conjunto de instruções para realizar, quando executado em um computador, um método de codificação de um sinal de áudio, o sinal de áudio CARACTERIZADO pelo fato de que os componentes em uma primeira banda de frequência e componentes em uma segunda banda de frequência, o método composta: codificar os componentes na primeira banda de frequência para adquirir um sinal de áudio codificado (355); cálculo de dados de saída de extensão de largura de banda (102)com base nos componentes na segunda banda de frequência, os dados de saída de extensão de largura de banda (102)sendo adaptados para controlar uma síntese dos componentes na segunda banda de frequência, o cálculo de dados de saída de extensão de largura de banda (102)compreendendo: medir dados de piso de ruído da segunda banda de frequência para uma porção de tempo (T)do sinal de áudio; derivar dados de distribuição de energia, os dados de distribuição de energia (125)caracterizando uma distribuição de energia em um espectro da porção de tempo (T)do sinal de áudio; e combinar os dados de piso de ruído e os dados de distribuição de energia (125)para adquirir os dados de saída de extensão de largura de banda (102)compreendendo a alteração dos dados de piso de ruído de acordo com os dados de distribuição de energia (125)para obter dados de piso de ruído modificados, em que o piso de ruído modificado é aumentado para um sinal de áudio (105)que compreende mais sibilância em comparação com um sinal de áudio (105)compreendendo menos sibilância; e emitir um fluxo de áudio codificado combinando os dados de saída de extensão de largura de banda (102)compreendendo os dados de piso de ruído modificados com o sinal de áudio codificado (355).
BRPI0910523-9A 2008-07-11 2009-06-23 Aparelho e método para gerar dados de saída de extensão de largura de banda BRPI0910523B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US61/079,841 2008-07-11
PCT/EP2009/004521 WO2010003544A1 (en) 2008-07-11 2009-06-23 An apparatus and a method for generating bandwidth extension output data

Publications (2)

Publication Number Publication Date
BRPI0910523A2 BRPI0910523A2 (pt) 2020-10-20
BRPI0910523B1 true BRPI0910523B1 (pt) 2021-11-09

Family

ID=40902067

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0910517-4A BRPI0910517B1 (pt) 2008-07-11 2009-06-23 Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr)
BRPI0910523-9A BRPI0910523B1 (pt) 2008-07-11 2009-06-23 Aparelho e método para gerar dados de saída de extensão de largura de banda

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BRPI0910517-4A BRPI0910517B1 (pt) 2008-07-11 2009-06-23 Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr)

Country Status (20)

Country Link
US (2) US8612214B2 (pt)
EP (2) EP2301028B1 (pt)
JP (2) JP5628163B2 (pt)
KR (5) KR101395252B1 (pt)
CN (2) CN102089817B (pt)
AR (3) AR072480A1 (pt)
AU (2) AU2009267530A1 (pt)
BR (2) BRPI0910517B1 (pt)
CA (2) CA2730200C (pt)
CO (2) CO6341676A2 (pt)
ES (2) ES2539304T3 (pt)
HK (2) HK1156141A1 (pt)
IL (2) IL210196A (pt)
MX (2) MX2011000367A (pt)
MY (2) MY153594A (pt)
PL (2) PL2301027T3 (pt)
RU (2) RU2494477C2 (pt)
TW (2) TWI415115B (pt)
WO (2) WO2010003544A1 (pt)
ZA (2) ZA201009207B (pt)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177569B2 (en) 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
RU2591012C2 (ru) 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
PL2545551T3 (pl) 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
BR112012026326B1 (pt) * 2010-04-13 2021-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V método e codificador e decodificador para representação com amostragem precisa de um sinal de áudio
ES2719102T3 (es) * 2010-04-16 2019-07-08 Fraunhofer Ges Forschung Aparato, procedimiento y programa informático para generar una señal de banda ancha que utiliza extensión de ancho de banda guiada y extensión de ancho de banda ciega
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
US9633654B2 (en) 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
BR112015017632B1 (pt) * 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
MX347080B (es) 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
CA2961336C (en) * 2013-01-29 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
PT3008726T (pt) 2013-06-10 2017-11-24 Fraunhofer Ges Forschung Aparelho e método de codificação, processamento e descodificação de envelope de sinal de áudio por modelação da representação de soma cumulativa empregando codificação e quantização de distribuição
SG11201510164RA (en) 2013-06-10 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
BR112015031605B1 (pt) * 2013-06-21 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio tendo um módulo de extensão de largura de banda com um módulo de ajuste de energia
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
EP3040987B1 (en) 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10120067B2 (en) 2014-08-29 2018-11-06 Leica Geosystems Ag Range data compression
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
PL3405949T3 (pl) 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
CN105513601A (zh) * 2016-01-27 2016-04-20 武汉大学 一种音频编码带宽扩展中频带复制的方法及装置
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10084493B1 (en) * 2017-07-06 2018-09-25 Gogo Llc Systems and methods for facilitating predictive noise mitigation
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11811686B2 (en) 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2128396C1 (ru) * 1997-07-25 1999-03-27 Гриценко Владимир Васильевич Способ передачи и приема информации и устройство для его осуществления
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003046891A1 (en) * 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
CA2501368C (en) 2002-10-11 2013-06-25 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
US20080260048A1 (en) 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8314694B2 (en) 2004-06-28 2012-11-20 Abb Research Ltd System and method for suppressing redundant alarms
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
BRPI0616624A2 (pt) * 2005-09-30 2011-06-28 Matsushita Electric Ind Co Ltd aparelho de codificação de fala e método de codificação de fala
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
JP5117407B2 (ja) 2006-02-14 2013-01-16 フランス・テレコム オーディオ符号化/復号化で知覚的に重み付けするための装置
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20070282803A1 (en) * 2006-06-02 2007-12-06 International Business Machines Corporation Methods and systems for inventory policy generation using structured query language
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
WO2008031458A1 (en) 2006-09-13 2008-03-20 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
WO2010003546A2 (en) 2010-01-14
KR20130033468A (ko) 2013-04-03
TWI415115B (zh) 2013-11-11
AR072552A1 (es) 2010-09-08
KR20110040820A (ko) 2011-04-20
CO6341676A2 (es) 2011-11-21
CA2730200A1 (en) 2010-01-14
MY155538A (en) 2015-10-30
EP2301028A2 (en) 2011-03-30
KR20130095841A (ko) 2013-08-28
EP2301027A1 (en) 2011-03-30
WO2010003544A1 (en) 2010-01-14
AU2009267532A1 (en) 2010-01-14
EP2301028B1 (en) 2012-12-05
JP5628163B2 (ja) 2014-11-19
AR097473A2 (es) 2016-03-16
AU2009267532B2 (en) 2013-04-04
US8296159B2 (en) 2012-10-23
ZA201009207B (en) 2011-09-28
US20110202352A1 (en) 2011-08-18
TW201007701A (en) 2010-02-16
IL210196A (en) 2015-10-29
JP2011527450A (ja) 2011-10-27
CN102144259B (zh) 2015-01-07
KR101395257B1 (ko) 2014-05-15
BRPI0910517A2 (pt) 2016-07-26
JP2011527448A (ja) 2011-10-27
KR101345695B1 (ko) 2013-12-30
EP2301027B1 (en) 2015-04-08
IL210330A0 (en) 2011-03-31
US20110202358A1 (en) 2011-08-18
KR101395252B1 (ko) 2014-05-15
US8612214B2 (en) 2013-12-17
MX2011000361A (es) 2011-02-25
IL210196A0 (en) 2011-03-31
HK1156141A1 (en) 2012-06-01
TWI415114B (zh) 2013-11-11
HK1156140A1 (en) 2012-06-01
MX2011000367A (es) 2011-03-02
PL2301028T3 (pl) 2013-05-31
RU2011101617A (ru) 2012-07-27
KR20130095840A (ko) 2013-08-28
KR101395250B1 (ko) 2014-05-15
RU2494477C2 (ru) 2013-09-27
CA2729971C (en) 2014-11-04
CO6341677A2 (es) 2011-11-21
CA2730200C (en) 2016-09-27
WO2010003546A3 (en) 2010-03-04
RU2487428C2 (ru) 2013-07-10
ES2539304T3 (es) 2015-06-29
JP5551694B2 (ja) 2014-07-16
AU2009267532A8 (en) 2011-03-17
PL2301027T3 (pl) 2015-09-30
CN102144259A (zh) 2011-08-03
CN102089817A (zh) 2011-06-08
CA2729971A1 (en) 2010-01-14
ES2398627T3 (es) 2013-03-20
MY153594A (en) 2015-02-27
AU2009267530A1 (en) 2010-01-14
TW201007700A (en) 2010-02-16
AR072480A1 (es) 2010-09-01
KR20110038029A (ko) 2011-04-13
ZA201100086B (en) 2011-08-31
BRPI0910523A2 (pt) 2020-10-20
CN102089817B (zh) 2013-01-09
RU2011103999A (ru) 2012-08-20
KR101278546B1 (ko) 2013-06-24
BRPI0910517B1 (pt) 2022-08-23

Similar Documents

Publication Publication Date Title
BRPI0910523B1 (pt) Aparelho e método para gerar dados de saída de extensão de largura de banda
JP7092809B2 (ja) 再構築帯域に対するエネルギ情報を用いてオーディオ信号を復号化または符号化する装置および方法
ES2334404T3 (es) Aparato y metodo para ajustar la envolvente espectral de una señal reconstruida de alta frecuencia.
ES2642906T3 (es) Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
US8321229B2 (en) Apparatus, medium and method to encode and decode high frequency signal
BRPI0904958B1 (pt) Aparelho e método para calcular dados de extensão de largura de banda usando um quadro controlado por inclinação espectral
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
BR112014021054B1 (pt) Controle de coerência de fase para sinais harmônicos nos codecs de áudio perceptuais
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data
BR112016001398B1 (pt) Aparelho e método para decodificação e codificação de um sinal de áudio utilizando seleção de porção espectral adaptativa

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06G Technical and formal requirements: other requirements [chapter 6.7 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/06/2009, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.