BRPI0910792B1 - "sintetizador de sinal de áudio e codificador de sinal de áudio" - Google Patents

"sintetizador de sinal de áudio e codificador de sinal de áudio" Download PDF

Info

Publication number
BRPI0910792B1
BRPI0910792B1 BRPI0910792-4A BRPI0910792A BRPI0910792B1 BR PI0910792 B1 BRPI0910792 B1 BR PI0910792B1 BR PI0910792 A BRPI0910792 A BR PI0910792A BR PI0910792 B1 BRPI0910792 B1 BR PI0910792B1
Authority
BR
Brazil
Prior art keywords
signal
audio signal
spectral
raw
correction
Prior art date
Application number
BRPI0910792-4A
Other languages
English (en)
Inventor
Frederik Nagel
Sascha Disch
Nikolaus Rettelbach
Max Neuendorf
Bernhard Grill
Ulrich Krämer
Stefan WABNIK
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41120013&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0910792(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BRPI0910792A2 publication Critical patent/BRPI0910792A2/pt
Publication of BRPI0910792B1 publication Critical patent/BRPI0910792B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

sintetizador de sinal de áudio e codificador de sinal de áudio a presente invenção refere-se a um sintetizador de sinal de áudio para gerar um sinal de áudio de síntese, um codificador de sinal de áudio e um fluxo de dados, compreendendo um sinal de áudio codificado.

Description

SINTETIZADOR DE SINAL DE ÁUDIO E CODIFICADOR DE
SINAL DE ÁUDIO
Especificação
A presente invenção refere-se a um sintetizador de sinal de áudio para gerar um sinal de áudio de síntese, um codificador de sinal de áudio e um fluxo de dados, compreendendo um sinal de áudio codificado.
A codificação de áudio natural e a codificação de fala são as duas principais categorias de codificadores para 10 sinais de áudio. Os codificadores de áudio natural são mais comumente usados para música ou sinais arbitrários, em taxas de bit médias e, geralmente, oferecem amplas larguras de banda de áudio. Os codificadores de fala estão, 'basicamente,’ limitados- àreprodução da fala e podem ser utilizados em uma taxa de bit 15 bastante'baixaΓ A fala- em-banda ampla .oferece um ^aprimoramento da qualidade mais subjetivo sobre a fala em banda estreita. Aumentar a largura da banda não somente melhora a natureza da fala, como também o reconhecimento e a inteligibilidade do alto-falante. A codificação da fala em banda ampla é, assim, uma questão 20 importante para a próxima geração de sistemas telefônicos.
Ademais, devido ao grande crescimento do campo multimídia, a transmissão de música e de outros sinais distintos de fala, em alta qualidade, por meio de sistemas telefônicos, bem como para armazenamento e, por exemplo, a transmissão por rádig/TV e outros 25 sistemas de transmissão são uma característica desejávei.
Para reduzir drasticamente a taxa de bit, a codificação-fonte poderá ser efetuada usando-se codificadores de divisão de banda de áudio perceptual. Esses codificadores de áudio
Figure BRPI0910792B1_D0001
natural exploram a irrelevância perceptual e a redundância estatística no sinal. No caso, a exploração isolada acima não é suficiente em relação às restrições de bitrate, a taxa de amostra é reduzida. Também é comum reduzir o número de níveis de 5 composição, permitindo a distorção de quantização audível ocasional, bem como empregar a degradação do campo estéreo por meio de uma codificação estérea conjunta ou uma codificação paramétrica de dois ou mais canais. O uso excessivo dos referidos métodos resulta em uma degradação perceptiva desagradável. Para 10 melhorar o desempenho de codificação, métodos de extensão de largura de banda, tais como replicação da banda espectral (SBR), são usados como um método eficiente para gerar sinais de alta freqüência em um codificador baseado em HFR (reconstrução- de alta freqüência).
Noprocesso- de replicação de sinais de alta freqüência, uma determinada transformação, por exemplo, pode ser aplicada nos sinais de baixa freqüência e, assim, os sinais transformados são inseridos como sinais de alta freqüência. Este processo também é conhecido como correção, bem como diferentes 20 transformações podem ser utilizadas. O padrão de áudio MPEG-4 usa somente um algoritmo de correção para todos os sinais de áudio.
Portanto, falta a flexibilidade para adaptar a correção em sinais diferentes ou esquemas de codificação.
Por outro lado, o padrão MPEG-4 fornece um processamento sofisticado de banda alta regenerada, no qual muitos parâmetros importantes de SBR são aplicados. Os referidos parâmetros importantes de SBR são dados sobre o envelope espectral, os dados sobre o patamar de ruído a serem adicionados à porção espectral regenerada, informação sobre a ferramenta de filtragem inversa para adaptar a tonalidade da banda alta regenerada para a tonalidade da banda alta original, bem como dados adicionais de processamento de replicação da banda espectral, tais como dados sobre harmônicos ausentes, etc. Este processamento bem estabelecido de espectro replicado, que é fornecido por uma correção de sinais consecutivos de banda passante dentro do domínio do banco de filtros, foi comprovado como eficiente para fornecer qualidade elevada e para ser implementado com recursos razoáveis em relação à potência de processamento, requisitos de memória e requisitos de potência.
Por outro lado, a correção ocorre no mesmo banco de filtros, uma vez que acontece o processamento'1 ’adicrona-1 -do sinal corrigido, assim há uma forte ligação entre a operação de correção e o probe’s sarnento- adicional, do.. rejsultado da operação de correção. Portanto, a implementação de diferentes algoritmos de correção é problemática nesta abordagem combinada.
A solicitação de patente WO 98/57436 apresenta os métodos de transposição utilizados na replicação da banda espectral, que são combinados com o ajuste de envelope espectral.
A solicitação de patente WO 02/052545 fornece instruções de que os sinais podem ser classificados tanto como semelhante a trens de pulso ou não semelhantes a trens de pulso e, com base nesta classificação, é proposto um transpositor comutado adaptável. O transpositor comutado efetua dois algoritmos de correção em paralelo e uma unidade de mixing combina os dois sinais corrigidos dependentes na classificação (trem de pulso e não trem de pulso) . A comutação atual mútua ou a combinação dos
Figure BRPI0910792B1_D0002
transpositores é efetuada em um banco de filtros de ajuste em envelope, em resposta aos dados de envelope e de controle. Ademais, para sinais semelhantes a trem de pulso, o sinal da banda de base é transformado em um domínio de banco de filtros, uma operação de tradução de freqüência é efetuada e é realizado um ajuste de envelope do resultado da tradução de freqüência. Este é um procedimento combinado de correção/processamento adicional. Para sinais não semelhantes a trem de pulso, é fornecido um transpositor de domínio de freqüência (transpositor FD) e o 10 resultado do transpositor de domínio de freqüência é, assim, transformado no domínio de banco de filtros, no qual é realizado o ajuste de envelope. Portanto, a implementação e a flexibilidade deste procedimento, que tem, em uma alternativa-, uma abordagemcombinada de correção/processamento adicional e que tem, em outra 15 alternativa, um transpositor de- domínio .de. __freqüência, que é posicionado fora do banco de filtros no qual o ajuste de envelope ocorre é problemático em relação às possibilidades de flexibilidade e implementação.
Um objetivo da presente invenção é oferecer um sintetizador que forneça uma qualidade aprimorada e permita uma implementação eficiente.
Este objetivo é alcançado pelo sintetizador, de acordo com a reivindicação 1, um codificador, de acordo com a reivindicação 9, um método para gerar um sinal de áudio de 25 síntese, de acordo com a reivindicação 13, ou um método para gerar um fluxo de dados, de acordo com a reivindicação 14.
A presente invenção está baseada, de um lado, no achado de que a operação de correção e, de outro lado, que o
Figure BRPI0910792B1_D0003
processamento adicional do resultado da operação de correção devem ser completamente efetuados em domínios independentes. Isso oferece a flexibilidade para otimizar diferentes . algoritmos de correção dentro, de um lado, de um gerador de correção e, de outro lado, para utilizar sempre o mesmo ajuste de envelope, independentemente do algoritmo de correção subjacente. Portanto, a criação de qualquer resultado de sinal corrigido do domínio espectral, no qual ocorre o ajuste de envelope, permite uma aplicação flexível de diferentes algoritmos de correção para diferenciar porções de sinais, completamente independente do processamento adicional de SBR subsequente, bem como o programador não precisa se preocupar sobre as especificações para algoritmos de correção provenientes do ajuste de envelope' ou ‘não' precisa se^ preocupar sobre as especificações dos algoritmos de correção para um determinado” ãjüste~‘de~ envelope.· Pelo-- contrário,. _ps_ diferentes componentes de replicação da banda espectral, ou seja, de um lado, a operação de correção e, de outro lado, o processamento adicional do resultado de correção poderá ser realizado de modo independente entre si. Isso significa que, em toda a replicação da banda espectral, o algoritmo de correção é separadamente efetuado, que tem como conseqüência, que a correção e as operações de SBR restantes podem ser otimizadas independentemente entre si e, portanto, são flexíveis em relação aos futuros algoritmos de correção, etc. que podem simplesmente ser aplicados sem a necessidade de alterar qualquer parâmetro do processamento adicional do resultado de correção, que é efetuado em um domínio espectral, no qual não ocorre qualquer correção.
A presente invenção oferece uma qualidade
Figure BRPI0910792B1_D0004
aprimorada, uma vez que permite uma fácil aplicação de diferentes algoritmos de correção para porções de sinal, assim cada porção de sinal do sinal da banda de base é corrigido com o algoritmo de correção que se ajusta, da melhor forma, para esta porção de 5 sinal. Ademais, a ferramenta de ajuste de envelope direto, eficiente e de alta qualidade, que opera no banco de filtros e que é bem estabelecida e já existente em várias aplicações, tais como MPEG-4 HE-AAC, ainda poderá ser utilizada. Separando os algoritmos de correção do processamento adicional, assim nenhum algoritmo de 10 correção é aplicado no domínio do banco de filtros, no qual o processamento adicional do resultado de correção é realizado, o processamento adicional bem estabelecido do resultado de correção pode ser aplicado para todos os algoritmos de correção disponíveis. Entretanto, de modo opcional, o correção também pode 15 ser realizada Tio' banco ~de“ filtros -tanto.- quanto_ nos _ outros domínios.
Ademais, esta característica oferece escalabilidade, uma vez que, para aplicações de baixo nível, os
algoritmos de correção podem ser utilizados, o que exige menos
20 recursos, ao passo que, para aplicações de alto nível , os
algoritmos de correção podem ser utilizados, o que exigem mais
recursos, que resulta em uma melhor qualidade de : áudio. De modo
alternativo, os algoritmos de correção podem ser mantidos os
mesmos, porém a complexidade do processamento adicional do
25 resultado de correção pode ser adaptada para diferentes
necessidades. Para aplicações de baixo nível, por exemplo, uma resolução de freqüência reduzida para o ajuste de envelope espectral poderá ser aplicada, ao passo que, para aplicações de
Figure BRPI0910792B1_D0005
alto nível, uma resolução de freqüência melhor poderá ser aplicada, o que oferece uma melhor qualidade, porém também exige recursos superiores de memória, processador e consumo de potência, especificamente em um dispositivo móvel. Tudo isso pode ser feito 5 sem implicações sobre a outra ferramenta respectiva, uma vez que a ferramenta de correção não é dependente da ferramenta de ajuste de envelope espectral e vice-versa. Pelo contrário, a separação da geração de correção e do processamento dos dados brutos corrigidos por meio de uma transformação em uma representação espectral, tais 10 como por meio de um banco de filtros, foi comprovada como uma característica ideal.
Em conformidade com o primeiro aspecto da invenção, um sintetizador de sinal de áudio gera um sinal deáudio de síntese, que tem uma primeira banda de freqüência e uma segunda 15 banda de freqüência sihtêtizãdãü derivada -da- -primeirabanda de freqüência. O sintetizador de sinal de áudio compreende um gerador de correção, um conversor de espectro, um processador de sinal bruto e um combinador. O gerador de correção efetua, no mínimo, dois algoritmos de correção diferentes, onde cada algoritmo de 20 correção gera um sinal bruto que tem componentes de sinal na segunda banda de freqüência sintetizada, usando um sinal de áudio que tem componentes de sinal na primeira banda de freqüência. O gerador de correção está adaptado para selecionar um de, no mínimo, dois diferentes algoritmos de correção, em resposta a uma 25 informação de controle para a primeira porção de tempo e outro de, no mínimo, um dos dois diferentes algoritmos de correção, em resposta à informação de controle para uma segunda porção de tempo diferente da primeira porção de tempo para obter o sinal bruto
Figure BRPI0910792B1_D0006
para a primeira e para a segunda porção de tempo. O conversor de espectro converte o sinal bruto em uma representação espectral de sinal bruto. O processador de sinal bruto processa a representação espectral de sinal bruto em resposta aos parâmetros de replicação 5 de banda espectral· do domínio espectral para obter uma representação espectral de sinal bruto ajustado. O combinador combina um sinal de áudio que tem componentes de sinal, na primeira banda ou um sinal derivado do sinal de áudio com a representação espectral de sinal bruto ajustado ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado para obter um sinal de áudio de síntese.
Em configurações adicionais, o sintetizador de sinal de áudio é configurado de modo que, no mínimõ, ~ dois algoritmos de correção sejam diferentes entre si, de modo que um 15 componente de sinaL 3o sinal“ de“ áudio, - em = uma.. _fr.eqüência_ na primeira banda de freqüência seja corrigido para uma freqüênciaalvo na segunda banda de freqüência, e que a freqüência-alvo seja diferente para os dois algoritmos de correção. O gerador de correção pode ser adicionalmente adaptado para operar no domínio 20 de tempo para os dois algoritmos de correção.
Em conformidade com outro aspecto da presente invenção, um codificador de sinal de áudio gera, a partir de um sinal de áudio, um fluxo de dados que compreende componentes do sinal de áudio em uma primeira banda de freqüência, informação de 25 controle e parâmetros de replicação da banda espectral. O codificador de sinal de áudio compreende um filtro seletivo de freqüência, um gerador e um gerador de informação de controle. O filtro seletivo de freqüência gera os componentes do sinal de
Ά*
Figure BRPI0910792B1_D0007
áudio na primeira banda de freqüência. O gerador gera o parâmetro de replicação da banda espectral a partir dos componentes do sinal de áudio, em uma segunda banda de freqüência. O gerador gera o parâmetro de replicação de banda espectral a partir de componentes do sinal de áudio, em uma segunda banda de freqüência. O gerador da informação de controle gera a informação de controle, a informação de controle que identifica um algoritmo de correção preferido, a partir do primeiro ou do segundo algoritmo de correção diferente. Cada algoritmo de correção gera um sinal bruto 10 que tem componentes de sinal na segunda banda de freqüência replicada, usando os componentes do sinal de áudio na primeira banda de freqüência.
Também em conformidade com outro aspecto” da presente invenção, um fluxo de bits de sinal de áudio, transmitido 15 por uma linha cie 'transmissão conectada-a-um-computador, compreende um sinal de áudio codificado na primeira banda de freqüência, informação de controle e os parâmetros de replicação da banda espectral.
Portanto, a presente invenção refere-se a um método para comutação entre diferentes algoritmos de correção na replicação da banda espectral, onde o algoritmo de correção usado depende de lado codificador sobre uma decisão tomada no codificador e, no lado do decodificador, sobre uma informação transmitida no fluxo de bits. Por meio do uso de uma replicação da 25 banda espectral (SBR), a geração de componentes de alta freqüência pode, por exemplo, ser feita pela cópia de componentes de sinal de baixa freqüência em um banco de filtros QMF (QMF = Filtro de Quadrature de Espelho) em bandas de alta freqüência. Esta cópia ίΆ* ¢/ Af/·' ' t C?
Mi também é conhecida como correção e, de acordo com as configurações da presente invenção, esta correção é substituída ou complementada por métodos alternativos, que também podem ser realizados no domínio de tempo. São os seguintes exemplos para algoritmos de correção alternativos:
(1) Upsampling (por exemplo, por meio de espelhamento do espectro);
(2) Vocoder de fase;
(3) Distorção não linear (4) Espelhamento do espectro no domínio QMF por meio da permuta de solicitação de banda QMF;
(5) Dirigido ao modelo (particularmente para fala) ; e (6) Modulação
Os algoritmos de“ correção- alternativos, também podem ser realizados dentro do codificador, para obter os parâmetros de replicação da banda espectral, que são usados, por exemplo, por meio de ferramentas de SBR como preenchimento de ruído, filtragem inversa, harmônicos ausentes, etc. De acordo com 20 as configurações, o algoritmo de correção dentro de um gerador de correção é substituído enquanto ainda são usadas as ferramentas remanescentes de replicação da banda espectral.
A opção concreta para o algoritmo de correção depende do sinal de áudio aplicado. Por exemplo, o vocoder de fase 25 altera significativamente a característica dos sinais de fala e, portanto, o vocoder de fase não oferece um algoritmo de correção adequado, por exemplo, para fala ou sinais semelhantes à fala. Portanto, conforme o tipo de sinal de áudio, um gerador de correção seleciona um algoritmo de correção entre as diferentes possibilidades para geração de correções para a banda de alta freqüência. Por exemplo, o gerador de correção pode comutar entre a ferramenta de SBR convencional (cópia das bandas QMF) e o vocoder de fase, ou entre qualquer outro algoritmo de correção.
Em contraste à implementação SBR convencional (por exemplo, implementada em MPEG-4), assim, as configurações da presente invenção usam o gerador de correção para gerar o sinal de alta freqüência. O gerador de correção não apenas pode operar na freqüência, como também no domínio de tempo e implementa os algoritmos de correção, conforme exemplo: espelhamento e/ou upsampling e/ou vocoder de fase e/ou distorção não linear. Se a replicação da banda espectral é feita na freqüência ou nò Tiomíhib de tempo depende do sinal concreto (ou seja, adaptável ao sinal), que será explicado~em mais detalhes-a- seguir_
A replicação da banda espectral recai no fato de que, para várias finalidades, é suficiente transmitir um sinal de áudio somente dentro de uma banda de freqüência central e para gerar os componentes de sinal na banda de freqüência superior, no decodificador. O sinal de áudio resultante ainda manterá uma alta qualidade perceptível, uma vez que para fala e música, por exemplo, os componentes de alta freqüência freqüentemente têm uma correlação em relação a componentes de baixa freqüência na banda de freqüência central. Portanto, usando um algoritmo de correção adaptado, que gera os componentes de alta freqüência ausentes, é possível obter um sinal de áudio em uma alta qualidade perceptível. Ao mesmo tempo, a geração dirigida do parâmetro das bandas superiores resulta em uma redução significativa da taxa de bit para codificar um sinal de áudio, uma vez que somente o sinal de áudio dentro da banda de freqüência central é codificado, comprimido e transmitido para o decodificador. Para os componentes de freqüência restantes, somente a informação de controle e os parâmetros de replicação da banda espectral são transmitidos, os quais controlam o decodificador no processo de geração de uma estimativa do sinal de banda alta original. Assim, tratando-se estritamente, este processo envolve três aspectos: (i) a estimativa paramétrica de banda HF (cálculo do parâmetro de SBR) , (ii) a geração de correção bruta (correção atual) e (iii) disposições para o processamento adicional. (por exemplo, ajuste de patamar de ruído).
A banda de freqüência central pode ser definida por meio da denominada freqüência cruzada, que define um limite dentro da banda “de” fréqüêricia,“ acima-do qual -uma -codificação^dq sinal de áudio é efetuada. O codificador central codifica o sinal de áudio dentro da banda de freqüência central limitada pela freqüência cruzada. Iniciando com a freqüência cruzada, os componentes de sinal serão gerados por meio da replicação da banda espectral. No uso de métodos convencionais para a replicação da banda espectral, acontece com freqüência que alguns sinais
compreendam artefatos indesejados na freqüência cruzada do
codificador central.
Ao usar configurações da presente invenção, é
possível determinar um algoritmo de correção, que evita os
referidos artefatos ou, no mínimo, modifica os referidos artefatos de modo que eles não mais apresentem um efeito perceptível. Por exemplo, usando-se o espelhamento como algoritmo de correção no domínio de tempo, a replicação da banda espectral é efetuada, de modo semelhante, à extensão da largura de banda (BWE) dentro de AMR-WB+ (Adaptative Multi-Rate Wideband). Ademais, a possibilidade de alterar o algoritmo de correção depende de o sinal oferecer a 5 possibilidade para fala e para música, por exemplo, de que diferentes extensões de largura de banda possam ser usadas. Porém, também para um sinal que não pode ser claramente identificado como música ou fala (ou seja, sinal misto) o algoritmo de correção pode ser alterado dentro de pequenos períodos de tempo. Por exemplo, 10 para qualquer período de tempo dado, um algoritmo de correção preferido pode ser utilizado para correção. O referido algoritmo de correção preferido pode ser determinado por meio do codificador que, por exemplo, pode comparar cada bloco processado Herdados de entrada para os resultados de correção com o sinal de áudio 15 original. ~ fsso mêlhora, — · -signi-f icativamente, _ =a _ quehLidade perceptível do sinal de áudio resultante, gerado por meio do sintetizador de sinal de áudio.
As vantagens adicionais da presente invenção devem-se à separação do gerador de correção proveniente do 20 processador de sinal bruto, que pode compreender ferramentas padrão de SBR. Devido à referida separação, as ferramentas usuais de SBR podem ser empregadas, as quais podem compreender uma filtragem inversa, adição de um patamar de ruído ou harmônicos ausentes, entre outros. Portanto, as ferramentas padrão de SBR 25 ainda podem ser utilizadas, enquanto a correção pode ser ajustada de modo flexível. De modo adicional, uma vez que as ferramentas padrão de SBR são utilizadas no domínio de freqüência, a separação do gerador de correção das ferramentas de SBR, permite uma : Ç5 computação da correção, tanto no domínio de freqüência quanto no domínio de tempo.
Breve descrição dos desenhos
Neste ponto, a presente invenção será descrita por meio de exemplos ilustrados. As características da invenção serão mais facilmente apreciadas e melhor entendidas por meio da
consulta à seguinte descrição detalhada, que deverá ser
considerada em relação aos desenhos respectivos, nos quais:
A Fig. 1 mostra um digrama de bloco de um
processamento de sinal de áudio, de acordo com as configurações da presente invenção;
A Fig. 2 mostra um diagrama de bloco parao gerador de correção, de acordo com as configurações;
A Fig. 3 mostra um diagrama de bloco parao “combinador-que operano domínio de tempo; _ _ _. ____
As Figs. 4a a 4d ilustram, de modo esquemático, exemplos para diferentes algoritmos de correção;
As Figs. 5a e 5b ilustram o vocoder de fase e a correção por meio de cópia;
As Figs. 6a a 6d mostram diagramas de bloco para o processamento do fluxo de áudio codificado para o resultado de amostras PCM; e
As Figs. 7a a 7c mostram diagramas de bloco para um codificador de áudio, de acordo com as configurações adicionais.
Descrição detalhada da invenção
As configurações descritas abaixo são meramente ilustrativas para o princípio da presente invenção, para /ζν j 4** aprimoramento da replicação de banda espectral, por exemplo, usada com um decodificador de áudio. É entendido que modificações e variações das organizações e dos detalhes ora descritos serão óbvios para outros especializados na técnica. Portanto, pretende5 se não limitar-se a detalhes específicos apresentados por meio do modo de descrição e explicação das configurações ora apresentadas.
A Fig. 1 mostra um sintetizador de sinal de áudio para a geração de sinal de áudio de síntese 105 que tem uma primeira banda de freqüência e uma segunda banda de freqüência 10 replicada, derivada da primeira banda de freqüência. O sintetizador do sinal de áudio compreende um gerador de correção 110 para efetuar, no mínimo, dois algoritmos diferentes de correção, onde cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência 15 ' rep'licada, usando o- sinal de áudio- 105- que .tem componentes de_ sinal na primeira banda de freqüência. O gerador de correção 110 está adaptado para selecionar um de, no mínimo, dois diferentes algoritmos de correção, em resposta a uma informação de controle 112 para uma primeira porção de tempo e o outro de, no mínimo, 20 dois algoritmos diferentes de correção em resposta à informação de controle 112 para uma segunda porção de tempo diferente, proveniente da primeira porção de tempo, para obter o sinal bruto 115 para a primeira e a segunda porção de tempo. O sintetizador de sinal de áudio compreende ainda um conversor de espectro 120 para 25 converter o sinal bruto 115 em uma representação espectral bruta 125, que compreende componentes em uma primeira sub-banda, uma segunda sub-banda e assim por diante. O sintetizador do sinal de áudio compreende ainda o processador de sinal bruto 130 para o processamento da representação espectral bruta 125 em resposta aos parâmetros de replicação de domínio de banda espectral 132 para obter uma representação espectral de sinal bruto ajustado 135. O sintetizador de sinal de áudio compreende ainda um combinador 140 para combinar o sinal de áudio 105 que tem componentes de sinal na primeira banda ou um sinal derivado do sinal de áudio 105 com a representação espectral de sinal bruto ajustado 135 ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado 135 para obter um sinal de áudio de síntese 145.
Nas configurações adicionais, o combinador 140 está adaptado para o uso como o sinal derivado do sinal de áudio 105 da representação espectral de sinal bruto 125. O sinal derivado do sinal de áudio usado pelo combinador também pode ser o sinal processado por meio de um conversor de tempo/espectro, tais como ~õ banco dê filtros1 de“ análise -ou-um-sinal- de_ banda, baixa, conforme gerado por meio de um gerador de correção que opera no domínio de tempo ou no domínio de espectro ou um sinal de áudio de retardo ou um sinal de áudio processado por uma operação de upsampling, assim, os sinais a serem combinados têm a mesma taxa de amostragem subjacente.
Ainda em outra configuração, o sintetizador de sinal de áudio compreende ainda um analisador para analisar uma característica do sinal de áudio 105 que tem componentes de sinal na primeira banda de freqüência 201 e para fornecer informação de controle 112, que identifica o primeiro algoritmo de correção ou o segundo algoritmo de correção.
Nas configurações adicionais, o analisador está adaptado para identificar um algoritmo de correção não harmônico para uma porção de tempo que tem um grau de voz ou um algoritmo de correção harmônica para uma porção de tempo distinta no sinal de áudio 105.
Ainda nas configurações adicionais o sinal de áudio 105 é codificado acompanhado por metadados em um fluxo de dados, e onde o gerador de correção 110 é adaptado para obter a informação de controle 112 a partir de metadados no fluxo de dados.
Ainda em configurações adicionais o conversor de espectro 120 compreende um banco de filtros de análise ou, no mínimo, dois diferentes algoritmos de correção compreendem um algoritmo de vocoder de fase, um algoritmo de correção de upsampling, um algoritmo de correção de distorção não linear ou um algoritmo de cópia.
“ Ainda-nas configurações-adicionais, _o processador;
de sinal bruto 130 está adaptado para efetuar um ajuste de energia das bandas espectrais, uma filtragem inversa nas bandas espectrais, para adicionar um patamar de ruído à banda espectral ou para adicionar harmônicos ausentes à banda espectral.
A Fig. 2 mostra um diagrama de bloco que fornece mais detalhes para o gerador de correção 110 que compreende um controlador, que recebe a informação de controle 112 e o sinal de áudio 105, bem como os meios de correção 113. O controlador 111 está adaptado para selecionar um algoritmo de correção baseado na informação de controle 112. O gerador de correção 110 compreende um primeiro meio de correção 113a efetuando um primeiro algoritmo
1, um segundo meio de correção 113b efetuando um segundo algoritmo
2, e assim por diante. De modo geral, o gerador de correção 110 compreende quantos meios de correção 113 quantos algoritmos de correção estejam disponíveis. Por exemplo, o gerador de correção 110 pode compreender dois, três, quatro ou mais de quatro meios de correção 113. Depois de o controlador 111 basear a informação de controle 112 selecionada em um dos meios de correção 113, o controlador 111 envia o sinal de áudio 105 para um dos meios de correção 113, que efetua o algoritmo de correção e fornece o sinal bruto 115, que compreende os componentes de sinal nas bandas de freqüência replicada 202, 203.
A Fig. 3 mostra um diagrama de bloco que fornece mais detalhes sobre o combinador 140, onde o combinador 140 compreende um banco de filtros de síntese 141, um retardador 143 e um somador 147. O sinal bruto ajustado 135 é íntrÕciüziclo no banco “ de filtros de síntese 141, que gera a partir do sinal bruto _15 - ajustado 135 (por exemplo,., na ^representação . espectral\, um sinal bruto ajustado dentro do domínio de tempo 135t (sinal bruto de domínio de tempo) . O sinal de áudio de banda de base 105 é introduzido no retardador 143, que está adaptado para retardar o sinal de banda de base 105 por um determinado período de tempo e fornece o sinal de banda de base com retardo 105d. O sinal de banda de base com retardo 105d e o sinal bruto ajustado de domínio de tempo 135t são adicionados pelo somador 147, resultando no sinal de áudio de síntese 145, que sai do combinador 140. O retardo no retardador 143 depende do algoritmo de processamento do sintetizador do sinal de áudio para atingir que o sinal bruto de domínio de tempo 135t será relativo, ao mesmo tempo, como o sinal de banda de base com retardo 105d (sincronização).
As Figs. 4a a 4d mostram diferentes algoritmos de correção usados no gerador de correção 110 pelos meios de correção 113. Conforme explicado acima, o algoritmo de correção gera um sinal corrigido na banda de freqüência replicada. Nas configurações mostradas na Fig. 4, a primeira banda de freqüência 5 201 estende-se para a freqüência cruzada fmáx, na qual uma segunda banda de freqüência 202 (ou uma segunda banda de freqüência replicada) inicia e se estende para duas vezes a freqüência cruzada 2*fmáx. Ademais da referida freqüência, uma terceira banda de freqüência 203 (ou uma terceira banda de freqüência replicada) começa. A primeira banda de freqüência 201 pode compreender a banda de freqüência central acima mencionada.
Na Fig. 4, quatro algoritmos de correção são mostrados como exemplos. O primeiro algoritmo de correção na Fig. 4a compreende um espelhamento ou upsampling, um segundo algoritmo _15 de correção, compreende, uma cópia_ou_.modulação_que está mostrada na Fig. 4b, um terceiro algoritmo de correção compreende um vocoder de fase que está mostrado na Fig. 4c, bem como um quarto algoritmo de correção que compreende uma distorção está mostrado na Fig. 4d.
O espelhamento, conforme mostrado na Fig. 4a, é efetuado de modo que o sinal corrigido na segunda banda de freqüência 202 é obtido pelo espelhamento da primeira banda de freqüência 201, na freqüência cruzada fmáx. O sinal corrigido na terceira banda de freqüência 203 é, por sua vez, obtido pelo espelhamento do sinal na segunda banda de freqüência 202. Uma vez que o sinal da segunda banda de freqüência 202 foi anteriormente um sinal espelhado, o sinal na terceira banda de freqüência 203 também pode ser obtido simplesmente permutando o sinal de áudio 105 na primeira banda de freqüência 201 para a terceira banda de freqüência 203.
Um segundo algoritmo de correção, conforme mostrado na Fig. 4, implementa a cópia (ou modulação) do sinal. Nesta configuração, o sinal na segunda banda de freqüência 202 é obtido pela permutação (cópia) do sinal na primeira banda de freqüência 201 para a segunda banda de freqüência 202. De modo similar, também o sinal na terceira banda de freqüência 203 é obtido por meio da permutação de sinal na primeira banda de freqüência 201 para a terceira banda de freqüência 203.
A Fig. 4c mostra uma configuração usando um vocoder de fase como algoritmo de correção. O sinal corrigido é gerado por meio de etapas subseqüentes, onde a primeira etapa gera componentes de sinal até duas “vezes a‘freqü'ênci*aTiáximar?*fmáx e“~a segunda etapa gera componentes de sinal até três vezes a freqüência máxima 3*fmáx, e assim por diante. Um vocoder de fase multiplica as freqüências das amostras com um fator n (n = 2, 3, 4,...), resultando na propagação de valores de amostra sobre uma faixa de freqüência de n-vezes da banda de freqüência central (primeira banda de freqüência 201).
O algoritmo de correção usando distorção (por exemplo, por multiplicação do sinal por ele mesmo) está mostrado na Fig. 4d. As distorções podem ser obtidas de muitas maneiras. Uma maneira simples é pela multiplicação do nível de sinal por ele mesmo, gerando componentes de freqüência superior. Outra possibilidade de distorção é obtida por corte (por exemplo, por meio de corte do sinal acima de um determinado limite) . Também neste caso, serão gerados componentes de alta freqüência. Basicamente, qualquer distorção conhecida nos métodos convencionais poderá ser usada aqui.
A Fig. 5a mostra, em mais detalhes, o algoritmo de correção de um vocoder de fase. A primeira banda de freqüência 201 se estende novamente até a freqüência máxima fmáx (freqüência cruzada) na qual a segunda banda de freqüência 202 começa, que termina, por exemplo, em duas vezes a freqüência máxima 2*fmáx. Depois da segunda banda de freqüência 202, a terceira banda de freqüência 203 começa e pode, por exemplo, estender-se até três vezes a freqüência máxima 3*fmáx.
Por simplificação, a Fig. 5a mostra um espectro (nível P em função da freqüência f) com oito linhas de freqüência 105a, 105b, 105h para o sinal de áudio 105. A partir das referidas oito linhas Í05a, 105b) . ..7- 105h7= o võcòdêT de fase gera um novo sinal por meio da permutação das linhas, de acordo —com as setas mostradas. A permutação se refere à multiplicação acima mencionada. Em detalhes, a primeira linha 105a é permutada para a segunda linha 105b, a segunda linha é permutada para quarta linha, e assim por diante, até a oitava linha 105h, que é permutada para a 16a linha (última linha no segundo domínio de freqüência 202) . Isso se refere à multiplicação por dois. Para gerar linhas de até três vezes a freqüência máxima, 3*fmáx, todas as freqüências das linhas podem ser multiplicadas por três, ou seja, a primeira linha 105a é permutada para a terceira linha 105c, a segunda linha 105b é permutada para a sexta linha, e assim por diante, até a oitava linha 105h, que é permutada para a 24a linha (a última linha na terceira banda de freqüência 203) . É óbvio que por meio do referido vocoder de fase, as linhas não são mais eqüidistantes, porém são propagadas para freqüências superiores .
A Fig. 5b mostra o correção da cópia em mais detalhes. Novamente, o nível P em função da freqüência f é mostrado, onde oito linhas estão na primeira banda de freqüência 201, que são copiadas na segunda banda de freqüência 202 e também para a terceira banda de freqüência 203. Esta cópia implica somente que a primeira linha 105a, na primeira banda de freqüência 201, também se torne a primeira linha na segunda banda de freqüência 202 e na terceira banda de freqüência 203. Portanto, as primeiras linhas de cada banda de freqüência replicada 202 e 203 são copiadas a partir da mesma linha na primeira banda de freqüência 201. Em analogia, isso também se aplica às outras linhas. Consequentemente, a banda inteira de freqüência é copiada.
Os diferentes algoritmos de correção, conforme mostrados nas Figs. 4 e 5, podem se aplicados de modo diferente, tanto dentro do domínio de tempo quanto no domínio de freqüência, e compreendem diferentes vantagens ou desvantagens, que podem ser exploradas para diferentes aplicações.
Por exemplo, o espelhamento no domínio de freqüência é mostrado na Fig. 4a. No domínio de tempo, o espelhamento pode ser realizado por meio do aumento da taxa de amostra por um fator inteiro, que pode ser efetuado por meio da inserção de amostras adicionais entre cada par de amostras existentes. As referidas amostras adicionais não são obtidas a partir do sinal de áudio, mas são introduzidas pelo sistema e compreendem, por exemplo, valores próximos ou iguais a zero. No caso mais simples, se somente uma amostra adicional for introduzida entre duas amostras existentes, a duplicação do número de amostras é alcançada implementando-se uma duplicação da taxa de amostragem, Se mais de uma amostra adicional for introduzida (por exemplo, em um modo eqüidistante) a taxa de amostra aumentará adequadamente e, portanto, também o espectro de freqüência será aumentado. De modo geral, o número de amostras adicionais entre cada duas amostras existentes pode ser qualquer número n (n = 2, 3, 4...) aumentando a taxa de amostra pelo fator n+1. A inserção de amostras adicionais resulta no espelhamento do espectro de freqüência, na freqüência de Nyquist, que especifica a freqüência mais alta representável, em uma taxa de amostragem dada. O domínio de freqüência do espectro de banda de base (espectro na primeira banda de freqüência) é, assim, espelhado por meio deste procedimento diretamente na próxima banda de freqüência. De modo opcional, este espelhamento pode ser combinado com uma possível filtragem passá-baixas e/õu umã moldagem espectral.
As vantagens do referido algoritmo de correção podem ser resumidas como segue. Ao utilizar este método, a estrutura de tempo do sinal é mais bem preservada que usando-se métodos similares no domínio de freqüência. Além disso, por meio do espelhamento espectral, linhas de freqüência próximas à freqüência de Nyquist são mapeadas em linhas, que também estão próximas à freqüência de Nyquist. Isso é uma vantagem, uma vez que depois do espelhamento, as regiões espectrais ao redor da freqüência de espelhamento (ou seja, a freqüência de Nyquist do sinal de áudio original 105) são semelhantes em vários aspectos, como, por exemplo, em relação à propriedade do nivelamento espectral, a propriedade tonal, o acúmulo ou distinção dos pontos de freqüência, etc. Por meio do referido método, o espectro é continuado para a próxima banda de freqüência de forma mais moderada como, por exemplo, usando-se as técnicas de cópia, nas quais as regiões de freqüência terminam próximas entre si, que são originadas a partir de regiões completamente diferentes no espectro original e, portanto, exibem características bastante diferentes. Na cópia: a primeira amostra se torna novamente a primeira amostra na banda replicada, caracterizada pelo espelhamento da última amostra que se torna a primeira amostra na banda replicada. Esta continuação mais suave do espectro pode, por sua vez, reduzir os artefatos perceptíveis, que são provocados por características não contínuas do espectro reconstruído gerado por outros algoritmos de correção.
Finalmente, há sinais que compreendem um alto número de harmônicos, por exemplo, na região de freqüência inferior (primeira banda de freqüência 201) . Os referidos harmônicos aparecem como picos localizados no espectro. Entretanto, na parte superior do espectro pode existir somente alguns harmônicos presentes ou, de outro modo, o número de harmônicos é o menor na parte superior do espectro. Simplesmente usando uma cópia do espectro, isso pode resultar em um sinal replicado no gual a parte inferior do espectro com um número alto de harmônicos é copiada diretamente na região da freqüência superior, onde havia somente alguns harmônicos no sinal original. Como resultado, a banda de freqüência superior do sinal original e o sinal replicado são bastante diferentes em relação ao número de harmônicos, que é indesejado e deve ser evitado.
O algoritmo de correção de espelhamento também pode ser aplicado no domínio de freqüência (por exemplo, na região
QMF) , neste caso, a ordem das bandas de freqüência é invertida, assim acontece a reorganização de trás para a quarta. Ademais, para amostras de sub-banda, um valor conjugado complexo deve ser formado, assim a parte imaginária de cada amostra altera seu sinal. Isso resulta em uma inversão do espectro dentro da subbanda .
O referido algoritmo de correção compreende uma alta flexibilidade em relação às bordas da correção, desde que um espelhamento do espectro não deva, necessariamente, ser efetuado 10 na freqüência de Nyquist, porém também pode ser efetuado em qualquer borda de sub-banda.
Entretanto, o cancelamento de aliasing _entre _as bandas QMF próximas, nas extremidades das correções pode não ocorrer, o que pode ou não ser tolerável.
-15 — — — ·— — ·=- pôr “meio cia “propagação ou por meio do uso do vocoder de fase (vide Fig. 4c ou 5a) a estrutura de freqüência é harmônica e corretamente estendida no domínio de alta freqüência, uma vez que a banda de base 201 é espectralmente propagada por meio de um múltiplo uniforme realizado por um ou mais vocoders de 20 fase, e uma vez que os componentes espectrais na banda de base 201 são combinados com os componentes espectrais adicionalmente gerados.
Este algoritmo de correção é preferido se a banda de base 201 já estiver fortemente limitada na largura de banda, 25 por exemplo, pelo uso de somente um taxa de bit bastante baixa.
Portanto, a reconstrução dos componentes de freqüência superior já começa em uma freqüência relativamente baixa. Neste caso, uma freqüência cruzada típica é inferior a cerca de 5 kHz (ou, inclusive, inferior a 4 kHz) . Nesta região, o ouvido humano é bastante sensível a dissonâncias devido aos harmônicos incorretamente posicionados. Isso pode resultar na impressão de tons não naturais. Ademais, tons proximamente espaçados 5 espectralmente (com uma distância espectral de cerca de 30 Hz a
300 Hz) são percebidos como tons rudes. Uma continuação harmônica da estrutura de freqüência da banda de base 201 evita as referidas impressões auditivas incorretas e desagradáveis.
No terceiro algoritmo de correção de cópia (vide 10 Fig. 4c ou 5b) as regiões espectrais são sub-banda bem copiadas para uma região de freqüência superior ou para uma região de freqüência a ser replicada. Também, a cópia recai na observação, a_ qual é real para todos os métodos de correção, que as propriedades espectrais dos sinais de freqüência superior são semelhantes em 1'5 - vários aspectos para as propriedades dos sinais de banda de base.
Há apenas alguns desvios entre si. Ademais, o ouvido humano, tipicamente, não é muito sensível em alta freqüência (tipicamente, iniciando em cerca de 5 kHz), especialmente em relação a um mapeamento espectral não preciso. De fato, em geral, esta é a 20 idéia principal da replicação da banda espectral. Particularmente, a cópia compreende a vantagem que é a facilidade e a rápida implementação.
O referido algoritmo de correção também tem uma alta flexibilidade em relação às bordas de correção, uma vez que é 25 possível efetuar a cópia do espectro em qualquer borda de subbanda .
Finalmente, o algoritmo de correção de distorção (vide Fig. 4d) pode compreender a geração de harmônicos por meio de corte, limitação, multiplicação, etc. Se, por exemplo, um sinal propagado é espectralmente muito fracamente ocupado (por exemplo, após aplicação do algoritmo de correção de vocoder de fase acima mencionado) , é possível que o espectro propagado possa 5 opcionalmente ser adicionalmente complementado por um sinal distorcido para evitar buracos de freqüência não desejados.
As Figs. 6a a 6d mostram diferentes configurações para o sintetizador de sinal de áudio implementado em um decodificador de áudio.
Na configuração mostrada na Fig. 6a, um fluxo de áudio codificado 345 é introduzido em um des formatador de carga útil do fluxo de bits 350, o qual separa, de um lado, um sinal de_ áudio codificado 355 e, de outro lado, uma informação adicional 375. O sinal de áudio codificado 355 é introduzido, por exemplo, em um decodificador central AAC 360, que gera um sinal de áudio decodificado 105 na primeira banda de freqüência 201. O sinal de áudio 105 é introduzido em um banco QMF de análise de 32 bandas 370, compreendo, por exemplo, 32 bandas de freqüência e que gera o sinal de áudio 10532 no domínio de freqüência. É preferido que o gerador de correção somente forneça sinal de banda alta como o sinal bruto e não forneça o sinal de banda baixa. Se, de modo alternativo, o algoritmo de correção no bloco 100 gerar do mesmo modo o sinal de banda baixa, é preferido para o filtro passa-altas o sinal de entrada no bloco 130a.
O sinal de áudio de domínio de freqüência 10532 é introduzido no gerador de correção 110, que nesta configuração gera a correção dentro do domínio de freqüência (domínio QMF) . A representação espectral do sinal bruto 125 resultante é introduzida em uma ferramenta de SBR 130a, que pode, por exemplo, gerar um patamar de ruído, reconstruir harmônicos ausentes ou efetuar uma filtragem inversa.
Por outro lado, a informação adicional 375 é introduzida em um analisador de fluxo de bits 380, que analisa a informação adicional para obter diferentes sub-informações 385 e introduzi-las, por exemplo, em uma unidade de decodificação e desquantização de Huffman 390 que, por exemplo, extrai a informação de controle 112 e os parâmetros de replicação da banda 10 espectral 132. A informação de controle 112 é introduzida na ferramenta de SBR e os parâmetros de replicação da banda espectral 132 são introduzidos na ferramenta de SBR 130a, bem^como dentro de um ajustador de envelope 130b. O ajustador de envelope 130b é operante para ajustar o envelope para a correção gerada. Como 15 resultado? ~õ ajustador de envelope 130b gera o sinal bruto ajustado 135 e o introduz em um banco de QMF de síntese 140, o qual combina o sinal bruto ajustado 135 com o sinal de áudio no domínio de freqüência 10532. O banco de QMF de síntese pode, por exemplo, compreender 64 bandas de freqüência e gerar, por meio da 20 combinação dos dois sinais (o sinal bruto ajustado 135 e sinal de áudio de domínio de freqüência 10532) o sinal de áudio de síntese 145 (por exemplo, um resultado das amostras PCM, PCM = modulação por codificação de pulsos).
Ademais, a Fig. 6a mostra as ferramentas de SBR 25 130a, que podem implementar métodos conhecidos de replicação da banda espectral para serem utilizados no resultado de dados espectrais de QMF do gerador de correção 110. O algoritmo de correção utilizado no domínio de freqüência, conforme mostrado na
Fig. 6a, podería, por exemplo, empregar o espelhamento simples ou cópia dos dados espectrais dentro do domínio de freqüência (vide Fig. 4a e a Fig. 4b) .
Assim, esta estrutura geral está de acordo com os decodificadores conhecidos na técnica anterior, porém as configurações substituem o gerador de correção convencional por meio do gerador de correção 110, configurado para efetuar diferentes algoritmos de correção adaptados no intuito de aprimorar a qualidade perceptível do sinal de áudio. Ademais, as configurações também podem utilizar um algoritmo de correção dentro do domínio de tempo e não, necessariamente, a correção no domínio de freqüência, conforme mostrado na Fig. 6a.
—— -- — -
A Fig. 6b mostra configurações da presente
invenção, na qual o gerador de correção 110 pode ut ili zar um
15 algoritmo de correção dentro da freqüência , bem como dentro do
domínio de tempo. 0 decodificador , conforme mostrado na Fig. 6b,
compreende novamente o desformatador de carga útil do fluxo de bits 350, o decodificador central AAC 360, o analisar de fluxo de bits 380, bem como a unidade de decodificação e desquantização de 20 Huffman 390. Portanto, na configuração, conforme mostrado na Fig.
6b, o fluxo de áudio codificado 345 é, novamente, introduzido no desformatador de carga útil do fluxo de bits 350, o qual, de um
lado, gera o sinal de áudio codificado 350 e o separa da
informação adicional 375, que é, posteriormente, analisada pelo
25 analisador de fluxo de bits 380 para separar a informação
diferente 385, que é introduzida na unidade de decodificação e desquantização de Huffman 390. Por outro lado, o sinal de áudio codificado 355 é introduzido no decodificador central AAC 360.
As configurações distinguem agora os dois casos: o gerador de correção 110 opera tanto dentro do domínio de freqüência (seguindo linhas pontilhadas de sinal) ou dentro do domínio de tempo (seguindo linhas tracejadas de sinal).
Se o gerador de correção opera no domínio de tempo, o resultado do decodificador central AAC 360 é introduzido no gerador de correção 110 (linha tracejada para o sinal de áudio 105) e seu resultado é transmitido para um banco de filtros de análise 370. 0 resultado do banco de filtros de análise 370 é a representação espectral do sinal bruto 125, que é introduzida nas ferramentas de SBR 130a (que são parte do ajustador de sinal bruto 130), bem como no banco de QMF de síntese 140.
Se, de um lado, o algoritmo de correção utiliza o domínio de freqüência (conforme mostrado na Fig. 6a), o resultado -do-decodif icador central AAC 360“ é ~introduzido no banco de QMF de análise 360 por meio da linha pontilhada para o sinal de áudio 105 que, por sua vez, gera um sinal de áudio de domínio de freqüência 10532 e transmite o sinal de áudio 10532 para o gerador de correção 110 e para o banco de QMF de síntese 140 (linhas pontilhadas). O gerador de correção 110 gera, novamente, uma representação de sinal bruto 125 e transmite este sinal para as ferramentas de SBR 130a.
Portanto, a configuração efetua tanto um primeiro modo de processamento utilizando as linhas pontilhadas (correção de domínio de freqüência) ou um segundo modo de processamento usando as linhas tracejadas (correção de domínio de tempo), onde todas as linhas sólidas, entre outros elementos funcionais, são utilizadas nos dois modos de processamento.
É preferido que o modo de processamento de tempo do gerador de correção (linhas tracejadas) seja de modo que o resultado do gerador de correção inclua o sinal de banda baixa e o sinal de banda alta, ou seja, que o sinal de saida do gerador de correção seja um sinal de banda larga que consiste no sinal de banda baixa e no sinal de banda alta. O sinal de banda baixa é introduzido no bloco 140 e o sinal de banda alta é introduzido no bloco 130a. As separações de banda podem ser efetuadas no banco de análise 370, porém também podem ser efetuadas de modo alternativo. Ademais, o sinal de saida do decodificador AAC pode ser diretamente alimentado no bloco 370, assim a porção de banda baixa do sinal de saida do gerador de correção não é utilizada e a porção de banda baixa original é utilizada no combinador 140.
No modo de processamento de domínio de freqüência (linhas' pontilhadas) ,_ o gerador de correção, preferencialmente, somente fornece o sinal de banda alta, e o sinal de banda baixa original é diretamente alimentado para o bloco 370 para a alimentação do banco de síntese 140. De modo alternativo, o gerador de correção também pode gerar um sinal completo de saída de largura de banda e alimentar o sinal de banda baixa no bloco 140.
Novamente, a unidade de decodificação e desquantização de Huffman 390 gera o parâmetro de replicação da banda espectral 132 e a informação de controle 112, que é introduzida no gerador de correção 110. Ademais, os parâmetros de replicação da banda espectral 132 são transmitidos para o ajustador de envelope 130b, bem como para as ferramentas de SBR 130a. O resultado do ajustador de envelope 130b é o sinal bruto ajustado 135, o qual é combinado no combinador 140 (banco de QMF de síntese) com o sinal de áudio de banda espectral 10532 (para a correção de domínio de freqüência) ou com a representação espectral de sinal bruto 125 (para a correção de domínio de tempo) 5 para gerar o sinal de áudio de síntese 145, o qual, novamente, pode compreender a saída de amostras PCM.
Também na referida configuração, o gerador de correção 110 utiliza um dos algoritmos de correção (como, por exemplo, mostrado nas Figs. 4a a 4d) para gerar o sinal de áudio 10 na segunda banda de freqüência 202 ou na terceira banda de freqüência 203, usando-se o sinal de banda de base na primeira banda de freqüência 201. Somente as amostras de sinal de áudio dentro da primeira banda de freqüência 201 estão codificadas no fluxo de saída codificado 345 e as amostras ausentes são geradas
15. ,por. meio do uso* do- método^der replicação dá bàndá espectral.
A Fig. 6c mostra uma configuração para o algoritmo de correção dentro do domínio de tempo. Em comparação com a Fig. 6a, a configuração, conforme mostrada na Fig. 6c, difere pelo posicionamento do gerador de correção 110 e do banco 20 de QMF de análise 120. Todos os componentes restantes do sistema de decodificação são os mesmos que aquele mostrado na Fig. 6a e, portanto, foi omitida uma descrição repetida aqui.
O gerador de correção 110 recebe o sinal de áudio 105 do decodificador central AAC 360 e, agora, efetua a correção 25 dentro do domínio de tempo para gerar o sinal bruto 115, que é introduzido no conversor de espectro 120 (por exemplo, um banco de QMF de análise compreendendo 64 bandas) . Aparte de várias possibilidades, um algoritmo de correção no domínio de tempo, efetuado pelo gerador de correção 110, resulta em um sinal bruto
115 que compreende uma taxa de amostra dobrada, se o gerador de correção 110 efetua a correção por meio da introdução de amostras adicionais entre as amostras existentes (que estão próximas a 5 valores de zero, por exemplo). A saída do conversor de espectro
120 é a representação espectral de sinal bruto 125, que é introduzida no ajustador de sinal bruto 130, o qual compreende, novamente, de um lado, a ferramenta de SBR 130a e, de outro lado, o ajustador de envelope 130b. Conforme as configurações mostradas 10 anteriormente, a saída do ajustador de envelope compreende o sinal bruto ajustado 135, que é combinado com o sinal de áudio no domínio de freqüência 105f no combinador 140, o qual, novamente, compreende um banco de QMF de síntese de 64 bandas de freqüência, por exemplo.
— -···— pcrtanto/ a diferença principal é que, por exemplo, o espelhamento é efetuado no domínio de tempo e os dados de freqüência superior já estão reconstruídos antes de o sinal 115 ser introduzido no banco de filtros de análise de 64 bandas 120, significando que o sinal já compreende uma taxa amostrada dobrada (na SBR de taxa dual) . Após a referida operação de correção, uma ferramenta normal de SBR pode ser empregada, que pode, novamente, compreender uma filtragem inversa, adição de um patamar de ruído ou adição de harmônicos ausentes. Embora a reconstrução da região de alta freqüência ocorra no domínio de tempo, uma análise/síntese é efetuada no domínio de QMF, assim os mecanismos de SBR restantes ainda podem ser utilizados.
Na configuração da Fig. 6c, o gerador de correção, preferencialmente, fornece um sinal completo de banda compreendendo o sinal de banda baixa e o sinal de banda alta (sinal bruto). De modo alternativo, o gerador de correção somente fornece a porção de banda alta, por exemplo, obtida por meio da filtragem de passa-altas, bem como o banco de QMF 120 é alimentado
diretamente pela saída do decodificador central AAC 105
Em uma configuração adicional, o gerador de
correção 110 compreende uma interface de entrada de domínio de
“ 15 ·’ tempo e/ou uma interface de saída de domínio de tempo (interface de domínio de tempo), bem como o processamento dentro deste bloco pode ocorrer em qualquer domínio, tais como um domínio de QMF ou um domínio de freqüência, tais como DFT, FFT, DCT, DST ou qualquer outro domínio de freqüência. Assim, a interface de entrada de domínio de tempo é conectada a um conversor de tempo/freqüência ou, geralmente, a um conversor para conversão a partir do domínio de ~tempo ‘‘para uma representação espectral. Assim, a representação espectral é processada usando-se, no mínimo, dois algoritmos diferentes de correção que operam nos dados de domínio de freqüência. De modo alternativo, o primeiro algoritmo de correção opera no domínio de freqüência e um segundo algoritmo de correção opera no domínio de tempo. Os dados corrigidos do domínio de freqüência são novamente convertidos para uma representação de domínio de tempo, que são, assim, introduzidos no bloco 120 por meio da interface de saída de domínio de tempo. Na configuração, na qual o sinal na linha 115 não compreende a banda completa, porém somente compreende a banda baixa, a filtragem e, preferencialmente, efetuada no domínio espectral antes da conversão novamente no sinal espectral para o domínio de tempo.
Preferencialmente, a resolução espectral no bloco
110 é superior à resolução espectral obtida pelo bloco 120 . Em uma
configuração, a resolução espectral no bloco 110 é, no mínimo,
duas vezes tão alta quanto no bloco 120.
Por meio do isolamento do algoritmo de correção
em um bloco funcional separado, o qual é implementado por meio desta configuração, é possível aplicar métodos arbitrários de replicação espectral completamente independentes do usodas ferramentas de SBR. Em uma implementação alternativa, tambémé possível gerar o componente de alta freqüência por meiode correção no domínio de tempo paralelo à introdução do sinaldo decodificador AAC no banco de filtros de análise de 32 bandas. A banda de base e os sinais corrigidos serão combinados somente após a análise de QMF.
A Fig. 6d mostra uma configuração, onde a = correção é= re’arlizado “dentrõ “do “ dòmihio de tempo. De modo semelhante à configuração mostrada na Fig. 6c, também na referida configuração a diferença para a Fig. 6a compreende a posição do gerador de correção 110, bem como dos bancos de filtros de análise. Particularmente, o decodificador central AAC 360, o desformatador de carga útil do fluxo de bits 350, bem como o analisador de fluxo de bits 380 e a unidade de decodificação e desquantização de Huffman 390 são os mesmos que na configuração mostrada na Fig. 6a e, novamente, a descrição repetida foi ora omitida.
A configuração, conforme mostrada na Fig. 6d ramifica o resultado do sinal de áudio 105 por meio do decodificador 360 e introduz o sinal de áudio 105 no gerador de correção 110, bem como no banco de QMF de análise de 32 bandas
370. O banco de QMF de análise de 32 bandas 370 (conversor adicional 370) gera uma representação espectral de sinal bruto adicional 123. O gerador de correção 110 realiza, novamente, uma correção dentro do domínio de tempo e gera uma entrada de sinal 5 bruto 115 no conversor de espectro 120, o qual, novamente, compreende um banco de filtros de QMF de análise de 64 bandas. O conversor de espectro 120 gera a representação espectral de sinal bruto 125, a qual, nesta configuração, compreende componentes de freqüência na primeira banda de freqüência 201 e as bandas de freqüência replicadas na segunda ou na terceira banda de freqüência 202, 203. Ademais, esta configuração compreende um somador 124, adaptado para adicionar o resultado do banco de filtros de 'análise de 32 bandas 370 e a representação espectral de sinal bruto 125 para obter uma representação espectral combinada 15 de_ sinais bruto. 12.6-. O -somador 124- pode,‘ Üe^modÕ geral, ser um combinador 124 também configurado para subtrair os componentes de banda de base (componentes na primeira banda de freqüência 201) provenientes da representação espectral de sinal bruto 125. O somador 124 pode, assim, ser configurado para adicionar um sinal 20 invertido ou, de modo alternativo, pode compreender um inversor opcional para inverter o sinal de saída proveniente do banco de filtros de análise de 32 bandas 370.
Após esta subtração de exemplo dos componentes de freqüência na banda de base de freqüência 201, o resultado é, 25 novamente, introduzido na ferramenta de replicação de banda espectral 130a, a qual, por sua vez, encaminha o sinal resultante para o ajustador de envelope 130b. O ajustador de envelope 130b gera, novamente, o sinal bruto ajustado 135, que é combinado no combinador 140 com o resultado do banco de filtros de análise de 32 bandas 370, assim, o combinador 140 combina os componentes de freqüência corrigidos (por exemplo, na segunda e na terceira banda de freqüência, 202 e 203) com o resultado dos componentes de banda de base por meio do banco de filtros de análise de 32 bandas. Novamente, o combinador 140 pode compreender um banco de filtros de QMF de síntese de 64 bandas, que produz o sinal de áudio de síntese, que compreende, por exemplo, amostras PCM de saída.
Na configuração da Fig. 6d, o gerador de correção, preferencialmente, produz um sinal completo de banda que compreende o sinal de banda baixa e o sinal de banda alta (sinal bruto). De modo alternativo, o gerador de correção somente fornece a porção de banda alta, por exemplo, obtida por filtragem de passa-altas para alimentação no bloco 120, e o banco de QMF 370 é alimentado diretamente pelo, resulíado- AAC7 “conforme mostrado na Fig. 6d. Ademais, o subtrator 124 não é exigido e o resultado do bloco 120 é alimentado no bloco 130a diretamente, uma vez que este sinal somente compreende a banda alta. De modo adicional, o bloco 370 não precisa do resultado para o subtrator 124.
Em uma configuração adicional, o gerador de correção 110 compreende uma interface de entrada de domínio de tempo e/ou uma interface de saída de domínio de tempo (interface de domínio de tempo), bem como o processamento dentro deste bloco pode ocorrer em qualquer domínio, como um domínio QMF ou um domínio de freqüência, tais como DFT, FFT, DCT, MDCT, DST ou qualquer outro domínio de freqüência. Em seguida, a interface de entrada de domínio de tempo é conectada a um conversor de tempo/freqüência ou, geralmente, a um conversor para converter do domínio de tempo para uma representação espectral. Em seguida, a representação espectral é processada usando-se, no mínimo, dois algoritmos diferentes de correção que operam sobre dados de domínio de freqüência. De modo alternativo, um primeiro algoritmo de correção opera no domínio de freqüência e um segundo algoritmo de correção opera em um domínio de tempo. Os dados corrigidos de domínio de freqüência são novamente convertidos em uma representação de domínio de tempo que é, em seguida, introduzida no bloco 120 por meio da interface de saída de domínio de tempo.
De modo preferido, a resolução espectral no bloco 110 é superior à resolução espectral obtida pelo bloco 120. Em uma configuração, a resolução espectral no bloco 110 é, no mínimo, duas vezes tão'altá*quanto no bloco 120.
As Figs. 6a a 6d abrangem a estrutura do decodificador e, espe_cialmente,. a - incorporação “dd~ gerador de correção 110 dentro da estrutura do decodificador. Para que o decodificar e, especialmente, o gerador de correção 110 seja capaz de gerar ou replicar componentes de freqüência superiores, o codificador por transmitir informações adicionais para o decodificador, onde, de um lado, a informação adicional 112 fornece a informação de controle que pode, por exemplo, ser utilizada para corrigir o algoritmo de correção e, além disso, o parâmetro de replicação da banda espectral 132 a ser utilizado pelas ferramentas de replicação da banda espectral 130a.
Configurações adicionais compreendem também um método para gerar um sinal de áudio de síntese 145 que tem uma primeira banda de freqüência e uma segunda banda de freqüência replicada 202, derivada da primeira banda de freqüência 201. O método compreende efetuar, no mínimo, dois algoritmos diferentes de correção, convertendo o sinal bruto 115 em uma representação espectral de sinal bruto 125, processando a representação espectral de sinal bruto 125. Cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência replicada 202, usando um sinal de áudio 105 que tem componentes de sinal na primeira banda de freqüência 201. A correção é efetuada de modo que um, de no mínimo dois algoritmos diferentes de correção, seja selecionado em resposta para uma 10 informação de controle 112, para uma primeira porção de tempo, e o outro de, no mínimo, dois algoritmos diferentes de correção é selecionado em resposta à informação de controle 112 para uma segunda porção de tempo diferente da primeira porção de tempo para obter o sinal bruto 115 para a primeira e para a segunda porção de T5 tempo— O processamento-da—representação espectral de sinal bruto— 125 é efetuado em resposta aos parâmetros de replicação da banda espectral do domínio espectral 132 para obter uma representação espectral de sinal bruto ajustado 135. Finalmente, o método compreende uma combinação de sinal de áudio 105 que tem 20 componentes de sinal na primeira banda 201 ou um sinal derivado do sinal de áudio 105, com a representação espectral de sinal bruto ajustado 135, ou com um sinal adicional derivado da representação espectral de sinal bruto ajustado 135 para obter o sinal de áudio de síntese 145.
25 As Figs . 7a, 7b e 7c compreendem configurações do
codificador.
A Fig. 7a mostra um codificador que codifica um
sinal de áudio 305 para gerar o sinal de áudio codificado 345, o
qual, por sua vez, é introduzido nos decodificadores, conforme mostrado nas Figs. 6a a 6d. O codificador, conforme mostrado na Fig. 7a, compreende um filtro passa-baixas 310 (ou um filtro seletivo de freqüência geral) e um filtro de passa-altas 320, no qual o sinal de áudio 305 é introduzido. O filtro de passa-baixas 310 separa o componente de sinal de áudio dentro da primeira banda de freqüência 201, caracterizado pelo filtro de passa-altas 320 que separa os componentes restantes de freqüência, por exemplo, os componentes de freqüência na segunda banda de freqüência 202 e nas bandas adicionais de freqüência. Portanto, o filtro de passabaixas 310 gera um sinal filtrado por passa-baixas 315 e filtro de passa-altas 320 produz um sinal de áudio filtrado por passa-altas 325. 0 sinal de áudio filtrado por passa-baixas 315 é introduzido em um codificador de áudio 330, o qual pode, por exemplo, compreender um codificador AAC._ -- — _ __ ,
Ademais, o sinal de áudio filtrado por passa·) baixas 315 é introduzido em um gerador de informação de controle 340, o qual é adaptado para gerar a informação de controle 112, assim um algoritmo de correção preferido pode ser identificado, o qual, por sua vez, é selecionado pelo gerador de correção 110. O sinal de áudio filtrado por passa-altas 325 é introduzido em um gerador de dados de banda espectral 328 que gera os parâmetros de banda espectral 132, os quais são, de um lado, introduzidos no seletor de correção. Ademais, o codificador da Fig. 7a compreende um formatador 343 que recebe o sinal de áudio codificado do codificador de áudio 330, o parâmetro de replicação da banda espectral 132 do gerador de dados de replicação da banda espectral 328, bem como a informação de controle 112 do gerador de informação de controle 340.
Os parâmetros de banda espectral 132 podem depender do método de correção, ou seja, para diferentes algoritmos de correção, os parâmetros de banda espectral podem ou não diferir, e pode não ser necessário determinar o parâmetro de SBR 132 para todos os algoritmos de correção (a Fig. 7c abaixo mostra uma configuração, onde somente um conjunto de parâmetros de SBR 132 precisa ser calculado) . Portanto, o gerador de banda espectral 328 pode gerar diferentes parâmetros de banda espectral
132 para diferentes algoritmos de correção e, portanto, o
parâmetro de banda espectral 132 pode compreender, primeiro, os
parâmetros de SBR 132a adaptados para o primeiro algoritmo de
— -
correção; segundo, os parâmetros de SBR 132b adaptados para o
segundo algoritmo de correção; terceiro, os parâmetros de SBR 132c adaptados para o terceiro algoritmo- de correção —e — assim- por diante.
A Fig. 7b mostra, em mais detalhes, uma configuração para o gerador de informação de controle 340. O gerador de informação de controle 340 recebe o sinal filtrado por passa-baixas 315 e os parâmetros de SBR 132. O sinal filtrado por passa-baixas 315 pode ser introduzido em uma primeira unidade de correção 342a, em uma segunda unidade de correção 342b, e em outras unidades de correção (não mostradas). O número de unidades de correção 342 pode, por exemplo, estar de acordo com o número de algoritmos de correção, os quais podem ser realizados por meio do gerador de correção 110 no decodificador. o resultado das unidades de correção 342 compreende um primeiro sinal de áudio corrigido 344a para a primeira unidade de correção 342a, um segundo sinal de áudio corrigido 344b para a segunda unidade de correção 342b e assim por diante. Os sinais de áudio corrigidos 344, que compreendem componentes brutos na segunda banda de freqüência 202, são introduzidos em um bloco de ferramentas de replicação da banda espectral 346. Novamente, o número de blocos de ferramentas de replicação da banda espectral 346, pode, por exemplo, ser igual ao número de algoritmos de correção ou ao número de unidades de correção 342. Os parâmetros de replicação da banda espectral 132 também são introduzidos nos blocos de ferramentas de replicação da banda espectral 346 (bloco de ferramentas de SBR), assim o
primeiro bloco de ferramentas de SBR 346a recebe os primeiros
parâmetros de SBR 132a e o primeiro sinal corrigido 344a. 0
-- — . ri— — ' = — .
segundo bloco de ferramentas de SBR 346b recebe os segundos
parâmetros de SBR 132b e o segundo sinal corri gido 344b. Os blocos
de ferramentas de replicação cíà 5ãnda“ espectral ~346~geram o‘ sinal — de áudio replicado 347 que compreende componentes de freqüência superior dentro da segunda e/ou terceira banda de freqüência 202 e 203, com base nos parâmetros de replicação 132.
Finalmente, o gerador de informação de controle
340 compreende unidades de comparação adaptadas para comparar o sinal de áudio original 305 e, especialmente, os componentes de freqüência superior do sinal de áudio 305 com o sinal de áudio replicado 347. Novamente, a comparação pode ser efetuada para cada algoritmo de correção, assim a primeira unidade de comparação 348a compara o sinal de áudio 305 com um primeiro sinal de áudio replicado 347a produzido pelo primeiro bloco de ferramentas de SBR 346a.
De modo similar, uma segunda unidade de comparação 348b compara o sinal de áudio 305 com um segundo sinal de áudio replicado 347b proveniente do segundo bloco de ferramentas de SBR 346b. As unidades de comparação 348 determinam um desvio dos sinais de áudio replicados 347, em bandas de alta freqüência do sinal de áudio original 305, assim, finalmente, uma unidade de avaliação 349 pode comparar o desvio entre o sinal de áudio original 305 com os sinais de áudio replicados 347 usando diferentes algoritmos de correção e determina, a partir dele, um algoritmo de correção preferido ou um número adequado ou não adequado de algoritmos de correção. A informação de controle 112 ‘ compreende informações que permitem identificar um dos algoritmos de correção preferidos. A informação de controle 112 pode, por exemplo, compreender um número de identificação para o algoritmo de correção preferido, que pode ser determinado com base no último desvio entre o sinal dê áudio- original. 305 e o -sinal de áudio replicado 347. De modo alternativo, a informação de controle 112 pode fornecer um número de algoritmos de correção ou uma classificação de algoritmos de correção, que fornecem concordância suficiente entre o sinal de áudio 305 e o sinal de áudio corrigido í 20 347. A avaliação pode, por exemplo, ser efetuada em relação à qualidade perceptível, assim o sinal de áudio replicado 347 é, em uma situação ideal, passível de ser indistinguível ou praticamente
indistinguível pelo ouvido humano, a partir do sinal de áudio
original 305.
25 A Fig. 7c mostra uma configuração adicional para
o codificador no qual, novamente, o sinal de áudio 305 é
introduzido, porém onde, de modo opcional, também metadados 306 são introduzidos no codificador. O sinal de áudio original 305 é, novamente, introduzido em um filtro de passa—baixas 310, bem como em um filtro de passa-altas 320. O resultado do filtro de passabaixas 310 é, novamente, inserido em um codificador de áudio 330 e o resultado do filtro de passa-altas 320 é introduzido em um gerador de dados de SBR 328. Ademais, o codificador compreende uma unidade de processamento de metadados 309 e/ou uma unidade de análise 307 (ou meios para análise), das quais o resultado é enviado para o gerador de informação de controle 340. A unidade de processamento de metadados 309 é configurada para analisar os metadados 306 em relação a um algoritmo de correção adequado. A unidade de análise 307 pode, por exemplo, determinar o número e a potência do transiente ou dos segmentos de trem de pulso ou de não trem de pulso, dentro do sinal de áudio 305. Com base no resultado da unidade de processamento de metadados 309 e/ou no resultado da ferramenta de análise 307, o géradõr da informação-de-contro-te—S40 pode, novamente, determinar um algoritmo de correção preferido ou gerar uma classificação de algoritmo de correção e codificar a referida informação dentro da informação de controle 112. O formatador 343 combinará, novamente, a informação de controle 112, o parâmetro de replicação da banda espectral 132, bem como o sinal de áudio codificado 355 dentro de um fluxo de áudio codificado 345.
Os meios para a análise 307 fornecem, por exemplo, a característica de sinal de áudio e podem ser adaptados para identificar componentes de sinal não harmônico para uma porção de tempo que tem um grau de voz ou um componente de sinal harmônico para uma porção de tempo distinta. Se o sinal de áudio 305 é puramente fala ou voz, o grau de voz é alto, caracterizado k' pela mistura de voz e, por exemplo, música, o grau de voz é inferior. O cálculo do parâmetro de SBR 132 pode ser efetuado de acordo com esta característica e o algoritmo de correção preferido.
Ainda outra configuração compreende um método para um fluxo de dados 345 que compreende componentes de um sinal de áudio 305 em uma primeira banda de freqüência 201, informação de controle 112 e parâmetros de replicação de banda espectral 132. O método compreende uma seletiva de freqüência que filtra o sinal de áudio 305 para gerar os componentes do sinal de áudio 305 na primeira banda de freqüência 201. O método compreende ainda uma geração de parâmetro de replicação da banda espectral 132 provenientes de componentes do sinal de áudio 305 em uma segunda banda de freqüência 202. Finalmente, o método compreende uma geração de informação de controle” 112_queidentifica um.· algoritmo de parâmetro preferido proveniente do primeiro ou do segundo algoritmo diferente de correção, onde cada algoritmo de correção gera um sinal bruto 115 que tem componentes de sinal na segunda banda de freqüência replicada 202 usando os componentes do sinal de áudio 305 na primeira banda de freqüência 201.
Embora algumas configurações, especificamente nas Figs. 6a a 6d, ilustrem que a combinação entre a banda baixa e a banda alta ajustada é efetuada no domínio de freqüência, deve ser notado que a combinação também pode ser implementada no domínio de tempo. Para esta finalidade, o sinal de saída do decodificador central pode ser utilizado (no resultado de uma etapa de retardo potencialmente necessária para compensar um retardo de processamento ocorrido pela correção e pelo ajuste) no domínio de ί
tempo e na banda alta ajustada no domínio de banco de filtros pode ser convertida em domínio de tempo como um sinal que não tem uma porção de banda baixa e que tem uma porção de banda alta. Na configuração da Fig. 6, este sinal somente pode compreender as 32 sub-bandas mais altas, bem como uma conversão deste sinal para o domínio de tempo resulta em um sinal de banda alta de domínio de tempo. Assim, os dois sinais podem ser combinados no domínio de tempo, tais como por meio de uma adição amostra por amostra para obter, por exemplo, amostras PCM como um sinal de saída para ser convertido de modo digital/analógico e para alimentar um altofalante .
Embora alguns aspectos foram descritos no contexto de um aparelho, fica claro que estes aspectos também representam uma descrição do método respectivo, onde um bloco ou um dispositivo se refere a uma etapa ’ de métòoo ' Õü“ a “uma característica de uma etapa de método. De modo análogo, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco, item ou características respectivos de um aparelho pertinente.
O sinal de áudio codificado ou bitstream inventado pode ser armazenado em um meio de armazenamento digital ou podem ser transmitidos em um meio de transmissão, tais como meio de transmissão sem fio ou um meio de transmissão por cabo, como a Internet.
Conforme determinados requisitos de implementação, as configurações da invenção podem ser implementadas em hardware ou software. A implementação pode ser efetuada utilizando-se um meio de armazenamento digital, por exemplo, um disco flexível, um DVD, CD, CD-ROM, PROM, EPROM, EEPROM ou um cartão de memória, que contem com sinais de controle que sejam eletronicamente passíveis de leitura do conteúdo armazenado, que sejam compatíveis (ou sejam capazes de compatibilidade) com um sistema programável de computador, para que assim o respectivo método seja realizado.
Algumas configurações, de acordo com a invenção, compreendem um dispositivo para o transporte de dados que conte com sinais de controle que sejam eletronicamente passíveis de leitura, os quais sejam compatíveis com um sistema programável de computador, para que assim um dos métodos ora descritos seja realizado. De modo geral, as configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operacional para efetuar um dos métodos, quando o pródubÕ do programa de computador seja executado em um computador. O código de programa pode, por exemplo, ser armazenado em um dispositivo de transporte passível de leitura em uma máquina. Outras configurações compreendem o programa de computador para a realização de um dos métodos ora descritos, armazenados em um dispositivo de transporte passível de leitura em uma máquina, ou seja, uma configuração do método de invenção é, portanto, um programa de computador que tem um código de programa para efetuar um dos métodos ora descritos, quando o programa de computador é executado em um computador. Uma configuração adicional dos métodos de invenção é, portanto, um dispositivo de transporte de dados (ou um meio de armazenamento digital, ou um meio de leitura em computador) que compreende, o conteúdo gravado em si, o programa de computador para efetuar um jp *' Μ ίΛ <48 dos métodos ora descritos. Uma configuração adicional do método de invenção é, portanto, um fluxo de dados ou uma seqüência de sinais que representam o programa de computador para efetuar um dos métodos ora descritos. O fluxo de dados ou a seqüência de sinais 5 pode, por exemplo, ser configurada para ser transferida via conexão de comunicação de dados, por exemplo, via Internet. Uma configuração adicional compreende um meio de processamento, por exemplo, um computador, um dispositivo lógico programável, configurado para ou adaptado para efetuar um dos métodos ora 10 descritos. Uma configuração adicional compreende um computador que tem instalado o programa de computador para efetuar um dos métodos ora descritos. Em algumas configurações, um dispositivo lógico programável (por exemplo, um circuito FPGA - Field Programmable Gate Array) pode ser utilizado para efetuar algumas ou todas as 15 funcionalidades dos métodos ora descritos. Êm algumas configurações, um circuito FPGA pode ser compatível com um microprocessador para efetuar um dos métodos ora descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
As configurações acima descritas são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações dos arranjos e dos detalhes ora descritos serão óbvios para o demais especialistas na técnica. Portanto, é pretendida a limitação somente pelo escopo das 25 reivindicações de patente pendentes e não por detalhes específicos apresentado pela forma de descrição e explicação das configurações ora contidas.

Claims (13)

  1. R E I V I N D I C A Ç Õ E S
    1. Sintetizador de sinal de áudio para gerar um sinal de síntese de áudio (145) tendo uma primeira faixa de frequência e uma segunda faixa de frequência sintetizada (202) derivada da primeira faixa de frequência (201), compreendendo:
    um gerador de conexões (110) para a execução de pelo menos dois diferentes algoritmos de conexão, caracterizado por cada algoritmo de conexão gera um sinal bruto (115) tendo componentes de sinal na segunda faixa de frequências sintetizada (202) usando um sinal de áudio (105) com componentes de sinal na primeira faixa de frequência (201), e no qual o gerador de conexões (110) é adaptado para selecionar pelo menos um dos dois diferentes algoritmos de conexão em resposta a uma informação de controle (112) para uma primeira porção de tempo e outra de pelo menos dois diferentes algoritmos de conexão em resposta à informação de controle (112) para uma porção de tempo para obter o sinal bruto (115) para a primeira e a segunda porção do tempo fora de um domínio espectral;
    um conversor espectral (120) para converter o sinal bruto (115) em uma representação espectral do sinal bruto (125);
    um processador de sinal bruto (130) para o processamento da representação espectral do sinal bruto (125) em resposta aos parâmetros de replicação da faixa espectral do domínio espectral (132) para obter uma representação espectral do sinal bruto ajustado (135), e um combinador (140) para combinar o sinal de áudio (105) que possui componentes na primeira faixa (201) ou um sinal derivado do sinal de áudio (105) com a representação ajustada do sinal espectral bruto (135) ou com um sinal adicional derivado a partir da representação espectral do
    Petição 870190125295, de 29/11/2019, pág. 9/195
  2. 2/6 sinal bruto ajustado (135) para obter o sinal de áudio de síntese (145).
    2. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por pelo menos dois algoritmos de conexão são diferentes um do outro pelo fato de que um componente de sinal do sinal de áudio (105) em uma frequência na primeira faixa de frequências (201) está conectada a uma frequência alvo na segunda faixa de frequências (202), e a frequência alvo é diferente para ambos os algoritmos de conexão.
  3. 3. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, em que o gerador de conexão (110) é adaptado para operar no domínio do tempo para ambos os algoritmos de conexão ou em que o gerador de conexão consiste em um conversor para converter um sinal de domínio de tempo em uma representação espectral, um conversor para converter um sinal na representação espectral no domínio do tempo e uma interface de saída no domínio do tempo, caracterizado por o gerador de conexão (110) é adaptado para operar no domínio espectral, para pelo menos um algoritmo de conexão.
  4. 4. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, em que o gerador de conexão (110) é adaptado para gerar o sinal bruto (115) de tal forma que o sinal bruto (115) compreende componentes adicionais de sinal na primeira faixa de frequência (201) tendo uma taxa de amostragem, que é maior que uma taxa de amostragem do sinal de áudio (105) de entrada para o gerador de conexão (110), caracterizado por o conversor espectral é adaptado para converter os componentes do sinal na segunda faixa de frequências (202) e componentes adicionais de sinal da primeira faixa de frequência (201) na representação espectral do sinal bruto (125).
    Petição 870190125295, de 29/11/2019, pág. 10/195
    3/6
  5. 5. Sintetizador de sinal de áudio, de acordo com a reivindicação 4, caracterizado por compreender um conversor espectral adicional (370) e um combinador adicional (124), o conversor espectral adicional (370) é adaptado para converter o sinal de áudio (105) tendo componentes de sinal na primeira faixa de frequências ( 201) em uma representação espectral de outro sinal bruto (123), e o combinador adicional (124) é adaptado para combinar a representação espectral do sinal bruto (125) e a representação espectral adicional do sinal bruto (123) para obter uma representação espectral combinada do sinal bruto (126) e em que o processador de sinal bruto (130) é adaptado para processar a representação espectral combinada do sinal bruto(126).
  6. 6. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o combinador (140) é adaptado para uso como sinal derivado do sinal de áudio (105) a representação espectral adicional do sinal bruto (123) .
  7. 7. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o sinal de áudio (105) e as informações de controle (112) são codificados em um fluxo de dados, que compreende ainda um desformatador, o desformatador configurado para obter as informações de controle (112) a partir do fluxo de dados.
  8. 8. Sintetizador de sinal de áudio, de acordo com a reivindicação 1, caracterizado por o sinal de áudio e o parâmetro de replicação de faixa espectral (132) são codificados em um fluxo de dados, e em que o processador de sinal bruto (130) é adaptado para obter o parâmetro de replicação de faixa espectral (132 ) do fluxo de dados.
  9. 9. Codificador de sinal de áudio para a geração de um sinal de áudio (305) um fluxo de dados (345) compreendendo componentes do sinal de áudio (305) em uma
    Petição 870190125295, de 29/11/2019, pág. 11/195
    4/6 primeira faixa de frequências (201), informações de controle (112) e os parâmetros de replicação de faixa espectral (132), caracterizado por compreender:
    um filtro seletivo de frequências (310) para gerar os componentes do sinal de áudio (305) na primeira faixa de frequência (201);
    um gerador para gerar o parâmetro de replicação de faixa espectral (132) dos componentes do sinal de áudio (305) em uma segunda faixa de freqüências (202);
    um gerador de informações de controle (340) para gerar a informação de controle (112), a informação de controle (112) identifica um algoritmo preferido de conexão de um primeiro ou um segundo algoritmo de conexão diferente, em que cada algoritmo de conexão gera um sinal bruto (115) que possui componentes de sinal na segunda faixa de frequências replicada (202) utilizando os componentes do sinal de áudio (305) da primeira faixa de freqüência (201),
  10. 10. Codificador de sinal de áudio, de acordo com a reivindicação 9, caracterizado por compreender adicionalmente um meio para análise (307) do sinal de áudio (305) para fornecer a característica do sinal de áudio, o meio de análise (307) é adaptado para identificar componentes não harmônicos de sinal para uma porção de tempo com um grau de voz ou componente de sinal harmônico para uma porção de tempo distinta.
  11. 11. Codificador de sinal de áudio de acordo com a reivindicação 9, caracterizado por o gerador de informação de controle (340) é adaptado para identificar o algoritmo de conexão preferido, comparando o sinal de áudio (305) com os sinais de áudio da conexão (347) para o primeiro e segundo algoritmos de conexão, onde sinais de áudio
    Petição 870190125295, de 29/11/2019, pág. 12/195
    5/6 conectados diferentemente (347) são derivados de diferentes sinais brutos (344) relacionados ao primeiro e segundo algoritmos de conexão aplicando o ajuste do sinal bruto em resposta a parâmetros de replicação de faixa espectral (132) com uma ferramenta de replicação de faixa espectral (346).
  12. 12. Método para gerar uma síntese de sinal de áudio (145) tendo uma primeira e faixa de frequência e uma segunda faixa de frequência duplicada (202) derivada da primeira faixa de frequência (201), compreendendo:
    executando pelo menos dois diferentes algoritmos de conexão, caracterizado por cada algoritmo de conexão gera um sinal bruto (115) tendo componentes de sinal na segunda faixa de frequências replicada (202) usando um sinal de áudio (105) que tem componentes de sinal na primeira faixa de frequências (201), e em que a conexão é feita de tal forma que um de pelo menos dois diferentes algoritmos de conexão é selecionado em resposta a uma informação de controle (112) para uma primeira porção de tempo e o outro de pelo menos dois diferentes algoritmos de conexão é selecionado em resposta às informações de controle (112) para uma segunda porção diferente de tempo que a primeira porção de tempo para obter o sinal bruto (115) para a primeira e a segunda porção de tempo;
    convertendo o sinal bruto (115) em uma representação espectral do sinal bruto (125);
    processando a representação espectral do sinal bruto (125) em resposta ao domínio espectral parâmetros de replicação de faixa espectral (132) para obter uma representação espectral do sinal bruto ajustado (135), e combinando o sinal de áudio (105) que possui componentes na primeira faixa (201) ou um sinal derivado do
    Petição 870190125295, de 29/11/2019, pág. 13/195
    6/6 sinal de áudio (105) com a representação ajustada do sinal espectral bruto (135) ou com um sinal adicional derivado a partir da representação espectral do sinal bruto ajustado (135) para obter o sinal de áudio de síntese (145).
  13. 13. Um método para a geração de um fluxo de dados (345) compreendendo componentes do sinal de áudio (305) em uma primeira faixa de freqüências (201), informação de controle (112) e os parâmetros de replicação de faixa espectral (132), caracterizado por compreender:
    filtragem seletiva de frequências de sinal de áudio (305) para gerar os componentes do sinal de áudio (305) na primeira faixa de frequência (201);
    gerando o parâmetro de replicação de faixa espectral (132) dos componentes do sinal de áudio (305) em uma segunda faixa de frequências (202);
    gerando a informação de controle (112) que identifica um algoritmo preferido de conexão de um primeiro ou um segundo algoritmo de conexão diferente, em que cada algoritmo de conexão gera um sinal bruto (115) que possui componentes de sinal na segunda faixa de frequências replicada (202) utilizando os componentes do sinal de áudio (305) da primeira faixa de frequência (201).
BRPI0910792-4A 2008-07-11 2009-06-19 "sintetizador de sinal de áudio e codificador de sinal de áudio" BRPI0910792B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7983908P 2008-07-11 2008-07-11
US61/079,839 2008-07-11
US10382008P 2008-10-08 2008-10-08
US61/103,820 2008-10-08
PCT/EP2009/004451 WO2010003539A1 (en) 2008-07-11 2009-06-19 Audio signal synthesizer and audio signal encoder

Publications (2)

Publication Number Publication Date
BRPI0910792A2 BRPI0910792A2 (pt) 2015-10-06
BRPI0910792B1 true BRPI0910792B1 (pt) 2020-03-24

Family

ID=41120013

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0910792-4A BRPI0910792B1 (pt) 2008-07-11 2009-06-19 "sintetizador de sinal de áudio e codificador de sinal de áudio"

Country Status (16)

Country Link
US (3) US8731948B2 (pt)
EP (1) EP2301026B1 (pt)
JP (1) JP5244971B2 (pt)
KR (1) KR101223835B1 (pt)
CN (1) CN102089816B (pt)
AR (1) AR072864A1 (pt)
AU (1) AU2009267525B2 (pt)
BR (1) BRPI0910792B1 (pt)
CA (1) CA2730198C (pt)
CO (1) CO6341675A2 (pt)
ES (1) ES2796552T3 (pt)
MX (1) MX2011000372A (pt)
RU (1) RU2491658C2 (pt)
TW (1) TWI441162B (pt)
WO (1) WO2010003539A1 (pt)
ZA (1) ZA201009208B (pt)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2301026B1 (en) 2008-07-11 2020-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal synthesizer and audio signal encoder
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
HUE064767T2 (hu) * 2008-12-15 2024-04-28 Fraunhofer Ges Forschung Audió sávszélesség kiterjesztés dekódoló, megfelelõ eljárás és számítógépi program
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
CN101566940B (zh) * 2009-05-25 2012-02-29 中兴通讯股份有限公司 实现无线数据终端通用串行总线音频传输的方法及装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
JP5671823B2 (ja) * 2010-03-24 2015-02-18 株式会社Jvcケンウッド 高調波生成方法、高調波生成装置、及び、プログラム
PT2559029T (pt) * 2010-04-13 2019-05-23 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Wss E V Método e codificador e descodificador para reprodução sem lacunas de um sinal de áudio
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN103403799B (zh) 2010-10-06 2015-09-16 弗兰霍菲尔运输应用研究公司 用于针对合成统一语音和音频编解码器(usac)处理音频信号和提供较高时间粒度的设备和方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
KR101572034B1 (ko) 2011-05-19 2015-11-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 오디오 코딩 방식들의 포렌식 검출
EP2745499B1 (en) * 2011-08-17 2019-03-27 Telefonaktiebolaget LM Ericsson (publ) Mechanism for dynamic signaling of encoder capabilities
EP3544006A1 (en) 2011-11-11 2019-09-25 Dolby International AB Upsampling using oversampled sbr
US9380320B2 (en) * 2012-02-10 2016-06-28 Broadcom Corporation Frequency domain sample adaptive offset (SAO)
US9212946B2 (en) * 2012-06-08 2015-12-15 General Electric Company Campbell diagram displays and methods and systems for implementing same
KR101920029B1 (ko) * 2012-08-03 2018-11-19 삼성전자주식회사 모바일 장치 및 제어방법
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CA2899134C (en) * 2013-01-29 2019-07-30 Frederik Nagel Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
US9060223B2 (en) * 2013-03-07 2015-06-16 Aphex, Llc Method and circuitry for processing audio signals
CA2948694C (en) * 2013-04-05 2019-02-05 Dolby International Ab Audio encoder and decoder
EP4300488A3 (en) * 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CA2934602C (en) 2013-12-27 2022-08-30 Sony Corporation Decoding apparatus and method, and program
US20150350784A1 (en) * 2014-04-03 2015-12-03 Uma Satish Doshi Music adaptive speaker system and method
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
CN112002337A (zh) 2015-03-03 2020-11-27 杜比实验室特许公司 用于对音频信号进行处理的方法、装置和设备
TWI693595B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CA3238620A1 (en) * 2018-04-25 2019-10-31 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
JP7252976B2 (ja) 2018-04-25 2023-04-05 ドルビー・インターナショナル・アーベー 後処理遅延低減との高周波再構成技術の統合
GB202203733D0 (en) * 2022-03-17 2022-05-04 Samsung Electronics Co Ltd Patched multi-condition training for robust speech recognition
CN114882867B (zh) * 2022-04-13 2024-05-28 天津大学 基于滤波器组频率区分的深度网络波形合成方法及装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5898605A (en) * 1997-07-17 1999-04-27 Smarandoiu; George Apparatus and method for simplified analog signal record and playback
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
WO2003046891A1 (en) * 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
JP3864098B2 (ja) 2002-02-08 2006-12-27 日本電信電話株式会社 動画像符号化方法、動画像復号方法、及びこれらの方法の実行プログラムとこれらの実行プログラムを記録した記録媒体
BR0305555A (pt) 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
ATE449405T1 (de) 2002-09-04 2009-12-15 Microsoft Corp Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus
DE10252327A1 (de) * 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP4241417B2 (ja) 2004-02-04 2009-03-18 日本ビクター株式会社 算術復号化装置、および算術復号化プログラム
CN1926610B (zh) 2004-03-12 2010-10-06 诺基亚公司 合成单声道音频信号的方法、音频解码器和编码系统
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
DE602005013906D1 (de) * 2005-01-31 2009-05-28 Harman Becker Automotive Sys Bandbreitenerweiterung eines schmalbandigen akustischen Signals
JP4438663B2 (ja) 2005-03-28 2010-03-24 日本ビクター株式会社 算術符号化装置及び算術符号化方法
KR100713366B1 (ko) 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP4211780B2 (ja) 2005-12-27 2009-01-21 三菱電機株式会社 デジタル信号符号化装置、デジタル信号復号装置、デジタル信号算術符号化方法、およびデジタル信号算術復号方法
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
JP2007300455A (ja) 2006-05-01 2007-11-15 Victor Co Of Japan Ltd 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法
WO2007148925A1 (en) * 2006-06-21 2007-12-27 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
JP2008098751A (ja) 2006-10-06 2008-04-24 Matsushita Electric Ind Co Ltd 算術符号化装置及び算術復号化装置
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8015368B2 (en) * 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
EP2301026B1 (en) 2008-07-11 2020-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal synthesizer and audio signal encoder
PT3573056T (pt) 2008-07-11 2022-10-24 Fraunhofer Ges Forschung Codificador de áudio e descodificador de áudio

Also Published As

Publication number Publication date
MX2011000372A (es) 2011-05-19
RU2491658C2 (ru) 2013-08-27
US20180350387A1 (en) 2018-12-06
TW201009807A (en) 2010-03-01
AR072864A1 (es) 2010-09-29
US8731948B2 (en) 2014-05-20
AU2009267525A1 (en) 2010-01-14
ES2796552T3 (es) 2020-11-27
KR20110040817A (ko) 2011-04-20
KR101223835B1 (ko) 2013-01-17
RU2011101616A (ru) 2012-07-27
CA2730198A1 (en) 2010-01-14
AU2009267525B2 (en) 2012-12-20
US10522168B2 (en) 2019-12-31
BRPI0910792A2 (pt) 2015-10-06
EP2301026A1 (en) 2011-03-30
CO6341675A2 (es) 2011-11-21
EP2301026B1 (en) 2020-03-04
CN102089816A (zh) 2011-06-08
CN102089816B (zh) 2013-01-30
JP2011527447A (ja) 2011-10-27
US20140222434A1 (en) 2014-08-07
CA2730198C (en) 2014-09-16
JP5244971B2 (ja) 2013-07-24
US10014000B2 (en) 2018-07-03
TWI441162B (zh) 2014-06-11
ZA201009208B (en) 2011-10-26
US20110173006A1 (en) 2011-07-14
WO2010003539A1 (en) 2010-01-14

Similar Documents

Publication Publication Date Title
US10522168B2 (en) Audio signal synthesizer and audio signal encoder
US9818418B2 (en) High frequency regeneration of an audio signal with synthetic sinusoid addition
PT2888737T (pt) Aparelho e método para reproduzir um sinal de áudio, aparelho e método para gerar um sinal de áudio codificado, programa de computador e sinal de áudio codificado
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
PT2359366T (pt) Codificador de áudio e descodificador de extensão de largura de banda
BR122022012517B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR112012022574B1 (pt) Aparelho e método para processar um sinal de áudio de entrada usando bancos de filtro em cascata
BR122023025649A2 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua
JP2004053895A (ja) オーディオ復号装置と復号方法およびプログラム
JP6663996B2 (ja) 符号化されたオーディオ信号を処理するための装置および方法
AU2015203736B2 (en) Audio encoder and bandwidth extension decoder
BR122012021663A2 (pt) Dispositivo de codificação de voz, dispositivo de decodificação de voz, método de codificação de voz, método de decodificação de voz, programa de codificação de voz e programa de decodificação de voz

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 24/03/2020, OBSERVADAS AS CONDICOES LEGAIS.