BR112017000852B1 - Aparelho e método para gerar um sinal melhorado utilizando enchimento de ruído independente - Google Patents

Aparelho e método para gerar um sinal melhorado utilizando enchimento de ruído independente Download PDF

Info

Publication number
BR112017000852B1
BR112017000852B1 BR112017000852-1A BR112017000852A BR112017000852B1 BR 112017000852 B1 BR112017000852 B1 BR 112017000852B1 BR 112017000852 A BR112017000852 A BR 112017000852A BR 112017000852 B1 BR112017000852 B1 BR 112017000852B1
Authority
BR
Brazil
Prior art keywords
spectral
noise
region
values
source
Prior art date
Application number
BR112017000852-1A
Other languages
English (en)
Other versions
BR112017000852A2 (pt
Inventor
Sascha Disch
Ralf Geiger
Andreas NIEDERMEIER
Matthias Neusinger
Konstantin Schmidt
Stephan Wilde
Benjamin SCHUBERT
Christian Neukam
Original Assignee
Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112017000852A2 publication Critical patent/BR112017000852A2/pt
Publication of BR112017000852B1 publication Critical patent/BR112017000852B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Picture Signal Circuits (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Dc Digital Transmission (AREA)
  • Tests Of Electronic Circuits (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

APARELHO E MÉTODO PARA GERAR UM SINAL MELHORADO UTILIZANDO ENCHIMENTO DE RUÍDO INDEPENDENTE. Aparelho para gerar um sinal melhorado a partir de um sinal de entrada (600), em que o sinal melhorado possui valores espectrais para uma região espectral de melhoramento, os valores espectrais para as regiões espectrais de melhoramento não estão incluídas no sinal de entrada (600), compreende um traçador (602) para traçar uma região espectral fonte do sinal de entrada para uma região alvo na região espectral de melhoramento, a região espectral fonte compreendendo uma região de enchimento de ruído (302); e um enchedor de ruído (604) configurado para gerar primeiros valores de ruído para a região de enchimento de ruído (302) na região espectral fonte do sinal de entrada e para gerar segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído ou para gerar segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído na região fonte.

Description

[001] A aplicação diz respeito a processamento de sinais, e em especial, ao processamento de sinais de áudio.
[002] A codificação percentual de sinais de áudio para fins de redução de dados para armazenamento eficaz ou transmissão destes sinais é uma prática amplamente utilizada. Em especial, quando débitos binários reduzidos são obtidos, o emprego da codificação conduz a uma redução da qualidade de áudio que muitas vezes é principalmente provocada por uma limitação no lado codificador da largura de banda do sinal de áudio a ser transmitido. Em codecs contemporâneos existem métodos bem conhecidos para a restauração do sinal do lado do decodificador através da Extensão da Largura de Banda (BWE) do sinal de áudio, por ex., Replicação da Banda Espectral (SBR).
[003] Na codificação de débitos binários reduzidos, frequentemente o também chamado enchimento de ruído é empregue. Regiões espectrais proeminentes que foram quantizadas a zero devido aos constrangimentos rígidos de débitos binários são enchidas com ruído sintético no decodificador.
[004] Habitualmente, ambas técnicas são combinadas em aplicações de codificação de débitos binários reduzidos. Além disso, soluções integradas tais como Enchimento de Intervalos Inteligente (IGF) existem combinando codificação de áudio, enchimento de ruído e enchimento de intervalos espectral.
[005] Contudo, todos estes métodos têm em comum que num primeiro passo a banda de base ou o sinal de áudio central é reconstruída utilizando descodificação da forma da onda e enchimento de ruído, e num segundo passo o processamento da BWE ou do IGF é executado utilizando o sinal facilmente reconstruído. Isto leva ao facto de que os mesmos valores de ruído que encheram a banda de base através do enchimento de ruído durante a reconstrução são utilizados para regenerar as partes que faltam na banda elevada (na BWE) ou para encher os restantes intervalos espectrais (no IGF). Utilizando ruído altamente correlacionado para a reconstrução de múltiplas regiões espectrais na BWE ou no IGF pode conduzir a perturbações percentuais.
[006] Tópicos relevantes de última geração compreendem:
[007] - SBR como um pós-processador para descodificação da forma da onda [1-3].
[008] - AAC PNS [4]
[009] - MPEG-D USAC enchimento de ruído [5]
[010] - G.719 e G.722.1C [6]
[011] - MPEG-H 3D IGF [8]
[012] Os seguintes documentos e pedidos de patente descrevem métodos considerados relevantes para o pedido:
[013] [1] M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, Germany, 2002.
[014] [2] S. Meltzer, R. Bohm and F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),” in 112th AES Convention, Munich, Germany, 2002.
[015] [3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,” in 112th AES Convention, Munich, Germany, 2002.
[016] [4] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, Audio Engineering Society 104th Convention, Preprint 4720, Amsterdam, Netherlands, 1998
[017] [5] European Patent application EP2304720 USAC noise-filling
[018] [6] ITU-T Recommendations G.719 and G.221C
[019] [7] EP 2704142
[020] [8] EP 13177350
[021] Os sinais de áudio processados com estes métodos sofrem de perturbações tais como rugosidade, distorções da modulação e um timbre perceptível como desagradável, em especial em baixos débitos binários e por conseguinte baixa largura de banda e/ou a ocorrência de orifícios espectrais na gama LF. O motivo para isto é, tal como será explicado em baixo, principalmente o facto de que os componentes reconstruídos do espectro alargado ou de intervalos enchidos a partir da banda de base. As modulações temporais resultantes da dita correlação indesejada em ruído reconstruído são audíveis de uma maneira perturbadora como rugosidade percentual ou distorção intolerável. Todos os métodos existentes como mp3+SBR, AAC+SBR, USAC, G.719 e G.722.1C, e também MPEG-H 3D IGF efetuam primeiro uma descodificação central completa incluindo enchimento de ruído antes de enchimentos dos intervalos espectrais ou da banda alta com dados espectrais copiados ou espelhados do núcleo.
[022] É um objeto desta invenção fornecer um conceito melhorado para gerar um sinal melhorado.
[023] Este objeto é alcançado através de um aparelho para gerar um sinal melhorado de acordo com a reivindicação 1, um método para gerar um sinal melhorado de acordo com a reivindicação 13, um sistema de codificação e descodificação de acordo com a reivindicação 14, um método de codificação e descodificação de acordo com a reivindicação 15 ou um programa de computador de acordo com a reivindicação 16.
[024] Esta invenção é baseada na descoberta de que uma melhoria significativa da qualidade áudio de um sinal melhorado gerado pela extensão da largura de banda ou enchimento de intervalo inteligente ou qualquer outra maneira de gerar um sinal melhorado com valores espectrais para uma região espectral melhorada não contida num sinal de entrada é obtida através da geração de primeiros valores de ruído para uma região de enchimento de ruído numa região espectral fonte do sinal de entrada e através da geração seguinte de segundos valores de ruído independentes para uma região de ruído na região de destino ou alvo, ou seja, na região melhorada que possui agora valores de ruído, ou seja, os segundos valores de ruído independentes dos primeiros valores de ruído.
[025] Desse modo, o problema da técnica anterior em ter ruído dependente na banda de base e a banda de melhoria devido ao mapeamento dos valores espectrais é eliminado e os problemas relacionados com perturbações tais como rugosidade, distorções de modulação e um timbre perceptível como desagradável em especial a baixos débitos binários são eliminados.
[026] Por outras palavras, o enchimento de ruído dos segundos valores de ruído descorrelados dos primeiros valores de ruído, ou seja, valores de ruído pelo menos parcialmente independentes dos primeiros valores de ruído garante que já não ocorram perturbações ou estas são pelo menos reduzidas relativamente à técnica anterior. Assim, o processamento da técnica anterior dos valores espectrais de enchimento de ruído na banda de base através de uma operação da largura de banda direta ou enchimento de intervalo inteligente não descorrelaciona o ruído a partir da banda de base, mas apenas altera o nível por exemplo. Contudo, a introdução dos valores de ruído descorrelados na banda fonte por um lado e na banda alvo por outro lado, de preferência derivado de um processo de ruído separado fornece os melhores resultados. Contudo, mesmo a introdução de valores de ruído não completamente descorrelados ou não completamente independentes, mas pelo menos parcialmente descorrelados tal como por um valor descorrelados de 0,5 ou menos quando o valor de descorrelação de zero indica completamente descorrelados, melhora todo o problema de descorrelação da técnica anterior.
[027] Por isso, modelos relacionam uma combinação de descodificação da forma da onda, extensão da largura de banda ou enchimento de intervalo e enchimento de ruído num decodificador percentual.
[028] Vantagens adicionais são de que, ao contrário dos conceitos já existentes, a ocorrência de distorções de sinal e perturbações de rugosidade percentual, habitualmente típicas para o cálculo das extensões da largura de banda ou enchimento de intervalo posterior à descodificação da forma da onda e enchimento de ruído são evitadas.
[029] Isto é devido a, em alguns modelos, uma alteração na ordem dos passos de processamento mencionados. É preferível executar extensão da largura de banda ou enchimento do intervalo diretamente após a descodificação da forma de onda e é ainda preferível calcular o enchimento de ruído posteriormente ao sinal já reconstruído utilizando ruído sem correlação.
[030] Em modelos adicionais, a descodificação da forma da onda e enchimento de ruído pode ser executada em uma ordem tradicional e mais a jusante no processamento, os valores de ruído podem ser substituídos por ruído sem correlação à escala.
[031] Por este motive, esta invenção trata dos problemas que ocorrem devido a uma operação de cópia ou uma operação espelho no espectro de enchimento de ruído através do desvio do passo de enchimento de ruído até à parte final de uma cadeia de processamento e utilizando ruído sem correlação para remendar ou encher o intervalo.
[032] Subsequentemente, modelos preferidos desta invenção são discutidos relativamente aos desenhos que os acompanham, nos quais:
[033] A Fig. 1a ilustra um aparelho para codificação de um sinal de áudio;
[034] A Fig. 1b ilustra um decodificador para descodificar um sinal de áudio codificado correspondente ao codificador da Fig. 1a;
[035] A Fig. 2a ilustra uma implementação preferida do decodificador;
[036] A Fig. 2b ilustra uma implementação preferida do codificador;
[037] A Fig. 3a ilustra uma representação esquemática de um espectro tal como gerado pelo decodificador do domínio espectral da Fig. 1b;
[038] A Fig. 3b ilustra uma tabela indicadora da relação entre fatores de escala para bandas de fator de escala e energias para bandas de reconstrução e informação de enchimento de ruído para uma banda de enchimento de ruído;
[039] A Fig. 4a ilustra a funcionalidade do codificador de domínio espectral para aplicar a seleção de partes espectrais no primeiro e segundo conjuntos de partes espectrais;
[040] A Fig. 4b ilustra uma implementação da funcionalidade de Fig. 4a;
[041] A Fig. 5a ilustra uma funcionalidade de um codificador MDCT;
[042] A Fig. 5b ilustra uma funcionalidade do decodificador com uma tecnologia MDCT;
[043] A Fig. 5c ilustra uma implementação do regenerador de frequências;
[044] A Fig. 6 ilustra um diagrama de blocos de um aparelho para gerar um sinal melhorado de acordo com esta invenção;
[045] A Fig. 7 ilustra um fluxo de sinais de enchimento de ruído independente conduzido por uma informação de seleção num decodificador de acordo com um modelo desta invenção;
[046] A Fig. 8 ilustra um fluxo de sinais de um enchimento de ruído independente através de uma ordem trocada de enchimento de intervalo ou extensão da largura de banda e enchimento de ruído num decodificador;
[047] A Fig. 9 ilustra um fluxograma de um procedimento de acordo com um modelo adicional desta invenção;
[048] A Fig. 10 ilustra um fluxograma de acordo com um modelo adicional desta invenção;
[049] A Fig. 11 ilustra um fluxograma para explicar uma escala de valores aleatórios;
[050] A Fig. 12 ilustra um fluxograma que ilustra um embutimento desta invenção numa extensão de largura de banda geral ou um procedimento de enchimento de intervalo;
[051] A Fig. 13a ilustra um codificador com um cálculo do parâmetro de extensão da largura de banda; e
[052] A Fig. 13b ilustra um decodificador com uma extensão de largura de banda implementada como um pós-processador em vez de um procedimento integrado tal como na Fig. 1a ou 1b.
[053] A Fig. 6 ilustra um aparelho para gerar um sinal melhorado tal como um sinal de áudio a partir de um sinal de entrada que pode ser também um sinal de áudio. O sinal melhorado possui valores espectrais para uma região espectral melhorada, sendo que os valores espectrais para a região espectral melhorada não estão contidos no sinal de entrada original numa entrada de sinal de entrada 600. O aparelho compreende um traçador 602 para traçar uma região espectral fonte do sinal de entrada para uma região alvo na região espectral melhorada, sendo que a região espectral fonte compreende uma região de enchimento de ruído.
[054] Ainda, o aparelho compreende um enchedor de ruído 604 configurado para gerar primeiros valores de ruído para a região de enchimento de ruído na região espectral fonte do sinal de entrada e para gerar segundos valores de ruído para uma região de ruído na região alvo, sendo que os segundos valores de ruído, ou seja, valores de ruído na região alvo são independentes ou descorrelados dos primeiros valores de ruído na região de enchimento de ruído.
[055] Um modelo diz respeito a uma situação, na qual o enchimento de ruído é mesmo efetuado na banda de base, ou seja, na qual os valores de ruído na região fonte foram gerados pelo enchimento de ruído. Em uma alternativa adicional, presume-se que um enchimento de ruído na região fonte não foi executado. Não obstante a região fonte possuir uma região de ruído já enchida com ruído como valores espectrais exemplarmente codificados como valores espectrais pela fonte ou codificador central. O traçamento deste ruído como região fonte para a região melhorada iria também gerar ruído dependente nas regiões fonte e alvo. Para tratar este assunto, o enchedor de ruído enche apenas ruído na região alvo do traçador, isto é, gera segundos valores ruído para a região de ruído na região alvo, sendo que os segundos valores de ruído são descorrelados a partir dos primeiros valores de ruído na região fonte. Esta substituição ou enchimento de ruído pode também ocorrer num buffer do mosaico fonte ou ocorrer no próprio alvo. A região de ruído pode ser identificada pelo classificador através da análise da região fonte ou análise da região alvo.
[056] Com esta finalidade, referência é feita à Fig. 3A. A Fig. 3A ilustra uma região de enchimento tal como a banda de fator de escala 301 no sinal de entrada, e o enchedor de ruído gera os primeiros valores espectrais do ruído nesta banda de enchimento de ruído 301 numa operação de descodificação do sinal de entrada.
[057] Além disso, esta banda de enchimento de ruído 301 é traçada para uma região alvo, isto é, de acordo com a técnica anterior, os valores de ruído gerados são traçados para a região alvo e, desse modo, a região alvo iria ter ruído dependente ou correlacionado com a região fonte.
[058] De acordo com esta invenção, contudo, o enchedor de ruído 604 da Fig. 6 gera segundos valores de ruído para uma região de ruído na região de destino ou alvo, onde os segundos valores de ruído são descorrelados ou sem correlação ou independentes dos primeiros valores de ruído na banda de enchimento de ruído 301 da Fig. 3A.
[059] Regra geral, o enchimento de ruído e o traçador para traçar a região espectral fonte para uma região de destino pode ser incluído num regenerador de alta frequência tal como ilustrado no contexto das Figs. 1A a 5C exemplarmente num enchimento de intervalo integrado ou pode ser implementado como um pós-processador tal como ilustrado na Fig. 13B e o codificador correspondente na Fig. 13A.
[060] Regra geral, um sinal de entrada está sujeito a uma quantização invertida 700 ou qualquer outro ou processamento do decodificador pré-definido adicional 700 que significa que, na saída do bloco 700, o sinal de entrada da Fig. 6 é obtido, de modo que a entrada no bloco de enchimento de ruído do codificador central ou bloco enchedor de ruído 704 é a entrada 600 da Fig. 6. O traçador na Fig. 6 corresponde ao enchimento do intervalo ou bloco da extensão da largura de banda 602 e o bloco de enchimento de ruído independente 702 é também incluído no enchedor de ruído 604 da Fig. 6. Desse modo, os blocos 704 e 702 estão ambos incluídos no bloco enchedor de ruído 604 da Fig. 6 e o bloco 704 gera os chamados primeiros valores de ruído para uma região de ruído na região de enchimento de ruído e o bloco 702 gera os segundos valores de ruído para uma região de ruído na região de destino ou alvo, derivada a partir da região de enchimento de ruído na banda de base através da extensão da largura de banda executada pelo traçador ou enchedor de intervalo ou bloco da extensão da largura de banda 602. Além disso, tal como mais tarde discutido, a operação de enchimento de ruído executada pelo bloco 702 é controlada por um vetor de controlo PHI ilustrado pela linha de controlo 706.
[061] 1. Passo: Identificação do Ruído
[062] Em um primeiro passo todas as linhas espectrais que representam ruído numa trama de áudio transmitida são identificadas. O processo de identificação pode ser controlado por conhecimento já existente transmitido das posições de ruído utilizadas por enchimento de ruído [4][5] ou pode ser identificado com um classificador adicional. O resultado da identificação da linha de ruído é um vetor contendo zeros e uns onde uma posição com um indica uma linha espectral que representa ruído.
[063] Em termos matemáticos este procedimento pode ser descrito como:
[064] Que jí e seja um espectro transmitido e requantizado após enchimento de ruído [4][5] de um sinal de transformação codificado, windowed de comprimento N e N. Que m E N, 0 < m < N, seja a linha de paragem de todo o processo de descodificação.
[065] O classificador Co determina linhas espetrais onde o enchimento de ruído [4][5] na região central é utilizado:
Figure img0001
,
Figure img0002
e o resultado *0,1 é um vetor de comprimento m.
[066] Um classificador + pode identificar linhas adicionais em que representam ruído. Este classificador pode ser descrito como:
Figure img0003
snoise , em enchimento de ruído foi utilizado de outro modo é classificado como ruído de outro mo
[067] Após o processo de identificação de ruído o vetor de indicação de ruído *0,1 é definido como:
Figure img0004
[068] 2. Passo: Ruído Independente
[069] No segundo passo uma região específica do espectro transmitido é selecionada e copiada para um mosaico fonte. Neste mosaico fonte o ruído identificado é substituído por ruído aleatório. A energia do ruído aleatório inserido é ajustada à mesma energia do ruído original no mosaico fonte.
[070] Em termos matemáticos este procedimento pode ser descrito como:
[071] Que n, n < m seja uma linha de arranque para o processo de cópia, descrito no Passo 3. Que XsT c x seja uma parte continua de um espectro transmitido X, representando um mosaico fonte de comprimento v <n, que contém as linhas espetrais lk, lk+1,..., lk+v-± of X, em que k é o índice da primeira linha espetral no mosaico fonte XsT, de modo que XsT [i] = lk+i, 0 <i <v. Além disso, que c ^, de modo que ^'[i] = y[k + i], 0 < í < v.
[072] O ruído identificado é agora substituído por ruído sintético gerado aleatoriamente. De modo a manter a energia espectral ao mesmo nível, a energia E do ruído indicado por é primeiro calculado:
Figure img0005
[073] Se E = 0 salta substituição de ruído independente para o mosaico fonte XsT, de outro modo substitui o ruído indicado por y':
Figure img0006
em que r[i]eC é um número aleatório para todos 0 < i < v.
[074] Depois calcula a energia E' dos números aleatórios inseridos:
Figure img0007
[075] Se EC > 0 calcula um fator L, de outro modo define L = 0:
Figure img0008
[076] Com g, escalar novamente o ruído substituído:
Figure img0009
[077] Após a substituição do ruído o mosaico fonte
Figure img0010
contém linhas de ruído independentes das linhas de ruído em X .
[078] 3. Passo: Cópia de
[079] O mosaico fonte
Figure img0011
é traçado para a sua região de destino em X ;
Figure img0012
[080] A Fig. 8 ilustra um modelo, no qual, subsequentemente a qualquer pós-processamento tal como a descodificação no domínio espectral ilustrada no bloco 112 na Fig. 1B ou no modelo do pós-processador ilustrado pelo bloco 1326 na Fig. 13B, o sinal de entrada é sujeito primeiro a um enchimento de intervalo ou extensão de largura de banda, isto é, é sujeito primeiro a uma operação de traçamento e, depois, um enchimento de ruído independente é efetuado depois, ou seja, em todo o espectro.
[081] O processo descrito no contexto em cima da Fig. 7 pode ser executado como uma operação de colocação, de modo que o buffer intermédio X”T não seja necessário. Desse modo, a ordem de execução é adaptada.
[082] Execute o primeiro passo tal como descrito no contexto da Fig. 7, e mais uma vez o conjunto de linhas espectrais k, k + 1,..., k + v - 1 de X são a região fonte. Execução:
[083] 2. Passo: Cópia de
Figure img0013
ou, se o esquema IGF [8] for utilizado:
Figure img0014
[084] 3. Passo: Enchimento de Ruído Independente
[085] Executar o enchimento do ruído legado até n e calcular a energia das linhas espectrais do ruído na região fonte k, k + 1,..., k + v - 1:
Figure img0015
[086] Executar enchimento de ruído independente no enchimento do intervalo ou região espectral BWE:
Figure img0016
em que
Figure img0017
9 é mais uma vez um conjunto de números aleatórios.
[087] Calcular a energia E' dos números aleatórios inseridos:
Figure img0018
[088] Mais uma vez, se E' > 0 calcular o fator g, de outro modo defina g-. = 0: Com g, escalar novamente o ruído substituído:
Figure img0019
[089] Com g, escalar novamente o ruído substituído:
Figure img0020
[090] O enchimento de ruído independente inovador pode ser também utilizado num ambiente de par de canais em estéreo. Desse modo, o codificador calcula a representação do par de canais adequados, L/R ou M/S, por banda de frequência e coeficientes de predição opcionais. O decodificador aplica enchimento de ruído independente tal como descrito em cima à representação apropriada escolhida dos canais antes do cálculo posterior da conversão final de todas as bandas de frequência em representação L/R.
[091] A invenção é aplicável ou adequada a todas as aplicações de áudio nas quais toda a largura de banda não está disponível ou que utiliza enchimento de intervalo para encher orifícios espectrais. A invenção pode encontrar uma utilização na distribuição ou transmissão de conteúdo áudio tal como, por exemplo em aplicações com rádio digital, streaming de internet e de comunicação de áudio.
[092] Subsequentemente, modelos desta invenção são discutidas relativamente às Figs. 9-12. No passo 900, regiões de ruído são identificadas na gama fonte. Este procedimento, discutido antes relativamente à “Identificação do Ruído” pode contar com a informação paralela de enchimento de ruído recebida de um lado codificador totalmente ou pode ser também configurado para em alternativa ou adicionalmente contar com a análise de sinais do sinal de entrada já gerado, mas sem valores espectrais para a região espectral melhorada, isto é, se os valores espectrais para esta região espectral de melhoramento.
[093] Em seguida, no passo 902, a gama fonte já sujeita a enchimento de ruído direto tal como conhecido na área, isto é, uma gama fonte completa é copiada para um buffer de mosaico fonte.
[094] Em seguida, no passo 904, os primeiros valores de ruído, isto é, os valores de ruído direto gerados na região de enchimento de ruído do sinal de entrada são substituídos no buffer do mosaico fonte por valores aleatórios. Em seguida, no passo 906, estes valores aleatórios são escalados no buffer do mosaico fonte para obter os segundos valores de ruído para a região alvo. Em seguida, no passo 908, a operação de traçamento é efetuada, ou seja, o seu conteúdo do buffer do mosaico fonte disponível subsequente aos passos 904 e 906 é traçado para a gama de destino. Desse modo, através da operação de substituição 904, e subsequentemente para a operação de traçamento 908, a operação de enchimento de ruído independente na gama fonte e na gama alvo foi obtida.
[095] A Fig. 10 ilustra um modelo adicional desta invenção. Mais uma vez, no passo 900, o ruído na gama fonte é identificado. Contudo, a funcionalidade deste passo 900 é diferente da funcionalidade do passo 900 na Fig. 9, visto que o passo 900 na Fig. 9 pode funcionar em um espectro do sinal de entrada que já recebeu valores de ruído, isto é, nos quais a operação de enchimento de ruído foi já efetuada.
[096] Contudo, na Fig. 10, qualquer operação de enchimento de ruído para o sinal de entrada não foi executada e o sinal de entrada ainda não tem quaisquer valores de ruído na região de enchimento de ruído na entrada no passo 902. No passo 902, a gama fonte é traçada para a gama de destino ou alvo em que os valores de enchimento de ruído não estão incluídos na gama fonte.
[097] Desse modo, a identificação do ruído na gama fonte no passo 900 pode ser, relativamente à região de enchimento de ruído, efetuada através da identificação de valores espectrais zero no sinal e/ou utilizando esta informação paralela de enchimento de ruído a partir do sinal de entrada, ou seja, a informação de enchimento de ruído gerada pelo lado codificador. Em seguida, no passo 904, a informação de enchimento de ruído e, em especial, a informação de energia que identifica a energia a ser introduzida no sinal de entrada do lado decodificador é lida.
[098] Em seguida, tal como ilustrado no passo 1006, um enchimento de ruído na gama fonte é efetuado e, subsequente ou concorrentemente, um passo 908 é efetuado, ou seja, valores aleatórios são inseridos em posições na gama de destino que foram identificados utilizando a banda de base ou informação do sinal de entrada juntamente com a informação de traçamento, ou seja, cuja (ou uma pluralidade de) gama fonte é traçada para a (ou uma pluralidade de) gama alvo.
[099] Finalmente, os valores aleatórios inseridos são escalados para obterem os segundos valores de ruído independentes ou sem correlação ou descorrelados.
[100] Subsequentemente, a Fig. 11 é discutida de modo a ilustrar informação adicional no escalonamento dos valores de enchimento de ruído na região espectral melhorada, isto é, como, a partir de valores aleatórios, os segundos valores de ruído são obtidos.
[101] No passo 1100, uma informação de energia de ruído na gama fonte é obtida. Em seguida, uma informação de energia é determinada a partir de valores aleatórios, ou seja, a partir de valores gerados por um processo aleatório ou pseudoaleatório tal como ilustrado no passo 1102. Além disso, o passo 1104 ilustra como calcular o fator de escala, ou seja, utilizando a informação de energia sobre ruído na gama fonte e utilizando a informação de energia relativamente aos valores aleatórios. Em seguida, no passo 1106, os valores aleatórios, isto é, a partir dos quais a energia foi calculada no passo 1102, são multiplicados pelo fator de escala gerado pelo passo 1104. Por isso, o procedimento ilustrado na Fig. 11 corresponde ao cálculo do fator de escala g ilustrado antes em um modelo. Contudo, todos estes cálculos podem ser também executados num domínio algorítmico ou em qualquer outro domínio e o passo de multiplicação 1106 pode ser substituída por uma adição ou subtração na gama algorítmica.
[102] Referência adicional é feita à Fig. 12 de modo a ilustrar o embutimento desta invenção num enchimento de intervalo inteligente geral ou esquema de extensão da largura de banda. No passo 1200, informação da envolvente espectral é recolhida a partir do sinal de entrada. A informação da envolvente espectral pode, por exemplo, ser gerada por um extrator de parâmetros 1306 da Fig. 13A e pode ser fornecida por um decodificador de parâmetros 1324 da Fig. 13b. Em seguida, os segundos valores de ruído e os outros valores na gama de destino são escalonados utilizando esta informação da envolvente tal como ilustrada em 1202. Subsequentemente, qualquer pós-processamento adicional 1204 pode ser executado para obter o sinal melhorado de domínio de tempo final dotado de uma largura de banda aumentada no caso da extensão do prolongamento de banda ou dotado de um número reduzido ou nenhuns orifícios espectrais no contexto de enchimento de intervalo inteligente.
[103] Neste contexto, é descrito que, em especial para o modelo da Fig. 9, várias alternativas podem ser aplicadas. Para um modelo, o passo 902 é executado com todo o espectro do sinal de entrada ou pelo menos com a parte do espectro do sinal de entrada que se encontra acima da frequência do limite de enchimento de ruído. Esta frequência assegura que por baixo de uma certa frequência, isto é, abaixo desta frequência, qualquer enchimento de ruído não é de todo executado.
[104] Em seguida, independentemente de qualquer informação de traçamento da gama fonte/gama alvo específica, todo o espectro do sinal de entrada é copiado para o buffer do mosaico fonte 902 e é depois processado com o passo 904 e 906 e o passo 908, depois seleciona a respetiva região fonte especificamente exigida a partir deste buffer do mosaico fonte.
[105] Em outros modelos, contudo, apenas as gamas fonte especificamente exigidas que podem ser apenas partes do sinal de entrada são copiadas para o único buffer do mosaico fonte ou para vários buffers do mosaico fonte individuais baseados na informação da gama fonte/gama alvo incluída no sinal de entrada, ou seja, associadas como informação paralela a este sinal de entrada de áudio. Dependendo da situação, a segunda alternativa, em que apenas as gamas fonte especificamente exigidas são processadas pelos passos 902, 904 e 906, a complexidade ou pelo menos os requisitos de memória podem ser reduzidos comparados com a situação em que, independentemente da situação de traçamento específico, toda a gama fonte pelo menos acima da frequência limite de enchimento de ruído, é sempre processada pelos passos 902, 904, 906.
[106] Subsequentemente, referência é feita às Figs. 1a - 5e para ilustrar a implementação específica desta invenção num regenerador de frequências 116, colocado antes do conversor de tempo do espectro 118.
[107] Fig. 1a ilustra um aparelho para codificação de um sinal de áudio 99. O sinal de áudio 99 entra num conversor de tempo do espectro 100 para converter um sinal de áudio dotado de uma taxa de amostragem numa representação espectral 101 saída pelo conversor de tempo do espectro. O espectro 101 entra num analisador de espectros 102 para analisar a representação espectral 101. O analisador espectral 101 é configurado para determinar um primeiro conjunto de primeiras porções espectrais 103 a serem codificadas com uma primeira resolução espectral e um diferente segundo conjunto de segundas porções espectrais 105 a serem codificadas com uma resolução espectral. A segunda resolução espectral é mais pequena do que a primeira resolução espectral. O segundo conjunto de segundas porções espectrais 105 entra num calculador de parâmetros ou codificador paramétrico 104 para calcular informação da envolvente espectral dotada da segunda resolução espectral. Além disso, um codificador de áudio do domínio espectral 106 é fornecido para gerar uma primeira representação codificada 107 do primeiro conjunto das primeiras porções espectrais dotadas da primeira resolução espectral. Além disso, o calculador de parâmetros/codificador paramétrico 104 é configurado para gerar uma segunda representação codificada 109 do segundo conjunto de segundas porções espectrais. A primeira representação codificada 107 e a segunda representação codificada 109 entram num multiplexador de fluxo de bits ou formador de fluxo de bits 108 e o bloco 108 finalmente sai do sinal de áudio codificado para transmissão ou armazenamento num dispositivo de armazenamento.
[108] Tipicamente, uma primeira porção espectral tal como 306 da Fig. 3a será rodeada por suas segundas porções espectrais tais como 307a, 307b. Este não é o caso na AAC HE, em que a gama de frequência do codificador central de banda limitada.
[109] A Fig. 1b ilustra um decodificador correspondente ao codificador da Fig. 1a. A primeira representação codificada 107 entra num decodificador de áudio do domínio espectral 112 para gerar uma primeira representação descodificada de um primeiro conjunto de porções espectrais, sendo a representação decodificada dotada de uma primeira resolução espectral. Além disso, a segunda representação codificada 109 entra num decodificador paramétrico 114 para gerar uma segunda representação descodificada de um segundo conjunto de segundas porções espectrais dotadas de uma segunda resolução espectral inferior à primeira resolução espectral.
[110] O decodificador compreende ainda um regenerador de frequências 116 para regenerar uma segunda porção espectral reconstruída dotada da primeira resolução espectral utilizando uma primeira porção espectral. O regenerador de frequências 116 executa uma operação de enchimento de mosaicos, isto é, utiliza um mosaico ou porção do primeiro conjunto de primeiras porções espectrais e copia este primeiro conjunto de primeiras porções espectrais na gama de reconstrução ou banda de reconstrução dotada de segundas porções espectrais e tipicamente executa a modelação da envolvente espectral ou outra operação tal como indicado pela segunda representação descodificada saída pelo decodificador paramétrico 114, ou seja, utilizando a informação do segundo conjunto de segundas porções espectrais. O primeiro conjunto das primeiras porções espectrais decodificado e o segundo conjunto de porções espectrais reconstruído tal como indicado na saída do regenerador de frequências 116 em linha 117 entra no conversor de tempo do espectro 118 configurado para converter a primeira representação descodificada e a segunda porção espectral reconstruída numa representação de tempo 119, sendo que a representação de tempo é dotada de uma certa taxa de amostragem elevada.
[111] A Fig. 2b ilustra uma implementação do codificador da Fig. 1a. Um sinal de entrada de áudio 99 entra num banco de filtros de análise 220 correspondendo ao conversor de tempo do espectro 100 da Fig. 1a. Depois, uma operação modelação do ruído temporal é executada no bloco TNS 222. Desse modo, a entrada no analisador espectral 102 da Fig. 1a correspondente a uma máscara tonal do bloco 226 da Fig. 2b pode ser valores espectrais completos, quando a operação da formação do ruído temporal/formação do mosaico temporal não é aplicada ou podem ser valores residuais espectrais, quando a operação TNS tal como ilustrada na Fig. 2b, o bloco 222 é aplicado. Para sinais de dois canais ou sinais multicanal, uma codificação de canal conjunto 228 pode ser adicionalmente executada, de modo que o codificador do domínio espectral 106 da Fig. 1a possa compreender o bloco de codificação de canal conjunto 228. Além disso, um codificador de entropia 232 para a execução de uma compressão de dados sem perdas é fornecido sendo também uma porção do codificador do domínio espectral 106 da Fig. 1a.
[112] O analisador espectral/máscara tonal 226 separa a saída do bloco TNS 222 na banda central e os componentes tonais correspondentes ao primeiro conjunto de primeiras porções espectrais 103 e os componentes residuais correspondentes ao segundo conjunto de segundas porções espectrais 105 da Fig. 1a. O bloco 224 indicado como codificação de extração de parâmetros IGF corresponde ao codificador paramétrico 104 da Fig. 1a e o multiplexador de fluxo de bits 230 corresponde ao multiplexador do fluxo de bits 108 da Fig. 1a.
[113] De preferência, o banco de filtros de análise 222 é implementado como uma MDCT (banco de filtros de Modificação de transformada discreta de cosseno) e a MDCT é utilizada para transformar o sinal 99 num domínio de frequência de tempo com a modificação de transformada discreta de cosseno que atua como a ferramenta de análise da frequência.
[114] O analisador espectral 226 de preferência aplica uma máscara de tonalidade. Este passo de estimativa da máscara de tonalidade é utilizado para separar componentes tonais dos componentes do tipo ruído no sinal. Isto permite ao codificador central 228 codificar todos os componentes tonais com um módulo psicoacústico. O passo de estimativa da máscara de tonalidade pode ser implementado de numerosas maneiras diferentes e é de preferência implementado de modo idêntico na sua funcionalidade para com o passo de estimativa de traçamento sinusoidal utilizado em seno em modelo de ruído para codificação de fala/áudio [8,9] ou um codificador de áudio baseado no modelo HILN em [10]. De preferência, uma implementação é utilizada de fácil implementação sem necessidade de manter trajetórias nascimento-morte, mas qualquer outra tonalidade ou detector de ruído pode ser também utilizado.
[115] O módulo IGF calcula a similitude existente entre uma região fonte e uma região alvo. A região alvo será representada pelo espectro a partir da região fonte. A medição da similitude entre as regiões fonte e alvo é efetuada utilizando uma abordagem de correlação cruzada. A região alvo é dividida em nTar mosaicos de frequência de não sobreposição. Para todos os mosaicos na região alvo, nSrc mosaicos fonte são criados a partir de uma frequência de início fixo. Estes mosaicos fonte sobrepõem-se por um fator entre 0 e 1, em que 0 significa 0% de sobreposição e 1 significa 100% de sobreposição. Cada um destes mosaicos fonte está correlacionado com o mosaico alvo em vários atrasos para descobrir o mosaico fonte que melhor corresponde ao mosaico alvo. O número que melhor corresponde aos mosaicos é armazenado em tileNum [idx_tar], cujo atraso correlaciona melhor com o alvo é armazenado em xcorr_lag [idx_tar] [idx_src] e o símbolo da correlação é armazenado em xcorr_sign [idx_tar] [idx_src]. No caso de a correlação ser altamente negativa, o mosaico fonte precisa ser multiplicado por -1 antes do processo de enchimento de mosaicos no decodificador. O módulo IGF toma também conta da não reescrita dos componentes tonais no espectro visto que os componentes tonais são mantidos utilizando a máscara de tonalidade. Um parâmetro de energia em banda é utilizado para armazenar a energia da região alvo permitindo-nos reconstruir o espectro de modo exato.
[116] Este método possui certas vantagens sobre a típica SBR [1] na medida em que a rede harmónica de um sinal multitonal seja preservada pelo codificador central enquanto apenas os intervalos entre as sinusoides são enchidos com o “ruído perfilado” que melhor corresponde a partir da região fonte. Outra vantagem deste sistema comparado com a ASR (Substituição Espectral Exata) [2-4] é a ausência de um passo de síntese do sinal que cria as porções importantes do sinal no decodificador. Em vez disso, esta tarefa é desenvolvida pelo codificador central, permitindo a preservação de importantes componentes do espectro. Outra vantagem do sistema proposto é a escalabilidade contínua que as características oferecem. Utilizando apenas tileNum [idx_tar] e xcorr_lag = 0, para todos os mosaicos é denominada correspondência de granularidade e pode ser utilizada para baixos débitos binários enquanto se utiliza a variável xcorr_lag for para todos os mosaicos permitindo-nos corresponder melhor os espectros alvo e fonte.
[117] Adicionalmente, uma técnica de estabilização de escolha de mosaicos é proposta removendo perturbações no domínio da frequência tais como o trinar e ruído musical.
[118] No caso de pares de canais estéreo um processamento de estéreo adicional conjunto é aplicado. Isto é necessário porque para uma certa gama de destino o sinal pode ser uma fonte sonora panorâmica altamente correlacionada. No caso de regiões fonte escolhidas para esta região em especial não serem bem correlacionadas, apesar de energias corresponderem às regiões de destino, a imagem espacial pode sofrer devido às regiões fonte sem correlação. O codificador analisa cada banda de energia da região de destino, que tipicamente executa uma correlação cruzada dos valores espectrais e se um certo limite for excedido, define uma bandeira conjunta para esta banda de energia. No decodificador as bandas de energia do canal esquerdo e direito são tratadas individualmente se esta bandeira de estéreo conjunto não for definida. No caso de uma bandeira estéreo conjunto ser definida, ambas energias e o remendo são executadas no domínio de estéreo conjunto. A informação de estéreo conjunta para as regiões IGF é assinalada do mesmo modo que a informação de estéreo conjunto para a codificação central, incluindo uma bandeira indicando no caso de predição se a direção da predição for de downmix para residual ou vice-versa.
[119] As energias podem ser calculadas a partir de energias transmitidas no domínio-L/R.
[120] midNrg [k] = leftNrg [k] + rightNrg [k];
[121 ] sideNrg [ k] = leftNrg [ k] - rightNrg [ k];
[122] com k sendo o índice de frequência no domínio de transformação.
[123] Outra solução é calcular e transmitir as energias diretamente no domínio de estéreo conjunto para bandas em que o estéreo conjunto está ativo, ou nenhuma transformação de energia adicional é necessária no lado decodificador.
[124] Os mosaicos fonte são sempre criados de acordo com a Matriz- Central/Lateral:
[125] midTile [ k] =0.5- (leftTile [ k] + rightTile [ k])
[126] sideTile [ k] =0.5- (leftTile [ k] - rightTile [ k])
[127] Ajuste de energia:
[128] midTile [k] = midTile [k] * midNrg [k];
[129] sideTile [k] = sideTile [k] * sideNrg [k];
[130] Estéreo conjunto -> transformação LR:
[131] Se nenhum parâmetro de predição adicional for codificado:
[132] leftTile [k] = midTile [k] + sideTile [k]
[133] rightTile [k] = midTile [k] - sideTile [k]
[134] Se um parâmetro de predição adicional for codificado e se a direção assinalada for do centro para a lateral:
[135] sideTile [k] = sideTile [k] - predictionCoeff • midTile [k]
[136] leftTile [k] =midTile [k] + sideTile [k]
[137] rightTile [k] =midTile [k] - sideTile [k]
[138] Se a direção assinalada for da lateral para o centro:
[139] midTile [k] = midTile [k] - predictionCoeff • sideTile [k]
[140] leftTile [k] =midTile [k] - sideTile [k]
[141] rightTile [k] =midTile [k] + sideTile [k]
[142] Este processamento assegura que a partir dos mosaicos utilizados para a regeneração de regiões de destino de elevada correlação e regiões de destino panorâmico, os canais esquerdo e direito resultantes representam ainda uma fonte sonora correlacionada e panorâmico mesmo se as regiões fonte não se encontrem correlacionadas, preservando a imagem estéreo para tais regiões.
[143] Por outras palavras, no fluxo de bits, bandeiras estéreo conjunto são transmitidas indicando se L/R ou M/S como um exemplo para a codificação estéreo conjunto deverá ser utilizado. No decodificador, primeiro, o sinal central é decodificado como indicado pelas bandeiras estéreo conjunto para as bandas centrais. Segundo, o sinal central é armazenado em ambas representações L/R e M/S. Para o enchimento de mosaicos IGF, a representação de mosaicos fonte é escolhida para corresponder à representação do mosaico alvo tal como indicado pela informação estéreo conjunto para as bandas IGF.
[144] A Modelação Temporal do Ruído (TNS) é uma técnica padrão e parte do AAC [11 - 13]. A TNS pode ser considerada como uma extensão do esquema de base de um codificador percentual, inserindo um passo de processamento opcional entre o banco de filtros e o passo de quantização. A principal tarefa do módulo TNS é ocultar o ruído de quantização produzido na região da máscara temporal de sinais transitórios idênticos e assim conduzir a um esquema de codificação mais eficiente. Primeiro, a TNS calcula um conjunto de coeficientes de predição utilizando “predição avançada” no domínio da transformação, por ex., MDCT. Estes coeficientes são então utilizados para atenuar a envolvente temporal do sinal. À medida que a quantização afeta o espectro TNS filtrado, também o ruído da quantização é temporariamente plano. Aplicando a filtragem TNS invertida no lado decodificadora, o ruído da quantização é modelado de acordo com a envolvente temporal do filtro TNS e desse modo o ruído da quantização é mascarado pelo transitório.
[145] IGF é baseado numa representação MDCT. Para codificação eficiente, de preferência longos blocos de aproximadamente 20 ms têm de ser utilizados. Se o sinal nesse longo bloco contém transitórios, pré e pós-ecos audíveis ocorrem nas bandas espectrais IGF devido ao enchimento de mosaicos. A Fig. 7c apresenta um típico efeito de pré-eco antes do início transitório devido ao IGF. No lado esquerdo, o espectrograma do sinal original é apresentado e no lado direito o espectrograma do sinal prolongado da largura de banda sem filtragem TNS é apresentado.
[146] Este efeito pré-eco é reduzido utilizando TNS no contexto IGF. Aqui, a TNS é utilizada como uma ferramenta de modelação temporal de mosaicos (TTS) como a regeneração espectral no decodificador é executada no sinal TNS residual. Os coeficientes de predição TTS exigidos são calculados e aplicados utilizando todo o espectro no lado codificador como habitualmente. As frequências de início e paragem TNS/TTS não são afetadas pela frequência de arranque IGF fIGFstart da ferramenta IGF. Em comparação com o legado TNS, a frequência de paragem TTS é aumentada para a frequência de paragem da ferramenta IGF, mais elevada do que fIGFstart. No lado decodificador os coeficientes TNS/TTS são novamente aplicados a todo o espectro, ou seja, o espectro central mais o espectro regenerado mais os componentes tonais do mapa de tonalidades. A aplicação do TTS é necessária para formar a envolvente temporal do espectro regenerado para corresponder novamente à envolvente do sinal original. Por isso os pré-ecos apresentados são reduzidos. Além disso, modela ainda o ruído de quantização no sinal em baixo fIGFstart como habitualmente com a TNS.
[147] Em decodificadores herdados, o remendo espectral num sinal de áudio corrompe correlação espectral nos limites do remendo e desse modo prejudica a envolvente temporal do sinal de áudio através da introdução de dispersão. Por isso, outro benefício de execução do enchimento de mosaicos IGF no sinal residual é o de que, após aplicação do filtro de modelação, os limites são continuamente correlacionados.
[148] Em um codificador inovador, o espectro que tenha passado por filtragem TNS/TTS, o processo de máscara e estimativa de parâmetros IGF é desprovido de qualquer sinal acima da frequência de arranque IGF exceto para componentes tonais. Este espectro escasso é agora codificado pelo codificador central utilizando princípios de codificação aritmética e codificação preditiva. Estes componentes codificados juntamente com bits de sinalização formam o fluxo de bits do áudio.
[149] A Fig. 2a ilustra a implementação do decodificador correspondente. O fluxo de bits na Fig. 2a correspondente ao sinal de áudio codificado entra no desmultiplexador/decodificador que estaria ligado, relativamente à Fig. 1b, aos blocos 112 e 114. O desmultiplexador do fluxo de bits separa o sinal de entrada de áudio na primeira representação codificada 107 da Fig. 1b e a segunda representação codificada 109 da Fig. 1b. A primeira representação codificada dotada do primeiro conjunto das primeiras porções espectrais entra em um bloco de descodificação do canal conjunto 204 correspondente ao decodificador do domínio espectral 112 da Fig. 1b. A segunda representação codificada entra no decodificador paramétrico 114 não ilustrado na Fig. 2a e depois entra no bloco IGF 202 correspondente ao regenerador de frequências 116 da Fig. 1b. O primeiro conjunto de porções espectrais exigidas para a regeneração de frequências entram no bloco IGF 202 através da linha 203. Além disso, posteriormente à descodificação do canal conjunto 204 a decodificação central específica é aplicada no bloco da máscara tonal 206 de modo que a saída da máscara tonar 206 corresponda à saída do decodificador do domínio espectral 112. Depois, uma combinação através do combinador 208 é executada, ou seja, uma construção de trama em que a saída do combinador 208 tem agora o espectro de gama completo, mas ainda no domínio filtrado TNS/TTS. Depois, no bloco 210, uma operação TNS/TTS invertida é executada utilizando informação de filtro TNS/TTS fornecida através da linha 109, ou seja, a informação do lado TTS é de preferência incluída na primeira representação codificada gerada pelo codificador do domínio espectral 106 que pode, por exemplo, ser um codificador central AAC ou USAC direta, ou pode estar também incluído na segunda representação codificada. À saída do bloco 210, um espectro complete até a frequência máxima é fornecido sendo a frequência de gama completo definida pela taxa de amostragem do sinal de entrada original. Depois, uma conversão de espectro/tempo é executada no banco de filtros de síntese 212 para finalmente obter o sinal de saída de áudio.
[150] A Fig. 3a ilustra uma representação esquemática do espectro. O espectro é subdividido em bandas de fator de escala SCB nas quais existem sete bandas de fator de escala SCB1 a SCB7 no exemplo ilustrado da Fig. 3a. As bandas do fator de escala podem ser bandas do fator de escala AAC que se encontram definidas na norma AAC e têm uma largura de banda aumentada para frequências superiores tal como ilustrado esquematicamente na Fig. 3a. É preferível não executar enchimento de intervalos inteligente desde o início do espectro, ou seja, em baixas frequências, mas iniciar a operação IGF numa frequência de arranque IGF ilustrada em 309. Desse modo, a banda de frequência central estende-se a partir da baixa frequência para a frequência de arranque IGF. Acima da frequência de arranque IGF, a análise do espectro é aplicada a componentes espectrais de alta resolução 304, 305, 306, 307 em separado (o primeiro conjunto de primeiras porções espectrais) a partir de componentes de baixa resolução representados pelo segundo conjunto de segundas porções espectrais. A Fig. 3a ilustra um espectro que entra exemplarmente no codificador do domínio espectral 106 ou no codificado de canal conjunto 228, ou seja, o codificador central opera em todo a gama, mas codifica uma quantidade significativa de zero valores espectrais, ou seja, estes zero valores espectrais são quantizados a zero ou definidos a zero antes da quantização ou posteriormente à quantização. De qualquer maneira, o codificador central opera em gama completa, ou seja, como se o espectro seria como ilustrado, ou seja, o decodificador central não tem necessariamente de estar ciente de qualquer enchimento de intervalos inteligente ou codificação do segundo conjunto de segundas porções espectrais com uma resolução espectral mais baixa.
[151] De preferência, a alta resolução é definida por uma codificação em linha das linhas espectrais tais como linhas MDCT, enquanto a segunda resolução ou baixa resolução é definida por, por exemplo, calcular apenas um único valor espectral por banda do fator de escala, em que uma banda do fator de escala abrange várias linhas de frequência. Assim, a segunda baixa resolução é, relativamente à sua resolução espectral, mais baixa do que a primeira ou alta resolução definida pela codificação em linha tipicamente aplicada pelo codificador central tal como um AAC ou codificador central USAC.
[152] Relativamente ao cálculo do fator de escala ou de energia, a situação é ilustrada na Fig. 3b. Devido ao facto de que o codificador é um codificador central e devido ao facto de que poderão, mas não necessariamente, existir componentes do primeiro conjunto de porções espectrais em cada banda, o codificador central calcula um fator de escala para cada banda não apenas na gama central por baixo da frequência de arranque IGF 309, mas também por cima da frequência de arranque IGF até à frequência máxima fIGFstop que é inferior ou igual a metade da frequência de amostragem, ou seja, fs/2. Assim, as porções tonais codificadas 302, 304, 305, 306, 307 da Fig. 3a e, neste modelo juntamente com os fatores de escala SCB1 a SCB7 correspondem aos dados espectrais de alta resolução. Os dados espectrais de alta resolução são calculados a partir da frequência de arranque IGF e correspondem aos valores da informação de energia E1, E2, E3, E4, que são transmitidos juntamente com os fatores de escala SF4 a DF7.
[153] Especialmente, quando o codificador central se encontra numa condição de baixo débito, uma operação de enchimento de ruído adicional na banda central, isto é, de frequência mais baixa do que a frequência de arranque IGF, isto é, em bandas do fator de escala SCB1 a SCB3 pode ser adicionalmente aplicada. No enchimento de ruído, existem várias linhas esperais adjacentes que foram quantizadas a zero. No lado decodificador, estes valores espectrais quantificados a zero são ressintetizados e os valores espectrais ressintetizados são ajustados na sua magnitude utilizando uma energia de enchimento de ruído como NF2 ilustrado em 308 na Fig. 3b. A energia de enchimento de ruído, que pode ser dada em termos absolutos ou em termos relativos especialmente no que diz respeito ao fator de escala como em USAC corresponde à energia do conjunto de valores espectrais quantizados a zero. Estas linhas espectrais de enchimento de ruído podem ser também consideradas um terceiro conjunto de terceiras porções espectrais que são regeneradas por síntese de enchimento de ruído direto sem qualquer operação IGF que conta com a regeneração de frequências utilizando mosaicos de frequência de outras frequências para a reconstrução de mosaicos de frequências utilizando valores espectrais a partir de uma gama fonte e informação de energia E1, E2, E3, E4.
[154] De preferência, as bandas, para as quais a informação de energia é calculada coincide com as bandas do fator de escala. Em outros modelos, um agrupamento do valor de informação de energia é aplicado de modo que, por exemplo, para bandas do fator de escala 4 e 5, apenas um único valor de informação de energia é transmitido, mas mesmo neste modelo, os limites das bandas de reconstrução agrupadas coincidem com limites das bandas do fator de escala. Se diferentes separações de banda são aplicadas, então certos recálculos ou cálculos de sincronização podem ser aplicados, e isto pode fazer sentido dependendo da certa implementação.
[155] De preferência, o codificador do domínio espectral 106 da Fig. 1a é um codificador psico-acústico tal como ilustrado Fig. 4a. Tipicamente, tal como por exemplo ilustrado na norma MPEG2/4 AAC ou MPEG1/2, norma de Nível 3, o sinal de áudio a ser codificado após ter sido transformado na gama espectral (401 na Fig. 4a) é encaminhado para um calculador do fator de escala 400. O calculador do fator de escala é controlado por um modelo psico-acústico que adicionalmente recebe o sinal de áudio a ser quantizado ou recebe, tal como na norma MPEG2/4 AAC ou MPEG1/2, norma de Nível 3, uma representação espectral complexa do sinal de áudio. O modelo psico-acústico calcula, para cada banda do fator de escala, um fator de escala que representa o limite psico- acústico. Adicionalmente, os fatores de escala são então, em cooperação com os anéis de interação interiores e exteriores bem conhecidos ou através de qualquer outro procedimento de cooperação adequado ajustados de modo que certas condições de débitos binários sejam enchidas. Depois, os valores espectrais a serem quantizados na uma banda e os fatores de escala calculados na outra banda são introduzidos num processador do quantizador 404. Na operação do codificador de áudio direto, os valores espectrais a serem quantizados são ponderados pelos fatores de escala e, os valores espectrais ponderados entram depois num quantizador fixo tipicamente dotado de uma funcionalidade de compressão para a gama de amplitude superior. Depois, na saída do processador do quantizador existem indícios de quantização que são depois encaminhados para um codificador de entropia tipicamente dotado de codificação especifica e muito eficaz para um conjunto de indícios se quantização zero para valores de frequência adjacentes ou, tal como também chamado na área, uma “execução” de valores zero.
[156] No decodificador de áudio da Fig. 1a, contudo, o processador do quantizador tipicamente recebe informação sobre as segundas porções espectrais provenientes do analisador espectral. Desse modo, o processador do quantizador 404 assegura-se que, à saída do processador do quantizador 404, as segundas porções espectrais tal como identificadas pelo analisador espectral 102 são zero ou têm um conhecimento de representação por um codificador ou um decodificador como uma representação zero que pode ser muito eficientemente codificada, especificamente quando existem “execuções” de valores zero no espectro.
[157] A Fig. 4b ilustra uma implementação do processador do quantizador. Os valores espectrais MDCT podem entrar numa regulação para zero do bloco 410. Depois, as segundas porções espectrais estão já reguladas como zero antes de uma ponderação pelos fatores de escala no bloco 412 ser executada. Em uma implementação adicional, o bloco 410 não é fornecido, mas a cooperação da regulação para zero é executada no bloco 418 posteriormente ao bloco de ponderação 412. Em uma implementação ainda mais adicional, a operação de regulação para zero pode ser também executada numa regulação para o bloco zero 422 posteriormente a uma quantização no bloco do quantizador 420. Nesta implementação, os blocos 410 e 418 não estariam presentes. Regra geral, pelo menos um dos blocos 410, 418, 422 é fornecido dependendo da implementação específica.
[158] Depois, à saída do bloco 422, um espectro quantizado é obtido correspondendo ao qual se encontra ilustrado na Fig. 3a. Este espectro quantizado entra então num codificador de entropia tal como 322 na Fig. 2b, que pode ser um codificador Huffman ou um codificador aritmético como, por exemplo, definido na norma USAC.
[159] A regulação para zero blocos 410, 418, 422, fornecidos alternativamente a cada um ou em paralelo são controlados pelo analisador espectral 424. O analisador espectral de preferência compreende qualquer implementação de um detector de tonalidades bem conhecido ou compreende um diferente tipo de detector operacional para separar um espectro em componentes a serem codificados com uma alta resolução e componentes a serem codificados com uma alta resolução. Outros desses algoritmos implementados no analisador espectral pode ser um detector de atividade de voz, um detector de ruído, um detector de fala ou qualquer detector de decisão, dependendo da informação espectral ou metadados associados nos requisitos da resolução para diferentes porções espectrais.
[160] A Fig. 5a ilustra uma implementação preferida do conversor do espectro de tempo 100 da Fig. 1a como, por exemplo, implementado em AAC ou USAC. O conversor do espectro de tempo 100 compreende um windower 502 controlado por um detector transitório 504. Quando o detector transitório 504 detecta um transitório, então uma troca de janelas longas para janelas curtas é assinalada para o windower. O windower 502 então calcula, para blocos sobrepostos, tramas com janela, em que cada trama com janela tipicamente possui dois N valores tais como 2048 valores. Depois, uma transformação num transformador de blocos 506 é executada, e este transformador de blocos tipicamente adicionalmente fornece uma limitação, de modo que uma limitação/transformação combinada seja executada para obter uma trama espectral com N valores tais como valores espectrais MDCT. Assim, para uma operação com janela longa, a trama na entrada do bloco 506 compreende dois N valores tais como 2048 valores e uma trama espectral então tem 1024 valores. Depois, contudo, uma troca é efetuada os para blocos curtos, quando oito blocos curtos são executados em que cada bloco curto possui 1/8 dos valores do domínio de tempo com janela comparados com uma janela longa e cada bloco espectral possui 1/8 dos valores espectrais comparado com um bloco longo. Assim, quando esta limitação é combinada com uma operação de sobreposição de 50% do windower, o espectro é uma versão criticamente de amostragem do sinal de áudio do domínio de tempo 99.
[161] Posteriormente, é feita referência à Fig. 5b que ilustra uma implementação específica do regenerador de frequências 116 e um conversor de tempo do espectro 118 da Fig. 1b, ou da operação combinada dos blocos 208, 212 da Fig. 2a. Na In Fig. 5b, uma banda de reconstrução específica é considerada tal como banda do fator de escala 6 da Fig. 3a. A primeira porção espectral nesta banda de reconstrução, ou seja, a primeira porção espectral 306 da Fig. 3a entra no bloco construtor/ajustador da trama 510. Além disso, uma segunda porção espectral reconstruída para a banda do fator de escala 6 entra também no construtor/ajustador da trama 510. Além disso, uma informação de energia tal como E3 da Fig. 3b para uma banda do fator de escala 6 entra também no bloco 510. A segunda porção espectral reconstruída na banda de reconstrução foi já gerada por enchimento de mosaicos de frequência utilizando uma gama fonte e a banda de reconstrução corresponde então à gama alvo. Agora, um ajuste de energia da trama é efetuado para depois finalmente obter toda a trama reconstruída dotada de N valores como, por exemplo, obtidos à saída do combinador 208 da Fig. 2a. Depois, no bloco 512, uma transformação/interpolação do bloco invertido é efetuada para obter valores do domínio de tempo 248 para os por exemplo valores espectrais 124 à saída do bloco 512. Depois, uma operação de janela de síntese é efetuada no bloco 514 que é novamente controlado por uma indicação de janela longa/janela curta transmitida como informação paralela no sinal de áudio codificado. Depois, no bloco 516, uma operação de sobreposição/adição com uma trama de tempo prévia é efetuada. De preferência, a MDCT aplica uma sobreposição de 50% de modo que, para cada nova trama de tempo de 2N valores, Na valores do domínio de tempo saiam finalmente. Uma sobreposição de 50% é altamente preferida devido ao facto de que fornece uma amostragem crítica e uma passagem contínua de uma trama para a próxima trama devido à operação de sobreposição/adição no bloco 516.
[162] Tal como ilustrado em 301 na Fig. 3a, uma operação de enchimento de ruído pode adicionalmente ser aplicada não apenas por baixo da frequência de arranque IGF, mas também por cima da frequência de arranque IGF tal como para a banda de reconstrução contemplada que coincide com a banda 6 do fator de escala da Fig. 3a. Depois, os valores espectrais de enchimento de ruído podem também entrar no construtor/ajustador da trama 510 e o ajustamento dos valores espectrais de enchimento de ruído pode ser também aplicado neste bloco ou os valores espectrais de enchimento de ruído podem ser já ajustados utilizando a energia de enchimento de ruído antes de entrarem no construtor/ajustador da trama 510.
[163] De preferência, uma operação IGF, isto é, uma operação de enchimento de mosaicos de frequência utilizando valores espectrais de outras porções pode ser aplicada em todo o espectro. Assim, uma operação de enchimento de ruído espectral pode não só ser aplicada na frequência alta por cima de uma frequência de arranque IGF mas pode também ser aplicada na frequência baixa. Além disso, o enchimento de ruído sem enchimento de mosaicos de frequência pode ser também aplicado não apenas por baixo da frequência de arranque IGF mas também por cima da frequência de arranque IGF. Foi descoberto, contudo, que a codificação de áudio de alta qualidade e de alta eficácia pode ser obtida quando a operação de enchimento de ruído é limitada à gama de frequências abaixo da frequência de arranque IGF e quando a operação de enchimento de mosaicos de frequência é restrita à gama de frequências por uma da frequência de arranque IGF tal como ilustrado na Fig. 3a.
[164] De preferência, os mosaicos alvo (TT) (dotados de frequências superiores à frequência de arranque IGF) estão ligados aos limites da banda do fator de escala do codificador de débito máximo. Mosaicos fonte (ST), a partir dos quais é obtida informação, isto é, para frequências inferiores à frequência de arranque IGF não estão ligados por limites da banda do fator de escala. O tamanho dos ST deverá corresponder ao tamanho dos TT associados. Isto encontra-se ilustrado utilizando o seguinte exemplo. TT [0] tem um comprimento de 10 MDCT Bins. Isto corresponde exatamente ao comprimento de dois SCBs subsequentes (tais como 4 + 6). Depois, todos os possíveis ST que irão ser correlacionados com TT [0], possuem também um comprimento de 10 bins. Um segundo mosaico alvo TT [1] adjacente ao TT [0] possui um comprimento de 15 bins l (SCB dotado de um comprimento de 7 + 8). Depois, os ST para isso têm um comprimento de 15 bins em vez de 10 bins como para TT [0].
[165] Se acontecer que um não encontrar um TT para um ST com o comprimento do mosaico alvo (quando por ex., o comprimento do TT for superior ao da gama fonte disponível), então uma correlação não é calculada e a gama fonte é copiada um número de vezes neste TT (a cópia é feita uma após a outra de modo que uma linha de frequências para a frequência mais baixa da segunda cópia seja imediatamente a seguir, na frequência, a linha de frequências para a frequência mais alta da primeira cópia), até o mosaico alvo TT ser completamente enchido.
[166] Subsequentemente, é feita referência à Fig. 5c que ilustra um modelo preferido adicional do regenerador de frequências 116 da Fig. 1b ou o bloco IGF 202 da Fig. 2a. O bloco 522 é um gerador de mosaicos de frequência que recebe, não apenas uma ID da banda alvo, mas adicionalmente recebe uma ID da banda fonte ID. Exemplarmente, foi determinado no lado codificador que a banda do fator de escala 3 da Fig. 3a é muito adequada para a reconstrução da banda do fator de escala 7. Desse modo, a ID da banda fonte seria 2 e a ID da banda alvo seria 7. Baseado nesta informação, o gerador de mosaicos de frequência 522 aplica uma operação de enchimento de mosaicos de cópia ou harmónicos ou qualquer outra operação de enchimento de mosaicos para gerar a segunda porção em bruto de componentes espectrais 523. A segunda porção em bruto de componentes espectrais possui uma resolução de frequência idêntica à resolução de frequência incluída no primeiro conjunto das primeiras porções espectrais.
[167] Depois, a primeira porção espectral da banda de reconstrução tal como 307 da Fig. 3a entra num construtor de tramas 524 e a segunda porção em bruto 523 entra também no construtor de tramas 524. Depois, a trama reconstruída é ajustada pelo ajustador 526 utilizando um fator de ganho para a banda reconstruída calculada pelo calculador do fator de ganho 528. Mais importante, contudo, a primeira porção espectral na trama não é influenciada pelo ajustador 526, mas apenas a segunda porção em bruto para a trama de reconstrução é influenciada pelo ajustador 526. Com esta finalidade, o calculador do fator de ganho 528 analisa a banda fonte ou a segunda porção em bruto 523 e adicionalmente analisa a primeira porção espectral na banda de reconstrução para finalmente encontrar o fator de ganho correto 527 de modo que a energia da trama ajustada saída do ajustador 526 possua a energia E4 quando uma banda 7 do fator de escala esteja contemplada.
[168] Neste contexto, é muito importante avaliar a exatidão da reconstrução da frequência alta desta invenção comparada como a HE-AAC. Isto é explicado relativamente à banda 7 do fator de escala na Fig. 3a. Presume-se que um codificador da técnica anterior tal como ilustrado na Fig. 13a iria detectar a porção espectral 307 a ser codificada com uma alta resolução como uma “harmónica em falta”.. Então, a energia deste componente espectral iria ser transmitida juntamente com uma informação da envolvente espectral para a banda de reconstrução tal como banda 7 do fator de escala para o decodificador. Depois, o decodificador iria recriar a harmónica em falta. Contudo, o valor espectral, no qual a harmónica em falta 307 iria ser reconstruída pelo decodificador da técnica anterior da Fig. 13b estaria a meio da banda 7 numa frequência indicada pela frequência de reconstrução 390. Assim, esta invenção evita um erro de frequência 391 que iria ser introduzido pelo decodificador da técnica anterior da Fig. 13d.
[169] Em uma implementação, o analisador espectral é também implementado para calcular similitudes entre primeiras porções espectrais e segundas porções espectrais e para determinar, baseado nas similitudes calculadas, para uma segunda porção espectral numa gama de reconstrução uma primeira porção espectral correspondente à segunda porção espectral na medida do possível. Depois, nesta implementação da gama fonte/gama de destino variável, o codificador paramétrico irá adicionalmente introduzir na segunda representação codificada uma informação correspondente indicando para cada gama de destino uma gama fonte correspondente. No lado decodificador, esta informação iria então ser utilizada por um gerador de mosaicos de frequência 522 da fig. 5c ilustrando uma geração de uma segunda porção em bruto 523 baseada numa ID da banda fonte e uma ID da banda alvo.
[170] Além disso, tal como ilustrado na Fig. 3a, o analisador espectral é configurado para analisar a representação espectral até uma frequência de análise máxima sendo de apenas uma pequena quantidade abaixo de metade da frequência de amostragem e de preferência pelo menos um quarto da frequência de amostragem ou tipicamente mais elevada.
[171] Tal como ilustrado, o codificador opera sem downsampling e o decodificador opera sem upsampling. Por outras palavras, o codificador de áudio do domínio espectral é configurado para gerar uma representação espectral dotada de uma frequência Nyquist definida pela taxa de amostragem do sinal de áudio originalmente entrado.
[172] Além disso, tal como ilustrado na Fig. 3a, o analisador espectral é configurado para analisar a representação espectral começando com uma frequência de arranque de enchimento de intervalos e terminando com uma frequência máxima representada por uma frequência máxima incluída na representação espectral, em que uma porção espectral que se estende de uma frequência mínima até à frequência de arranque de enchimento de intervalos pertence ao primeiro conjunto de porções espectrais e em que uma porção espectral adicional tal como 304, 305, 306, 307 dotada de valores de frequência acima da frequência de enchimento de intervalos é adicionalmente incluída no primeiro conjunto de primeiras porções espectrais.
[173] Tal como descrito, o decodificador de áudio do domínio espectral 112 é configurado de modo que uma frequência máxima representada por um valor espectral na primeira representação descodificada seja igual a uma frequência máxima incluída na representação de tempo dotada de uma taxa de amostragem em que o valor espectral para a frequência máxima no primeiro conjunto das primeiras porções espectrais seja zero ou diferente de zero. De qualquer maneira, para esta frequência máxima no primeiro conjunto de componentes espectrais um fator de escala para a banda do fator de escala existe, gerado e transmitido independentemente se todos os valores espectrais nesta banda do fator de escala são definidos para zero ou não tal como discutido no contexto das Figs. 3a e 3b.
[174] A invenção é, pois, vantajosa relativamente a outras técnicas paramétricas para aumentar eficácia de compressão, por ex., substituição de ruído e enchimento de ruído (estas técnicas são exclusivamente para representação de eficácia de conteúdo do sinal local do tipo ruído) a invenção permite uma reprodução exata da frequência dos componentes tonais. Até à data, nenhuma técnica de ponta trata a representação paramétrica eficaz de conteúdo de sinal arbitrário por enchimento de intervalos espectrais sem a restrição de uma divisão à priori fixa em baixa frequência (LF) e alta frequências (HF).
[175] Modelos do sistema inovador melhoram as abordagens de ponta e fornecem assim alta eficácia de compressão, nenhuma ou apenas uma pequena perturbação percentual e total largura de banda de áudio mesmo para baixos débitos binários.
[176] O sistema em geral consiste de:
[177] - codificação de todo o núcleo da banda
[178] - enchimento de intervalos inteligente (enchimento de mosaicos ou enchimento de ruído)
[179] - raras partes tonais no núcleo selecionado pela máscara tonal
[180] - codificação de par de estéreo conjunto para toda a banda, incluindo enchimento de mosaicos
[181] - TNS no mosaico
[182] - branqueamento espectral na gama IGF
[183] Um primeiro passo na direção de um sistema mais eficiente é remover a necessidade de transformar dados espectrais num segundo domínio por transformação diferente daquele do codificador central. Como a maioria dos codecs de áudio, tais como AAC por exemplo, utilizam o MDCT como transformação base, é útil executar também o BWE no domínio MDCT. Um segundo requisito para o sistema BWE seria a necessidade em preservar a rede tonal pela qual mesmo componentes tonais _HF são preservados e a qualidade do áudio codificado é assim superior aos sistemas existentes. Para tomar conta de ambos requisites mencionados em cima foi proposto um sistema chamado Enchimento de Intervalos Inteligente (IGF). A Fig. 2b apresenta o diagrama de blocos do sistema proposto no lado codificador e a fig. 2a apresenta o sistema no lado decodificador.
[184] Consequentemente, um enquadramento pós-processamento é descrito relativamente à Fig. 13AA e Fig. 13B de modo a ilustrar que esta invenção pode ser também implementada no reconstrutor de alta frequência 1330 neste modelo pós-processamento.
[185] A Fig. 13a ilustra um diagrama esquemático de um codificador de áudio para uma tecnologia de tecnologia de largura de banda como, por exemplo, utilizada em Codificação de Áudio Avançada de Alta Eficiência (HE- AAC). Um sinal de áudio na linha 1300 entra num sistema de filtro compreendendo um passa baixo 1302 e um passa alto 1304. O sinal que saiu pelo filtro passa alta 1304 entra num extrator/codificador de parâmetros 1306. O extrator/codificador de parâmetros 1306 é configurado para calcular e codificar parâmetros tais como um parâmetro de envolvente espectral, um parâmetro de adição de ruído, um parâmetro de falta de harmónica, ou um parâmetro de filtragem invertida, por exemplo. Estes parâmetros extraídos entram num multiplexador de fluxo de bits 1308. O sinal de saída passa baixo entra num processador que tipicamente compreende a funcionalidade de um amostrador 1310 e um codificador central 1312. O passa baixo 1302 restringe a largura de banda a ser codificada para uma largura de banda significativamente mais pequena do que a ocorrida no sinal de entrada de áudio original na linha 1300. Isto fornece um ganho de codificação significativo devido ao facto de que todas as funcionalidades que ocorrem no codificador central apenas têm de operar num sinal com uma largura de banda reduzida. Quando, por exemplo, a largura de banda do sinal de áudio na linha 1300 é de 20 kHz e quando o filtro passa baixo 1302 exemplarmente possui uma largura de banda de 4 kHz, para encher a amostragem daí, é teoricamente suficiente que o sinal subsequente ao amostrador possua uma frequência de amostragem de 8 kHz, sendo uma redução significativa para a taxa de amostragem exigida para o sinal de áudio 1300 que tem de ser pelo menos de 40 kHz.
[186] A Fig. 13b ilustra um diagrama esquemático de um decodificador de extensão da largura de banda correspondente. O decodificador compreende um multiplexador do fluxo de bits 1320. O multiplexador do fluxo de bits 1320 extrai um sinal de entrada para um decodificador central 1322 e um sinal de entrada para um decodificador de parâmetros 1324. Um sinal de saída do decodificador central possui, no exemplo em cima, uma taxa de amostragem de 8 kHz e, desse modo, uma largura de banda de 4 kHz enquanto, para uma reconstrução da largura de banda completa, o sinal de saída de um reconstrutor de alta frequência 1330 deve ser de 20 kHz exigindo uma taxa de amostragem de pelo menos 40 kHz. Para tornar isto possível, um processador do decodificador dotado da funcionalidade de um amostrador 1325 e um banco de filtros 1326 é exigido. O reconstrutor de alta frequência 1330 recebe então o sinal de baixa frequência de frequência analisada saído pelo banco de filtros 1326 e reconstrói a gama de frequências definida pelo filtro passa alto 1304 da Fig. 13a utilizando a representação paramétrica da banda de alta frequência. O reconstrutor de alta frequência 1330 possui várias funcionalidades tais como a regeneração da gama de frequências superiores utilizando a gama fonte na gama de baixa frequência, um ajuste da envolvente espectral, uma funcionalidade da adição de ruído e uma funcionalidade para introduzir a harmónica em falta na gama de frequência superior e, se aplicada e calculada no codificador da Fig. 13a, uma operação de filtragem invertida de modo a considerar o facto de que a gama de frequências superiores não é tipicamente tão tonal como a gama de frequências inferiores. Na HE-AAC, as harmónicas em falta são ressintetizadas no lado decodificador e são colocadas exatamente no meio de uma banda de reconstrução. Por isso, todas as harmónicas em falta determinadas em uma certa banda de reconstrução não estão colocadas nos valores de frequência onde foram localizadas no sinal original. Em vez disso, as linhas de harmónica em falta são colocadas em frequências no centro da certa banda. Assim, quando uma linha de harmónica em falta no sinal original foi colocada muito próxima do limite da banda de reconstrução no sinal original, o erro na frequência introduzida pela colocação desta linha de harmónica em falta no sinal reconstruído no centro da banda está próximo dos 50% da banda de reconstrução individual, para o qual os parâmetros foram gerados e transmitidos.
[187] Além disso, mesmo que os típicos codificadores centrais de áudio operem no domínio espectral, não obstante o decodificador central gera um sinal de domínio do tempo que é depois, novamente, convertido em um domínio espectral pela funcionalidade do banco de filtros 1325. Isto introduz atrasos de processamento adicional, pode introduzir perturbações devidas ao processamento tandem de transformar primeiramente do domínio espectral para o domínio de frequência e novamente transformar para tipicamente um domínio de frequência diferente e, claro, isto exige também uma quantidade substancial de complexidade de cálculo e desde logo de energia elétrica, sendo especificamente um problema quando a tecnologia de extensão da largura de banda é aplicada em dispositivos móveis tais como telemóveis, tabletes ou computadores portáteis, etc.
[188] Apesar de alguns aspetos terem sido descritos no contexto de um aparelho para codificação ou descodificação, está claro que estes aspetos representam também uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a um passo do método ou uma característica de um passo do método. De modo análogo, os aspetos descritos no contexto de um passo de método também representam uma descrição de um correspondente bloco ou item ou característica de um correspondente aparelho. Alguns ou todos os passos do método podem ser executados (ou usados) por um aparelho de hardware, com por exemplo, um microprocessador, um computador programável ou um circuito eletrônica. Em alguns modelos, alguns um ou mais dos passos mais importantes do método podem ser executados por esse aparelho.
[189] Dependendo de certos requisitos de implementação, os modelos da invenção podem ser implementados em hardware ou em software. A implementação pode ser executada utilizando um suporte de memória não transitório tal como um suporte de memória digital, por exemplo uma disquete, um disco rígido (HDD), um DVD, Blu-Ray, um DC, uma ROM, uma PROM e EPROM, uma EEPROM ou uma memória FLASH, com sinais de controlo lidos eletronicamente nela armazenados, que cooperam (ou são capazes de cooperarem) com um sistema de computador programável de modo que o respetivo método seja executado. Por isso, o meio de armazenamento digital pode ser lido em computador.
[190] Algumas versões de acordo com a invenção compreendem um suporte de dados com sinais de controlo de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de modo a que seja executado um dos métodos aqui descritos.
[191] De um modo geral, os modelos da presente invenção podem ser implementados como um produto de programa de computador com um código de programa, sendo o código de programa operativo para executar um dos métodos quando o produto do programa de computador corre num computador. O código de programa pode, por exemplo, ser armazenado num suporte lido por máquina.
[192] Outros modelos compreendem o programa de computador para executar um dos métodos aqui descritos, guardados num suporte de leitura em máquina.
[193] Por outras palavras, um modelo do método da invenção é, por isso, um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de computador corre num computador.
[194] Um modelo adicional do método inovador é, desse modo, um suporte de dados (ou um suporte de memória digital, ou um suporte lido por máquina) compreendendo, nele registado, o programa de computador para a execução de um dos métodos aqui descritos. O suporte de dados, o suporte de memória digital ou o suporte gravado são tipicamente tangíveis e/ou não transitórios.
[195] Um modelo adicional do método da invenção é, por isso, um fluxo de dados ou uma sequência de sinais representando o programa de computador para a execução de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo, através da internet.
[196] Um modelo adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para, ou adaptado para, executar um dos métodos aqui descritos.
[197] Outro modelo compreende um computador com o programa de computador instalado para executar um dos métodos aqui descritos.
[198] Um modelo adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou oticamente) um programa de computador para executar um dos métodos aqui descritos para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou idêntico. O aparelho ou sistema pode, por exemplo, compreender um servidor de ficheiros para transferir o programa de computador para o receptor.
[199] Em alguns modelos, um dispositivo de lógica programável (por exemplo, uma rede de portas lógicas programáveis) pode ser utilizado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em alguns modelos, uma rede de portas lógicas programáveis pode cooperar com um microprocessador para executar um dos métodos aqui descritos. De um modo geral, os métodos são preferencialmente executados por qualquer aparelho de hardware.
[200] Os modelos acima descritos são meramente ilustrativos para os princípios da presente invenção. Compreende-se que as modificações e variações das disposições e dos detalhes descritos serão evidentes aos profissionais da matéria. Pretende-se, por isso, que seja limitado apenas pelo âmbito das reivindicações impendentes da patente e não pelos detalhes específicos da descrição e explicação dos modelos aqui constantes.

Claims (15)

1. Aparelho para gerar um sinal de áudio melhorado proveniente de um sinal de entrada (600), caracterizado por o sinal de áudio melhorado ser dotado de valores espectrais para uma região espectral de melhoramento, os valores espectrais para as regiões espectrais de melhoramento não estarem incluídos no sinal de entrada (600), compreendendo: um traçador (602) para traçar uma região espectral fonte do sinal de entrada para uma região alvo na região espectral de melhoramento, a região espectral fonte compreendendo uma região de enchimento de ruído (302); e um enchedor de ruído (604) configurado para gerar segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído na região fonte, ou para gerar primeiros valores de ruído para a região de enchimento de ruído (302) na região espectral fonte do sinal de entrada (600) e para gerar segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído, em que o enchedor de ruído (604) está configurado para: identificar a região de enchimento de ruído dotada de primeiros valores de ruído no sinal de entrada; copiar (902) pelo menos uma região do sinal de entrada para um buffer do mosaico fonte, a região compreendendo a região espectral fonte; substituir (904) os primeiros valores de ruído tal como identificados pelos segundos valores de ruído; e em que o traçador (602) está configurado para traçar o buffer do mosaico fonte tendo valores de ruído descorrelacionados para a região alvo.
2. Aparelho de acordo com a reivindicação 1, caracterizado por o sinal de entrada ser um sinal codificado compreendendo parâmetros de enchimento de ruído para a região espectral fonte do sinal de entrada, em que o enchedor de ruído está configurado para gerar os primeiros valores de ruído utilizando os parâmetros de enchimento do ruído e para gerar os segundos valores do ruído utilizando uma informação de energia nos primeiros valores de ruído.
3. Aparelho de acordo com a reivindicação 1, caracterizado por o enchedor de ruído (604) estar configurado para medir uma informação de energia nos valores de ruído descorrelacionados (1102) e uma informação de energia nos primeiros valores de ruído (1100) e para escalar (906) os valores de ruído descorrelacionados utilizando um valor de escala da informação de energia dos valores de ruído descorrelacionado e a informação de energia nos primeiros valores de ruído.
4. Aparelho de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por o enchedor de ruído (604) estar configurado para gerar o segundo valor de ruído subsequente a uma operação do traçador (602) ou para gerar (604) o primeiro e o segundo valores de ruído subsequente a uma operação do traçador (602).
5. Aparelho de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por o traçador (602) estar configurado para traçar a região espectral fonte para a região alvo, e em que o enchedor de ruído (604) está configurado para executar enchimento de ruído nas regiões espectrais através da geração de primeiros valores de ruído utilizando enchimento de ruído e parâmetros de enchimento de ruído transmitido no sinal de entrada como informação paralela, e para executar enchimento de ruído na região alvo para gerar os segundos valores espectrais utilizando informação de energia nos primeiros valores de ruído.
6. Aparelho de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por compreender ainda: um ajustador de envolvente para ajustar (1202) os segundos valores de ruído na região espectral de melhoramento utilizando informação de envolvente espectral incluída no sinal de entrada como informação paralela.
7. Aparelho de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o enchedor de ruído (604) estar configurado apenas para utilizar informação paralela do sinal de entrada para identificar posições espectrais para enchimento de ruído, ou em que o enchedor de ruído (604) está configurado para analisar uma característica de tempo ou espectral do sinal de entrada ou sem valores espectrais na região de enchimento de ruído para identificar posições espectrais para enchimento de ruído.
8. Aparelho de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o enchedor de ruído (604) estar configurado para identificar posições de ruído utilizando um vetor de identificação (706) dotado de entradas para posições espectrais na região espectral fonte apenas, ou dotado de entradas para posições espectrais na região espectral fonte e na região espectral alvo.
9. Aparelho de acordo com a reivindicação 1 ou 3, caracterizado por o enchedor de ruído (604) estar configurado para copiar, na operação de cópia (902), uma porção espectral completa do sinal de entrada ou uma porção espectral completa do sinal de entrada por cima de uma frequência de um limite do enchimento de ruído geralmente utilizável pelo traçador para o buffer do mosaico fonte e para executar a operação de substituição (904) em todo o buffer do mosaico fonte, ou em que o enchedor de ruído (604) está configurado para copiar, na operação de cópia (902), apenas uma região espectral do sinal de entrada identificado por um ou mais identificadores fonte específicos para uma região fonte a ser utilizada pelo traçador (602) para uma região alvo identificada, onde um buffer do mosaico fonte individual é utilizado para cada diferente operação de traçamento individual.
10. Aparelho de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o traçador (602) estar configurado para executar uma operação de enchimento de intervalos para gerar a região espectral alvo, sendo que a operação compreende: um decodificador de áudio do domínio espectral (112) para gerar uma primeira representação descodificada de um primeiro conjunto de primeiras porções espectrais, a representação descodificada dotada de uma primeira resolução espectral; um decodificador paramétrico (114) para gerar uma segunda representação descodificada de um segundo conjunto de segundas porções espectrais dotadas de uma segunda resolução espectral inferior à primeira resolução espectral; um regenerador de frequências (116) para regenerar uma segunda porção espectral reconstruída dotada da primeira resolução espectral utilizando uma primeira porção espectral e informação de envolvente espectral para a segunda porção espectral; e um conversor de tempo do espectro (118) para converter a primeira representação descodificada na segunda porção espectral reconstruída numa representação de tempo, em que o traçador (602) e o enchedor de ruído (604) estão pelo menos parcialmente incluídos no regenerador de frequências (116).
11. Aparelho de acordo com a reivindicação 10, caracterizado por o decodificador de áudio do domínio espectral estar configurado para a saída de uma sequência de tramas descodificadas de valores espectrais, uma trama descodificada sendo a primeira representação descodificada, por a trama compreender valores espectrais para o primeiro conjunto de porções espectrais e zero indicações para o segundo conjunto de segundas porções espectrais, em que o aparelho para descodificação compreende ainda um combinador (208) para combinar valores espectrais gerados pelo regenerador de frequências para o segundo conjunto de porções espectrais e valores espectrais do primeiro conjunto das primeiras porções espectrais numa banda de reconstrução para obter uma trama espectral reconstruída compreendendo valores espectrais para o primeiro conjunto das primeiras porções espectrais e o segundo conjunto de segundas porções espectrais; e em que o conversor de tempo do espectro (118) está configurado para converter a trama espectral reconstruída na representação de tempo.
12. Aparelho de acordo com qualquer uma das reivindicações 1 a 11, compreendendo ainda: para cada gama de frequências alvo, uma identificação da região fonte, e caracterizado por o traçador (602) estar configurado para selecionar a região fonte utilizando a identificação da região fonte e para traçar a região fonte selecionada para a região alvo.
13. Método de geração de um sinal de áudio melhorado proveniente de um sinal de entrada (600), caracterizado por o sinal de áudio melhorado ter valores espectrais para uma região espectral de melhoramento, os valores espectrais para as regiões espectrais de melhoramento não estarem contidas no sinal de entrada (600), compreendendo: traçar (602) de uma região espectral fonte do sinal de entrada para uma região alvo na região espectral de melhoramento, a região espectral fonte compreendendo uma região de enchimento de ruído (302); e gerar (604) segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído na região fonte, ou gerar (604) primeiros valores de ruído para a região de enchimento de ruído (302) na região espectral fonte do sinal de entrada e gerar segundos valores de ruído para uma região de ruído na região alvo, em que os segundos valores de ruído são descorrelacionados dos primeiros valores de ruído, em que a geração (604) compreende: identificar a região de enchimento de ruído dotada de primeiros valores de ruído no sinal de entrada; copiar (902) pelo menos uma região do sinal de entrada para um buffer do mosaico fonte, a região compreendendo a região espectral fonte; e substituir (904) os primeiros valores de ruído tal como identificados pelos segundos valores de ruído; e 5em que o traçamento (602) compreende traçar o buffer do mosaico fonte com valores de ruído descorrelacionados para a região alvo.
14. Sistema para processamento de um sinal de áudio, caracterizado por compreender: um codificador para gerar um sinal codificado; e 10 o aparelho para gerar um sinal de áudio melhorado de acordo com qualquer uma das reivindicações 1 a 12, em que o sinal codificado está sujeito a um processamento (700) de modo a gerar o sinal de entrada (600) no aparelho para gerar o sinal de áudio melhorado.
15. Método para processamento de um sinal de áudio, compreendendo: 15 gerar um sinal codificado a partir de um sinal de entrada; e um método de geração de um sinal de áudio melhorado de acordo com a reivindicação 13, caracterizado por o sinal codificado estar sujeito a um processamento pré-definido (700) de modo a gerar o sinal de entrada (600) no método para gerar o sinal de áudio melhorado.
BR112017000852-1A 2014-07-28 2015-07-24 Aparelho e método para gerar um sinal melhorado utilizando enchimento de ruído independente BR112017000852B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178777.0A EP2980792A1 (en) 2014-07-28 2014-07-28 Apparatus and method for generating an enhanced signal using independent noise-filling
EP14178777.0 2014-07-28
PCT/EP2015/067058 WO2016016144A1 (en) 2014-07-28 2015-07-24 Apparatus and method for generating an enhanced signal using independent noise-filling

Publications (2)

Publication Number Publication Date
BR112017000852A2 BR112017000852A2 (pt) 2017-12-05
BR112017000852B1 true BR112017000852B1 (pt) 2022-11-22

Family

ID=51224865

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112017000852-1A BR112017000852B1 (pt) 2014-07-28 2015-07-24 Aparelho e método para gerar um sinal melhorado utilizando enchimento de ruído independente
BR112017001586-2A BR112017001586B1 (pt) 2014-07-28 2015-07-24 Aparelho e método para gerar um sinal aprimorado com o uso de preenchimento por ruído independente

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR112017001586-2A BR112017001586B1 (pt) 2014-07-28 2015-07-24 Aparelho e método para gerar um sinal aprimorado com o uso de preenchimento por ruído independente

Country Status (18)

Country Link
US (7) US10354663B2 (pt)
EP (4) EP2980792A1 (pt)
JP (6) JP6457625B2 (pt)
KR (2) KR101958360B1 (pt)
CN (4) CN106796798B (pt)
AR (2) AR101346A1 (pt)
AU (2) AU2015295549B2 (pt)
BR (2) BR112017000852B1 (pt)
CA (2) CA2947804C (pt)
ES (2) ES2693051T3 (pt)
MX (2) MX363352B (pt)
PL (2) PL3175449T3 (pt)
PT (2) PT3186807T (pt)
RU (2) RU2665913C2 (pt)
SG (2) SG11201700631UA (pt)
TR (2) TR201904282T4 (pt)
TW (2) TWI575515B (pt)
WO (2) WO2016016146A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
US10541772B2 (en) * 2017-04-28 2020-01-21 Qualcomm Incorporated Techniques for transmission of discovery reference signals in new radio shared spectrum
CN108871385B (zh) * 2017-05-12 2021-09-07 西门子公司 编码器、电机、编码器数据处理方法及存储介质
TWI834582B (zh) 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
TWI715139B (zh) * 2019-08-06 2021-01-01 原相科技股份有限公司 聲音播放裝置及其透過遮噪音訊遮蓋干擾音之方法
CN110610717B (zh) * 2019-08-30 2021-10-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂频谱环境混合信号的分离方法
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6931370B1 (en) 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP5093963B2 (ja) 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
WO2003046891A1 (en) * 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
JP4227772B2 (ja) 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
KR100956877B1 (ko) 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
ES2403410T3 (es) * 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
CN101572088A (zh) * 2008-04-30 2009-11-04 北京工业大学 立体声编解码方法、编解码器及编解码系统
CN101572092B (zh) * 2008-04-30 2012-11-21 华为技术有限公司 编解码端的固定码本激励的搜索方法及装置
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
RU2491658C2 (ru) * 2008-07-11 2013-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
MX2011000382A (es) * 2008-07-11 2011-02-25 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodos para la codificacion y decodificacion de audio; transmision de audio y programa de computacion.
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
BR122019023709B1 (pt) * 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
JP5459688B2 (ja) * 2009-03-31 2014-04-02 ▲ホア▼▲ウェイ▼技術有限公司 復号信号のスペクトルを調整する方法、装置、および音声復号システム
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN102136271B (zh) * 2011-02-09 2012-07-04 华为技术有限公司 舒适噪声生成器、方法及回声抵消装置
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
HUE037111T2 (hu) * 2011-03-10 2018-08-28 Ericsson Telefon Ab L M Nem-kódolt al-vektorok kitöltése transzformációsan kódolt audio jelekben
EP3067888B1 (en) * 2011-04-15 2017-05-31 Telefonaktiebolaget LM Ericsson (publ) Decoder for attenuation of signal regions reconstructed with low accuracy
AU2012256550B2 (en) * 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
AU2012276367B2 (en) * 2011-06-30 2016-02-04 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
US8731949B2 (en) * 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US9078653B2 (en) * 2012-03-26 2015-07-14 Ethicon Endo-Surgery, Inc. Surgical stapling device with lockout system for preventing actuation in the absence of an installed staple cartridge
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
WO2014081736A2 (en) 2012-11-20 2014-05-30 Dts, Inc. Reconstruction of a high frequency range in low-bitrate audio coding using predictive pattern analysis
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
ES2834929T3 (es) * 2013-01-29 2021-06-21 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US8768005B1 (en) * 2013-12-05 2014-07-01 The Telos Alliance Extracting a watermark signal from an output signal of a watermarking encoder
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Also Published As

Publication number Publication date
JP2019074755A (ja) 2019-05-16
EP3471094A1 (en) 2019-04-17
AU2015295547B2 (en) 2018-07-19
BR112017001586B1 (pt) 2022-11-22
TWI575515B (zh) 2017-03-21
TW201608561A (zh) 2016-03-01
CN113160838B (zh) 2024-05-10
MX2017001231A (es) 2017-07-07
AU2015295547A1 (en) 2017-01-12
JP6457625B2 (ja) 2019-01-23
US11908484B2 (en) 2024-02-20
CN106796798A (zh) 2017-05-31
ES2693051T3 (es) 2018-12-07
RU2017105507A (ru) 2018-08-28
AU2015295549A1 (en) 2017-03-16
US20200090668A1 (en) 2020-03-19
BR112017001586A2 (pt) 2018-01-30
JP7391930B2 (ja) 2023-12-05
TR201816634T4 (tr) 2018-11-21
US20230386487A1 (en) 2023-11-30
EP3186807A1 (en) 2017-07-05
RU2016146738A (ru) 2018-08-28
EP2980792A1 (en) 2016-02-03
RU2667376C2 (ru) 2018-09-19
CN113160838A (zh) 2021-07-23
AR101346A1 (es) 2016-12-14
JP2022003397A (ja) 2022-01-11
AU2015295549B2 (en) 2018-11-01
MX363352B (es) 2019-03-20
JP7354193B2 (ja) 2023-10-02
TR201904282T4 (tr) 2019-05-21
CN106537499A (zh) 2017-03-22
CA2947804A1 (en) 2016-02-04
PL3186807T3 (pl) 2019-06-28
JP6943836B2 (ja) 2021-10-06
MX365086B (es) 2019-05-22
SG11201700631UA (en) 2017-02-27
EP3186807B1 (en) 2019-01-02
AR101345A1 (es) 2016-12-14
US10354663B2 (en) 2019-07-16
JP2017526004A (ja) 2017-09-07
SG11201700689VA (en) 2017-02-27
RU2016146738A3 (pt) 2018-08-28
EP3175449B1 (en) 2018-08-15
WO2016016146A1 (en) 2016-02-04
PT3175449T (pt) 2018-11-23
PL3175449T3 (pl) 2019-01-31
KR20170024048A (ko) 2017-03-06
ES2718728T3 (es) 2019-07-04
TWI575511B (zh) 2017-03-21
CN106537499B (zh) 2020-02-21
KR101958359B1 (ko) 2019-03-15
PT3186807T (pt) 2019-04-02
MX2017001236A (es) 2017-07-07
US20190295561A1 (en) 2019-09-26
JP2019194704A (ja) 2019-11-07
RU2665913C2 (ru) 2018-09-04
US11264042B2 (en) 2022-03-01
WO2016016144A1 (en) 2016-02-04
JP6535730B2 (ja) 2019-06-26
CN111261176B (zh) 2024-04-05
US11705145B2 (en) 2023-07-18
CN111261176A (zh) 2020-06-09
JP6992024B2 (ja) 2022-01-13
US20170069332A1 (en) 2017-03-09
CA2956024A1 (en) 2016-02-04
RU2017105507A3 (pt) 2018-08-28
US20210065726A1 (en) 2021-03-04
JP2017526957A (ja) 2017-09-14
BR112017000852A2 (pt) 2017-12-05
US10529348B2 (en) 2020-01-07
US20170133024A1 (en) 2017-05-11
KR101958360B1 (ko) 2019-03-15
JP2022046504A (ja) 2022-03-23
CA2947804C (en) 2019-07-02
EP3175449A1 (en) 2017-06-07
TW201618083A (zh) 2016-05-16
CN106796798B (zh) 2021-03-05
US10885924B2 (en) 2021-01-05
KR20170063534A (ko) 2017-06-08
US20220148606A1 (en) 2022-05-12
CA2956024C (en) 2019-05-07

Similar Documents

Publication Publication Date Title
BR112017000852B1 (pt) Aparelho e método para gerar um sinal melhorado utilizando enchimento de ruído independente
BR122022012517B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR112016000852B1 (pt) Aparelho para decodificação de um sinal de áudio codificado com adaptação de porção defrequência
BR122022012597B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 24/07/2015, OBSERVADAS AS CONDICOES LEGAIS