BRPI0816557B1 - Codificação de áudio usando upmix - Google Patents

Codificação de áudio usando upmix Download PDF

Info

Publication number
BRPI0816557B1
BRPI0816557B1 BRPI0816557-2A BRPI0816557A BRPI0816557B1 BR PI0816557 B1 BRPI0816557 B1 BR PI0816557B1 BR PI0816557 A BRPI0816557 A BR PI0816557A BR PI0816557 B1 BRPI0816557 B1 BR PI0816557B1
Authority
BR
Brazil
Prior art keywords
signal
audio
downmix
type
audio signal
Prior art date
Application number
BRPI0816557-2A
Other languages
English (en)
Inventor
Oliver Hellmuth
Juergen Herre
Leonid Terentiev
Andreas Hoelzer
Cornelia FALCH
Hilpert Johannes
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40149576&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0816557(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.
Publication of BRPI0816557A2 publication Critical patent/BRPI0816557A2/pt
Publication of BRPI0816557B1 publication Critical patent/BRPI0816557B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

codificação de áudio usando upmix é descrito um método para a decodificação a sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificado, o sinal multi-áudio-objeto consistindo de um sinal downmix (112) e informações auxiliares, as informações auxiliares compreendendo informações de nível do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência, o método compreendendo a computação de uma matriz c de coeficientes de predição com base nas informações de nível (old); e fazer o upmix do sinal downmix baseado nos coeficientes de predição para obter um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio de upmix aproximando o sinal de áudio do segundo tipo, onde o upmix produz o primeiro sinal de upmix s1 e/ou o segundo sinal de upmix s2 do sinal downmix d de acordo com uma computação representável por (s1 e s2)= d-1 {(1 e c)d+h}, onde "1" indica - dependendo do número de canais de d - um escalar, ou uma matriz de identidade, e o- 1 é uma matriz exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal downmix, e que também é compreendida pelas informações auxiliares, e h é um termo independente de d.

Description

CODIFICAÇÃO DE ÁUDIO USANDO UPMIX
DESCRIÇÃO presente pedido se refere à codificação de áudio usando o upmixing de sinais.
Foram propostos muitos algoritmos de codificação de áudio para codificar ou comprimir efetivamente dados de áudio de um canal, isto é, sinais de áudio mono. Usando a psicoacústica, amostras de áudio são pesadas de forma adequada, quantificadas ou mesmo ajustadas em zero para remover a irrelevância, por exemplo, 10 do sinal de áudio PCM codificado. É também feita a remoção da redundância.
Como outra etapa, foi explorada a similaridade entre os canais esquerdo e direito dos sinais de áudio estéreo para efetivamente codificar/comprimir os sinais de áudio estéreo.
Entretanto, novas aplicações colocam outras demandas sobre os algoritmos de codificação de áudio. Por exemplo, na teleconferência, games de computador, desempenhos musicais e similares, vários sinais de áudio que são parcialmente ou até totalmente descorrelacionados devem ser transmitidos em paralelo.
Para manter a necessária taxa de bits para a codificação desses sinais de áudio suficientemente baixos para serem compatíveis com os aplicativos de transmissão com baixa taxa de bits, recentemente, foram propostos codecs de áudio que fazem o downmix dos múltiplos sinais de áudio de entrada em um sinal downmix, como 25 um downmix de sinal estéreo ou até mono. Por exemplo, o MPEG Surround padrão faz o downmix dos canais de entrada no sinal downmix da forma indicada no padrão. O downmix é feito com o uso dos denominados OTT'1 e TTT1 boxes para o downmix de dois sinais em um e de três sinais em dois, respectivamente. Para fazer o downmix de mais que três sinais, é usada uma estrutura hierárquica desses boxes. Cada OTT'1 box produz, além do sinal downmix mono, diferenças de níveis de canais entre os dois canais de entrada, 5 assim como parâmetros de coerência intercanais/correlação cruzada representando a coerência ou a correlação cruzada entre os dois canais de entrada. Os parâmetros são produzidos juntamente com o sinal downmix do codificador MPEG Surround dentro do fluxo de dados MPEG Surround. De forma similar, cada TTT’1 box transmite
10 coeficientes de predição de canais que permitem a recuperação dos
três canais de entrada do sinal estéreo downmix resultante. . Os
coeficientes de predição de canais também são transmitidos como
informações auxiliares dentro do fluxo de dados do MPEG Surround.
decodificador MPEG Surround faz o upmix do sinal downmix usando as informações auxiliares transmitidas e recupera a entrada do canal original no codificador MPEG Surround.
Entretanto, o MPEG Surround, infelizmente, não preenche todos os requisitos exigidos por muitas aplicações. Por exemplo, o decodificador MPEG Surround é dedicado ao upmix do 20 sinal downmix do codificador MPEG Surround, de maneira que os canais de entrada do codificador MPEG Surround são recuperados no estado. Em outras palavras, o fluxo de dados MPEG Surround é dedicado a fazer o play back com o uso da configuração do altofalante que tiver sido usada para a codificação.
Entretanto, de acordo com algumas implicações, seria favorável se a configuração do alto-falante pudesse ser mudada no lado do decodificador.
Para a solução dessas últimas necessidades, é projetado no presente o padrão de codificação de objeto de áudio espacial (SAOC). Cada canal é tratado como um objeto individual, e todos os objetos são downmixados em um sinal downmix. Entretanto, além de os objetos individuais também poderem compreender fontes de som individuais como, por exemplo, trilhas de instrumentos ou vocais. Entretanto, diferindo do decodificador MPEG Surround, o decodificador SAOC é livre para fazer individualmente o upmix do sinal downmix e fazer o replay dos objetos individuais em qualquer configuração do alto-falante. Para permitir que o decodificador SAOC recupere os objetos individuais que tiverem sido codificados no fluxo de dados SAOC, diferenças de nível de objeto e, para objetos que formam em conjunto um sinal estéreo (ou multi-canal) , são transmitidos parâmetros inter-objetos de correlação cruzada como informações auxiliares dentro do fluxo de bits SAOC. Além disso, o decodificador/transcodificador SAOC é dotado de informações que revelam como os objetos individuais foram downmixados no sinal downmix. Assim, no lado do decodificador, é possível recuperar os canais SAOC individuais e submeter esses sinais em qualquer configuração do alto-falante utilizando as informações de submissão controladas pelo usuário.
Entretanto, apesar de o codec SAOC ter sido projetado para tratar individualmente os objetos de áudio, algumas aplicações são mais exigentes. Por exemplo, aplicações de Karaokê exigem uma separação completa do sinal de áudio de fundo do sinal de áudio de primeiro plano ou sinais de áudio de primeiro plano. Vice versa, no modo solo, os objetos de primeiro plano devem ser separados do objeto de fundo. Entretanto, devido ao igual tratamento dos objetos individuais de áudio, não foi possível remover completamente os objetos de fundo ou os objetos de primeiro plano, respectivamente, do sinal downmix.
Assim, é o objetivo da presente invenção prover um codec de áudio usando o downmix e o upmix de sinais de áudio, respectivamente, de forma a ser obtida uma melhor separação dos objetos individual como, por exemplo, em uma aplicação Karaokê de modo solo.
Esse objetivo é alcançado por um decodificador de
áudio, de acordo com a reivindicação 1, um método de decodificação
de acordo com a reivindicação 19 e um programa de acordo com a
reivindicação 20.
Com referência às Figuras, . as configurações
preferidas do presente pedido são descritas em maiores detalhes. Entre essas Figuras:
A Fig. 1 mostra um diagrama de blocos de uma disposição codificador/decodificador SAOC onde podem ser implementadas as configurações da presente invenção;
A Fig. 2 mostra um diagrama esquemático e
ilustrativo de uma representação espectral de um sinal de áudio
mono ;
A Fig. 3 mostra um diagrama de blocos de um
decodificador de áudio de acordo com uma configuração da presente invenção;
A Fig. 4 mostra um diagrama de blocos de um codificador de áudio de acordo com uma configuração da presente invenção;
A Fig. 5 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, como configuração de comparação;
A Fig. 6 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;
A Fig. 7a mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração de comparação;
A Fig. 7b mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração;
As Figs. 8a e b mostram plotagens de resultados de medições de qualidade;
a Fig. 9 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, com propósitos de comparação;
a Fig. 10 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;
a Fig. 11 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;
a Fig. 12 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;
as Figs. 13a a h mostram tabelas que refletem uma possível sintaxe do fluxo de bits SAOC de acordo com uma configuração da presente invenção;
a Fig. 14 mostra um diagrama de blocos de um decodificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração; e
A Fig. 15 mostra uma tabela que reflete uma possível sintaxe para a sinalização da quantidade de dados gastos para transferir o sinal residual.
Antes que as configurações da presente invenção sejam descritas abaixo em maiores detalhes, o codec SAOC e os parâmetros SAOC transmitidos em um fluxo de bits SAOC são apresentados para facilitar a compreensão das configurações específicas ressaltadas abaixo em maiores detalhes.
A Fig. 1 mostra um arranjo geral de um codificador SAOC 10 e de um decodificador SAOC 12. O codificador SAOC 10 recebe como entrada N objetos, isto é, sinais de áudio 14x a 14N. Em particular, o codificador 10 compreende um downmixer 16 que recebe os sinais de áudio 14x a 14N e faz o downmix desses em um sinal downmix 18. Na Fig. 1, o sinal downmix é mostrado de forma exemplar como um sinal estéreo downmix. Entretanto, é também possível um sinal downmix mono. Os canais do sinal estéreo downmix 18 são indicados como L0 e R0, no caso de um mono downmix do mesmo ser simplesmente indicado como L0. Para permitir que o decodificador SAOC 12 recupere os objetos individuais 14x a 14N, o downmixer 16 fornece ao decodificador SAOC 12 as informações auxiliares, incluindo os parâmetros SAOC com as diferenças de nivel de objeto (OLD), parâmetros inter-objetos de correlação cruzada (IOC), valores de ganho downmix (DMG) e diferenças de níveis de canais downmix (DCLD). As informações auxiliares 20 incluindo os parâmetros SAOC, junto com o sinal downmix 18, formam o fluxo de dados de saída SAOC recebido pelo decodificador SAOC 12.
decodificador SAOC 12 compreende um upmixer 22 que recebe o sinal downmix 18 assim como as informações auxiliares 20 para recuperar e submeter os sinais de áudio 14! e 14N em qualquer conjunto selecionado de usuários de canais 24i a 24M, com o rendering sendo indicado pelas informações de rendering 26 enviadas para o decodificador SAOC 12.
Os sinais de áudio 14i a 14N podem ser enviados ao downmixer 16 em qualquer domínio de codificação como, por exemplo, em domínio de tempo ou espectral. No caso, os sinais de áudio 14! a 14n são enviados ao downmixer 16 no domínio de tempo, como codificado PCM, o downmixer 16 usa um banco de filtros, como um banco QMF híbrido, isto é, um banco de filtros de modulação exponencialmente complexa com uma extensão de filtros Nyquist para as bandas de frequências mais baixas para aí aumentar a resolução das frequências, para transferir os sinais no domínio espectral em que os sinais de áudio são representados em várias sub-bandas associadas a diferentes porções espectrais, em uma resolução específica de banco de filtros. Se os sinais de áudio 14i a 14N já estiverem na representação esperada pelo downmixer 16, este não precisa realizar a decomposição espectral.
A Fig. 2 mostra um sinal de áudio no recém mencionado domínio espectral. Como pode ser visto, o sinal de áudio é representado como uma pluralidade de sinais de sub-banda. Cada sinal de sub-banda 3Ch a 30P consiste de uma sequência de valores de sub-banda indicados pelos pequenos boxes 32. Como pode ser visto, os valores de sub-banda 32 dos sinais de sub-bandas 30i a 30P são sincronizados entre si em tempo, de forma que para cada um dos slots de tempo do banco de filtros consecutivos 34 cada sub-banda 30j a 30P compreende exatamente um valor de sub-banda 32. Como ilustrado pelo eixo de frequências 36, os sinais de subbandas 30i a 30P estão associados a diferentes regiões de frequência, e como ilustrado pelo eixo do tempo 38, os slots de
tempo do banco de filtros 34 são dispostos de forma consecutiva no
tempo. Como acima ressaltado, o downmixer 16 computa os
parâmetros SAOC dos sinais de áudio de entrada 14i a 14N. 0
downmixer 16 faz esta computação em uma resolução tempo/frequência que pode ser reduzida com relação à resolução tempo/frequência original como determinada pelos slots de tempo do banco de filtros 34 e pela decomposição de sub-banda de um certo valor, com este certo valor sendo sinalizado para o lado do decodificador dentro das informações auxiliares 20 pelos respectivos elementos de sintaxe bsFrameLength e bsFreqRes. Por exemplo, grupos de slots de tempo do banco de filtros consecutivos 34 podem formar um quadro 40. Em outras palavras, o sinal de áudio pode ser dividido em quadros que se sobrepõem no tempo ou que sejam imediatamente adjacentes no tempo, por exemplo. Neste caso, bsFrameLength pode definir um número de slots paramétricos de tempo 41, isto é, a unidade de tempo em que os parâmetros SAOC como OLD e IOC, são computados em um quadro SAOC 40 e bsFreqRes pode definir o número de bandas processadoras de frequência para as quais os parâmetros SAOC são computados. Por essa medição, cada quadro é dividido nos tijolos tempo/frequência exemplificados na Fig. 2 pelas linhas tracejadas 42.
O downmixer 16 calcula os parâmetros SAOC de acordo com as seguintes fórmulas. Em particular, o downmixer 16 computa diferenças de nível de objeto para cada objeto i como
OLD, =
LEW n kem__________ max
ΣΣ<*<'*? \ n kern J onde as somas os índices respectivamente, passam por todos os slots de tempo do banco de filtros 34 todas as sub-bandas de banco de filtros que pertencem a determinado tijolo tempo/frequência 42. Portanto, as energias de todos os valores de sub-banda Xi de um sinal ou objeto de áudio i são somadas e normalizadas no maior valor de energia daquele tijolo entre todos os objetos ou sinais de áudio.
Além disso, o downmixer SAOC 16 pode computar uma medida de similaridade dos correspondentes tijolos tempo/frequência de pares de diferentes objetos de entrada 14i a 14n. Apesar de o downmixer SAOC 16 poder computar a medida de similaridade entre todos os pares de objetos de entrada 14i a 14N, o downmixer 16 também pode suprimir a sinalização das medidas de similaridade ou restringir a computação das medidas de similaridade a objetos de áudio 14i a 14N que formam os canais esquerdo e direito de um canal estéreo comum. Em qualquer caso, a medida de similaridade é denominada de parâmetro de correlação cruzada inter-objetos IOCí,j. A computação é a seguinte:
= IOC.,
novamente com os índices n e k percorrendo todos os valores de sub-banda que pertencem a um determinado tijolo tempo/frequência 42, e i e j indicando um determinado par de objetos de áudio 14i a 14N.
downmixer 16 faz o downmix dos objetos 14i a 14N usando os fatores de ganho aplicados a cada objeto 14χ a 14N. Isto é, um fator de ganho Dj é aplicado ao objeto i e então todos os objetos assim pesados 14; a 14N são somados para obter um sinal downmix mono. No caso de um sinal estéreo downmix, caso exemplificado na Fig. 1, é aplicado um fator de ganho Dlzi ao objeto i e então todos esses objetos amplificados de ganho são somados para obter o canal downmix esquerdo L0, sendo o fator de ganhos D2,í aplicado ao objeto i e então os objetos de ganho amplificado são somados para obter o canal downmix direito RO.
Essa indicação downmix é sinalizada para o lado do decodificador por meio de ganhos downmix DMGi e, no caso de um sinal estéreo downmix, as diferenças de níveis de canais downmix DCLDi.
Os ganhos downmix são calculados de acordo com: DMG. = 201og10 (£>, +ff), (mono downmix),
DMG.= 101og10 (Z),2+ D/.. + £), (estéreo downmix), onde ε é um pequeno número como 10 9.
Para o DCLD aplica-se a seguinte fórmula:
DCLDI = 201og10
< D2,i + £ ,
No modo normal, o downmixer 16 gera o sinal downmix de acordo com:
para um mono downmix, ou
Í L0} (D.
( Obj} obJN J para um estéreo downmix, respectivamente.
Assim, nas formulas supramencionadas, os parâmetros OLD e IOC são uma função dos sinais de áudio e os parâmetros DMG e DCLD são uma função de D. Aliás, deve-se notar que D pode variar com o tempo.
Assim, no modo normal, o downmixer 16 faz a mixagem todos os objetos 14! a 14N sem preferências, isto é, tratando igualmente todos os objetos 14i a 14N.
O upmixer 22 faz a inversão do procedimento downmix e a implementação das informações de rendering representadas pela matriz A em uma etapa de computação, isto é,
= AED~' (DEO-' ) 'L0' onde a matriz E é uma função dos parâmetros OLD e
IOC.
Em outras palavras, no modo normal, não é feita nenhuma classificação dos objetos 14x a 14N em BGO, isto é, objeto de fundo, ou FGO, isto é, objeto de primeiro plano. As informações com as quais o objeto será apresentado na saída do upmixer 22 devem ser fornecidas pela matriz de rendering A. Se, por exemplo, um objeto de índice 1 for o canal esquerdo de um objeto estéreo de fundo, o objeto com índice 2 seria seu canal direito, e o objeto com índice 3 seria o objeto de primeiro plano, então a matriz de rendering A seria.
Obj} Ί
Obj2
S>bh, 'bgo, ' bgor <FGO, /10 0 <0 1 Oj para produzir um sinal de saída do tipo Karaokê.
Entretanto, como já indicado acima, a transmissão de BGO e FGO com o uso desse modo normal do codec SAOC não alcança resultados aceitáveis.
As
Figs. 3 e 4, descrevem uma configuração da presente invenção que supera a deficiência descrita. O decodificador e o codificador descritos nessas Figs. e suas funcionalidades associadas podem representar um modo adicional como um modo ampliado no qual o codec SAOC da Fig. 1 pudesse ser comutável. Serão posteriormente apresentados os exemplos da última possibilidade.
A Fig. 3 mostra um decodificador 50. 0 decodificador 50 compreende meios 52 para computar os coeficientes de predição e os meios 54 para fazer o upmix de um sinal downmix.
O decodificador de áudio 50 da Fig. 3 é dedicado à decodificação de um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo neles codificado. O sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo podem ser um sinal de áudio mono ou estéreo, respectivamente. O sinal de áudio do primeiro tipo, por exemplo, é um objeto de fundo, considerando que o sinal de áudio do segundo tipo é um objeto de primeiro plano. Isto é, a configuração da Fig. 3 e da Fig. 4 não está necessariamente restrita a aplicações de Karaokê/Solo. Em vez disso, o decodificador da Fig. 3 e o codificador da Fig. 4 podem ser usados com vantagens em outros locais.
O sinal multi-áudio-objeto consiste de um sinal downmix 56 e das informações auxiliares 58. As informações auxiliares 58 compreendem informações de nível 60 descrevendo, por exemplo, as energias espectrais do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência como, por exemplo, a resolução tempo/frequência 42. Em particular, as informações de nível 60 podem compreender uma um valor escalar normalizado da energia espectral por objeto e tijolo tempo/frequência. A normalização pode estar relacionada com o maior valor da energia espectral entre os sinais de áudio do primeiro e o segundo tipo no respectivo tijolo tempo/frequência. A última possibilidade resulta em OLDs para representar as informações de nivel, também denominados na presente de informações de diferenças de nivel. Apesar de as seguintes configurações usarem OLDs, estas podem, apesar de não declarado explicitamente na presente, usar outra representação de energia espectral normalizada.
As informações auxiliares 58 compreendem opcionalmente um sinal residual 62 especificando valores de nivel residual na segunda resolução predeterminada de tempo/frequência que podem ser iguais ou diferentes à da primeira resolução predeterminada de tempo/frequência .
Os meios 52 para a computação de coeficientes de predição são configurados para computarem os coeficientes de predição com base nas informações de nível 60. Além disso, os meios 52 podem computar os coeficientes de predição ainda baseados nas informações de intercorrelação também compreendidas pelas informações auxiliares 58. Mais ainda, os meios 52 podem usar informações de indicação downmix com variação de tempo, compreendidas pelas informações auxiliares 58 para a computação dos coeficientes de predição. Os coeficientes de predição computados pelos meios 52 são necessários para a recuperação ou o upmixing dos objetos de áudio originais ou dos sinais de áudio do sinal downmix 56.
Assim, os meios 54 para o upmixing são configurados para fazer o upmix do sinal downmix 56 com base nos coeficientes de predição 64 recebidos dos meios 52 e, opcionalmente, do sinal residual 62. Ao usar o residual 62, o decodificador 50 pode até melhor suprimir conversas cruzadas do sinal de áudio de um tipo para o sinal de áudio do outro tipo. Os meios 54 também podem usar a indicação downmix de variação de tempo para fazer o upmix do sinal downmix. Além disso, os meios 54 para upmixing podem usar a entrada do usuário 66 para decidir quais dos sinais de áudio recuperados do sinal downmix 56 devem ser realmente enviados ou que em volume para a saída 68. Como um primeiro extremo, a entrada de usuário 66 pode instruir os meios 54 a simplesmente enviarem o primeiro sinal de upmix aproximando o sinal de áudio do primeiro tipo. O oposto é verdade para o segundo extremo de acordo com quais meios 54 devem somente enviar o segundo sinal de upmix aproximando o sinal de áudio do segundo tipo. São possíveis opções intermediárias, assim como, de acordo
com qual mistura de ambos os sinais upmix é submetida para envio
para a saída 68.
A Fig. 4 mostra uma configuração de um
codificador de áudio adequado para a geração de um sinal de objeto
multi-áudio decodificado pelo decodificador da Fig. 3. O codificador da Fig. 4 que é indicado pelo sinal de referência 80, pode compreender meios 82 para decompor espectralmente no caso em que os sinais de áudio 84 a serem codificados não estejam no domínio espectral. Entre os sinais de áudio 84, por sua vez, há pelo menos um sinal de áudio de um primeiro tipo e pelo menos um sinal de áudio de um segundo tipo. Os meios 82 para a decomposição espectral são configurados para decompor espectralmente cada um desses sinais 84 em uma representação como mostrada na Fig. 2, por exemplo. Isto é, os meios 82 para a decomposição espectral decompor espectralmente os sinais de áudio 84 na resolução predeterminada de tempo/frequência. Os meios 82 podem compreender um banco de filtros, como um banco QMF híbrido.
codificador de áudio 80 ainda compreende meios 86 para a computação das informações de nível, e meios 88 para o downmixing, e, opcionalmente, meios 90 para a computação dos coeficientes de predição e meios 92 para o estabelecimento de um sinal residual. Além disso, o codificador de áudio 80 pode compreender meios para a computação das informações de intercorrelação, isto é, dos meios 94. Os meios 86 computam as informações de nível que descrevem o nível do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência do sinal de áudio como enviada opcionalmente pelos meios 82. De forma similar, os meios 88 fazem o downmix dos sinais de áudio. Os meios 88, portanto, enviam o sinal downmix 56. Os meios 86 também enviam as informações de nível 60. Os meios 90 para a computação dos coeficientes de predição atuam de forma similar aos meios 52. Isto é, coeficientes de predição das os computam os meios informações de nível 60 e enviam os coeficientes de predição 64 para os meios 92. Os meios 92, por sua vez, estabelecem o sinal residual 62 com base no sinal downmix 56 nos coeficientes de predicação 64 e nos sinais originais de áudio na segunda resolução predeterminada de tempo/frequência, de maneira que o upmixing do sinal downmix 56 com base em ambos os coeficientes de predição 64 e no sinal residual 62 resulta em um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e o segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, 10 a aproximação sendo aprovada quando comparada à ausência do sinal residual 62.
O sinal residual 62, caso presente, e as informações de nível 60, são compreendidos pelas informações auxiliares 58 que formam, junto com o sinal downmix 56, o sinal 15 multi-áudio-objeto a ser decodificado pelo decodificador Fig. 3.
Como mostrado na Fig. 4, e de forma análoga à descrição da Fig. 3, os meios 90 - caso presentes - também podem usar a saída de informações de intercorrelação pelos meios 94 e/ou a saída da indicação downmix de variação de tempo pelos meios 88 20 para computarem o coeficiente de predição 64. Além disso, os meios para o estabelecimento do sinal residual 62 - caso presentes também podem usar a saída da indicação downmix de variação de tempo pelos meios 88 para estabelecer aproximadamente o sinal residual 62.
Novamente, nota-se que o sinal de áudio do primeiro tipo pode ser um sinal de áudio mono ou estéreo. O mesmo se aplica para o sinal de áudio do segundo tipo. O sinal residual é opcional. Entretanto, caso presente, pode ser sinalizado dentro das informações auxiliares na mesma resolução tempo/frequência que o parâmetro resolução tempo/frequência usado para computar, por exemplo, as informações de nível, ou pode ser usada uma diferente resolução tempo/frequência. Além disso, pode ser possível que a sinalização do sinal residual esteja restrita a uma sub-porção da faixa espectral ocupada pelo tijolo tempo/f requências 42 para o qual as informações de nível são sinalizadas. Por exemplo, a resolução tempo/frequência em que o sinal residual está sinalizado, pode ser indicada dentro das informações auxiliares 58 com o uso de elementos de sintaxe bsResidualBands e bsResidualFramesPerSAOCFrame. Esses dois elementos de sintaxe podem definir outra subdivisão de um quadro no tijolo tempo/frequências além da subdivisão que leva aos tijolos 42.
Aliás, nota-se que o sinal residual 62 pode ou não refletir a perda das informações que resultam de um codificador núcleo potencialmente usado 96, usado opcionalmente para codificar o sinal downmix 56 pelo codificador de áudio 80. Como mostrado na Fig. 4, os meios 92 podem fazer o ajuste do sinal residual 62 com base na versão do sinal downmix reconstruivel a partir da saída do codificador núcleo 96 ou a partir da entrada da versão no codificador núcleo 96' . De forma similar, o decodificador de áudio 50 pode compreender um decodificador núcleo 98 para decodificar ou descomprimir o sinal downmix 56.
A capacidade de ajustar, dentro do sinal múltiplo-áudio-objeto, a resolução tempo/frequência usada para o sinal residual 62 diferente da resolução tempo/frequência usada para computar as informações de nível 60, permitem obter um bom compromisso entre a qualidade do áudio por um lado e taxa de compressão do sinal múltiplo-áudio-objeto por outro lado. Em qualquer caso, o sinal residual 62 permite a melhor supressão das conversas cruzadas de um sinal de áudio para outro dentro do primeiro e do segundo sinais upmix a serem enviados para a saída 68 de acordo com a entrada de usuário 66.
Como ficará claro a partir da seguinte configuração, mais de um sinal residual pode ser transmitido dentro das informações auxiliares no caso em que esteja codificado mais de um objeto de primeiro plano ou sinal de áudio do segundo tipo. As informações auxiliares podem permitir uma decisão individual sobre se um sinal residual 62 é transmitido para um sinal de áudio específico de um segundo tipo ou não.
Assim número de sinais residuais pode variar entre um e número de sinais de áudio do segundo tipo.
No decodificador de áudio da Fig. 3 os meios para computação podem ser configurados para computar a matriz C de coeficientes de predição que consiste dos coeficientes de predição baseados nas informações de nível (OLD) e os meios 56 podem ser configurados para produzir o primeiro sinal de upmix Si segundo sinal de upmix S2 do sinal downmix de acordo com a computação representável por
S. j . í 1 j 1 =ΖΓΊ \d + H sj RcJ de d onde 1” indica dependendo do um escalar, ou uma matriz de identidade, e exclusivamente determinada pela indicação downmix número de
D'1 de canais é uma matriz acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal downmix, e que também é compreendido pelas informações auxiliares, e H é um termo independente de d, mas dependente d, caso este esteja presente.
Como notado acima e descrito melhor abaixo, a indicação downmix pode variar no tempo e/ou pode variar espectralmente dentro das informações auxiliares. Se o sinal de áudio do primeiro tipo for um sinal de áudio estéreo tendo um primeiro (L) e um segundo canal de entrada (R) , as informações de nível, por exemplo, descrevem as energias espectrais normalizadas do primeiro canal de entrada (L), do segundo canal de entrada (R) e do sinal de áudio do segundo tipo, respectivamente, na resolução tempo/frequência 42.
A computação mencionada de acordo com a qual os meios para upmix fazem o upmix, também podem ser representados por = D~' d+H\, onde L é um primeiro canal do primeiro sinal de upmix aproximando L e R é um segundo canal do primeiro sinal de upmix, aproximando R, e é um escalar, no caso d é mono, e a matriz de identidade 2x2, no caso d, é estéreo. Se o sinal downmix é um sinal de áudio estéreo tendo canal de saída (RO), e a computação um primeiro (LO) e um segundo de acordo com a qual os meios para upmix fazem o upmix podem ser representados por
S2
Até onde o termo H é dependente do sinal residual res, a computação de acordo com a qual os meios 56 para upmix realiza o upmix pode ser representável por fM=zrp θΥ^Ί
J I^C 1 Yres J
O sinal multi-áudio-objeto pode até compreender uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares podem compreender um sinal residual por sinal de áudio do segundo tipo. Um parâmetro de resolução residual pode estar presente nas informações auxiliares, definindo uma faixa espectral na qual o sinal residual é transmitido dentro das informações auxiliares. Pode até definir um limite inferior e um limite superior da faixa espectral.
Além disso, o sinal multi-áudio-objeto também pode compreender informações de rendering espacial para fazer o render espacial do sinal de áudio do primeiro tipo em uma configuração predeterminada do alto-falante. Em outras palavras, o sinal de áudio do primeiro tipo pode ser um sinal MPEG Surround multicanais (mais de dois canais) onde é feito o downmix até estéreo.
A seguir, serão descritas configurações que usam a sinalização do sinal residual acima. Entretanto, nota-se que o termo objeto é geralmente usado com duplo sentido. Algumas vezes, um objeto indica um sinal individual de áudio mono. Assim, um objeto estéreo pode ter um sinal de áudio mono formando um canal de um sinal estéreo. Entretanto, em outras situações, um objeto estéreo pode indicar, na realidade, dois objetos, sendo um objeto referente ao canal direito e outro objeto referente ao canal esquerdo do objeto estéreo. O sentido real ficará aparente a partir do contexto.
Antes de descrever a próxima configuração, esta é motivada pelas deficiências notadas com a tecnologia de base do padrão SAOC selecionado como modelo de referência 0 (RMO) em 2007. O RMO permitiu a manipulação individual de vários objetos sonoros em termos de suas posições de formatação e de amplificação/atenuação. Foi apresentado um cenário especial no contexto de uma aplicação do tipo Karaokê. Nesse caso • Uma cena mono, estéreo ou surround de fundo (a seguir denominada Objeto de Fundo, BGO) é transportada a partir de um conjunto de determinados objetos SAOC, que é reproduzida sem alterações, isto é, todos os sinais de canais de entrada são reproduzidos pelo mesmo canal de saída em um nível inalterado, e • Um objeto específico de interesse (a seguir denominado Objeto de Primeiro Plano FGO) (tipicamente a primeira voz) que é reproduzido com alterações (o FGO é tipicamente posicionado na metade do estágio sonoro e pode ser emudecido, isto é, pesadamente atenuado para permitir o canto grupai).
Como fica visível a partir de procedimentos de avaliação subjetiva e que podem ser esperados a partir do princípio da tecnologia subjacente, as manipulações da posição do objeto conduzem a resultados de alta qualidade, enquanto as manipulações do nível do objeto são geralmente mais desafiadoras. Normalmente, quanto maior seja a amplificação/atenuação do sinal adicional, quanto mais surgem potenciais problemas. Neste sentido, o cenário de Karaokê é extremamente exigente, já que é necessária uma atenuação extrema (idealmente: total) do FGO.
O caso de uso duplo é a capacidade para reproduzir somente o FGO sem o background/MBO, e é mencionado a seguir como o modo solo.
Nota-se, entretanto, que se uma cena de fundo (background) surround estiver envolvida, é denominada como um Objeto de Fundo Multicanais (MBO). 0 manuseio do MBO é o seguinte, como está mostrado na Fig.5:
• O MBO é codificado usando uma árvore regular 5-2-5 MPEG Surround 102. Isso resulta em um sinal downmix MBO estéreo 104, e um fluxo de informações auxiliares MBO MPS 106.
• O downmix MBO é então codificado por um subsequente codificador SAOC 108 como um objeto estéreo, (isto é, duas diferenças de nivel de objeto, mais uma correlação intercanais), junto com o (ou vários) FGO 110. Isto resulta em um sinal downmix comum 112, e um fluxo de informações auxiliares SAOC 114 .
No transcodificador 116, o sinal downmix 112 é pré-processado e os fluxos de informações auxiliares SAOC e MPS 106, 114 são transcodifiçados em um único fluxo de informações auxiliares de saída MPS 118. Isso acontece normalmente de forma descontínua, isto é, seja somente suportada a total supressão do(s) FGO(s) ou a total supressão do MBO.
Finalmente, o downmix resultante 120 e as informações auxiliares MPS 118 são submetidas a um decodificador MPEG Surround 122.
Na Fig. 5, tanto o downmix MBO 104 como o(s) sinal (is) de objeto controlável 110 são combinados em um único downmix estéreo 112. Essa poluição” do downmix pelo objeto controlável 110 é o motive da dificuldade da recuperação de uma versão Karaokê com o objeto controlável 110 sendo removido, que tem qualidade de áudio suficientemente grande. A seguinte proposta visa a remoção deste problema.
Supondo um FGO (por exemplo, um vocal líder), a principal observação usada pela seguinte configuração da Fig. 6 é que o sinal downmix SAOC é uma combinação dos sinais BGO e FGO, isto é, três sinais de áudio são downmixados e transmitidos via 2 canais downmix. Idealmente, esses sinais deveríam ser separados novamente no transcodificador para produzirem um sinal Karaokê limpo (isto é, remover o sinal FGO), ou para produzir um sinal solo limpo (isto é, remover o sinal BGO) . Isto é feito, de acordo com a configuração da Fig. 6, usando um elemento codificador “dois para três (TTT) 124 (TTT-1 como é conhecido na especificação MPEG Surround) dentro do codificador SAOC 108 para combinar o BGO e o FGO em um único sinal downmix SAOC no codificador SAOC. Aqui, o FGO alimenta a entrada do sinal centro do TTT-1 box 124, enquanto o BGO 104 alimenta as entradas esquerda/direita TTT^1 L.R. 0 transcodificador 116 pode então produzir aproximações do BGO 104 usando um elemento decodificador TTT 12 6 (TTT como é conhecido no MPEG Surround), isto é, as saídas esquerda/direita TTT L,R levam uma aproximação do BGO, considerando que a saída centro TTT C leva uma aproximação do FGO 110.
Ao comparar a configuração da Fig. 6 com uma configuração de o codificador e decodificador das Figs. 3 e 4, o sinal de referência 104 corresponde ao sinal de áudio do primeiro tipo entre sinais de áudio 84, os meios 82 são compreendidos pelo codificador MPS 102, o sinal de referência 110 corresponde aos sinais de áudio do segundo tipo entre o sinal de áudio 84, o TTT”1 box 124 assume a responsabilidade das funcionalidades dos meios 88 to 92, com as funcionalidades dos meios 86 e 94 sendo implementadas no codificador SAOC 108, o sinal de referência 112 corresponde ao sinal de referência 56, o sinal de referência 114 corresponde às informações auxiliares 58 menos o sinal residual 62, o TTT box 126 assume a responsabilidade pela funcionalidade dos meios 52 e 54 com a funcionalidade da caixa de mixagens 128 também estando compreendida pelos meios 54. Finalmente, o sinal 120 corresponde à saída de sinal na saída 68. Além disso, nota-se que a Fig. 6 também mostra um caminho codificador/decodificador núcleo 131 para o transporte do downmix 112 do codificador SAOC 108 para o transcodif icador SAOC 116. Esse caminho codificador/decodificador núcleo 131 corresponde ao codificador núcleo opcional 96 e ao decodificador núcleo 98. Como indicado na Fig. 6, este caminho codificador/decodificador núcleo 131 também pode codificar/comprimir o sinal transportado das informações auxiliares do codificador 108 para o transcodificador 116.
As vantagens resultantes da introdução do TTT box da Fig. 6 se tornarão claras a partir da seguinte descrição. Por exemplo, • simplesmente alimentando as saídas esquerda/direita TTT L.R. no downmix MPS 120 (e passando o fluxo de bits transmitido MBO MPS 106 no fluxo 118), somente o MBO é reproduzido pelo decodificador MPS final. Isto corresponde ao modo Karaokê.
simplesmente alimentando a saída centro TTT
C. no downmix MPS esquerdo e direito 120 (e produzindo um fluxo trivial de bits MPS 118 que submete o FGO 110 na posição e nivel desejados), somente o FGO 110 é reproduzido pelo decodificador MPS final 122. Isto corresponde ao modo Solo.
O manuseio dos três sinais de saída TTT L.R.C. é feito na caixa de mixagem 128 do transcodificador SAOC 116.
A estrutura de processamento da Fig. 6 provê várias vantagens com relação à Fig. 5:
• O framework provê uma clara separação estrutural dos sinais de fundo (background) (MBO) 100 e dos sinais FGO 110 • A estrutura do elemento TTT 126 tenta uma melhor possível reconstrução dos três sinais L.R.C. com base na forma de onda. Assim, os sinais de saída MPS finais 130 não são somente formados pela pesagem de energia (e decorrelação) dos sinais downmix, como também são mais próximos em termos de formas de ondas devidas ao processamento TTT.
• Junto ao TTT box MPEG Surround 126 vem a possibilidade de ampliar a precisão de reconstrução usando a codificação residual. Assim, pode ser obtida uma significativa ampliação na qualidade de reconstrução quando são aumentadas a largura residual de banda e a taxa residual de bits da saída do sinal residual 132 em TTT1 124 e usadas pelo TTT box para fazer o upmix. Idealmente, é cancelada (isto é, para quantificação infinitamente fina na codificação residual e na codificação do sinal downmix) a interferência entre o sinal de fundo (MBO) e o sinal FGO.
A estrutura de processamento da Fig. 6 possui algumas características:
• Dualidade de modo Karaokê/Solo: A abordagem da Fig. 6 oferece tanto funcionalidade Karaokê e Solo usando os mesmos meios técnicos. Isto é, são reutilizados os parâmetros SAOC, por exemplo.
• Capacidade de refino: A qualidade do sinal Karaokê/Solo pode ser refinada como necessário controlando a quantidade das informações de codificação residuais usadas nas TTT boxes. Por exemplo, podem ser usados os parâmetros bsResidualSamplingFrequencylndex, bsResidualBands e bsResidualFramesPerSAOCFrame.
Posicionamento de FGO em downmix: Ao usar um
TTT box como mencionado na especificação MPEG Surround, o FGO sempre seria mixado na posição central entre os canais downmix esquerdo e direito. Para permitir maior flexibilidade de posicionamento, é empregada uma caixa codificadora TTT generalizada que segue os mesmos princípios, enquanto permite o posicionamento não simétrico do sinal associado às entradas/saídas de centro.
• FGOs Múltiplos: na configuração descrita, foi descrito o uso de somente um FGO (isto pode corresponder ao mais importante caso de aplicação). Entretanto, o conceito proposto também pode acomodar vários FGOs usando uma ou uma combinação das seguintes medidas:
o FGOs Agrupados: Como mostrado na Figura 6, o sinal que está conectado à entrada/saída central do TTT box pode na realidade ser a soma de vários sinais FGO em vez de ser somente um. Esses FGOs podem ser posicionados/controlados de forma independente no sinal de saída multicanais 130 (é obtida a vantagem de qualidade máxima; entretanto, quando são escalados e posicionados da mesma forma). Compartilham uma posição comum no sinal estéreo downmix 112, e existe somente um sinal residual 132. Em qualquer caso, a interferência entre os objetos de fundo (MBO) e os objetos controláveis é cancelada (apesar de não ser entre os objetos controláveis).
o FGOs em Cascata: AS restrições referentes às posições FGO comuns no downmix 112 podem ser solucionadas ampliando a abordagem da Fig. 6. Podem ser acomodados múltiplos FGOs fazendo a cascata de vários estágios da estrutura TTT descrita, cada estágio correspondendo a um FGO e produzindo um fluxo residual de codificação. Assim, também seria idealmente cancelada a interferência entre cada FGO. É claro que esta opção exige uma maior taxa de bits do que usando uma abordagem FGO agrupada. Será descrito posteriormente um exemplo.
• Informações auxiliares SAOC: No MPEG Surround, as informações auxiliares associadas a uma TTT box são um par de Coeficientes de Predição de Canais (CPCs). Em contraste, a parametrização SAOC e o cenário MBO/Karaokê transmitem energias de objeto para cada sinal objeto e uma correlação inter-sinais entre os dois canais do downmix MBO (isto é, a parametrização de um objeto estéreo). Para minimizar o número de alterações em uma parametrização relativa ao caso, sem o modo Karaokê/Solo ampliado, e assim o formato do fluxo de bits, os CPCs podem ser calculados a partir das energias dos sinais downmixados (downmix MBO e FGOs) e a correlação inter-sinais do objeto downmix MBO estéreo. Portanto, não há necessidade de alterar ou aumentar a parametrização transmitida e os CPCs podem ser calculados a partir da parametrização SAOC transmitida no transcodificador SAOC 116. Assim, também podería ser codificado um fluxo de bits usando o modo Karaokê/Solo ampliado por meio de um decodificador de modo comum (sem codificação residual) ao ignorar os dados residuais.
Em resumo, a configuração da Fig. 6 visa uma reprodução ampliada de determinados objetos selecionados (ou a cena sem esses objetos) e se prolonga até a abordagem de codificação SAOC corrente usando a downmix estéreo da seguinte forma:
• No modo normal, cada sinal objeto é pesado por meio de suas entradas na matriz downmix (por sua contribuição com os canais downmix esquerdo e direito, respectivamente). Então, todas as contribuições pesadas dos canais downmix esquerdo e direito são somadas para formar os canais downmix esquerdo e direito.
• No desempenho ampliado Karaokê/Solo, isto é, no modo ampliado, todas as contribuições de objetos são divididas em um conjunto de contribuições de objetos que formam um Objeto de
Primeiro Plano (FGO) e as contribuições de obj etos restantes
(BGO). A contribuição FGO é somada em um sinal downmix mono, e as
restantes contribuições de fundo são somadas em um estéreo
downmix, e ambas são somadas usando um elemento codificador generalizado TTT para formarem o estéreo downmix SAOC comum.
Assim, uma soma normal é substituída por uma soma TTT (que pode ser cascateada se desejado).
Para enfatizar a diferença mencionada entre o modo normal do codificador SAOC e o modo ampliado, é feita referência às Figs. 7a e 7b, onde a Fig. 7a se refere ao modo normal, considerando que a Fig. 7b se refere ao modo ampliado. Como pode ser visto, no modo normal, o codificador SAOC 108 usa os parâmetros DMX supramencionados Dij para pesar os objetos j e somar os objetos assim pesados j ao canal SAOC i, isto é, L0 ou RO. No caso do modo ampliado da Fig. 6, é somente necessário um vetor dos parâmetros DMX Diz isto é, parâmetros DMX Di indicando como formar uma soma pesada dos FGOs 110, obtendo assim o canal central C da TTT’1 box 124, e os parâmetros DMX Dif instruindo a TTT”1 box sobre como distribuir o sinal central C para o canal MBO esquerdo e para o canal MBO direito respectivamente, obtendo assim o LDMX ou RDMX, respectivamente.
Problematicamente, o processamento de acordo com a Fig. 6 não funciona muito bem com os codecs de preservação de formas de onda (HE-AAC/SBR) . Uma solução para esse problema pode ser um modo TTT generalizado baseado em energia para HE-AAC e altas frequências. Uma configuração que soluciona o problema será descrita posteriormente.
Um possível formato de fluxo de bits para aquele com TTTs em cascata podería ser o seguinte:
Além do fluxo de bits SAOC que deve poder ser pulado, caso seja digerido no modo comum de decodificação:
numTTTs int for (ttt=0; ttt<numTTTs; ttt++) { no_TTT_obj[ttt] int
TTT_bandwidth[ttt];
TTT_residual_stream[ttt]
Para as exigências de complexidade e memória, Pode ser declarado o seguinte. Como pode ser visto nas explanações anteriores, o modo Karaokê/Solo ampliado da Fig. 6 é implementado adicionando os estágios de um elemento conceituai em cada codificador e decodificador/transcodificador, isto é, no elemento codificador generalizado TTT-l/TTT. Ambos os elementos são idênticos em complexidade às sua contrapartes normais centradas TTT (a alteração nos valores do coeficiente não influencia a complexidade). Para a principal aplicação visada (um FGO como vocais principais), é suficiente um único TTT.
A relação entre essa estrutura adicional com a complexidade de um sistema MPEG Surround pode ser apreciada observando a estrutura de todo o decodificador MPEG Surround que, para o caso do relevante estéreo downmix (configuração 5-2-5) consiste de um elemento TTT e 2 elementos OTT. Isto já mostra que a funcionalidade adicionada vem com um preço moderado em termos de complexidade computacional e de consumo de memória (notar que os elementos conceituais que usam codificação residual estão na média não mais complexa que suas contrapartes que, em vez disso, incluem decorrelatores).
Esta extensão da Fig. 6 do modelo de referência MPEG SAOC provê um aperfeiçoamento da qualidade de áudio para aplicações do tipo solo especial ou mudo/Karaokê. Novamente se nota que a descrição correspondente às Figs. 5, 6 e 7 se referem a um MBO como cena de fundo ou BGO que, que em geral não se limita a esse tipo de objeto e pode também, por sua vez, ser um objeto mono ou estéreo.
Um procedimento de avaliação subjetiva revela o aperfeiçoamento em termos de qualidade de áudio do sinal de saída de uma aplicação Karaokê ou solo. As condições avaliadas são:
• RMO • Modo ampliado (res 0) (= sem codificação residual) • Modo ampliado (res 6) (= com codificação residual nas 6 menores bandas híbridas QMF) • Modo ampliado (res 12) (=com codificação residual nas 12 menores bandas híbridas QMF) • Modo ampliado (res 24) (= com codificação residual nas 24 menores bandas híbridas QMF) • Referência Oculta • Menor ancoragem (versão de referência limitada da banda de 3,5 kHz)
A taxa de bits do modo ampliado proposto é similar ao RMO se usado sem codificação residual. Todos os demais modos ampliados exigem cerca de 10 kbit/s para cada 6 bandas de codificação residual.
A Figura 8a mostra os resultados de um teste mudo/Karaokê com 10 indivíduos ouvintes. A solução proposta tem uma classificação média MUSHRA que é sempre maior que o RMO e aumenta a cada etapa de codificação residual adicional. Pode ser observado um aperfeiçoamento estatisticamente significativo com relação ao desempenho do RMO para os modos com 6 e mais bandas de codificação residual.
Os resultados do teste solo com 9 indivíduos na Figura 8b mostram vantagens similares da solução proposta. A classificação MUSHRA média aumenta claramente ao ser adicionada mais e mais codificação residual. O ganho entre o modo ampliado sem 24 bandas e o modo ampliado com 24 bandas de codificação residual é de quase 50 pontos MUSHRA.
No geral, uma boa qualidade de uma aplicação Karaokê pode ser obtida com o custo aproximado de uma taxa de bits maior em 10 kbit/s que o RMO. É possível uma excelente qualidade ao adicionar aproximadamente 40 kbit/s ao topo da taxa de bits do RMO. Em um cenário de aplicação real, onde é dada a máxima taxa fixada de bits, o modo ampliado proposto permite muito bem gastar a taxa de bits não usada para a codificação residual até que a máxima taxa permissível seja alcançada. Portanto, é obtida a melhor qualidade possível geral de áudio. É possível outro aperfeiçoamento com relação aos resultados experimentais apresentados devido ao uso mais inteligente da taxa residual de bits: Enquanto o ajuste apresentado sempre esteve usando a codificação residual de DC até uma determinada frequência limite superior, uma implementação ampliada somente gastaria bits da faixa de frequências relevante para a separação do FGO e dos objetos de fundo.
Na descrição apresentada, foi descrita uma ampliação da tecnologia SAOC para as aplicações do tipo Karaokê. São apresentadas outras configurações detalhadas de uma aplicação do modo Karaokê/solo ampliado para o processamento da cena de áudio multicanais FGO para MPEG SAOC.
Em contraste com os FGOs, que são reproduzidos com alterações, os sinais MBO devem ser reproduzidos sem alterações, isto é, cada sinal de canal de entrada é reproduzido pelo mesmo canal de saída em nível inalterado. Como consequência, foi proposto o pré-processamento dos sinais MBO por um codificador MPEG Surround, produzindo um sinal downmix estéreo que serve como um objeto de fundo (BGO) (estéreo) a ser enviado aos subsequentes estágios de processamento do modo Karaokê/solo, compreendendo um codificador SAOC, um transcodificador MBO e um decodificador MPS. Novamente, a Figura 9 mostra um diagrama da estrutura geral.
Como pode ser visto, de acordo com a estrutura do codificador do modo Karaokê/solo, os objetos de entrada são classificados em um objeto estéreo de fundo (BGO) 104 e em objetos de primeiro plano (FGO) 110.
Apesar de em RMO o manuseio desses cenários de aplicação ser feito por um sistema codificador/transcodificador SAOC, a ampliação da Fig. 6 também explora um bloco de construção elementar da estrutura MPEG Surround. Incorporando o bloco(TTT-1) três-para-dois no codificador e o correspondente complemento (TTT) dois-para três ao transcodificador melhora o desempenho quando é necessária forte boost/atenuação do determinado objeto de áudio. As duas características primárias da estrutura ampliada são:
- Melhor separação de sinal devido à exploração do sinal residual (comparado ao RMO) ,
- Posicionamento flexível do sinal que é denominado de entrada central (isto é, o FGO) da TTT’1 box pela generalização de sua especificação de mixagem.
Como a implementação direta do bloco de construção TTT envolve três sinais de entrada no lado do codificador, foi focalizada a Fig. 6 no processamento dos FGOs como um sinal (downmixado) mono, como mostrado na Figura 10. Também foi declarado o tratamento de sinais FGO multicanais, mas será explicado em maiores detalhes no capítulo subsequente.
Como pode ser visto na Fig. 10, no modo ampliado da Fig. 6, é enviada uma central da TTT”1 box.
No caso
Fig. 6 e da Fig. 10, a compreende o FGO que é fornece a entrada subjacente é dada por:
combinação de todos os FGOs para o canal de um downmix FGO mono como no caso da configuração da TTT-1 box no codificador enviado para a entrada central e o BGO que esquerda e direita. A matriz simétrica
'1 0 ή
10 D = 0 1 m2
m2 -L
um sinal F0:
' L0'
R0 = D R
/
que provê o downmix (L0 R0)T e
É descartado o 3o sinal obtido por este sistema linear, mas pode ser reconstruído no lado do transcodificador que 15 incorpora dois coeficientes de predição C; e c2 (CPC) de acordo com:
F0 = c}L0 + c2R0 .
O processo inverso no transcodificador é dado por:
( l + m2 + am, -m,m2 +'
D~'C =----z---- -m.m.+am. \ + +.
l + m2+m2 2 12 2 12
L Wl-Cl m2~C2 J
Os parâmetros m} e m2 correspondem a:
/77,=003(//) e w2=sin(/z) e μ é responsável pelo posicionamento panorâmico do FGO no dowmix TTT comum (L0 R0)T. Os coeficientes de predição Ci e c2 exigidos pela unidade upmix TTT no lado do transcodificador podem ser estimados usando os parâmetros SAOC transmitidos, isto é, as diferenças de nível de objeto (OLDs) de todos os objetos de áudio de entrada e de correlação interobjetos (IOC) dos sinais BGO downmix (MBO). Supondo a independência estatística dos sinais FGO e BGO, a seguinte relação é válida para a estimativa CPC:
p P _P P P P -P p c _ ' LoFo1 Ro 1 RoFo1 LoRo _ 1 RoFo1 Lo L LoFo1 LoRo 1 P P -P2 ' 2 P P — p2 ' J Lo1 Ro 1 LoRo 1 Lo1 Ro 1 LoRo
As variáveis PLi), PRo , Plt)Ro, Ρι<>,,<> e PRll,o podem ser estimadas como a seguir, onde os parâmetros OLDl, OLDr e IOCLR correspondem ao BGO, e OLDf é um parâmetro FGO:
P,o=OLD, +m2OLD,.. ,
P!(o = OLD,, + mlOLD, , Pi.oRo = lOC^+m^OLD,.., Pi.oRo = {OLD, - OLD,..) + m2IOC,R ,
ProFo = {°LDr - OLDb.) + m,IOC,R .
Além disso, o erro introduzido pela implicação dos CPCs é representado pelo sinal residual 132 que pode ser transmitido dentro fluxo de bits, de forma que:
res = F0 - F0 .
Em alguns cenários de aplicação, a restrição de um único downmix mono a todos os FGOs é inadequada, precisando assim ser superada. Por exemplo, os FGOs podem ser divididos em dois ou mais grupos independentes com diferentes posições no downmix estéreo transmitido e/ou na atenuação individual. Portanto, a estrutura em cascata mostrada na Fig. 11 implica em dois ou mais elementos TTT'1 consecutivos 124a, 124b, produzindo um downmix passo a passo de todos os grupos FGO Fi, F2 no lado do codificador, até que o desejado downmix estéreo 112 seja obtido. Cada - ou pelo menos algumas - das TTT-1 boxes 124a,b (na Fig. 11 cada) estabelece um sinal residual 132a, 132b que corresponde ao estágio respectivo ou à TTT”1 box 124a,b, respectivamente. Por outro lado, o transcodificador realize o upmix sequencial com o uso das respectivas TTT boxes 126a,b aplicadas sequencialmente, incorporando os CPCs correspondentes e os sinais residuais, sempre que possível. A ordem de processamento FGO é especificada pelo codificador e deve ser considerada no lado do transcodificador.
A matemática detalhada envolvida com a cascata de dois estágios mostrada na Fig. 11 é descrita a seguir.
Sem a perda da generalidade, mas para uma ilustração simplificada, a seguinte explicação se baseia em uma cascata que consiste de dois elementos TTT, como mostrado na
Figura 11. As duas π latri zes simétricas são similares ao downmix
FGO mono, mas devem ser adequadamente aplicadas aos sinais
respectivos
f 1 0 ( 1 0 m,2^
D} = 0 1 m2l e D2 = 0 1 m22
™21 -d ,WI2 m22 -d
Aqui t os dois conjuntos de CPCs resultam na
seguinte reconstrução de sinal:
ÂOj = cjjZO] +c]2J?01 e F02 = c21Z02 + c227?02 .
O processo inverso é representado por:
( l + m2] +cnmn
D, = - - — — m]Xm2] +c,,/772, 1 + m}, + cnm2l + /77,, + /77,, < ^11 -G1 ^21-^12 J d21 + m2 n + /77j2 + m22 + ¢2,//7,2
-ml2m22 +c2lm22 mn-c2} + m2 2 + c22m22 m22 ~C22 .
Um caso especial da cascata de dois estágios compreende um FGO estéreo com seus canais esquerdo e direito sendo somados de forma adequada aos canais correspondentes de BGO, produzindo //, = 0 e μ2 =— :
D,.
1Ίf , e DR = 0 -1J^0 (P
1
-l
Para este estilo de posicionamento panorâmico particular e negligenciando a correlação inter-objetos, OLDIR=Q a estimativa dos dois conjuntos de CPCs se reduz a:
OLD.-OLD,,
C, 1 =-----L' CI2=U ' !A OLD,+OLD,;I = OLDR-OLDFR R' ' ,n OLDR+OLDFR' com OLDEl e OLDlR indicando os OLDs do sinal FGO esquerdo e direito, respectivamente.
O caso da cascata geral de N estágios se refere a um downmix FGO multicanais de acordo com:
( 1 0 mn f 1 0 mi2^
D} = 0 1 m2X , d2 = 0 1 m22
/m21 -d .^12 m22
miN
DN= Q 1 m2N m2N onde cada estágio caracteriza seus próprios CPCs e sinal residual.
No lado do transcodificador, as etapas de cascateamento inverso são dadas por:
D, + wj2, +
1_ 1
7/.,2 2 + m\\; + m2N
D-'
l + m2l -mnm2} +cl2mn
-ζμπ»72| + cnm2l 1 + m^ +cl2m2l f ·· <
m\\ -cn m2\ ~ C12 /
1 + m2N + cN]m]N m\Nm2N +CN2m\N
m\Nm2N + CN\m2N 1 + m\N + CN2 m2N
k m\N CN\ m2N CN2 ,
Para abolir a necessidade de preservação da ordem dos elementos TTT, a estrutura em cascata pode ser facilmente convertida em um paralelo equivalente por meio do rearranjo das N matrizes e uma única matriz TTN simétrica, produzindo assim um estilo TTN geral:
r i 0 mu
0 1 m2\
II m,. m21 -1
m2N 0
m\N m2N onde as primeiras duas linhas da matriz denotam o downmix estéreo a ser transmitido. Por outro lado, o termo TTN dois-para-N (two-to-N) - se refere ao processo de upmixing no lado do transcodificador.
Usando esta descrição, o caso especial do FGO estéreo particularmente em posicionamento panorâmico (panned) reduz a matriz a:
fl 0 1
0 -1 (Γ ο
-1>
Assim, esta unidade pode ser denominada elemento dois-para-quatro ou TTF.
É também possível produzir uma estrutura TTF reusando o módulo pré-processador estéreo SAOC.
Para a limitação de N=4, torna-se viável uma implementação da estrutura dois-para-quatro (TTF), que reutiliza partes do sistema existente SAOC. O processamento é descrito nos seguintes parágrafos.
O texto padrão SAOC descreve o pré-processamento downmix estéreo do modo de transcodificação estéreo-paraestéreo. Precisamente, o sinal estéreo de saída Y é calculado a partir do sinal estéreo de entrada X junto com um sinal decorrelacionado Xd como a seguir:
Y = GModX + P2Xd
A componente decorrelacionada Xd é uma representação sintética das partes do sinal original submetido que já foram descartadas no processo de codificação. De acordo com Fig. 12, o sinal decorrelacionado é substituído por um sinal residual gerado pelo codificador 132 para uma determinada faixa de frequências.
A nomenclatura é definida como:
• D é uma matriz downmix 2 χ N • A é uma matriz de rendering 2 χ N
E é um modelo de covariância N χ N dos objetos de entrada S • Gmocí (correspondendo a G na Figura 12) é a matriz upmix preditiva 2x2
Notar que Gmocí é uma função de D, A e E.
Para calcular o sinal residual XRes é necessário imitar o processamento do decodificador no codificador, isto é, determinar GMOd. Nos cenários gerais A não são conhecidos, mas no caso de um cenário de Karaokê (por exemplo, com um fundo estéreo e um objeto de primeiro plano estéreo, N=4) é suposto que (0 0 10)
A = ^0 0 0 1)
O que significa que somente o BGO é submetido.
Para uma estimativa do objeto de primeiro plano o objeto de fundo reconstruído é subtraído do sinal downmix X. Isto e o rendering final são feitos no bloco de processamento Mix. Os detalhes são apresentados a seguir.
A matriz de rendering A é estabelecida para (0 0 1 (Γ Abgo“[o o o i, onde é suposto que as primeiras 2 colunas representam os 2 canais do FGO e as segundas 2 colunas representam os 2 canais do BGO.
As saídas estéreo BGO e FGO são calculadas de acordo com as seguintes fórmulas.
YBGO=GModX + XRes
E a matriz de pesagem downmix D é definida como
D = (®fgo|Dbgo) com acima.
Favor ®BGO
Y 1 BGO ( 1 ) •Vbgo <Ãbgo>
d u12 ό/22 ;
o FGO objeto pode ser estabelecido para
FGO = D ^BGO ^11 'T'bGO +<^12 ~y BGO <^21 ‘ J^BGO + ^22 ' T’bGO y
Como exemplo, isto se reduz a
V — Y_ V 1 FGO “ 1 BGO para matriz downmix de ^Res sao os sinais residuais obtidos como descrito notar que não são adicionados sinais decorrelacionados.
A saída final Y é dada por
FGO
As configurações acima também podem se aplicar se for usado um FGO mono em vez de um FGO estéreo. O processamento é então alterado de acordo com o seguinte.
A matriz de rendering A é estabelecida em onde é suposto que a primeira coluna representa o
FGO mono e as colunas subsequentes representam os 2 canais do BGO.
A saída estéreo BGO e FGO é calculada de acordo com as seguintes formulas.
YfGO - G ModX + ^Res
E a matriz de pesagem downmix D é definida como
D = (®FGo|®BGo) com
D FGO aFGO ç^FGO y
Y = 1 FGO ( λ
I’fgo l θ J
Ο objeto BGO pode ser estabelecido com
Y = D~' * BGO BGO / ,1 λ flFGO ‘ Τ FGO ç^FGO ’ -Vf?GO y
Como exemplo, isto se reduz a
Y * BGO = x( 5
VfGO
V^FGO ) para uma matriz downmix de (Ί 1 0Ί
D = θ 1J
XRes são os sinais residuais obtidos como acima descrito. Favor notar que não são adicionados sinais decorrelacionados.
A saída final Y é dada por <Y j *FGO
Y \ 1 BGO /
Para o manuseio de mais de objetos FGO as configurações acima podem ser estendidas montando estágios paralelos das etapas descritas de processamento.
As configurações acima descritas fornecem a descrição detalhada do modo ampliado Karaokê/solo para os casos de cena de áudio FGO multicanais. Esta generalização visa ampliar a classe dos cenários de aplicação Karaokê, para a qual a qualidade do som do modelo de referência MPEG SAOC também pode ser melhorada pela aplicação do modo ampliado Karaokê/solo. O aperfeiçoamento é obtido introduzindo uma estrutura NTT geral na parte downmix do codificador SAOC e as contrapartes correspondentes no transcodificador SAOCtoMPS. O uso de sinais residuais ampliam o resultado da qualidade.
As Figs. 13a a 13h mostram uma possível sintaxe do fluxo de bits das informações auxiliares SAOC de acordo com uma configuração da presente invenção.
Após ter descrito algumas configurações referentes a um modo ampliado para o codec SAOC, deve ser notado que algumas configurações se referem a cenários de aplicação onde a entrada de áudio para o codificador SAOC contém não somente fontes sonoras regulares mono ou estéreo, como objetos multicanais. Isto foi explicitamente descrito com relação às Figs. 5 a 7b. Este objeto de fundo MBO multicanais pode ser considerado como uma cena Sonora complexa que envolve um grande e geralmente desconhecido número de fontes sonoras, para o qual não é necessária funcionalidade controlável de rendering. Individualmente, essas fontes de áudio não podem ser manuseadas de forma eficiente pela arquitetura do codificador/decodificador SAOC. O conceito da arquitetura SAOC pode, portanto, ser imaginado como estendido para tratar desses sinais complexos de entrada, isto é, dos canais MBO, em conjunto com os objetos SAOC de áudio típicos. Portanto, nas configurações mencionadas da Fig. 5 à 7b, o codificador MPEG Surround é imaginado como sendo incorporado ao codificador SAOC como indicado pela linha pontilhada que circunda o codificador SAOC 108 e o codificador MPS 100. O downmix resultante 104 serve como um objeto de entrada estéreo para o codificador SAOC 108 em conjunto com um objeto SAOC controlável 110 produzindo um downmix estéreo combinado 112 transmitido para o lado do transcodificador. No domínio paramétrico, tanto o fluxo de bits MPS 106 e como o fluxo de bits SAOC 114 são enviados ao transcodificador SAOC 116 que, dependendo do cenário particular das aplicações MBO, provê o adequado fluxo de bits MPS 118 para o decodificador MPEG Surround 122. Essa tarefa é feita usando as informações de rendering ou da matriz de rendering e empregando alguns pré-processamentos downmix para transformar o sinal downmix 112 em um sinal downmix 120 para o decodificador MPS 122.
Outra configuração para um modo ampliado Karaokê/Solo é descrita abaixo. Esta permite a manipulação individual de alguns objetos de áudio em termos de seus níveis de amplificação/atenuação sem redução significativa na qualidade resultante de som. Um cenário de aplicação especial do tipo Karaokê exige a total supressão dos objetos específicos, tipicamente do vocal principal, (a seguir denominado Objeto de Primeiro Plano FGO) mantendo a qualidade perceptual da cena sonora de fundo sem ser prejudicada. Isto também leva à capacidade de reproduzir individualmente os sinais FGO específicos sem a cena de áudio de fundo estático (a seguir denominada de Objeto de Fundo
BGO) , que não exige o poder de controle do usuário em termos de posicionamento panorâmico. Este cenário é denominado de modo Solo. Um caso tipico de aplicação contém um BGO estéreo e até quatro sinais FGO, que pode, por exemplo, representar dois objetos estéreo independentes.
De acordo com essa configuração e a Fig. 14, o transcodificador ampliado Karaokê/Solo 150 incorpora seja um elemento dois-para-N (TTN) ou um-para-N (OTN) 152, ambos representando uma modificação generalizada e ampliada da TTT box conhecida na especificação MPEG Surround. A escolha do elemento adequado depende do número de canais downmix transmitidos, isto é, a TTN box é dedicada ao sinal estéreo downmix, enquanto que para um sinal downmix mono se aplica a OTN box. A correspondente TTN”1 ou OTN”1 box no codificador SAOC combina os sinais BGO e FGO em um downmix SAOC estéreo ou mono comum 112 e gera o fluxo de bits 114. O posicionamento arbitrário pré-definido de todos os FGOs individuais no sinal downmix 112 é suportado por cada elemento, isto é, TTN ou OTN 152. No lado do transcodificador, o sinal BGO 154 ou qualquer combinação de sinais FGO 156 (dependendo do modo de operação 158 aplicado externamente) é recuperado do downmix 112 pela TTN ou OTN box 152 usando somente as informações auxiliares SAOC 114 e opcionalmente sinais residuais incorporados. Os objetos de áudio recuperados 154/156 e informações de rendering 160 são usados para produzir o fluxo de bits MPEG Surround 162 e o correspondente sinal downmix pré-processado 164. A unidade de mixagem 166 faz o processamento do sinal downmix 112 para obter o downmix MPS de entrada 164 e o transcodif icador MPS 168 é responsável pela transcodificação dos parâmetros SAOC 114 nos parâmetros MPS 162. Ά TTN/OTN box 152 e a unidade de mixagem 166 em conjunto fazem o processamento do modo ampliado Karaokê/solo 170 correspondente aos meios 52 e 54 na Fig. 3 com a função da unidade de mixagem ser compreendida pelos meios 54.
Um MBO pode ser tratado da mesma forma explicada acima, isto é, é pré-processado por um codificador MPEG Surround que produz um sinal downmix estéreo ou mono que serve como BGO para ser enviado ao subsequente codificador SAOC ampliado. Nesse caso, o transcodificador deve ser provido com um fluxo adicional de bits MPEG Surround próximo ao fluxo de bits SAOC.
Depois, é explicado o cálculo realizado pelo elemento TTN (OTN). A matriz TTN/OTN expressa na primeira resolução predeterminada de tempo/frequência 42, M, é o produto de duas matrizes
M = D~'C , onde D 1 compreende as informações downmix e C encerra os coeficientes de predição de canais (CPCs) para cada canal FGO. C é computado pelos meios 52 e box 152, respectivamente, e D 1 é computado e aplicado, junto com C, no downmix SAOC pelos meios 54 e box 152, respectivamente. A computação é feita de acordo com
0' CN2 para o elemento TTN, isto é, um downmix estéreo e para ο elemento OTN, isto é, um downmix mono.
Os CPCs são obtidos a partir dos parâmetros SAOC transmitidos, isto é, dos OLDs lOCs, DMGs e DCLDs. Pra um canal
FGO específico j, os CPCs podem ser estimados por j1 Ro 1 RoFoj1 LoRo ’ p -P2
Lo1 Ro 1 LoRo
RoFoj1 Lo LoFo,j LoRo p P -P2
Lo1 Ro LoRo
Ph, =OLD, £ mJOC^OLDfiLD, ,
I j k=j + \
P«„=OLDh +Σ>Κ0ΙΛ,+2Ση, Σ t /oc,AOLDPLD t
I j k=j+\
Folio = IOCI.R/OLD, OLDr + Σ mppLD, + 2^ Σ (mjnk + mknj) IOCjk yJOLD/OLDk, i j k=j+\ 10 FoFo,j = mpLD, + rijIOC^/OLD,OLDR - m.OLDj -£mJOCj, yJOLDJOLDi , /*7
FoFoj = nPLDR + m,IOC,Jt/OLD^LD, - nJOLDJ -£pIOC^/OLDpLD, .
í*j
Os parâmetros OLD: , OLDR e IOCIR correspondem ao BGO, os demais são valores FGO.
Os coeficientes e denotam os valores downmix de cada FGO j dos canais downmix direito e esquerdo, e são obtidos a partir dos ganhos downmix DMG e das diferenças downmix de níveis de canais DCLD = 10
0.05 1 + loo.i/x.7,ny
Com relação ao elemento OTN, a computação dos segundos valores CPC cj2 se torna redundante.
Para reconstruir os dois grupos de objetos BGO e
FGO, as informações downmix são exploradas pelo inverso da downmix matriz D que se prolonga para ainda indicar a combinação linear dos sinais F0x a F0N, isto é
' L0 ' RO F0, = D r za R Λ
A seguir, o downmix no lado do codificador é explicado: Dentro do elemento TTN”1, a matriz downmix estendida é
f 1 0 0 1 Í «1 · · mN nN
D- «1 ; -1 . .. 0
: 0 ’
nN 0 · ·· -u
r 1 mx . mN '
1 1 . nN
D = mx +«1 -1 . . 0
0 '
/mN + nN 0 . • “J
para um BGO estéreo, para um BGO mono,
E para o elemento OTN 1 é
para um BGO estéreo, ' 1 \ mx m\ ί 1 j 0 í 0 ”ó”
-u para um BGO mono.
A saída do elemento TTN/OTN produz
L í £0 3
R RO
..............
= M resx
.F„ . ^resN>
Para um BGO estéreo e urn downmix estéreo. No caso de o BGO e/ou downmix ser um sinal mono, o sistema muda de acordo.
O sinal residual resi - caso presente corresponde ao objeto FGO i e se não transferido pelo fluxo SAOCporque, por exemplo, fica fora da faixa de frequência residual, ou é sinalizado que para o objeto FGO i não é transferido nenhum sinal residual - resi é inferido como sendo zero. Fí é o sinal reconstruído/upmixado aproximando o objeto FGO i. Após a computação, pode ser passado por um banco de filtros de síntese para obter o domínio de tempo, como a versão PCM codificada do objeto FGO i. É lembrado que LO e RO denotam os canais do sinal downmix SAOC e são disponíveis/sinalizados em uma crescente resolução tempo/frequência comparada aos índices subjacentes da resolução paramétrica (n,k). L e R são os sinais reconstruídos/upmixados aproximando os canais esquerdo e direito do objeto BGO. Junto ao fluxo de bits do lado MPS, pode ser submetido ao número original de canais.
De acordo com uma configuração, a seguinte matriz TTN é usada em um modo de energia.
O procedimento de codificação/decodificação baseado em energia é projetado para a codificação da não preservação da forma de onda do sinal downmix. Assim, a matriz upmix TTN do modo correspondente de energia não depende de formas específicas de onda, mas somente descreve a distribuição relativa de energia dos objetos de áudio de entrada. Os elementos desta matriz MEnergy são obtidos a partir dos correspondentes OLDs de acordo com
BGO estéreo
BGO mono,
OLD, + ^m2OLD,
OLD,,
OLDR+^n2OLD, m2OLD} n2OLDx ^Energy ^Energy
OLDl +Ym2OLD, i OLDR+^n2OLD, l
mí NOLDN n2 NOLDN
OLD, + ^m2OLD: OLDR+^n2OLD, i
1 ozd, y
OLD,+Yjm2OLD, OLD, +^n2 OLD,
m2OLD, n2 OLD,
OLD, + ^m2 OLD, i OLD, + ^n2OLD, i
m2 NOLDN n2 NOLDN
para um para um
OLD, + ^m2 OLD,
OLD, + ^n2OLD,
De maneira que a saída do elemento TTN produz
MEnergy ou respectivamente
= M Energy (L0\
RO
Assim, para um downmix mono a matriz de upmix baseada em energia MEnergy se torna
Mr
Energy
yJn/OLD. + /n2OLD}
OLD^^mfOLD, + . =
OLDK + ^n2OLD,
Jm2 NOLDN +/n:.OLD^
Para um BGO estéreo, e ^Energy
yJm^OLD, 1
JoLD, +y,m2OLD,
/ mNOLDN
para um BGO mono, de maneira que a saída do elemento OTN resulta em.
ou respectivamente = Mi:mr^L0) .
Assim, de acordo com a configuração mencionada, a classificação de todos os objetos (Obj. ... ObjN} em BGO e FGO, respectivamente, é feita no lado do codificador. O BGO pode ser um objeto mono (/,) ou estéreo . O downmix do BGO no sinal downmix é fixado. Com relação aos
FGOs, seu número é teoricamente ilimitado. Entretanto, para maioria das aplicações um total de quatro objetos FGO parece adequado.
Quaisquer combinações de objetos mono e estéreo são possíveis.
Por meio dos parâmetros m, (pesando no sinal downmix esquerdo/mono) downmix direito), o downmix FGO é variável e n. (pesando no sinal tanto no tempo como na frequência. Como consequência, o sinal downmix pode ser mono (£0) ou estéreo (LQ
Ã0
Novamente, os sinais (TO, ... FQN}‘ não são transmitidos para o decodificador/transcodificador. Em vez disso, são previstos no lado do decodi f icador por intermédio dos CPCs supramencionados.
Com relação a isto, nota-se novamente que os sinais residuais res podem até ser desconsiderados por um decodificador ou podem até não existir, isto é, são opcionais. No caso do residual não existir, um decodificador - meios 52, por exemplo - prevê os sinais virtuais somente baseados nos CPCs, de acordo com:
Downmix Estéreo:
( L0 > r i 0 Ί
RO 0 1
Λ (L0)
F0, = c C,. C.,
^oj
CN2 j
Downmix Mono:
(LQ Ί =c(zo) = Γ1Ί
#0,
iCNl)
(Λ0).
Então, BGO e/ou FGO são obtidos por por exemplo, pelos meios 54 inversão de uma das quatro possíveis combinações lineares do codificador,
por exemplo, ' íX R Â = D~' ' L0 ' RO F0}
onde novamente D 1 é uma função dos parâmetros DMG e DCLD.
Assim, no total, uma TTN (OTN)
Box 152 omitindo o residual computa ambas as etapas mencionadas de computação por exemplo:
L0
RO
Nota-se, que o inverso de D pode ser diretamente obtido no caso de D ser quadrático. No caso de uma matriz D não quadrática, o inverso de D será um pseudo-inverso, isto é, pinv(D)= D'(díJ) 1 ρζ>7ν(Ζ>) = D*
Em qualquer caso, existe um inverso de D.
Finalmente, a Fig. 15 mostra outra possibilidade de como estabelecer, dentro das informações auxiliares, a quantidade de gastos para a transferência dos dados residuais. De acordo com esta sintaxe, as informações auxiliares compreendem bsResidualSamplingFrequencylndex, isto é, um índice de uma tabela que associa, por exemplo, uma resolução de frequência ao índice. De forma alternativa, a resolução pode ser pensada como sendo uma resolução predeterminada, como a resolução do banco de filtros ou a resolução paramétrica. Além disso, as informações auxiliares compreendem bsResidualFramesPerSAOCFrame definindo a resolução de tempo no qual o sinal residual é transferido. BsNumGroupsFGO também compreendido pelas informações auxiliares, indica o número de FGOs. Para cada FGO, é transmitido um elemento de sintaxe bsResidualPresent, indicando se o respectivo sinal residual FGO é transmitido ou não. Se presente, bsResidualBands indica o número de bandas espectrais para o qual os valores residuais são transmitidos.
Dependendo da implementação real, os métodos de codificação/decodificação do invento podem ser implementados em hardware ou em software. Portanto, a presente invenção também se refere a um programa de computador, que pode ser armazenado em uma mídia de leitura por computador como um CD, um disco ou qualquer outro veículo de dados. A presente invenção é, portanto, também um programa de computador dotado de um código de programas que, quando operado em um computador, realiza o método do invento de codificação ou o método do invento de decodificação descrito em relação às figuras acima.

Claims (9)

  1. R E I V I N D I C A Ç Õ E S
    1. Decodificador de áudio para a decodificação de um sinal multi-. áudio- objeto dotado de um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo codificados, o sinal multi-áudio-objeto
    consistindo de um sinal downmix (112) e de informações auxiliares, as informações auxiliares compreendendo as informações de nível do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência, o decodificador de áudio compreendendo:
    Um processador configurado para a computação de uma matriz C de coeficientes de predição baseados nas informações de nível (OLD); e
    Um Up-Mixer configurado para fazer o upmixing do sinal downmix baseado nos coeficientes de predição para ser obtido um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio de upmix aproximando o sinal de áudio do segundo tipo, caracterizado pelo fato que os meios para upmixing são configurados para produzir o primeiro sinal de upmix S1 e/ou o segundo sinal de upmix S2 do sinal downmix d de acordo com a computação representável por
    Petição 870190123919, de 27/11/2019, pág. 279/287
  2. 2/9
    1 If 11 = D(I I d + H |l C ) onde “1” denota - dependendo do número de canais de d - um escalar, ou uma matriz de identidade, e D-1 é uma matriz exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal downmix, sendo também compreendida pelas informações auxiliares.
    2. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que a indicação downmix varia no tempo dentro das informações auxiliares.
  3. 3. Decodificador de áudio de acordo com a reivindicação 1, caracterizado pelo fato que o sinal de áudio do primeiro tipo é um sinal de áudio estéreo tendo um primeiro e um segundo canais de entrada, ou um sinal de áudio mono tendo somente um primeiro canal de entrada, em que as informações de nível descrevem as diferenças de nível entre o primeiro canal de entrada, o segundo canal de entrada e o sinal de áudio do segundo tipo, respectivamente, na primeira resolução predeterminada de tempo/frequência, em que as informações auxiliares ainda compreendem informações de intercorrelação definindo similaridades de nível entre o primeiro e o segundo canais de entrada em uma terceira
    Petição 870190123919, de 27/11/2019, pág. 280/287
    3/9 resolução predeterminada de tempo/frequência, onde os meios para computação são configurados para fazer a computação ainda baseada nas informações de intercorrelação.
  4. 4. Decodificador de áudio, de acordo com a reivindicação 3, caracterizado pelo fato de que a primeira e terceira resoluções de tempo/frequência são determinadas por
    um elemento de sintaxe comum dentro das informações auxiliares. 5 Decodificador de áudio, de acordo com a reivindicação 3, caracterizado pelo fato que o sinal downmix e o sinal de áudio do primeiro tipo são mono. 6 Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que o sinal multi-
    áudio-objeto compreende uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares compreendem um sinal residual por sinal de áudio do segundo tipo.
    7. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que a segunda resolução predeterminada de tempo/frequência é relativa à primeira resolução predeterminada de tempo/frequência via um parâmetro de resolução residual contido nas informações auxiliares, em que o decodificador de áudio compreende meios para a obtenção do parâmetro de resolução residual das informações auxiliares.
    Petição 870190123919, de 27/11/2019, pág. 281/287
    4/9
    8. Decodificador de áudio, de acordo com a reivindicação 7, caracterizado pelo fato que o parâmetro de resolução residual define uma faixa espectral sobre a qual o sinal residual é transmitido dentro das informações auxiliares.
    9. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que o parâmetro de resolução residual define um limite inferior e um limite superior da faixa espectral.
    10. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que os meios para a computação dos coeficientes de predição (CPC) são configurados para computar os coeficientes de predição de canais c/ para cada tijolo tempo/frequência (l,m) da primeira resolução tempo/frequência, para cada canal de saída i do sinal downmix, e para cada canal j do sinal de áudio(s) do segundo tipo como r>l ,m r^l ,m r^l ,m r>l ,m r^l ,m nl,m -pl ,m pl,m l,m PLoFo, jPRo PRoFo, jPLoRo l,m PRoFo, jPLo PLoFo, jPLoRo c * jjc ’ _________j_____________________—__________ j1 pl,m r>l,m p2 l,m j2 pl,m pl,m p2 l,m PLo PRo - PLoRo PLo PRo - PLoRo com
    4 4 4
    P « OLDl + ΣmfOLD, + 2Σ mj £ mkIOC^OLDjOLDk , i=1 j =1 k=j +1
    4 4 4
    Pr, = OLDr + Σk2OLD, + 2Σnj Σ HklOCj^OLDjOLDk , i=1 j=1 k=j+1
    Petição 870190123919, de 27/11/2019, pág. 282/287
  5. 5/9
    4 4 4
    P . : IOCl^OLDlOLDr + Σ + 2Σ Σ (mjnk + mknj) IOC}^OLD}OLDk i=1 j=1 k = j+1
    P mjOLDL + njlOC^OLDLOLDR -m]OLD] -£miIOC]lψΗ/ΗΗΙ) i=1 i* j
    PüoCo.j n}OLDR + m}IOCL^^OLDLOLDR -n}OLD} -£nJOC^OLD^LD, i=1 i* j com OLDl indicando uma energia espectral normalizada de um primeiro canal de entrada do sinal de áudio do primeiro tipo no respectivo tijolo tempo/frequência, OLDr indicando a energia espectral normalizada de um segundo canal de entrada do sinal de áudio do primeiro tipo no respectivo tijolo tempo/frequência, e IOClr indicando informações de intercorrelação definindo a similaridade da energia espectral entre o primeiro e o segundo canal de entrada no respectivo tijolo tempo/frequência - no caso, o sinal de áudio do primeiro tipo é estéreo -, ou OLDl indicando a energia espectralmente normalizada do sinal de áudio do primeiro tipo no respectivo tijolo tempo/frequência, e OLDr e IOClr sendo zero - no caso, este é mono, e com OLDj indicando a energia espectralmente normalizada de um canal j do sinal de áudio(s) do segundo tipo no respectivo tijolo tempo/frequência e IOCij indicando
    Petição 870190123919, de 27/11/2019, pág. 283/287
  6. 6/9 informações de intercorrelação definindo a similaridade da energia espectral entre os canais i e j do sinal de áudio(s) do segundo tipo dentro do respectivo tijolo tempo/frequência, com mj = 10
    0.05 DMGj
    0.1DCLD,
    V1 + 100JDC“' . r,0.05DMG, 1 e ;=10 '1 + 100.1DCLD, onde DCLD e DMG são indicações de downmix, em que os meios para upmix são configurados para produzirem o primeiro sinal de upmix Si e/ou o segundo sinal de upmix (s) S2,i do sinal downmix d e um sinal residual resi por
    no onde 1 canto esquerdo superior indica dependendo do número de canais de dn,k um escalar, ou uma matriz de identidade é dependente do número de canais de dn,k, C1n-k ou
    no o “1 canto inferior direito é um escalar
    0” indica um vetor ou um escalar zero - também dependendo do número de canais de dn-k e D-1 sendo uma matriz
    Petição 870190123919, de 27/11/2019, pág. 284/287
  7. 7/9 exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal downmix, e que é também compreendido pelas informações auxiliares, e dn'k e resin'k indicam o sinal downmix e o sinal residual em tempo/frequência (n,k), respectivamente.
    11. Decodificador de áudio, de acordo com a reivindicação 10, caracterizado pelo fato que D é a inversão de mf £> = nr sendo estéreo /tip ftp e Si sendo estéreo mF nF t mF + rip no do sinal downmix no do sinal downmix mono mp no caso do sinal downmix ser mono e Si ser estéreo ou
    Petição 870190123919, de 27/11/2019, pág. 285/287
  8. 8/9
    no caso do sinal downmix ser mono e Si ser mono.
    12. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que o sinal multi áudio-objeto compreende informações de rendering espacial para fazer o rendering espacial do sinal de áudio do primeiro tipo em uma configuração predeterminada do alto-falante.
    13. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato que os meios para upmix são configurados para fazer o render espacial do primeiro sinal de áudio de upmix separado do segundo sinal de áudio upmix, fazer o render espacial do segundo sinal de áudio upmix separado do primeiro sinal de áudio de upmix, ou mixar o primeiro sinal de áudio de upmix e o segundo sinal de áudio upmix e fazer o render espacial de sua versão mixada em uma configuração predeterminada do alto-falante.
    14. Método para a decodificação de um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificado, o sinal multi-áudio-objeto consistindo de um sinal downmix (112) e informações auxiliares, as informações auxiliares compreendendo informações de nível do sinal de áudio do
    Petição 870190123919, de 27/11/2019, pág. 286/287
  9. 9/9 primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência, o método compreendendo:
    computar uma matriz C de coeficientes de predição com base nas informações de nível (OLD); e fazer o upmix do sinal downmix com base nos coeficientes de predição para obter um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio de upmix aproximando o sinal de áudio do segundo tipo, caracterizado pelo upmix produz o primeiro sinal de upmix Si e/ou o segundo sinal de upmix S2 do sinal downmix d de acordo com uma computação representável por
    5, 1 7 10yd kzr1
    5 J ( C 1 Λ res onde 1 indica - dependendo do número de canais de d - um escalar, ou uma matriz de identidade, e D-1 é uma matriz exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal downmix, e que também é compreendido pelas informações auxiliares.
BRPI0816557-2A 2007-10-17 2008-10-17 Codificação de áudio usando upmix BRPI0816557B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98057107P 2007-10-17 2007-10-17
US60/980,571 2007-10-17
US99133507P 2007-11-30 2007-11-30
US60/991,335 2007-11-30
PCT/EP2008/008800 WO2009049896A1 (en) 2007-10-17 2008-10-17 Audio coding using upmix

Publications (2)

Publication Number Publication Date
BRPI0816557A2 BRPI0816557A2 (pt) 2016-03-01
BRPI0816557B1 true BRPI0816557B1 (pt) 2020-02-18

Family

ID=40149576

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0816557-2A BRPI0816557B1 (pt) 2007-10-17 2008-10-17 Codificação de áudio usando upmix
BRPI0816556A BRPI0816556A2 (pt) 2007-10-17 2008-10-17 codificação de áudio usando downmix

Family Applications After (1)

Application Number Title Priority Date Filing Date
BRPI0816556A BRPI0816556A2 (pt) 2007-10-17 2008-10-17 codificação de áudio usando downmix

Country Status (12)

Country Link
US (4) US8280744B2 (pt)
EP (2) EP2082396A1 (pt)
JP (2) JP5883561B2 (pt)
KR (4) KR101244515B1 (pt)
CN (2) CN101821799B (pt)
AU (2) AU2008314029B2 (pt)
BR (2) BRPI0816557B1 (pt)
CA (2) CA2701457C (pt)
MX (2) MX2010004138A (pt)
RU (2) RU2474887C2 (pt)
TW (2) TWI395204B (pt)
WO (2) WO2009049895A1 (pt)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
WO2007091850A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP2010521866A (ja) 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
KR101566025B1 (ko) * 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8670575B2 (en) 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN101930738B (zh) * 2009-06-18 2012-05-23 晨星软件研发(深圳)有限公司 多声道音频信号译码方法与装置
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CN103854651B (zh) * 2009-12-16 2017-04-12 杜比国际公司 Sbr比特流参数缩混
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
RU2683175C2 (ru) 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
HUE037111T2 (hu) * 2011-03-10 2018-08-28 Ericsson Telefon Ab L M Nem-kódolt al-vektorok kitöltése transzformációsan kódolt audio jelekben
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
AU2012256550B2 (en) 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
JP5715514B2 (ja) * 2011-07-04 2015-05-07 日本放送協会 オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
CN103493130B (zh) * 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
US9437198B2 (en) * 2012-07-02 2016-09-06 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
EP2870603B1 (en) * 2012-07-09 2020-09-30 Koninklijke Philips N.V. Encoding and decoding of audio signals
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
RU2628900C2 (ru) * 2012-08-10 2017-08-22 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер, система и способ, использующие концепцию остатка для параметрического кодирования аудиобъектов
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
ES2613747T3 (es) 2013-01-08 2017-05-25 Dolby International Ab Predicción basada en modelo en un banco de filtros críticamente muestreado
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
WO2014159898A1 (en) 2013-03-29 2014-10-02 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
WO2014187989A2 (en) * 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
JP6190947B2 (ja) 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
CN109887516B (zh) * 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
PT3022949T (pt) 2013-07-22 2018-01-23 Fraunhofer Ges Forschung Descodificador de áudio multicanal, codificador de áudio de multicanal, métodos, programa de computador e representação de áudio codificada usando uma descorrelação dos sinais de áudio renderizados
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
EP3561809B1 (en) 2013-09-12 2023-11-22 Dolby International AB Method for decoding and decoder.
WO2015036350A1 (en) * 2013-09-12 2015-03-19 Dolby International Ab Audio decoding system and audio encoding system
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
WO2015049334A1 (de) * 2013-10-02 2015-04-09 Stormingswiss Gmbh Verfahren und vorrichtung zum downmixen eines multikanalsignals und zum upmixen eines downmixsignals
EP3057096B1 (en) * 2013-10-09 2019-04-24 Sony Corporation Encoding device and method, decoding device and method, and program
BR112016008817B1 (pt) * 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105900169B (zh) 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
KR102144332B1 (ko) * 2014-07-01 2020-08-13 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
WO2016004225A1 (en) * 2014-07-03 2016-01-07 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
BR112017006325B1 (pt) * 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
CA2997334A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
BR112019009424A2 (pt) 2016-11-08 2019-07-30 Fraunhofer Ges Forschung mixador de redução, método para mixagem de redução de pelo menos dois canais, codificador multicanal, método para codificar um sinal multicanal, sistema e método de processamento de áudio
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
RU2762302C1 (ru) * 2018-04-05 2021-12-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ или компьютерная программа для оценки разности во времени между каналами
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
WO2020089302A1 (en) * 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US10779105B1 (en) 2019-05-31 2020-09-15 Apple Inc. Sending notification and multi-channel audio over channel limited link for independent gain control
AU2020291190B2 (en) 2019-06-14 2023-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Parameter encoding and decoding
GB2587614A (en) 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
EP4138396A4 (en) * 2020-05-21 2023-07-05 Huawei Technologies Co., Ltd. AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19537338C2 (de) * 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
TW405328B (en) * 1997-04-11 2000-09-11 Matsushita Electric Ind Co Ltd Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
CA2859333A1 (en) * 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
WO2002079335A1 (fr) 2001-03-28 2002-10-10 Mitsubishi Chemical Corporation Procede de revetement avec une composition de resine durcissable par rayonnement et lamines
DE10163827A1 (de) 2001-12-22 2003-07-03 Degussa Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
WO2004059643A1 (en) * 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
US7317601B2 (en) 2004-07-29 2008-01-08 United Microelectronics Corp. Electrostatic discharge protection device and circuit thereof
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
EP1866911B1 (en) 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20080010980A (ko) * 2006-07-28 2008-01-31 엘지전자 주식회사 부호화/복호화 방법 및 장치.
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.

Also Published As

Publication number Publication date
US20120213376A1 (en) 2012-08-23
WO2009049895A9 (en) 2009-10-29
KR101290394B1 (ko) 2013-07-26
RU2474887C2 (ru) 2013-02-10
KR20120004546A (ko) 2012-01-12
JP2011501823A (ja) 2011-01-13
US20090125313A1 (en) 2009-05-14
US8280744B2 (en) 2012-10-02
TW200926143A (en) 2009-06-16
CN101821799B (zh) 2012-11-07
EP2076900A1 (en) 2009-07-08
AU2008314029A1 (en) 2009-04-23
CA2701457C (en) 2016-05-17
US8155971B2 (en) 2012-04-10
RU2010114875A (ru) 2011-11-27
JP5260665B2 (ja) 2013-08-14
KR101303441B1 (ko) 2013-09-10
CN101821799A (zh) 2010-09-01
AU2008314029B2 (en) 2012-02-09
BRPI0816556A2 (pt) 2019-03-06
RU2452043C2 (ru) 2012-05-27
MX2010004220A (es) 2010-06-11
WO2009049896A9 (en) 2011-06-09
KR101244545B1 (ko) 2013-03-18
MX2010004138A (es) 2010-04-30
US20090125314A1 (en) 2009-05-14
TWI395204B (zh) 2013-05-01
WO2009049896A1 (en) 2009-04-23
US20130138446A1 (en) 2013-05-30
BRPI0816557A2 (pt) 2016-03-01
US8538766B2 (en) 2013-09-17
WO2009049896A8 (en) 2010-05-27
JP5883561B2 (ja) 2016-03-15
KR20100063120A (ko) 2010-06-10
CN101849257B (zh) 2016-03-30
KR20100063119A (ko) 2010-06-10
CA2701457A1 (en) 2009-04-23
CA2702986C (en) 2016-08-16
AU2008314030A1 (en) 2009-04-23
CA2702986A1 (en) 2009-04-23
JP2011501544A (ja) 2011-01-06
RU2010112889A (ru) 2011-11-27
EP2082396A1 (en) 2009-07-29
TWI406267B (zh) 2013-08-21
KR101244515B1 (ko) 2013-03-18
US8407060B2 (en) 2013-03-26
AU2008314030B2 (en) 2011-05-19
WO2009049895A1 (en) 2009-04-23
TW200926147A (en) 2009-06-16
KR20120004547A (ko) 2012-01-12
CN101849257A (zh) 2010-09-29

Similar Documents

Publication Publication Date Title
BRPI0816557B1 (pt) Codificação de áudio usando upmix
PT2372701E (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
BRPI0618002B1 (pt) método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais
BRPI0607166B1 (pt) Codificação paramétrica conjunta de fontes de áudio
BRPI0515623B1 (pt) Dispositivo e método para a geração de um sinal multicanais codificado e dispositivo e método para a decodificação de um sinal multicanais codificado
BR122018069728B1 (pt) Equipamento e método para o processamento de um sinal de áudio multicanais, equipamento para o processamento inverso dos dados de entrada e método de processamento inverso dos dados de entrada
US10102863B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
BRPI0520115B1 (pt) métodos para codificar e para decodificar sinais de áudio e codificador e decodificador para sinais de áudio
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 18/02/2020, OBSERVADAS AS CONDICOES LEGAIS.