BR112015002794B1 - Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial - Google Patents

Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial Download PDF

Info

Publication number
BR112015002794B1
BR112015002794B1 BR112015002794-6A BR112015002794A BR112015002794B1 BR 112015002794 B1 BR112015002794 B1 BR 112015002794B1 BR 112015002794 A BR112015002794 A BR 112015002794A BR 112015002794 B1 BR112015002794 B1 BR 112015002794B1
Authority
BR
Brazil
Prior art keywords
downmix
audio
information
parametric
input
Prior art date
Application number
BR112015002794-6A
Other languages
English (en)
Other versions
BR112015002794A2 (pt
Inventor
Thorsten Kastner
Juergen Herre
Leon Terentiv
Oliver Hellmuth
Jouni PAULUS
Falko Ridderbusch
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Publication of BR112015002794A2 publication Critical patent/BR112015002794A2/pt
Publication of BR112015002794B1 publication Critical patent/BR112015002794B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

aparelho e métodos para adaptar informações de áudio na codificação de objeto de áudio espacial. um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas é fornecido. as informações de áudio de entrada compreendem dois ou mais canais de downmix de áudio de entrada e compreendem, ainda, a informação adicional paramétrica de entrada. as informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada. o aparelho compreende um modificador do sinal de downmix (110) para adaptar, dependendo das informações de adaptação, os dois ou mais canais de downmix de áudio de entrada para obter um ou mais canal(is) de áudio de downmix adaptados. além disso, o aparelho compreende um adaptador de informação adicional paramétrica (120) para adaptar, dependendo das informações de adaptação, a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada.

Description

DESCRIÇÃO
[0001] A presente invenção refere-se à decodificação do sinal de áudio e processamento do sinal de áudio e, em particular, a um decodificador e métodos para adaptar informações de áudio na codificação de objeto de áudio espacial (SAOC I spatial-audio-object-codíng) .
[0002] Nos sistemas de áudio digital modernos, é uma grande tendência permitir as modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado receptor. Estas modificações incluem as modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial dos objetos de áudio dedicados no caso de reprodução multicanal através dos alto-falantes distribuídos espacialmente. Isso pode ser obtido individualmente pela entrega de partes diferentes do conteúdo de áudio aos diferentes alto-falantes.
[0003] Em outras palavras, na técnica do processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientada por objeto e também uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para individualmente apresentar os conteúdos de áudio ou porções destes a fim de melhorar a impressão da audição. Pelo presente, a utilização do conteúdo de áudio multicanal traz melhorias significativas para o usuário. Por exemplo, uma impressão da audição tridimensional pode ser obtida, o que traz uma satisfação melhorada do usuário nas aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal também é útil em ambientes profissionais, por exemplo, nas aplicações de conferência telefônica, pois a inteligibilidade do emissor de voz pode ser melhorada utilizando uma reprodução de áudio multicanal. Outra possivel aplicação é oferecer a um ouvinte de uma peça musical o ajuste individual do nivel de reprodução e/ou posição espacial de diferentes peças (ainda definido como "objetos de áudio") ou faixas, como uma parte vocal ou diferentes instrumentos. 0 usuário pode realizar este ajuste por razões de gosto pessoal, para transcrever de forma mais fácil uma ou mais partes da peça musical, finalidades educacionais, karaokê, ensaio, etc.
[0004] A transmissão discreta direta de todo o conteúdo de áudio multicanal digital ou multiobjeto, por exemplo, na forma de dados de modulação de código de pulso (PCM I pulse code modulation) ou ainda formatos de áudio comprimidos, exige taxas de bit muito altas. Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente de taxa de bit. Assim, alguém deseja aceitar uma vantagem razoável entre a qualidade do áudio e as exigências da taxa de bit, a fim de evitar uma carga de recurso excessivo causada pelas aplicações muiticanal/muitiobj eto.
[0005] Recentemente, no campo da codificação deáudio, as técnicas paramétricas para atransmissão/armazenamento eficientes por taxa de bit de sinais de áudio multicanal/multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas de Imagens com Movimento (MPEG | Moving Picture Experts Group) e outros. Um exemplo é MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou Codificação do Objeto de Áudio Espacial MPEG (SAOC) como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada por objeto é denominada "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas pretendem reconstruir uma cena de áudio de saída desejada ou um objeto de fonte de áudio desejada com base em um downmix de canais/objetos e informações laterais adicionais que descrevem a cena de áudio transmitida/armazenada e/ou os objetos de fonte de áudio na cena de áudio.
[0006] A estimativa e a aplicação da informaçãoadicional relacionada ao canal/objeto nestes sistemas é feita em uma forma seletiva de tempo/frequência. Assim, estes sistemas empregam as transformadas de tempo/frequência como a Transformada Discreta de Fourier (DFT | Discrete Fourier Transform), a Transformada de Fourier de Curta Duração (STFT I Short Time Fourier Transform) ou bancos de filtro como bancos de Filtro Espelhado em Quadratura (QMF | Quadrature Mirror Filter) , etc. O princípio básico destes sistemas é descrito na figura 3, utilizando o exemplo de MPEG SAOC.
[0007] No caso de STFT, a dimensão temporal érepresentada pelo número de bloco de tempo e a dimensão espectral é capturada pelo número de coeficiente espectral ("posição") . No caso de QMF, a dimensão temporal é representada pelo número da faixa de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF é melhorada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de fina resolução são denominadas sub-bandas híbridas.
[0008] Conforme já mencionado acima, em SAOC oprocessamento geral é realizado em uma forma seletiva de tempo/frequência e pode ser descrito como segue dentro de cada faixa de frequência, conforme descrito na figura 3:- sinais de objeto de áudio de entrada N Si ... sN são misturados aos canais P Xi ... xP como parte do processamento do codificador utilizando uma matriz de downmix que consiste em elementos dltl ... dNfP. Além disso, o codificador extrai a informação adicional que descreve as características dos objetos de áudio de entrada (módulo do estimador de informação adicional (SIE)). Para MPEG SAOC, as relações das potências do objeto entre elas são a forma mais básica desta informação adicional.- sinal (s) de downmix e informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix podem ser comprimidos, por exemplo, utilizando os codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 Camada II ou III (aka .mp3), Codificação de Áudio Avançada MPEG-2/4 (AAC / Advanced Audio Coding) etc.— na extremidade de recepção, odecodificador conceitualmente tenta recuperar os sinais do objeto originais ("separação do objeto") do(s) sinais de downmix (decodificados) utilizando a informação adicional transmitida. Estes sinais do objeto aproximado êi ... sN são então misturados em uma cena alvo representada por canais de saída de áudio M ... yM utilizando uma matriz de renderização descrita pelos coeficientes ... rNfM na Figura 3. A cena alvo desejada pode ser, no caso extremo, a renderização de apenas um sinal fonte da mistura (cenário de separação da fonte), mas ainda qualquer outra cena acústica arbitrária que consiste em objetos transmitidos. Por exemplo, a saída pode ser uma cena alvo com canal único, de 2 canais estéreos ou multicanal 5.1.
[0009] A figura 6 descreve esquematicamente o princípio de um esquema de codificação/decodificação de áudio. Em particular, a figura 6 é uma descrição do princípio de uma cadeia de codificação/decodificação de áudio.
[0010] No lado da codificação, o sinal de áudio é comprimido por um esquema de codificação de áudio (tipicamente explorando os efeitos perceptuais) e a Informação Adicional Paramétrica (PSI I Parametric Side Information) é computada (veja codificador 601) . 0 fluxo de bits contínuo resultante que consiste no sinal de áudio codificado e PSI são armazenados (ou transmitidos) ao lado decodificador, onde eles podem ser decodificados por várias instâncias do decodificador 620, 621, 622, identificados como "A", ”B", etc. na Figura 6. Estas instâncias do decodificador podem diferir entre elas (por exemplo, diferentes níveis decomplexidade na especificação padrão, aplicação ou restrições de implementação, etc.) [SAOC, SAOC1, SAOC2].
[0011] Os esquemas de codificação do estado da técnica não podem adaptar a PSI a um cenário ou plataforma de aplicação alvo especifica em uma forma eficiente. Isso pode levar à complexidade computacional mais alta (do que necessária) no lado decodificador ou pode resultar nos problemas de compatibilidade.
[0012] O objetivo da presente invenção é fornecer conceitos melhorados para a codificação de objeto de áudio. O objetivo da presente invenção é solucionado por um decodificador, de acordo com a reivindicação 1, por um método para codificar, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.
[0013] Um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas é fornecido. As informações de áudio de entrada compreendem dois ou mais canais de doivnmix de áudio de entrada e compreendem, ainda, informação adicional paramétrica de entrada. As informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, informação adicional paramétrica adaptada.
[0014] 0 aparelho compreende um modificador do sinalde downmix para adaptar, dependendo das informações deadaptação, os dois ou mais canais de downmix de áudio deentrada para obter um ou mais canal(is) de áudio de downmixadaptados.
[0015] Além disso, o aparelho compreende umadaptador de informação adicional paramétrica para adaptar,dependendo das informações de adaptação, a informaçãoadicional paramétrica de entrada para obter a informaçãoadicional paramétrica adaptada.
[0016] De acordo com uma aplicação, o modificador do sinal de downmix pode ser configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo das informações de adaptação, de modo que o número de um ou mais canal (is) de áudio de downmix adaptados seja menor do que o número dos dois ou mais canais de downmix de áudio de entrada.
[0017] Em uma aplicação, as informações de adaptação podem depender de uma instância do decodificador. O modificador do sinal de downmix pode ser configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo da instância do decodificador. Aqui e a seguir, os termos "decodificador"', e "instância do decodificador" têm o mesmo significado.
[0018] De acordo com uma aplicação, a instância do decodificador pode ser capaz de decodificar um número máximo de canais de downmix. As informações de adaptação podem depender do referido número máximo de canais de downmix. Além disso, o modificador do sinal de downmix pode ser configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo das informações de adaptação para obter um ou mais canal (is) de áudio de downmix adaptados, de modo que o número de um ou mais canal (is) de downmix adaptados seja igual ao referido número máximo de canais de downmix.
[0019] De acordo com uma aplicação, as informaçõesde adaptação podem compreender uma matriz de adaptação ( ) .
[0020] Em uma aplicação, o modificador do sinal dedownmix pode ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0001
, os dois ou mais canais de downmix de áudio de entrada
Figure img0002
para obter um ou mais canal (is) de áudio de downmix adaptados
Figure img0003
.
[0021] De acordo com uma aplicação, o modificador dosinal de downmix pode ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0004
, os dois ou mais canais de downmix de áudio de entrada
Figure img0005
: para obter um ou mais canal(is) de áudio de downmix adaptados
Figure img0006
através da aplicação da fórmula:
Figure img0007
[0022] Em uma aplicação, o adaptador de informaçãoadicional paramétrica pode ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0008
, a informação adicional paramétrica de entrada
Figure img0009
para obter a PS/ informação adicional paramétrica adaptada
Figure img0010
.
[0023] De acordo com uma aplicação, o adaptador deinformação adicional paramétrica pode ser configurado para adaptar, dependendo da matriz de adaptação, a informação adicional paramétrica de entrada
Figure img0011
para obter ainformação adicional paramétrica adaptada
Figure img0012
através daaplicação da fórmula:
Figure img0013
[0024] Em uma aplicação, a informação adicionalparamétrica de entrada
Figure img0014
pode indicar uma matriz de downmix inicial, de modo que através da aplicação da matriz de downmix inicial
Figure img0015
em um ou mais objeto (s) de áudio (S) , os dois ou mais canais de downmix de áudio de entrada
Figure img0016
sejam obtidos. 0 adaptador de informação adicional paramétrica pode ser configurado para determinar uma matriz de downmix adaptada
Figure img0017
como a informação adicional paramétrica adaptada, de modo que através da aplicação da matriz de downmix adaptada
Figure img0018
em um ou mais objeto (s) de áudio (S), um ou mais canal(is) de áudio de downmix adaptados
Figure img0019
sejam obtidos*
[0025] Além disso, de acordo com uma aplicação, umaparelho para gerar um ou mais canal(is) de áudio das informações de áudio de entrada codificando um ou mais objeto(s) de áudio é fornecido.
[0026] O aparelho para gerar um ou mais canal(is) deáudio compreende um aparelho de acordo com uma das aplicações descritas acima para adaptar as informações de áudio de entrada para obter as informações de áudio adaptadas, em que as informações de áudio de entrada compreendem dois ou mais canais de downmix de áudio de entrada e compreendem, ainda, a informação adicional paramétrica de entrada, em que as informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada.
[0027] Além disso, o aparelho para gerar um ou maiscanal(is) de áudio compreendem uma instância do decodificador, para decodificar, dependendo da informação adicional paramétrica adaptada, um ou mais canal (is) de áudio de downmix adaptados para obter um ou mais canal(is) de áudio.
[0028] De acordo com uma aplicação, o adaptador de informação adicional paramétrica do aparelho para adaptar as informações de áudio de entrada pode ser configurado para receber um fluxo de bits continuo compreendendo a informação adicional paramétrica de entrada. O adaptador de informação adicional paramétrica do aparelho para adaptar as informações de áudio de entrada pode ser configurado para adaptar a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada, e para inserir a informação adicional paramétrica adaptada à instância do decodificador. A instância do decodificador pode ser configurada para decodificar um ou mais canal(is) de áudio de downmix adaptados dependendo da informação adicional paramétrica adaptada.
[0029] Em outra aplicação, o adaptador de informação adicional paramétrica do aparelho para adaptar as informações de áudio de entrada pode ser configurado para receber um fluxo de bits continuo compreendendo a informação adicional paramétrica de entrada. O adaptador de informação adicional paramétrica do aparelho para adaptar ase informações de áudio de entrada pode ser configurado para substituir a informação adicional paramétrica de entrada dentro do fluxo de bits continuo pela informação adicional paramétrica adaptada para obter um fluxo de bits modificado. O adaptador de informação adicional paramétrica do aparelho para adaptar as informações de áudio de entrada pode ser configurado para inserir o fluxo de bits modificado à instância do decodificador. Além disso, a instância do decodificador pode ser configurada para decodificar um ou mais canal (is) de áudio de downmix adaptados dependendo do fluxo de bits modificado.
[0030] Além disso, um método para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas é fornecido. As informações de áudio de entrada compreendem dois ou mais canais de downmix de áudio de entrada e compreendem, ainda, a informação adicional paramétrica de entrada. As informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada. O método compreende:— Adaptar, dependendo das informações de adaptação, os dois ou mais canais de downmix de áudio de entrada para obter um ou mais canal (is) de áudio de downmix adaptados, e:- Adaptar, dependendo das informações de adaptação, a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada.
[0031] Além disso, um programa de computador para implementar o método descrito acima quando executado por um computador ou processador de sinal é fornecido.
[0032] As aplicações preferidas serão fornecidas nas reivindicações dependentes.
[0033] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, em que:
[0034] A figura 1 ilustra um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas de acordo com uma aplicação.
[0035] A figura 2 ilustra um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas de acordo com outra aplicação.
[0036] A figura 3 mostra um diagrama em blocos esquemático de uma visão geral conceituai de um sistema SAOC,
[0037] A figura 4 mostra um diagrama esquemático e ilustrativo de uma representação temporal-espectral de um sinal de áudio de canal único,
[0038] A figura 5 mostra um diagrama em blocos esquemático de um cálculo computacional de tempo/frequência da informação adicional dentro de um codificador SAOC,
[0039] A figura 6 esquematicamente descreve o princípio de um esquema de codificação/decodificação de áudio,
[0040] A figura 7 ilustra um aparelho para gerar um ou mais canal (is) de áudio das informações de áudio de entrada codificando um ou mais objeto (s) de áudio de acordo com uma aplicação,
[0041] A figura 8 ilustra uma aplicação PSIA de junção dentro de um esquema de codificação/decodificação de acordo com uma aplicação, e
[0042] A figura 9 ilustra uma aplicação PSIA dedisjunção dentro de um esquema de codificação/decodificação de acordo com uma aplicação.
[0043] Antes de descrever as aplicações da presenteinvenção, mais histórico sobre os sistemas SAOC do estado da técnica é fornecido.
[0044] A figura 3 mostra uma disposição geral de umcodificador SAOC 10 e um decodificador SAOC 12. O codificador SAOC 10 recebe como uma entrada objetos N, ou seja, sinais de áudio Si a sw. Em particular, o codificador 10 compreende um downmixer 16 que recebe os sinais de áudio s2 a sN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente ("downmix artístico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder com o downmix calculado. Na Figura 3, o sinal de downmix é mostrado para ser um sinal do canal P. Assim, qualquer configuração mono (P=l) , estéreo (P=2) ou multicanal (P>2) do sinal de downmix é provável.
[0045] No caso de um downmix estéreo, os canais dosinal de downmix 18 são denotados LO e RO, no caso de um downmix mono o mesmo é simplesmente denotado LO. A fim de permitir que o decodificador SAOC 12 recupere os objetos individuais Si a sN, o estimador de informação adicional 17 fornece o decodificador SAOC 12 com informação adicional incluindo parâmetros de SAOC. Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem diferenças do nível do objeto (OLD | object level differences) , correlações entre objeto (IOC I inter-object correlations) (parâmetros de correlação cruzada entre os objetos), valores de ganho de downmix (DMG | downmix gain values) e diferenças do nivel do canal de downmix (DCLD | downmix channel level differences). A informação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saida de SAOC recebido pelo decodificador SAOC 12.
[0046] O decodificador SAOC 12 compreende um up- mixer que recebe o sinal de downmix 18 bem como a informação adicional 20 a fim de recuperar e renderizar os sinais de áudio e sN em qualquer conjunto de canais selecionado pelo usuário yi a yM, com a renderização sendo prescrita pela informação de renderização 26 inserida no decodificador SAOC 12 .
[0047] Os sinais de áudio Si a sN podem serinseridos no codificador 10 em qualquer domínio decodificação, como, no domínio temporal ou espectral. No casodos sinais de áudio s1 a sN serem inseridos ao codificador 10no domínio de tempo, como PCM codificado, o codificador 10pode utilizar um banco de filtro, como um banco de QMFhíbrido, a fim de transferir os sinais em um domínioespectral, no qual os sinais de áudio são representados emvárias sub-bandas associadas com diferentes partesespectrais, em uma resolução específica de banco de filtro.Se os sinais de áudio Si a sN já estão na representaçãoesperada pelo codificador 10, o mesmo não tem que realizar adecomposição espectral.
[0048] A figura 4 mostra um sinal de áudio nodomínio espectral já mencionado. Como pode ser visto, o sinalde áudio é representado como uma pluralidade de sinais desub-banda. Cada sinal de sub-banda 301 a 30K consiste em umasequência temporal de valores de sub-banda indicados porpequenas caixas 32. Como pode ser visto, os valores de subbanda 32 dos sinais de sub-banda 301 a 30K são sincronizadosno tempo de modo que, para cada um dos intervalos de tempoconsecutivos do banco de filtro 34, cada sub-banda 301 a 30Kcompreende um valor de sub-banda exato 32. Conforme ilustradopelo eixo de frequência 36, os sinais de sub-banda 301 a 30Kestão associados com diferentes regiões de frequência, econforme ilustrado pelo eixo de tempo 38, os intervalos detempo do banco de filtro 34 são consecutivamente dispostos notempo.
[0049] Conforme descrito acima, o extrator de informação adicional 17 da figura 3 calcula os parâmetros de SAOC dos sinais de áudio de entrada s2 a sN. De acordo com o padrão SAOC atualmente implementado, o codificador 10 realiza este cálculo computacional em uma resolução de tempo/frequência que pode ser reduzido com relação à resolução de tempo/frequência original conforme determinado pelos intervalos de tempo do banco de filtro 34 e decomposição da sub-banda, por uma certa quantidade, com esta quantidade sendo sinalizada ao lado decodificador dentro da informação adicional 20. Grupos de intervalos de tempo consecutivos do banco de filtro 34 podem formar uma estrutura SAOC 41. Ainda, o número de faixas de parâmetro dentro da estrutura SAOC 41 é conduzido dentro da informação adicional 20. Assim, o domínio de tempo/frequência é dividido em períodos de tempo/frequência exemplificado na figura 4 pelas linhas tracejadas 42. Na figura 4 as faixas de parâmetro são distribuídas da mesma forma nas várias estruturas SAOCs 41 descritas de modo que uma disposição regular de períodos de tempo/frequência seja obtida. No geral, entretanto, as faixas de parâmetro podem variar de uma estrutura SAOC 41 para a subsequente, dependendo das diferentes necessidades para a resolução espectral nas respectivas estruturas SAOC 41. Além disso, o comprimento das estruturas SAOC 41 pode variar também. Como uma consequência, a disposição dos períodos de tempo/frequência pode ser irregular. Contudo, os períodos de tempo/frequência dentro de uma estrutura SAOC 41 particular tipicamente têm a mesma duração e são alinhadas na direção do tempo, ou seja, todos os períodos de t/f na referida estrutura SAOC 41 começam no início da dada estrutura SAOC 41 e terminam no final da referida estrutura SAOC 41.
[0050] O extrator de informação adicional 17descrito na figura 3 calcula os parâmetros de SAOC de acordo com as seguintes fórmulas. Em particular, o extrator de informação adicional 17 calcula as diferenças do nível do objeto para
[0051]
Figure img0020
[0052] caracterizado pelas somas e os índices n e k,respectivamente, passarem por todos os índices temporais 34, e todos os índices espectrais 30 que pertencem a um certo período de tempo/frequência 42, referenciado pelos indices 1 para a estrutura SAOC (ou espaço de tempo do processamento) e m para a faixa do parâmetro. Assim, as energias de todos os valores de sub-banda x2 de um sinal de áudio ou objeto i são somadas e normalizadas no valor de energia mais alto deste período entre todos os objetos ou sinais de áudio. x"'k* denota a conjugação complexa de x"’k .
[0053] Ainda, o extrator de informação adicional 17SACO pode calcular uma medição de similaridade dos períodosde tempo/frequência correspondentes dos pares de diferentesobjetos de entrada s1 a SN. Embora o extrator de informaçãoadicional 17 SAOC possa calcular a medição de similaridadeentre todos os pares de objetos de entrada sI a sN, oextrator de informação adicional 17 também pode suprimir asinalização das medições de similaridade ou restringir ocálculo computacional das medições de similaridade aosobjetos de áudio sz a SN que formam os canais esquerdo edireito de um canal estéreo comum. Em qualquer caso, amedição de similaridade é chamada de parâmetro de correlaçãocruzada entre objetos
Figure img0021
. 0 cálculo computacional é comosegue
Figure img0022
[0054]
Figure img0023
[0055] com novamente índices .a e k passando portodos os valores de sub-banda pertencentes a um certo períodode tempo/frequência 42, i e j denotando um certo par deobjetos de áudio sI a sN, e Re{ } denotando a operação dedescartar a parte imaginária do argumento complexo.
[0056] 0 downmíxer 16 da figura 3 reduz os objetossI a sN utilizando os fatores de ganho aplicados em cadaobjeto sI a 6N. Isso é, um fator de ganho di é aplicado aoobjeto i e então todos objetos ponderados si a sN são somadospara obter um sinal de downmix mono, que é exemplificado nafigura 3 se P=1. Em outro caso exemplar de um sinal dedownmix de dois canais, descrito na figura 3 se P=2, um fatorde ganho d1,1 é aplicado ao objeto i e então todos estesobjetos amplificados por ganho são somados para obter o canalde downmix esquerdo LO, e fatores de ganho d2,i são aplicadosao objeto i e então os objetos então amplificados por ganhosão somados para obter o canal de downmix direito RO. Umprocessamento que é análogo ao acima deve ser aplicado nocaso de um downmix multicanal (P>2)
[0057] Esta prescrição de downmix é sinalizada aolado decodificador por meios de ganhos de downmix DMGi e, no caso de um sinal de downmix, diferenças do nivel do canal de downmix DCLDi.
[0058] Os ganhos de downmix são calculados de acordocom:
[0059]
Figure img0024
, (downmix mono),
[0060]
Figure img0025
, (downmix estéreo),
[0061] onde ε é um pequeno número como 10"9.
[0062] Para DCLDs, a seguinte fórmula se aplica:
[0063]
Figure img0026
[0064] No modo normal, o downmixer 16 gera o sinal de downmix de acordo com:
[0065]
Figure img0027
[0066]
Figure img0028
[0067]
Figure img0029
[0068] para um downmix estéreo, respectivamente.
[0069] Assim, nas fórmulas mencionadas acima, os parâmetros OLD e IOC são uma função dos sinais de áudio e parâmetros DMG e DCLD são uma função de d. Assim, é denotado que d pode ser variante no tempo e na frequência.
[0070] Assim, no modo normal, o downmixer 16 mistura todos os objetos Sj a sN sem preferências, ou seja, tratando todos os objetos Sj a sN igualmente.
[0071] No lado decodificador, o upmixer realiza a inversão do procedimento de downmix e a implementação da "informação de renderização" 26 representada por uma matriz R (na literatura às vezes chamada também de A) em uma etapa do cálculo computacional, a saber, no caso de um downmix de doiscanais
[0072]
Figure img0030
[0073] onde a matriz E é uma função dos parâmetrosOLD e IOC, e a matriz D contém os coeficientes de downmixcomo
[0074]
Figure img0031
[0075] A matriz E é uma matriz de covariânciaestimada dos objetos de áudio s1 a sN. Nas implementaçõesSAOC atuais, o cálculo computacional da matriz de covariânciaestimada E é tipicamente realizado na resoluçãoespectral/temporal dos parâmetros de SAOC, ou seja, para cada(1,m), de modo que a matriz de covariância estimada possa serescrita como E1'm. A matriz de covariância estimada EI 'm é comtamanho N x N com seus coeficientes sendo definidos como
[0076]
Figure img0032
[0077] As s ire , a matriz E2'1” com
[0078]
Figure img0033
[0079] tem ao longo de sua diagonal as diferenças do nível do objeto, ou seja,
Figure img0034
para i=j, visto que
Figure img0035
Fora dessa diagonal a matriz de covariância estimada E tem coeficientes da matriz que representam a média geométrica das diferenças do nível do objeto dos objetos i e j, respectivamente, ponderados com a medição de correlação cruzada entre objetos
Figure img0036
[0080] A figura 5 exibe um possível princípio da implementação no exemplo do estimador de informação adicional (SIE) como parte de um codificador SAOC 10. O codificador SAOC 10 compreende o misturador 16 e o estimador de informação adicional (SIE) 17. O SIE conceitualmente consiste em dois módulos: um módulo 45 para calcular uma representação de t/f com base na curta duração (por exemplo, STFT ou QMF) de cada sinal. A representação de t/f de curta duração computada é inserida no segundo módulo 46, o módulo de estimativa da informação adicional seletiva por t/f (t/f- SIE). 0 módulo t/f-SIE 46 calcula a informação adicional para cada t/f-tile. Nas implementações atuais de SAOC, a transformada de tempo/frequência é fixa e idêntica para todos os objetos de áudio sj a sw. Além disso, os parâmetros de SAOC sâo determinados sobre as estruturas SAOC que são as mesmas para todos os objetos de áudio e têm a mesma resolução de tempo/frequência para todos os objetos de áudio Sj a sN, assim desconsiderando as necessidades especificas do objeto para fina resolução temporal em alguns casos ou fina resolução espectral em outros casos.
[0081] A seguir, as aplicações da presente invençãosão descritas.
[0082] A figura 1 ilustra um aparelho para adaptaras informações de áudio de entrada, codificando um ou maisobjeto(s) de ’ áudio, para obter as informações de áudioadaptadas de
[0083] acordo com uma aplicação.As informações de áudio de entradacompreendem dois ou mais canais de downmix de áudio deentrada e compreendem, ainda, a informação adicionalparamétrica de entrada. As informações de áudio adaptadascompreendem um ou mais canal (is) de áudio de downmixadaptados e compreendem, ainda, a informação adicionalparamétrica adaptada.
[0084] O aparelho compreende um modificador do sinal de downmix (DSM | downmix signal modifier) 110 para adaptar, dependendo das informações de adaptação, os dois ou mais canais de downmix de áudio de entrada para obter um ou mais canal(is) de áudio de downmix adaptados.
[0085] Além disso, o aparelho compreende um adaptador de informação adicional paramétrica (PSIA | parametric side information adapter) 120 para adaptar, dependendo das informações de adaptação, a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada.
[0086] A figura 2 ilustra um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto (s) de áudio, para obter as informações de áudio adaptadas de acordo com outra aplicação.
[0087] Em uma aplicação, as informações de adaptação podem depender de uma instância do decodificador, e o modificador do sinal de downmix 110 pode ser configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo da instância do decodificador.
[0088] Por exemplo, o modificador do sinal de downmix 110 da figura 2 adapta o downmix às capacidades da instância do decodificador particular.
[0089] De acordo com uma aplicação, o modificador dosinal de downmix 110 pode ser configurado para adaptar osdois ou mais canais de downmix de áudio de entrada dependendodas informações de adaptação, de modo que o número de um oumais canal(is) de áudio de downmix adaptados seja menor doque o número dos dois ou mais canais de downmix de áudio deentrada.
[0090] Por exemplo, na aplicação da figura 2, omodificador do sinal de downmix 110 reduz o número de canaisde downmix/transporte.
[0091] Por exemplo, os 22,2 canais de downmix de áudio de entrada (= 24 canais de downmix de áudio de entrada) podem ser reduzidos para 7,1 canais de áudio de downmix adaptados (= 8 canais de áudio de downmix adaptados).
[0092] Ou, por exemplo, os 5,1 canais de downmix de áudio de entrada (= 6 canais de downmix de áudio de entrada) são reduzidos para 2,0 canais de áudio de downmix adaptados (= 2 canais de áudio de downmix adaptados).
[0093] Ou, por exemplo, 2 canais de downmix de áudio de entrada são reduzidos para 1 canal de downmix de áudio adaplado.
[0094] Várias outras combinações de canais de downmix de áudio de entrada e canais de áudio de downmix adaptados são possiveis.
[0095] De acordo com uma aplicação, a instância dodecodificador pode ser capaz de decodificar um número máximode canais de downmix. As informações de adaptação podemdepender do referido número máximo de canais de downmix. Alémdisso, o modificador do sinal de downmix 110 pode serconfigurado para adaptar os dois ou mais canais de downmix deáudio de entrada dependendo das informações de adaptação paraobter um ou mais canal(is) de áudio de downmix adaptados, demodo que o número de um ou mais canal(is) de downmixadaptados seja igual ao referido número máximo de canais dedownmix.
[0096] Por exemplo, o modificador do sinal dedownmix 110 da figura 2 converte o downmix em sinal de áudioque corresponde à configuração máxima suportada do canal desaída da instância do decodificador particular.
[0097] De acordo com uma aplicação, as informaçõesde adaptação adaptação
Figure img0037
[0098] podem, por exemplo, compreender uma matriz de adicional DSM .dmx ' ‘0 adaptador de informação paramétrica 120 pode, por exemplo, adaptar a PSI paracorresponder ao downmix modificado a fim de reduzir acomplexidade do cálculo computacional para o decodificador, e para reduzir o tamanho/taxa de bits do fluxo de bits contínuos dos dados correspondentes sem produzir influência negativa na qualidade do áudio de saída do decodificador.
[0099] Por exemplo, PSIA 120 modifica o fluxo de bits contínuo de PSI correspondente que substitui as informações que representam a matriz de downmix inicial pelas informações atualizadas que descrevem o downmix resultante (considerando as modificações de DSM) para corresponder com a especificação particular do decodificador.
[0100] Por exemplo, um codificador SAOC fornece o sinal de downmix estéreo
Figure img0038
resultante da aplicação da matriz de downmix do codificador
Figure img0039
aos sinais de objeto de áudio de entrada S:
[0101]
Figure img0040
[0102] De acordo com uma aplicação, o modificador do sinal de downmix 110 pode ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0041
, os dois ou mais mais canal(is) de áudio de downmix adaptados
Figure img0042
Em uma aplicação, isso é percebido, por exemplo, através da
Figure img0043
[0103] Por exemplo, em uma aplicação, onde éassumido que a instância do decodificador SAOC particular suporta apenas downmix mono (por exemplo, perfil de Baixo Atraso SAOC / Nível 1) . Neste caso, o DSM 110 converte o downmix estéreo
Figure img0044
em sinal mono
Figure img0045
utilizando uma matriz de downmix predefinida
Figure img0046
como segue:
[0104]
Figure img0047
[0105] De acordo com uma aplicação, o adaptador deinformação adicional paramétrica 120 pode ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0048
, a informação adicional paramétrica de entrada para obterinformação adicional paramétrica de entrada
Figure img0049
para obter a informação adicional paramétrica adaptad
Figure img0050
Em umaaplicação, isso pode, por exemplo, ser percebido através da aplicação da fórmula:
Figure img0051
[0106] Por exemplo, de acordo com uma aplicação,PSIA 120 analisa o fluxo de bits de PSI correspondente; extrai informações que descrevem a matriz de downmix
Figure img0052
; substituem estes dados pelas informações atualizadas que descrevem a nova matriz de downmix :
Figure img0053
[0107]
Figure img0054
[0108] Assim, de acordo com uma aplicação, ainformação adicional paramétrica de entrada
Figure img0055
pode indicar uma matriz de downmix inicial, de modo que através da aplicação da matriz de downmix inicial
Figure img0056
on um ou mais áudio de entrada
Figure img0057
sejam obtidos. 0 adaptador de informação adicional paramétrica pode ser configurado para determinar uma matriz de downmix adaptada
Figure img0058
como a informação adicional paramétrica adaptada, de modo que através da aplicação da matriz de downmix adaptada
Figure img0059
em um ou mais objeto (s) de áudio (S) , um ou mais canal (is) de áudio de downmix adaptados
Figure img0060
sejam obtidos.
[0109] Em uma aplicação, PSIA formata o novo fluxo de bits continues modificados ou passa diretamente estes parâmetros ao decodificador.
[0110] Este processo de codificação e decodificação realizado pelo PSIA também pode incluir a conversão de diferentes formatos de representação da matriz de downmix (por exemplo sistema de coordenada polar para Cartesiano, etc.).
[0111] Esta função descrita do PSIA pode solucionar as questões de compatibilidade e reduz o tamanho do fluxo de bits continues correspondentes.
[0112] A figura 7 ilustra um aparelho 700 para gerar um ou mais canal (is) de áudio das informações de áudio de entrada codificando um ou mais objeto(s) de áudio de acordo com uma aplicação.
[0113] O aparelho 700 para gerar um ou mais canal(is) de áudio compreende um aparelho 710 de acordo com uma das aplicações descritas acima para adaptar as informações de áudio de entrada para obter as informações de áudio adaptadas. As informações de áudio de entrada entrada e compreendem, ainda, informação adicional paramétrica de entrada. As informações de áudio adaptadas compreendem um ou mais canal (is) de áudio de downmix adaptados e compreendem, ainda, informação adicional paramétrica adaptada.
[0114] O aparelho 710 de acordo com uma das aplicações descritas acima para adaptar as informações de áudio de entrada compreende um modificador do sinal de downmix 110 e um adaptador de informação adicional paramétrica 120.
[0115] Além disso, o aparelho 700 para gerar um ou mais canal(is) de áudio compreende uma instância do decodificador 720, para decodificar, dependendo da informação adicional paramétrica adaptada, um ou mais canal (is) de áudio de downmix adaptados para obter um ou mais canal(is) de áudio.
[0116] De acordo com uma aplicação, o adaptador de informação adicional paramétrica 120 do aparelho 710 para adaptar as informações de áudio de entrada pode ser configurado para receber um fluxo de bits contínuo compreendendo a informação adicional paramétrica de entrada. O adaptador de informação adicional paramétrica 120 do aparelho 710 para adaptar as informações de áudio de entrada pode ser configurado para adaptar a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada, e para inserir a informação adicional paramétrica adaptada à instância do decodificador 720. A instância do decodificador 720 pode ser configurada para decodificar um ou mais canal(is) de áudio de downmix adaptados dependendo da informação adicionai paramétrica adaptada.
[0117] Em outra aplicação, o adaptador de informação adicional paramétrica 120 do aparelho 710 para adaptar as informações de áudio de entrada pode ser configurado para receber um fluxo de bits continuo compreendendo a informação adicional paramétrica de entrada. O adaptador de informação adicional paramétrica 120 do aparelho 710 para adaptar as informações de áudio de entrada pode ser configurado para substituir a informação adicional paramétrica de entrada dentro do fluxo de bits continuo pela informação adicional paramétrica adaptada para obter um fluxo de bits modificado. O adaptador de informação adicional paramétrica 120 do aparelho 710 para adaptar as informações de áudio de entrada pode ser configurado para inserir o fluxo de bits modificado à instância do decodificador 720. Além disso, a instância do decodificador 720 pode ser configurada para decodificar um ou mais canal(is) de áudio de downmix adaptados dependendo do fluxo de bits modificado.
[0118] As figuras 8 e 9 descrevem duas possibilidades de incorporar o aparelho para adaptar as informações de áudio de entrada na cadeira do processamento de decodificação.
[0119] Em particular, a figura 8 ilustra umaaplicação PSIA de junção dentro um esquema decodificação/decodificação de acordo com uma aplicação.
[0120] A figura 8 ilustra uma pluralidade deaparelhos 800, 801, 802 para gerar um ou mais canal(is) deáudio das informações de áudio de entrada codificando um oumais objeto(s) de áudio, em que o aparelho 800 para gerar umou mais canal(is) de áudio compreende um aparelho 810 paraadaptar as informações de áudio de entrada e uma instância dodecodificador 820, em que o aparelho 801 para gerar um oumais canal(is) de áudio compreende um aparelho 811 paraadaptar as informações de áudio de entrada e uma instância dodecodificador 821, e em que o aparelho 802 para gerar um oumais canal(is) de áudio compreende um aparelho 812 paraadaptar as informações de áudio de entrada e uma instância dodecodificador 822. Deve ser observado que, por exemplo, oaparelho 800 para gerar um ou mais canal(is) de áudio,compreendendo o aparelho 810 para adaptar as informações deáudio de entrada e a instância do decodificador 820, não deveser percebido como uma unidade de hardware único 800, maspode ser percebido por duas unidades separadas 810, 820 sendoconectadas por um fio ou sendo conectadas sem fio.
[0121] A implementação (integrada) de junção doaparelho para adaptar as informações de áudio de entrada podeser percebida para reduzir a complexidade do cálculocomputacional para decodificar (veja figura 8). Além disso,isso permite implementar uma interface não quantizada (nãocodificada) entre o aparelho para adaptar as informações deáudio de entrada e o decodificador. Isso pode ser relevanteem particular aos dispositivos de aplicação móvel parareduzir o consumo de energia.
[0122] A figura 9 ilustra a aplicação PSIA dedisjunção dentro de um esquema de codificação/decodificaçãode acordo com uma aplicação.
[0123] Em particular, a figura 9 ilustra uma pluralidade de aparelhos 900, 901, 902 para gerar um ou mais canal(is) de áudio das informações de áudio de entrada codificando um ou mais objeto (s) de áudio, em que o aparelho 900 para gerar um ou mais canal (is) de áudio compreende um aparelho 910 para adaptar as informações de áudio de entrada e uma instância do decodificador 920, em que o aparelho 901 para gerar um ou mais canal (is) de áudio compreende um aparelho 911 para adaptar as informações de áudio de entrada e uma instância do decodificador 921, e em que o aparelho 902 para gerar um ou mais canal (is) de áudio compreende um aparelho 912 para adaptar as informações de áudio de entrada e uma instância do decodificador 922. Deve ser observado que, por exemplo, o aparelho 900 para gerar um ou mais canal (is) de áudio, compreendendo o aparelho 910 para adaptar as informações de áudio de entrada e a instância do decodificador 920, não deve ser percebida como uma unidade de hardware único 900, mas pode ser percebida por duas unidades separadas 910, 920 sendo conectadas por um fio ou sendo conectadas sem fio.
[0124] A implementação de disjunção (separada) do aparelho para adaptar as informações de áudio de entrada pode ser percebida para reduzir o tamanho/taxa de bits do fluxo de bits contínuos dos dados correspondentes, veja figura 9. Isso pode ser relevante em particular para dispositivos de aplicação móvel com capacidade limitada de armazenamento e transmissão e sistemas de Unidade de Controle Multipontos (MCU 1 Multi-point Control Unit) com canais estreitos de transição de dados.
[0125] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
[0126] O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
[0127] Dependendo de certas exigências deimplementação, as aplicações da invenção podem serimplementadas em hardware ou em software. A implementaçãopode ser realizada utilizando um meio de armazenamentodigital, por exemplo, um disquete, um DVD, um CD, uma memóriaROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH,tendo sinais de controle eletronicamente legíveis armazenadosnele (ou são capazes de cooperar) com um sistema decomputador programável de modo que o respectivo método sejarealização.
[0128] Algumas aplicações, de acordo com a invenção,compreendem um transportador de dados não transitórios tendosinais de controle eletronicamente legíveis que são capazesde cooperar com um sistema de computador programável, de modoque um dos métodos descritos neste documento seja realizado.
[0129] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.
[0130] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legível por máquina.
[0131] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0132] Outra aplicação dos métodos inventivos é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.
[0133] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0134] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.
[0135] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[0136] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0137] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.REFERÊNCIAS :
[0138] [MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.
[0139] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[0140] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[0141] [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[0142] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: ’’ Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008 .
[0143] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[0144] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[0145] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.
[0146] [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[0147] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[0148] [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[0149] [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

Claims (12)

1. Um aparelho para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas, caracterizado pelas informações de áudio de entrada compreenderem dois ou mais canais de downmix de áudio de entrada e compreenderem, ainda, a informação adicional paramétrica de entrada, em que as informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada, em que o aparelho compreende:um modificador do sinal de downmix (110) para adaptar, dependendo das informações de adaptação, os dois ou mais canais de downmix de áudio de entrada para obter um ou mais canal(is) de áudio de downmix adaptados, eum adaptador de informação adicional paramétrica (120) para adaptar, dependendo das informações de adaptação, a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada,em que as informações de adaptação compreendem uma matriz de adaptação
Figure img0061
,em que o modificador do sinal de downmix (110) é configurado para adaptar, dependendo da matriz de adaptação
Figure img0062
, os dois ou mais canais de downmix de áudio de entrada
Figure img0063
para obter um ou mais canal(is) de áudio de downmix adaptados
Figure img0064
,em que o adaptador de informação adicional paramétrica (120) é configurado para adaptar, dependendo da matriz de adaptação
Figure img0065
, a informação adicional paramétrica de entrada
Figure img0066
para obter a informação adicional paramétrica adaptada
Figure img0067
.
2. Um aparelho de acordo com a reivindicação 1,caracterizado pela informação adicional paramétrica de entrada
Figure img0068
indicar uma matriz de downmix inicial, de modo que através da aplicação da matriz de downmix inicial
Figure img0069
em um ou mais objeto(s) de áudio (S), os dois ou mais canais de downmix de áudio de entrada
Figure img0070
sejam obtidos, eem que o adaptador de informação adicional paramétrica (120) é configurado para determinar uma matriz de downmix adaptada
Figure img0071
como a informação adicionalparamétrica adaptada, de modo que através da aplicação da PSImatriz de downmix adaptada
Figure img0072
em um ou mais objeto(s) de áudio (S), um ou mais canal(is) de áudio de downmix adaptados
Figure img0073
sejam obtidos.
3. Um aparelho de acordo com a reivindicação 1 ou 2, caracterizado pelo modificador do sinal de downmix (110) ser configurado para adaptar os dois ou mais canais de downmix de áudio de entrada, dependendo das informações de adaptação, de modo que o número de um ou mais canal(is) de áudio de downmix adaptados seja menor do que o número dos dois ou mais canais de downmix de áudio de entrada.
4. Um aparelho de acordo com uma das reivindicações de 1 a 3, caracterizado pelas informações de adaptação dependerem de uma instância do decodificador e em que o modificador do sinal de downmix (110) é configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo da instância do decodificador.
5. Um aparelho de acordo com a reivindicação 4,caracterizado pela instância do decodificador ser capaz de decodificar um número máximo de canais de downmix,em que as informações de adaptação dependem do referido número máximo de canais de downmix, eem que o modificador do sinal de downmix (110) é configurado para adaptar os dois ou mais canais de downmix de áudio de entrada dependendo das informações de adaptação para obter um ou mais canal(is) de áudio de downmix adaptados, de modo que o número de um ou mais canal(is) de downmix adaptados seja igual ao referido número máximo de canais de downmix.
6. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo modificador do sinal de downmix (110) ser configurado para adaptar, dependendo da matriz de adaptação
Figure img0074
, os dois ou mais canais de downmix de áudio de entrada
Figure img0075
para obter um ou mais canal(is) de áudio de downmix adaptados
Figure img0076
através da aplicação da fórmula:
Figure img0077
7. Um aparelho de acordo com qualquer uma dasreivindicações anteriores, caracterizado pelo adaptador deinformação adicional paramétrica (120) ser configurado paraadaptar, dependendo da matriz de adaptação
Figure img0078
adaptar, dependendo da matriz de adaptação
Figure img0079
para obter ainformação adicional paramétrica adaptada
Figure img0080
através daaplicação da fórmula:
Figure img0081
8. Um aparelho (700; 800, 801, 802; 900, 901, 902) para gerar um ou mais canal(is) de áudio das informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, caracterizado pelo aparelho compreender:um aparelho (710; 810, 811, 812; 910, 911, 912), de acordo com uma das reivindicações de 1 a 6, para adaptar as informações de áudio de entrada para obter as informações de áudio adaptadas, em que as informações de áudio de entrada compreendem dois ou mais canais de downmix de áudio de entrada e compreendem, ainda, a informação adicional paramétrica de entrada, em que as informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada, euma instância do decodificador (720; 820, 821, 822; 920, 921, 922) para decodificar, dependendo da informação adicional paramétrica adaptada, um ou mais canal(is) de áudio de downmix adaptados para obter um ou mais canal(is) de áudio.
9. Um aparelho (700; 800, 801, 802) de acordo com a reivindicação 8,caracterizado pelo adaptador de informação adicional paramétrica (120) do aparelho (710; 810, 811, 812), de acordo com uma das reivindicações de 1 a 7, ser configurado para receber um fluxo de bits contínuo, compreendendo a informação adicional paramétrica de entrada,em que o adaptador de informação adicional paramétrica (120) do aparelho (710; 810, 811, 812), de acordo com uma das reivindicações de 1 a 7, é configurado para adaptar a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada e para inserir a informação adicional paramétrica adaptada à instância do decodificador (720; 820, 821, 822), eem que a instância do decodificador (720; 820, 821, 822) é configurada para decodificar um ou mais canal(is) de áudio de downmix adaptados dependendo da informação adicional paramétrica adaptada.
10. Um aparelho (700; 900, 901, 902) deacordo com a reivindicação 8,caracterizado pelo adaptador de informação adicional paramétrica (120) do aparelho (710; 910, 911, 912), de acordo com uma das reivindicações de 1 a 7, ser configurado para receber um fluxo de bits contínuo, compreendendo a informação adicional paramétrica de entrada,em que o adaptador de informação adicional paramétrica (120) do aparelho (710; 910, 911, 912), de acordo com uma das reivindicações 1 a 7, é configurado para substituir a informação adicional paramétrica de entrada dentro do fluxo de bits contínuo pela informação adicional paramétrica adaptada para obter um fluxo de bits modificado,em que o adaptador de informação adicional paramétrica (120) do aparelho (710; 910, 911, 912), de acordo com uma das reivindicações 1 a 7, é configurado para inserir o fluxo de bits modificado à instância do decodificador (720; 920, 921, 922), eem que a instância do decodificador (720; 920, 921, 922) é configurada para decodificar um ou mais canal(is) de áudio de downmix adaptados dependendo do fluxo de bits modificado.
11. Um método para adaptar as informações de áudio de entrada, codificando um ou mais objeto(s) de áudio, para obter as informações de áudio adaptadas, caracterizado pelas informações de áudio de entrada compreenderem dois ou mais canais de downmix de áudio de entrada e compreenderem, ainda, a informação adicional paramétrica de entrada, em que as informações de áudio adaptadas compreendem um ou mais canal(is) de áudio de downmix adaptados e compreendem, ainda, a informação adicional paramétrica adaptada, em que o método compreende:adaptar, dependendo das informações de adaptação, os dois ou mais canais de downmix de áudio de entrada para obter um ou mais canal(is) de áudio de downmix adaptados, eadaptar, dependendo das informações de adaptação, a informação adicional paramétrica de entrada para obter a informação adicional paramétrica adaptada,em que as informações de adaptação compreendem uma matriz de adaptação
Figure img0082
,em que a etapa de adaptação de dois ou mais canais de downmix de áudio de entrada compreende adaptar, dependendo da matriz de adaptação
Figure img0083
, os dois ou mais canais de downmix de áudio de entrada
Figure img0084
para obter um ou mais canal(is) de áudio de downmix adaptados
Figure img0085
,em que a etapa de adaptação da informação adicional paramétrica de entrada compreende adaptar, dependendo da matriz de adaptação
Figure img0086
, a informação adicional paramétrica de entrada
Figure img0087
para obter a informação adicional paramétrica adaptada
Figure img0088
.
12. Um método de acordo com a reivindicação 11,caracterizado pela informação adicional paramétrica de entrada
Figure img0089
indicar uma matriz de downmixinicial, de modo que através da aplicação da matriz dedownmix inicial
Figure img0090
sejam obtidos, e em que a etapa de adaptação da informaçãoadicional paramétrica de entrada compreende determinar umamatriz de downmix adaptada
Figure img0091
como a informação adicionalparamétrica adaptada, de modo que através da aplicação damatriz de downmix adaptada
Figure img0092
em um ou mais objeto(s) deáudio (S), um ou mais canal(is) de áudio de downmix adaptados
Figure img0093
sejam obtidos.indicar uma matriz de downmix inicial
Figure img0094
, de modo que através da aplicação da matriz de downmix inicial ( D ednmcx ) em um ou mais objeto(s) de áudio (S), os dois ou mais canais de downmix de áudio de entrada ( X ednmcx ) sejam obtidos, eem que a etapa de adaptação da informação adicional paramétrica de entrada compreende determinar uma PSImatriz de downmix adaptada ( Ddmx ) como a informação adicional paramétrica adaptada, de modo que através da aplicação daPSImatriz de downmix adaptada ( Ddmx ) em um ou mais objeto(s) de áudio (S), um ou mais canal(is) de áudio de downmix adaptados ( X dDmSxM ) sejam obtidos.
BR112015002794-6A 2012-08-10 2013-06-28 Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial BR112015002794B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261681732P 2012-08-10 2012-08-10
US61/681,732 2012-08-10
PCT/EP2013/063703 WO2014023477A1 (en) 2012-08-10 2013-06-28 Apparatus and methods for adapting audio information in spatial audio object coding

Publications (2)

Publication Number Publication Date
BR112015002794A2 BR112015002794A2 (pt) 2020-04-22
BR112015002794B1 true BR112015002794B1 (pt) 2021-07-13

Family

ID=48700607

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015002794-6A BR112015002794B1 (pt) 2012-08-10 2013-06-28 Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial

Country Status (12)

Country Link
US (1) US10497375B2 (pt)
EP (1) EP2883226B1 (pt)
JP (1) JP6141980B2 (pt)
KR (2) KR102033985B1 (pt)
CN (1) CN104704557B (pt)
AU (1) AU2013301864B2 (pt)
BR (1) BR112015002794B1 (pt)
CA (1) CA2880412C (pt)
ES (1) ES2595220T3 (pt)
MX (1) MX350687B (pt)
RU (1) RU2609097C2 (pt)
WO (1) WO2014023477A1 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
JP6313641B2 (ja) * 2014-03-25 2018-04-18 日本放送協会 チャンネル数変換装置
US9378384B2 (en) * 2014-04-16 2016-06-28 Bank Of America Corporation Secure endpoint file export in a business environment
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1817767B1 (en) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
AU2007271532B2 (en) * 2006-07-07 2011-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for combining multiple parametrically coded audio sources
WO2008039041A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101479787B (zh) * 2006-09-29 2012-12-26 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
JP5678048B2 (ja) * 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
RU2607266C2 (ru) * 2009-10-16 2017-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для формирования с использованием среднего значения параметров сигнала, подстроенных для обеспечения представления микшированного с повышением сигнала на базе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с представлением микшированного с понижением сигнала

Also Published As

Publication number Publication date
JP6141980B2 (ja) 2017-06-07
ES2595220T3 (es) 2016-12-28
US20150154968A1 (en) 2015-06-04
CA2880412C (en) 2019-12-31
RU2609097C2 (ru) 2017-01-30
KR20170016997A (ko) 2017-02-14
EP2883226A1 (en) 2015-06-17
JP2015525905A (ja) 2015-09-07
MX350687B (es) 2017-09-13
RU2015104055A (ru) 2016-09-27
WO2014023477A1 (en) 2014-02-13
KR101837686B1 (ko) 2018-03-12
CA2880412A1 (en) 2014-02-13
BR112015002794A2 (pt) 2020-04-22
AU2013301864A1 (en) 2015-02-19
MX2015001748A (es) 2015-06-05
AU2013301864B2 (en) 2016-04-14
CN104704557B (zh) 2017-08-29
US10497375B2 (en) 2019-12-03
EP2883226B1 (en) 2016-08-03
CN104704557A (zh) 2015-06-10
KR102033985B1 (ko) 2019-10-18
KR20150043404A (ko) 2015-04-22

Similar Documents

Publication Publication Date Title
CA2887228C (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
BR112015007649B1 (pt) Codificador, decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial
ES2649739T3 (es) Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal
BR112015002794B1 (pt) Aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial
BR112012007138B1 (pt) Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 28/06/2013, OBSERVADAS AS CONDICOES LEGAIS.