BR112015002228A2 - Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal - Google Patents

Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal Download PDF

Info

Publication number
BR112015002228A2
BR112015002228A2 BR112015002228-6A BR112015002228A BR112015002228A2 BR 112015002228 A2 BR112015002228 A2 BR 112015002228A2 BR 112015002228 A BR112015002228 A BR 112015002228A BR 112015002228 A2 BR112015002228 A2 BR 112015002228A2
Authority
BR
Brazil
Prior art keywords
signal
channel
audio
depending
channels
Prior art date
Application number
BR112015002228-6A
Other languages
English (en)
Other versions
BR112015002228B1 (pt
Inventor
Terentiv Leon
Hellmuth Oliver
Herre Juergen
Kastner Thorsten
Original Assignee
Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V filed Critical Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V
Publication of BR112015002228A2 publication Critical patent/BR112015002228A2/pt
Publication of BR112015002228B1 publication Critical patent/BR112015002228B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

"decodificaool\ i: método para um conceito paramétrico de codificação di: objeto de áudio espacial generalizada para caixas de t:>ownmix/upmix multicanal". um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de downmix, compreendendo um ou mais canal (is) de downmix ê fornecido. o sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. o decodificador compreende um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de audio e/ou dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos, um de um ou mais canal (is) de downmix. além disso,o decodificador compreende uma unidade de processamento (120) para gerar um ou mais canal(ie) de saída de áudio a partir de um ou mais canal(is) de downmix, dependendo do valor limite. figura 1

Description

DDCODIFICADOR S MÉTODO DARA CM COMCEIT0 FARAMÉTRICO DE CODIFICAÇÃO DE OBJETO DE ÁDDIC ESPACIAL GERERALIEADA PARA CAIXAS DE DOÍÍWTX/DPMIX WLTICAKAI/'
IU001 ] A presente ,ir;vqp,ção raie.re-sa a uni aparexho o método para: urn conceito parsnratricu dé ccdifitação de -objeto de áudio «spacial generalizada para caixas de dOiunmlR/upmfx multi canal .
[OGGI] Nos sistemas da áudio digital modernas, é ®a grande tendência permitir ncdificaçôes relacionadas ac objeto de áudio dc- conteúdo transmitido na lado receptor. Estas modificações inoluem as modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial des objetos de áudio dedicados no caso de reprodução multloans1 através dos alto-falantes distribuídos espacialmente. isso poda ser obtido individualmente pela entrega de partes diferentes do conteúdo de áudio aos diferentes alto-falantes.
Figure BR112015002228A2_D0001
processamento de áudio, transmissão de áudio e armazenamento de áudio, há um deseje crescente em permitir a interação do usuário na repraduçáe do conteúdo de áudio orientada por objete a também uma demanda para utilizar as possibilidades estendidas de reprodução muXtluana1 para individualmente apresentar os conteúdos de áudio ou porções destes a fim de melhorar a impressão da audição. Pelo presente, a utilização dc conteúdo de áudio multicanal traz melhorias significativa-s para o usuário. For exe.mpio, uma i.mpressãé da audição tridimensional pode ser obtida, o que traz u.ma satisfação melhorada do usuário nas aplicações do entretenimento. Entretanto, o conteúdo de áudio multicanal também é útil em ambientes profissionais# por exemplo.» nas aplicações de conferência telefônica, pois a integibiXidade. do emissor de voz podo ser melhorada utilizando uma reprodução de áudio mult.ic.anal.. Outra possível aplicação é oferecer a um ouvinte de uma peça musical 0 ajuste individual do nível de reprodução e/ou posição espacial de diferentes peças (ainda definido corso objetos de áudio} ou faixas, como uma parte vocal ou diferentes instrumentos. G usuário pode realizar este ajuste por razões de gosto pessoal, pata transcrever -de forma mais fáoil uma ou mais partes da peça musical, finalidades educacionais, karauké, ensaio, etc.
[0004} n transmissão discreta direta de todo o conteúdo de áudio multicanái digital ou multlobjeto, por exemplo, na forma de dados de .modulação de pulso (PCM [ pulse code modulation) ou ainda formates da áudio comprimidos, exige taxas de .bit multo altas» Entretanto, e ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente da. taxa de bit. Assim, alguém deseja aceitar uma vantagem, razoável entre a qua lidada do áudio e as exigências da. taxa de bit a fim da evitar uma carga de recurso excessivo causada pelas aplicações multicanál/ multioòjeto.
[0005] Recentamenta, no campo da codificação de áudio» as técnicas paramêtricas para a transmissão/ armazenamento eficientes por taxa de bit de sinais de áudio multicanal/ mu.ltiobjeto foram introduzidas, por exemplo, pelo Grumo de Especialistas de imaeens com Movimenté (MPEG í
Moving Picture Experts Group) e outros, Um exemplo ê MFEG Surround (MPS) como uma. abordagem orientada pot canal ÍWS, BCC ], ou Codificação do Objeto de Audio Espacial MPEG (SAOC I Spatial Audio Object Coding) como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SACCÉ] .< Outra abordagem orientada por objeta é denominada sepsraçàc de fonte informada.’'' [TSS1, ISS2, XSS3, T.SS4, ISS5, ISS6] ♦ Estas técnicas pretendem reconstruir uma cena de áudio de salda desejada ou um objeto de fonte de áudio desejada dom bass em um dovnmix de canais/ objetos e informações laterais adicionais que descrevem a cana de áudio transmit ida/ arma te na da. e/ou os objetos de fonte de áudio na cena de áudio, [0006] A estimativa e a aplicação da informação adicional relacionada ao cana1/ objeto nestes sistemas é feita em uma forma seletiva de tempo·/frequência. Assim, estes sistemas empregam as transformadas de tempo/frequência como a Transformada Discreta de .Fourier (DFT i Discrete Fourier Transform), a Transformada da Fourier de Curta Duração (STFT È Ebort Time Fourier Transform) ou bancos de filt.ro camo bancos de Filtro Espelhado em Quadrature (QHF j Quadrafurs Mirror Filter) , etc, 0 p.rihdipio básieo destes sistemas ê descrito na figura 2, utiXltandõ d exemplo de MEEG SÁOC.
[0007] Nu casa dá ST ET, a dimensão temporal ê representada pelo numere cie bloca de tampo e a dimensão espectral è capturada pelo número de coeficiente espectral (posição*) . Mo ease de a dimensão temporal é representada pelo número da faixa de tempo e a dimensão espectral ê capturada pele número de sub-banda, Se a
resoiugãa aspect r á; 1 de QME é melhoras ia pe 1 a ap 11 cação
& K4..O te de um; segundo tvtfà & .XG de filtx o, todo o banca dé
filtro é denominado QMF híbrido e as s mb«bandas de fina
resolução são denominadas sub~bandas híbridas« [0003] Conform já menaionado acim, ám SAOC o processamento geral é realizado em uma forma seletiva de tempo/frequência e pode ser descrito como segue dentro de cada faixa de frequência, conforma descrito na figura 2;
- sl.uais de objeto ee áudio de entrada .1’ s; .... ajs· são misturados aos canals P xj ... x? como parte do processamento do codificador utilitandó uma matrix de downmix que consiste em elementos dj.> ... d&»,F- Além disso, o codificador extrai a informação adicional que descreve as características des objetos de áudio de entrada ímôdulo do estimador de informação adicional (SIE [ sfde-fnfoznsarlon· estimator)) . Para MPEG SAQG, ss relações das potências do objeta entre elas são a forma mais básica desta informação adicional.
- sinal(s) de downmix e informação adicional s ã o t r a n sm 11 i d o s / a rma s a na dos. Par a. e s t a f i na 1 ida de, d (s) sinalís) de áudio de dowhhíx podem ser comprimidos, por exemplo, utilizando os codificadores de áudio perceptual^ bem conhecidos como MPBG-l/í Camada II ou IIX (aka «mp3), Codificação de Áudio Avançada WIG-2/4 (AAC | Advanced Audio Coding) etc <
- na extremidade de recepção, o decodifleader conceituaImente tenta recuperar os sinais dc objeta originais Γ'separação do objeto-) dais) sinais de downmix (decodif içados») utilizando a informação adici.onal transmitida. Estes sinais do objeto aproximado â? ... â# são então mi st ur ado s cm uma cena alvo repreêentadá por canais do saída de áudio M y.; ... ya utilixando uma mat riz, de rendericação descrita pelos coeficientes -top ... na Figura 2. A cena alvo desejada pode ser, no caso extremo, a rendarização de apenas um sinal fonte da mistura (cenário de separação da fonte), mas ainda qualquer outra cena acústica arbitrária que consiste em objetos transmitidos. For exemplo, a saída pode ser uma cena alvo com canal único, de 2 canais estéreos ou muiticanal 5.1..
[0009] A largura de banda/armatenemento crescente disponível e as melhorias continues no campo da codificação de áudio permitam que o usuário selecione a partir de uma escolha constantemente crescente de produções de áudio mu.lt icanalx Os formatos de áudio muItloans1 5.1 já são padrão em produções de DVO a Blue-Ray. Os novos formatos de áudio come Audio 3D MPEG-H com canais de transporte de áudio aparecem no horizonte, o que fornecerá aos usuários finais uma experiência de áudio altamente imersiva.
[0010] Os esquemas dá codificação de áudio paramétricô são atualmente restritos a um máximo de dois canais de to-.xvnmíx. Eles podem ser aplicados apenas es: alguma extensão nas misturas multicangl, por exemplo, apenas em dois cs dbwaííi.ix selecionados. â flexionidaoe que estes esquemas de codificação oferecem ao usuário para ajustar a cena de áudio nas suas cróprias preferências é então severamenta áudio do comentarista de esporte-s a a abacsrara na transmissão de esportes.
[0011] Aiêm disso# os esquemas de codificação de objeto de áudio atoais oferecem aperies orna variabilidade limitada no processo de mistura no lado do codificador. O processe de mistura é limitado à mistura variante de tempo dos objetos de áudio; e a mistura variante de frequência na o é possível.
[0012) Assim, seria alfamente observado se os conceitos melhorados para a codificação de objeto de áudio fossem fornecidos.
[0013] 0 objetivo da presente invenção é fornecer os conceitos melhorados para á codificação de objeto de audio. Q objetivo da presente invanção ê solucionado por um decodifleader de acó.rdo com & reivindicação 1, por um método# de acordo com a reivindicação 14 e por um programa de computador# de acordo com a reivindicação 15.
[0014] Um. décodifloader para gerar um sinal de saída da áudio compreendendo um OU mais canal(is) de saída de áudio
a pare ir de um sinal de ddNãmi x compreend ando um GO xftc&jL G
canal(is) de domam.ia e for. necido. 0 sinal de U:on’nmi.x codifica
um. ou mais sinal(is) de objeto O& <3. víOxO < 0 d eco·: ã.ti icacor
c omp r eande ua i deteraina de lím ite p&ra dsl '.'.erríi.'. uãt um vaior
limite# dependendo de uma energia do sinal e/ou uma energia de ruído de# pelo menos, um de um ou mais sinal(is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos# um dé um ou .mais canal (ís) da domnmíXx Além disso# o decodifloader compreende uma unidade de processamento para gerar urn ou mais canal{is} de saída de áudio a partir de um ou male canal (is? de dowmix dependendo de valor limite, (0015] De acordo com uma aplicação, o sinal de damnmix poda compreender dois OU mais canais de downsüx, e ο determinador de limite pode ser oonfiguradc para determinar o valor limite, dependendo de uma energia da ruído de cada um
de dois ou [0016] mais canais de
uma aplicação, o determ! nador da limits
poda ser configu rado pars detórminar o valor limite,
dependendo da soma de fada enargía de ruído GG^Í. S ou mais
can a i .a de do vnm i c.
[0017] De acordo ccd uma aplicação, o sinal de domamíx pode codificar doía ou mais sinais de abjeto de áudio, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto* de áudio dá dois ou mais sinais de abjeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio,
(.0018] Em uma apiiàáÇÁò, o sinal de do atum ix pode compreender dois ou mais canais de dourmix, e o determinados de limite pude ser configurado para determinar o valor limite, dependendo da soma da toda energia de ruído em dois ou mais canais de domnm.br* (00191 De acordo com uma aplicação, α sinal de dowamix pode codificar um ou mais sinal(is) de objeto de áudio para cada parçae da tempo /frequência de uma pluralidade de porções de tempo/frequeue!á, 0 dererminadar de limits pode r configurado para determinar am valor limite para cada rçao de tempo/frequência da pluralidade de porções de mpcd frequência dependendo da energia do sinal eu da energia ruído de, pelo menos, um de um ou mais sinal (is] dc objeto áudio ou dependendo da energia do sinal ou da energia de ido de, pelo menos, um de um ou mais canal(ís) de doummlx, ranterirado por um primeiro valor limite de uma primeira
çâo de tempo/ f r e quênc i á da ρ1urslid ade de porções de
:po / f r e qu ên o i a puder diferir de uma seg unda porção
ρ o / fraque n.c 1 á da pluralidade de porções
mpo/frequência. A unidade de precessarnento pode ser afigurada para gerar para dada porção de tempo/fraquêncla pluralidade de porções de témpo/frequência um valor do nal de cada um ou. mais canal(is) de saída, de áudio a partir um ou mais canal(is) de domamix dependendo dc valor limite referida porção de tempo/fraquência.
020) Em uma aplicação, o decodlfleader pode ser >nfiguradc para determinar õ valor limite T em decibel de tordo com a formula οι i j wj 022] ou de acordo com a fórmula
T(í^J •Q24] caracter iza do por T(d/J] Indicar o valor mi te em decibel, em que indica a soma de toda surgia, de ruído em dois eu mais canais de dumnmàx em rcibel, em que Bw[d$] indica a energia do sinal de um dos ais de objeto de audio em decibel, e em que B indica um. ãmetró adicional sendo um número. £m uma anlicacão
9/3Ü alternativa, E^Jd/3] indica a soma de ioda energia de ruído em dois ou mais canais de domnmix em decibel dividida pelo numero de canais de doeumix.
[0025] Oe acorde com ama aplicação, o decodifleader pode ser configurado para determinar o valor limite T de acorde com a fórmula
E ρ-<ΛΛλί> 3'— ”· E~z
Figure BR112015002228A2_D0002
(0029] caracterizado por S* indicar o valor limite, em que SEn^e indica a soma de toda energia de ruído em dois ou mais eanais de do^wlx# em que :Eís..f indica a energia do sinal de um dos sinais de objátd de áudio,· e em qua 2 indica um parâmetro adicional sendo um núméro. Em uma aplinação alternativa, £„^[<^1 indica a suma de toda energia de ruído em dois ou mais canais de dwbmix dividido pele número de eanais de dcmnmúx.
(G03ô] be acordo còm uma aplicação, a unidade de processamento pode act configurada para gerar um ou mais canal (is) dé saída de áudio s partir de um .ou mais canal (is) de dòvnmix dependendo de úhá matrix da cavariância do objeto (£) de um ou mais sinal(is) de objeto de áudio, dependendo de ama matriz de downimáx (0) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de dovnmix, e dependendo do valor limifé, (5031: uírta aplicaçãOj a unidade de processamento é confiunrada para ssrar um Ou mais canal(is) de saída de áudio a partir de ura ou mais pana.l(.is) de downmix através, da aplicação do valor limite em uma função para inverter uma correç â o cru xada d o
C:znal dó <ÓZ um <; X-X 0/ caracterizado por Q ser definido oomo Q ==== DSD', em que D é a matriz de dowwix para xudúzir deis ou mais sina is de objeta de áudio para obter os doía ou mais canais de downmix, e em que S é a matriz de covariància do objeto de um ou mais sinal(is) de objeto da áudio, [00331 Por exemplo, a unidade de processamanto pode ser configurada para gerar «m Ou mais canal i is) de saída de áudio a partir de um ou mais canal (is) de downmix através do cálculo dos valores próprios da matriz de correção cruzada do canal de downmix Q ou. através do cálculo dos valores singulares da matriz de correção cruzada do canal de downmix
Q[0933j Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de salda de áudio a partir de um ou male canal(ia) da downmix através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada de danai de downmix $ com o valor limits para obter um limite relative, [00341 Por exemplo, & unidade de processamento pode ser configurada pa.ra gerar um ou mais canal (Is) da salda de a partir de um. ou mais canal (is ) da downmix pela geração de uma matriz modificada
A unidade de processamento pode ser configurada para gerar a matriz modificada dependendo apenas destes vetores próprios da correção cruzada do canal de déwàmix Q, que tem um valor
11/30 próprio dos valores próprios da matriz dé correção cruzada do canal .de dwnmix Ch Qüe é maior ou igual ao limita modificado. Além disso# a unidade de processamento pode ser configurada para conduzir? uma inversão da matriz da matriz modificada para obter uma matriz invertida. Além disse# a unidade de processamento pode ser configurada para aplicar a matriz invertida em um cu mais dos canais de ddwmmix para gerar um ou mais canal (is) de salda de áudio.
[00351 Além disso# um método para gerar um sinal de saída de áudio compreendendo um ou mais canal(is) de saída de áudio a partir de um. sinal de dowmúx compreendendo um ou mais canal (is) de dowrmdx é fornecido. O sinal de dc-wnmi.x codifica um. ou mais sinal(is) de objeto de áudio. 0 dec odif i cador c ompreande:
* determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos# um de um ou mais sinal (ia) da objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de# pelo ma nos, um de um ou ata i s ca na 1 (is) de downr? i x > E:
- gerar um Ou mais canal (is) de salda de áudio a partir de um ou mais dánal(is) de dornnmlx dependendo do valor limite» [5035] Além disso# um programa de computador para implementar o método descrité acima ao ser executado em um computador óu processador dé sinal é fornecida.
[0037] A seguir, as aplicações da presente invenção sào descritas as; mais detalhes dom referência ás figuras# nas guais:
12/30 [0038/ A figura 1 ilustra um decodíficador para gerar um sinal de salda de àudió compreendendo um ou mais canal(is) de saída de áudio da acorde com uma aplicação, [0039] A figura 2 ê uma visão geral do sistema 3AGC que descreva o principie destãã Sistemas utilizando c exemplo de MPEG SAOC, [ 0040] A figura 3 ilustra uma visão geral do conceito de upnux paramétrico- CM6AQC, e [0041] A figura 4 ilustra um conceito geral de dosmm i x/ ppmí x ♦ [0042] Abates de descrever as aplicações da presente invenção, mais histórico dos sistemas de SAOC do estado da t.é cn i ca é f o rn a c 1 do <
[0043] A figura 2 móátra uma disposição geral de um codificador SAOC 10 e um decodifleader SAOC 12. O codificador SAQC 10 recebe, cerno uma entrada, objetos /V, ou seja, sinais de áudio s> a sq. Em particular, o codificador 10 compreende um ddammdxer 16 oue recebe éá Sinais de áudio s; a s^ c reduz o mesmo a um sinal da dommix 18. De modo alternativa, o damnmix pode ser fornecido éãtéfhamente (daxnmix artistica'} e o sistema estima a informação adicional para fazer o damnmíx fornecido corresponder com o dutznmix calculado. Na figura 2, o sinal de dcmnmlã ê mestrado para, ser um sinal do canal P. Assim, qualquer confiçuração do sinal de dostnmis mono (P:-l), estérée (2—2) PU mui ti canal (P>2) ã concebível.
[004 4] Na caço de um doétemix nstérsa, os canais do sinal de domncix 18 são dsnctádbs XD e AU, na caso de um domumíx .mono o mesmo é simplsSMéate denotada XU. A fim de permitir que o decodi f leader SAQC 12 recupere os -objetos .individuais sj a s&v o estimador de infôrmaçãa adicional 17 fornece o decodificador DáãC 12 com informação adicional incluindo parâmetros de SAOC. Por exemplo, no caso de u.m duwnmix estéreo, os parâmetros de SAOC compreendem as diferençais dó nival do objeto (OLD ] object level differences) , correlações ant ré objeto (IOC í inter-objeot correiat.íuas) (parâmetrca dá correlação cruzada entre objetos), valoras de ganhe de dornnmix (OMG J downmix gain values) e diferenças dó uivei do canal de duwnmlx (DCLD | downmix channel level difféiéiWes) > A informação adicional 20, incluindo cs parâmetros de ÍADC, com c sinal, de dawnmix 10, forma c fluxo de dados do salda de SAOC recebida paio decodifleader DAQC 12.
[0045] O decodificâdor SAOC 12 compreende um upmixer que reoe.ee o sinal de dawnmix IS bem come a informação adicional 20 a fim de recuperar e apresentar os sinais de áudio s< e M em qualquer COÒjUhto selecionado gela usuário de canais y? a tom a renderitação sendo prescrita pela informação de renderização 26 inserida nc decodifiçados SAOC d ·;<
[0046] Os sinais de áudio S; a s# podem ser inseridos nu codificador 10 em qualquer domínio da codificação, oamu, no domínio dá tempo ou espectral» No case em que os sinais de áudio a.; a ag sâc inseridos no codificador 10 no domínio dá tempo, como PCM c adi ficado, o codificador 10 pode utilifár um banco de filtro, como um banco de QMP hibrido, a fim dá trens ferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com as diferentes partes espectrais# em ama resolução de banco de filtro especifica. Se os siááié de áudio so a st já estão na representação esperada pelo codificador 10. o mesmo não tem que realizar a decomposição espectral.
[0047] Mais f1exibi1Idade no processo de mistura permite uma ótima exploração dáã características do objeto do sinal. Um domamíx pode ser produzido sendo otimizado para a separação paramétrica no lado do decodificador referente á qualidade percebida.
[00481 A aplicação esténde a parta paramátries do esquema SAOC a. m número arbitrário de sanais de dcvnmíx/ijpmix. A figura Sôfuinta fornece a visão geral do conceito de upmix paramátribO da Codificação de Objeto de Audio Espacial General izadá' (<W>A0C I Generalized Spatial ,--.0(11 o i.ibgsct toem ngç :
[0045] A figura 3 ilustra uma visão geral do conceito de upmíx paramãtbiOO G-ÚAOC A com pes-míatura ecmplstamente flexível (renderização) dos objetos de áudio parametricamente reconstruídos pode ser realizada.
(00501 Inter alia# a figura 3 ilustra um deu edificador de áudio 311. ilb separador de objeto 320 e um r e n de x i a ado r 3 30.
[0051] Vamos considerar « seguinte anotação comum:
[0032] x “ sinal dó dbjáto de áudio de entrada (com tamanho AÀ 1 [0054] r - sinal da cena de saida renderizado (com tamanho A<^«·) [0055] P - matriz de ddWsix (com tamanho (OOSS'j R ~ matriz de renderizagao (com tamanho ;V. X <¥ . } ' «ft..... XSSW ' [0O;57] Cl ~ matriz paramétricá de apmix (com tamanho .: :< :γ :
* MjWSíà '
Figure BR112015002228A2_D0003
[Ô059] Todas as matrizes introduzidas são (no geral} variantes no tempo e na frequência» [0060] Á seguir, ã relação constitutiva para o upmixing paramêtrioo é fornecida* [0G61] ãrimelramente? os conceitos gerais de domnmíx/ qpm.ix sâo fornecidos Com referência à figura 4. Em particular, a figura. 4 iluátra. um conceito geral de domnmix/ úpmíx, em que a figura 4 ilustra çs sistemas modelados (esquerda} e de upizix paramêtrico (direitas , [0062] Mais particularmentc, a figura 4 ilustra uma unidade de renderitagâó 410* um unidade de dovnmix 421 e nma un ida de de uorn f x psr amé t ;r i ca 4 21 >
[00-63] Q sinal da osta de salda renderieado ideal (modelado}z é definido como, veja a figure (esquerda}:
Figure BR112015002228A2_D0004
[006'5'J ú sinal dé áudio de doraix >’ é determinado esmo, veja na figura 4 (direita)t
Figure BR112015002228A2_D0005
[0067) A relação constitutiva [aplicada no sinal da áudio de dòxnmfx) para a reconstrução do sinal da uená as salda paramétrica pode ser representada como, veja a figura 4 [direita):
............ Gv ~ z , k [UutPj * > \-<f;
[0069] A matriz de upmím paramétricô pode ser definida de (1) e [2] como a seguinte função das matrizes de downsíàx e rende ri nação G—G(lXR)s
G^REO‘(lW#r [0070] v ' » W [0071] A seguir, ã melhoria da estabilidade da estimativa da fonte paramêtrioa de acorde com a aplicação ê considerada, [0072] O esquema de separação paramétrica dentro de
MPEG SAOC se baseia em uma estimativa da mínima média quadratics [LM3 í Least hfsah Equate) das fontes na mistura. A estimativa LMS envolve a inversão da matriz de covariância do canal de downmix descrito de forma paramétrica Q-DEiy. Qs algoritmos para a inversão da matriz são, no geral, sensíveis às matrizes condicionadas * A inversão desta matriz pode causar sons não naturais, chamados perturbações, na cena de saída rendarizada. Um ilmlta fixo determinado de forma de forma haurxatxca I em .HrhO evita asso atuaxmente.
Embora aa perturbações es jam evitadas por este método, um possível desempenho suficiente de separação no lado do decodifleader pods? assim não ser obtido.
[00 /1) a f .»· gura 1 ilustra um deoodHtcadbr para:
uerar um sinal de saída de áudio compreendendo um. ou mais
17/30 canal(is) da saída de áudio a partir da um sinal de duw.nmix compresndando um. ou mais canal (is) da downmlx de acordo com uma aplicação. 0 sinal de downmix codifica um ou mais sinal(is) de objeto de áudio.
[0074] O decodificado* compreende um daterminador de limite 110 para determinar um valor limita, dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is} de objeto de áudio e/ou dependendo de uma energia do sinal e/ou umá energia de rnido de, pelo menos, um de um ou mais canal(ÍS) de dowanlx.
[0075] Além disso, ò decodificador compreende uma unidade de processamento 120 para gerar um. ou mais canal{is} de saída de áudio a partir dá um ou mais canal(is) de downmix dependendo do valor limits.
(0076] Ac coutrârib do estado da técnica, o valor limite determinado pelo detatminador de limite 110 depende de uma energia do sinal ou uma energia da ruído de um ou mais canal(is) de downmix ou de um óu mais sinal(is) de objeto de áudio codificados. Nas aplicações, como as energias do sinal e de ruído de um ou mais canal(is) de downmix e/ou de um ou mais valores do sinal do objeto de áudio variam, então o valor limite varia, por exemplo, periodicamente, ou da porção de tempo/frequência em porção de tempo/frequência.
[0077] As aplicações fornecem um método de limite adaptation para inversão da matriz atingir uma separação paramétrioa melhorada des abjetos de áudio no lado do decodifleader. 0 desempenho da separação está na melhor média, mas nunca menos do <ué o esquema de limite fixo atualmente utilizado em MPEG EAQC no algoritmo para inverter a matriz Q.
[0078] D 1 i mi t e T é d i n ami c a man t e ada p t a do à precisão das dados para oada porção de tempo/fsequência processado, O desempenho da separação é então melhorado e as perturbações na cena de sãidà renderirada causadas pela inversão das matrizes condicionadas são evitadas.
[00'71] De acordo com uma aplicação, o sinal de domnmlx pode compreender dois du mais canais de downmáx, e o
d e t e rm 1 na d o r de limits a 110 pede s e r co n f xgura do pa r a
determinar o valor limit e, dependendo de uma energia, de ruído
de cada um cte s dois ou ma is canais de downmix <
[0000] Em urna aplicação, o determ!nadar de 1 imite
110 pode ser configurado pata determinar o valer limite, dependendo da soma de toda energia de ruído em dois ou mais canais de downmix.
[00U1J De acorda cem uma aplicação, o sinal da downmix pode codificar dois Ou mais sinais de objeto de áudio, e o detexminador de limite 110 pode ser configurado para determinar o valor limits, dependendo de uma energia do sinal do sinal do objeto de áudio dos dois ou mais sinais de objeto de áudio que tem a maldt energia do sinal de dois ou mais sinais de objeta de âudlú.
[0082] Em uma aplicação, o sinal de do warn ix ...pode compreender dois ou mais canaiã de down,six, e o determinados de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma dá toda energia de ruido em dois ou mais canais de dowmíxr (00831 De acordo oom uma aplicação.# o sinal de dovnmix poda codificar um ou mais sinal (is) de objeto de áudio para cada porção de tampo/frequência de ume pluralidade de porções de tempo/frequência.» O determinador de limite 110 pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempc/freguênuía dependendo da energia do sinal ou da energia de ruído de# pelo menos# uni de um ou. mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruído de# pelo menos# um de Uti ou mais canal (is) de do>vnmi;<f em que um primeiro valor limita de uma prim.ei.ra porção de tempo/f reguência da pluralidade de porções de tampe/.frequência pode diferir de uma segunda porção de tempo/frequència da pluralidade de porções de tempo/frecuêncía. Λ unidadà de processamento 120 pode ser configurada para gerar para Cãda porção de tempo/frequència da pluralidade de porções de tempo/frequência um. valor do canal de cada um de um ou male canal (is} de saída de áudio a partir de um ou mais canal(lã) dá doxnnix dependendo do valor limite da referida porção da tempo/frequència.
[OGSãl De acordo Cóm uma aplicação#: o decodificador pode ser cônfiguradu pafá determinar o valor limite T de acorde com. a formula
Figure BR112015002228A2_D0006
[0087] em gue T indica o valor limite# em. que
Indica a soma de toda energia de ruído em dois ou mais canais
20/33 de do^mix, em quo indica a energia da sinal de urn das sinais de objeto de áudio, e em qua 2> indica um parâmetro adicional sendo um número< Em urna aplicação alternativa, ã»é.í.sé indica a soma de toda energia de ruído em dois ou mais canais de dcenmix dividida pelo número de canais de domnmix. [0088] Em uma aplicação, o decodifloader pode ser configurado para determinar d valor limita T em decibel de acordo com á formula ( 0 0 8 9 ] T«| - E^ M M - Z (009G] ou de acordó bém a fórmula rocm 1 [0092] um que indica o valor limite em decibel, em que KW!,W[<^1 ibdlca a soma de toda energia de ruído em dois ou mais canais de doxnmlx em decibel, sm que indica a energia do sinal de um dos sinais de abjeto de áudio em. decibel# e em qúá 1 indica um parâmetro adioíónal sendo um número. Em uma aplicação alternativa, indica a soma de toda energia de ruído em dois ou miais canais de datvnmix em decibel dividido pelo numera de canais de do^nmix, [0093] Em particular·, úha estimativa bruta do limita pode ser dada para cada porção de tempo/frequência por:
Γ.„ο„, Μ<®νη„.(Λ1Κν»-Ζ
J U ν· .> *5 j ..... * : b ··' ?
[0090] B^pode indicar o nível base do ruído, por exemplo, a soma de toda energia de ruído nos canais de dconmix. A base de ruído pedê ser definida pela resolução dos dados de áudio, por exempló, Oá base dé ruído causada pela codificação por PCM dos oánáis. Outra possibilidade ê considerar o ruído da oodificaçãa se o downmiz: for comprimida. Para este oaaa, a base de ruído causada paio algoritmo de codificação pode ser adicionada. Em uma aplicação alternativa, Ew:,w[^] indica a soma de toda energia de ruído em dois ou mais canais de downmix em decibel dividido pelo numero dós canais de doramix.
[0096] E.¥, pode indicar uma energia do sinal de referência. Na forma mais sitnplo» essa pode ser a energia do objeto de áudio mais forte,
1L, - nmx (El [009'7] v ? . (n) [0098] Z pode indicar um fator de penalidade para causar parâmetros adicionais que afetam, a resolução de separação, par exemplo, a diferença do número de canais de downmix e número de abjetos fonte. O desempenha da separação reduz com α número crescente de objetos de áudio. Além disso, os efeitos da quantização da informação do lado paramétrico sabre a separação podem também ser incluídos.
[00991 Em uma aplicação, a unidade de processamento 120 é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mala canal(is) de downmíx dependendo da matriz de ccvariância do objeto B de um cu mais sinal(is) de objeta de áudio, dependendo da matriz de downmlx D para reduzir' os dais ou mais sinais de objete de áudio para obter dois ou mais canais de dowômi.áj a dependendo do valor limite. (0100] De acordo oom umà aplicação, para gerar um ou mais canal (is) de saída de áudio a partir de um ou mais cana1(is) de do wnmía de p andetido do valor 1imi t e, a unidado de processamento '120 pode ser configurada para proceder como segue:
(0301/ G limite (qúá pude ser referido· como ’'limite de resolução por separação*) é aplicado no lado do decodifloader na. função pars inverter a matriz de carreçâa cr usada párametrlcamente estimada do canal de dwnsix (81G2J Os valores singulares de Q ou os valores próprios de Q dão calculados, (01G3J O malar valor próprio ê considerado e multiplicado com o limite T, [0104] Todos, exceto c maior valor próprio, são comparados com este limita relativo e omitidos se são menores.
[01Q5J A inversão da matriz é então realizada em rara mat ris modificada, em uns a matriz modificada pede, por exemplo, ser a matriz definida pelo conjunto reduzido de vetares. Deveria ser observada que, para α casa que todas exceto c valor própria mais alto são omitidos, o valor orónria mais alta deveria ser dáfinido no nível base do ruído .4\· X se o valor próprio estiver abaixa.
[0106] Par exempla, a unidade de processamento 120 pude ser configurada para gerar um ou mais canal.{is) de saída de ãudia a partir de um óU mais canal (is) de dovnmfx pela geração da matriz modificada.
Figure BR112015002228A2_D0007
Figure BR112015002228A2_D0008
à matriz modificada pada ser vetores próprios da matriz de duúxmix φ, que têm um vaiar matriz de correção cruzada de malar au igual ao limite modificado. A unidade de processamento 120 peda ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma mátriz invertida. Então# & unidade de processamento 120 pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de domamlx para gerar um ou mais canal, (is) dá saída de áudio. For exemplo, a .matriz invertida pode ser aplicada em um ou mais dos canais de downmi.x em uma das formo como a matriz invertida do produto da matriz é aplicado nus canais de dowxmfx (veja, per exemplo [SAOC], vaja, em particular, per exemplo: 1SQ/IEC, teenologias de áudio MPÉG - Parte 2: Codificação de de áudio espacial (SAUC), iWlEC jTCl/SC29/WGll
(HFEG) Fadrào Inte rnaci onal 23903-2:2910, em partiou .lar,
veja, capitulo Processament o SAOC, mais ca r t i c u 1. á r ma Cite,
veja subcapitu 1 o Códigos de transcodif i ca ç« io s suboapí tule
Modos de de cu d. i f reaçãoí?í .
(0197] Os pa râmetroa que podem ser empregados pa ra
est imar o li. mi te Tpodem ser tanto determinados n.o
codificador quanto incorporados na informação adicional paramétrioa ou estimados diretamente no lado de (9103] Uma versão Simplificada do estimador de limite pode ser utilizada no lado do codificador para indicar instabilidades potenciais na estimativa fonte nc lado do decodifloader. Na sua forms mais simples, negligenciando todos os termos de ruído, a norma da matriz de do^nmíx pode ser computada indicando ddé ó potencial total doe canais de dcwnmíx disooníveis cara estimar oarametricamente os sinais fontes no lado do deoodificadot não pode sar explorado. Este indicador pode ser utilizado durante o processo de mistura para evitar misturar as matrizes que são criticas para estima r os aina 1s fonte.
[01091 Com referência â parametrização da matriz de oovariãncia do objeto, um pode ver que o método de upmi.x paramètrico descrito com. bááá na relação constitutiva (4) é invariants ac sinal das entidades fora da diagonal da matriz de uovariância do objeto E» XãSd resulta na possibilidade da parametrisaçâc mais eficiente (em comparação com SAOC) {quantiração e codificação) des valores que representam as correlações entre c objeto* [0110j Referente ao transporte de informações que representam a matriz de domnmix, de forma geral, a entrada de áudio e sinais de domnmáA > juntos com a. matriz de novaríãncia Esão determinados no lado do codificador. A representação codificada do sinal de áudio de dcmnmix y e informações que descrevem a matriz de covariância Esão transmitidas ao lado do daoodifleader (através da carga útil do fluxo de bits continuo)* A matriz de renderização R é definida e disponível no lado do daoodífloader<
(0111] As informaçÕO que representam, a matriz de deunstíx D (aplicadas no cddi.fioador e utilizadas como o decodifioador) podem ssr dstãrminadas (nc codificador) e obtidas (no décódifleader) utilizando os seguintes métodos do princípio <
[0112] A matriz dé dwnmix I) pode ser:
definldã s aplicada (no codificador; e sua representação codificada á quantificada explicitamente transmitida (ao decodificador) através da cargaútil do fluxo de bits continuo.
atribuída e aplicada (no codificador) a recuperada (no decodlficadcr) utilizando as tabelas de visualização armazenadas (ou Séja, definida das matrizes de downmix predeterminadas).
atribuída a aplicada (no codificador) e recuperada (no decodificador) de acordo cosí o algoritmo especifico ou método (por exemplo, colocação especialmente ponderada e equidistante ordenada dos objetos de áudio aos canais de downmix díspc-niveis) <
estimada e aplicada (no códificador) n recuperada (no decodificador) utilizando os critérios de otimização particulares permitindo a mistura flexível/' de objetos de áudio de entrada (éu seja, geração da matriz de downmix que é otimizada para a estimativa paramétrica dos objetos de áudio no lado dd déOOdifleader). Por exemplo, o codificador gera a matriz de downmix em uma forma para tornar o upmix paramétries mais eficiente, em termos de reconstrugío de propriedade do sinal especial, como covariância, correlação entre sinais ou fôêlhdrar/ garantir a estabilidade numérica dc algoritmo de upmix pstamétrico.
[01.13] As aplicações fornecidas podem ser aplicadas em um número arbitrário de canais de downmix/ upmix e podem, ser combinadas com qualquer corrente e outros formatos de áudio futuros.
[0114] A fléxibflidãdà do método inventivo permite
26/30 que o desvio dos canais, inalterados reduza a complexidade computacional, reduzindo a carga. útil do fluxo de bits ccntinuo/quantidade de dados reduzida.
[0115] Um codifica dot de áudio, método ou programa de computador para codifioagló é fornecido.. Além disse·, um decodificados da áudio, método ou programa da computador para decodificação é fornecido. Além disso, um. sinal codificado é fornecí do.
[0116] Embora. alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrigMo do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, cs aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
[0117] Q sinal decomposto inventivo pode ser armazenado e.m um maio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem. fio ou um. ceio de transmissão cosí fio, como a .ί.Γί t- G .£ RG t· * :0118] Dependendo de curtas exigências de implamentação, as apiicsgâes da invenção podem ser implementadas am hardware ou em software. A implementação pode ser realizada utilizando um. meio de armazenamento digitai, por exemplo, um dísquété, u-m DVD, um CD, uma .memória ROM, ama FROM, uma EPRGM, Umá EE.FROM ou uma memória FLASH, tendo sinais de controle el err arm cements regxvers axmazenaaos nele (ou são capazes de cooperar) com um sistema de computador pro.gramável, de modo que o respectivo método seja realização.
[01191 Algumas aplidaçàés, de acordo com a invenção, compreendem um transportador de dados não transitórios tendo sinais de controle eletronicamente legíveis que são capazes de cooperar com um sistema de computador proqramávei, de modo que um dos métodos descritos nêéte documento seja realizado.
(OllOj De forma getál» as aplicações dá presente invenção podem ser implamentédM coma um. produto do programa de computador com um código dd programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador ê executado: em um. computador. 0 código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina, [0121] Outras aplidaçôo compreendem c programa de computador para realizar um des métodos descritos nesta documento, armazenados em um transportador legível por máquina.
[0122] Em outro palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o proqramá de computador é executado em um computador.
[yl231 Ostra apllcáÇid dos métodos inventivos é, assim, um transportador dé dãdòá [ou um meio de armazenamento digital, ou um melo legível por computador; compreendendo, gravado nele, o programa dé computador para realizar um dos métodos descritos neste documento.
[0124] Outra aplicação do método inventivo ê, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. C fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet>
[0125] Outra aplioaçêd compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configursdn para ou adaptado para realizar um dos métodos descritos neste documento.
[0126] Outra, aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos nesta documento.
[0127] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arrange da portas de campo prcgramáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em slqumas apliuáçõss, um arranje de portas de campo prcgramáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. Deforma geral, os métodos sác- preferivelmente realizados por qualquer aparelhe de hardware, [0123] ás aplicações descritas acima sãc meramante ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e c-s detalhes descritos no presente documente serão evidentes a outros especialistas na técnica. é intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes espeeificos apresentados em forma de descrição e explicação des aplicações no presente documente.
REFERÊNCIAS:
[012$) ÍMPS] ISO/IÈC 23003-1:2007, MFRG-D (MPEG audio technologies}, Part 1: MP1G Surround, 2007, [0130] [BCCl C. Fallat and F« Baumgarte, Binaural Cue Coding ~ Part II: Schemes and applications, IEEE Trans, on Speech and Audio Proc., vol, 11, no. 6, Nov. 2003 [0131] [JSC] C. Faller, Parametric Joint-Coding of Audio Seurnes, 120 th AES Convention, Paris, 2006 [01321 [SACC1] J. Herre, 3. Disch, d. Hilpert, 0, Hellmuth: From SAC To SAOC - Decent Developments in. Parametric Coding of Spatial Audio, 22nd Regional UK AES Conference, Cambridge, UK, April 2007 [0133] [SAOC2] J. Ehgdeqàrd, B. Resch, C. Falch, 0. Hellmuth, <1. .H.ilpert, A:. Hblzsr, 1. Terentiev, J, Breebaart, d, Keppers, E. Schuijers and W, Oomen: Spatial Audio Object. Ceding (SAOC) - The Upcoming MPEG standard on. Parametric Object Baaed Audio Coding, 124th AES Convention, Amsterdam [0134] [SAOC] ISO/IEC, MPEG audio technologies Part 2: Spatial Audio Object Ceding (SAOC), ISQ/IEC JTC1/SC29/W11 (MPEG) International Standard 23003-2.
[G135j (ISSlj M. Psrvaix and L. Girin: Informed
Source Separation of undardsterminad instantaneous Stereo Mixtures using Source Index Embedding, IEEE ICASSP, 2010 [0136] [ISSS] S, FatvalA, L Girin, u.-M. Brassier:
A watsrmarking^based method far informed source separation of audio signals with a single sensor,, IEEE Transactions on Audio, Speech and Language Processing, 2010 [01371 [ISS3] A< Liutkus and J, Finei and R< Bodeau and L, Girin and G. Richard: Informed source separation through spectrogram coding and data embedding·, Signal P r o g e s s i n g Jo u r n a. 1 ,- 2 011 [0138] [ISE 4] A. Ozerov, A. Liutkus, R. Badaau, G.
Richard: Informed source separation: source ceding meets source separation, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 [0139] [ISS5] Shuhua Ihang and Laurent Girin: An
Informed Source Separation System for Speech Signals, INTERSFEECH, 2011 [0140] [IxSS6]L. Girin and J. Rlnel: Informed Audio
Source Separation from Compressed Linear Stereo Mixtures, AES 42 nd International CdhfxOWds: Semantic Audio, 2011.

Claims (10)

1. Um deccdificádor para garar um sinal de saída de áudio, compreendendo de áudio a partir da um sinal ou ma.is canals de dornnmix# dovnuix cedi ficar dois ou mais um ou mais canal(is) de saídá de domnmíx, compreendendo dois caracterizado pelo sinal de sinais de objeto de áudio# em que o decodifi-cador compreende?
um. determin&dor de limite (11G) para determinar um valor limite, dependendo de uma energia do sinal cu uma energia de rui dó de, pelo menos, um de um ou mais sinal(is) de objete dé áudio ou dependendo de uma energia dc· sinal ou uma energia de ruído de# pelo menos, um de um ou mais canal(is? de dbfcgvHx# e uma unidade de processamento (120) para gerar um ou mais canal (is) de saídá de áudio a partir de um cu mais canal (is) de domnm.fr, depandándú do valor limite«
2. I’m decodificador ce acordo oom a r e i v 1 nd 1 o a ç ã o 1, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia de ruído de cada um de dois cu .mais c an a i s d e do vrm ix.
3< Um dáCCdlfleader de acordo coa: a reivindicação 2# caracterizado pelo determ.inador de limite 110) Ser configurado pata determinar o valor limite# dependendo da soma de toda a energia de ruído em dois ou mais
2, Um decodifloader de acordo com qualquer
uma das re: lvIndicaçde s aate r 1ores, caracterizado pelo determinados? de limite (11Q) ser configurado para determinar o valor limite, dependendo de uma energia dó sinal do sinal do objeto de áudio de c lois ou mais sinais de objeto de áudio que tem a
maior energia do sinal de dois ou mais sinais de objeto de áudio <
5. Um decodifióédor de acordo com. qualquer ΛΑ·ΛνίΆ A·. Sv> λ ivindlcaçoes anteriores, caracterizado pelo determinador de limite (110) ser configurado páfá determinar o valor limite, dependendo da soma de toda a energia de ruído em dois ou mais canais de ? duwnmix. 6. Um decodifibador de acordo com qualquer uma das re í v i. ndi ca ç be a anteriores, caracter irado pelo sinal de downmix cool ficar um ou mais sinal(is) do objeto de áudio para cada porção de t emp o / f r e q: uênoia de uma pluralidade de porções de tempo/freq uêncra, em que o detetminador de limita (110) é
configurado para determinar um valor limite para cada porção
de tempo /frequência da pluralidade de porções de tempo/f re.q uência, dependendo da energia do sinal ou da enexgta oe ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruído de, paid menos, um de um ou mala canal(ia) de downmix , em que um primeiro valor limite de uma primeira porção da tempo/frequência dã pluralidade de porções de
tempo/f requência difere de segunda porção de temna/f requéncia da pluralidade de porções de tampa/frequência, a em que & unidade de processamento (120) ê configurada para gerar para cada porção de tempo/frequência da pluralidade o.e porções de tempo,/frequência um valor da canal de cada um ou mais canal(lá) de salda de áudio a partir de um ou mais canal-(is) de dwarníR, dependendo do valor limite da referida porção de tempo/frequência.
7. 0m decodifleader de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo decodifleader ser configurado para determinar d valor limite T em decibel de acordo com a fórmula ou de acordo zew ã formula
T(d£] em que T[d$] indica o valor limite em decibel, em que E ,íd$1 indica a sorta de toda anemia de ruido em. dois ou mais canais de domnmix em decibel, ou E(<.,ív.4dá] indica a soma de toda energia de ruido em dois ou mais canais de downmix eh decibel dividido pelo número de dois ou mala canais dé downdlx, em que indica a energia do sinal de um dos sinais de objeta de áudio em decibel, e em que 2 indica um parâmetro adicional sendo
8. Um decodificador de acordo com. uma das reivindicações de '1 a €, caracterizado pelo deccdif leader ser configurado para determinar b valor limite T de acordo com. a formula
E
T™—ibsm. ou de acordo con; a formula
Euw Z ><·/
E y ss
Ε,^χ em que T indica 0 valor limite, cm quo SfRus« indica a soma de toda energia de ruído em dole cu mais canals de downmix, ou EroMX!Jdfl] indica a soma de toda energia de ruldo em dais ου mais canals de dow,;mix em decibel dividido pale numero de dois ou mala canais de downmix, em que X»; indica a energia do sinal de um doa sinais de objeto de áudio, é em que & indite um parâmetro adicional sendo úm numero.
9. üm. aparelho de acordo cam. qualquer uma das reivindicações anteriores, caracterizado pala unidade de processamento (120) ser configurada para gerar um ou mais canal (is) de salda de .áudio a partir de um ou mais canal (is) de downmfx, dependendo de uma matriz de covariância do objete í£) de um eu mais sinal(is) da objeto de áudio, dependendo de uma matriz de downmix (b) pata reduzir os dois qu mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limits,
10. Um acárelhõ de acorda com á reivindicação
9< caracterirado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de dcwnmix, aplicando o valor limite em uma função para invertes uma matriz de correção cruzada do canal dá dewnmix Q, em que Q é definido como em que D é a matriz de downmix para reduzir dois ou mais sinais de objetb dé áudio para obter c-e dois éu mais canais de dowmlx, e em que E é a matriz de covariáncia do objeto da um nu mais sinal (is) de objãtó de áudio.
11. dm. apa.relhb dá acordo com a reivindicação 10, caracterizado pela unidade de processamento (120) ser configurada parus gerar um ou mais canal (ia) de salda de áudio a partir de um ou mais canal (is) de dmwnmix através da cálculo da valores próprios dá matriz de correção cruzada do canal de dcwnmix Q ou através do cálculo dos valores singulares da matriz de corrução cruzada dc canal de downmix
12. Um aparelho da acordo com a reivindicação 10 ou 11, caracterizado pela unidade de processamento (120) sen configurada para gerar um dd mais canal (is) de salda de áudio a partir de um ou mais púhãi(is) de duwnmix através da multiplicação do maior valor próprio dos valores próprios da matriz de octreçác cruzada do Cáhal de downmix Q com o valor limite para obter um limite rélétivo.
1'3. Um aparelhe de acordo com a reivindicação car acteri zado pala unidade de processamento (120} SM configurada para gerar um ou mais canal (is) de saída dé áudio a partir de Ufô ou mais canal(is) da dowsmíx geranuo uma matriz rauolfacada, em que a unidade de processamento (120) é configurada para gerar a matriz modificada, dependendo apenas dos vetores próprios da matriz de correção cruzada dc canal de downmíx que tem. üà VálO próprio 'dós valores próprios da matriz de correção cruzada do canal de downmix Q, que é maior ou igual ao limite modificado, em que a unidade de processamento (120) ê configurada para conduzir uma inversão dá matriz da matriz .modificada para obter uma matriz invertida, a em que a unidade de processamento (120) é configurada para aplicar á matriz invertida em um ou maio dos canais de downmix para gerar w. ou mais canal(is) da saída de áudio.
.14. Um método pára gerar um sinal de saída de áudio, compreendendo um ou maiá danai (is) de saída de audio a partir de um sinal de dwwúd.ix, compreendendo dois ou mais canais de downmix, catactarirado pelo sinal de downmàx codificar dois ou mais sinais de objeto da áudio, em que ó decodi floader compreendet determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo manos, um de ura ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou. uma Oéfgiá de ruído de, pelo menus, um de um ou mais canal (is) dã dwnmix, e gerar um ou mais canal (is) de salda de áudio íartir de um cu mais canal (is) da doasrafx, dependendo do cr limite.
15. Um programa de computador para 1ementar um método, dó àccrdo com a reivindicação caracterizado per ser executado em um computador ou cessador de sinal.
BR112015002228-6A 2012-08-03 2013-08-05 Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal BR112015002228B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261679404P 2012-08-03 2012-08-03
US61/679,404 2012-08-03
PCT/EP2013/066405 WO2014020182A2 (en) 2012-08-03 2013-08-05 Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases

Publications (2)

Publication Number Publication Date
BR112015002228A2 true BR112015002228A2 (pt) 2019-10-15
BR112015002228B1 BR112015002228B1 (pt) 2021-12-14

Family

ID=49150906

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015002228-6A BR112015002228B1 (pt) 2012-08-03 2013-08-05 Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal

Country Status (18)

Country Link
US (1) US10096325B2 (pt)
EP (1) EP2880654B1 (pt)
JP (1) JP6133422B2 (pt)
KR (1) KR101657916B1 (pt)
CN (2) CN104885150B (pt)
AU (2) AU2013298463A1 (pt)
BR (1) BR112015002228B1 (pt)
CA (1) CA2880028C (pt)
ES (1) ES2649739T3 (pt)
HK (1) HK1210863A1 (pt)
MX (1) MX350690B (pt)
MY (1) MY176410A (pt)
PL (1) PL2880654T3 (pt)
PT (1) PT2880654T (pt)
RU (1) RU2628195C2 (pt)
SG (1) SG11201500783SA (pt)
WO (1) WO2014020182A2 (pt)
ZA (1) ZA201501383B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
EP3271918B1 (en) * 2015-04-30 2019-03-13 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
CN107533844B (zh) * 2015-04-30 2021-03-23 华为技术有限公司 音频信号处理装置和方法
GB2548614A (en) * 2016-03-24 2017-09-27 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
WO2020102156A1 (en) * 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真系统的数据处理方法及解码器架构
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
WO2003092260A2 (en) * 2002-04-23 2003-11-06 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
EP1521240A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying echo cancellation by modifying the codebook gain
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
CN1985544B (zh) * 2004-07-14 2010-10-13 皇家飞利浦电子股份有限公司 处理立体声下混合信号的方法、装置、编译码器和系统
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
PL2137725T3 (pl) * 2007-04-26 2014-06-30 Dolby Int Ab Urządzenie i sposób do syntetyzowania sygnału wyjściowego
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
US8386267B2 (en) 2008-03-19 2013-02-26 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
CN102027535A (zh) * 2008-04-11 2011-04-20 诺基亚公司 信号处理
EP2283483B1 (en) 2008-05-23 2013-03-13 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
DE102008026886B4 (de) * 2008-06-05 2016-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Strukturierung einer Nutzschicht eines Substrats
ATE557386T1 (de) * 2008-06-26 2012-05-15 France Telecom Raumsynthese mehrkanaliger tonsignale
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2218447B1 (en) * 2008-11-04 2017-04-19 PharmaSol GmbH Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles
US8964994B2 (en) * 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
KR101485462B1 (ko) * 2009-01-16 2015-01-22 삼성전자주식회사 후방향 오디오 채널의 적응적 리마스터링 장치 및 방법
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
ES2453098T3 (es) * 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置

Also Published As

Publication number Publication date
US10096325B2 (en) 2018-10-09
SG11201500783SA (en) 2015-02-27
WO2014020182A2 (en) 2014-02-06
CA2880028C (en) 2019-04-30
JP2015528926A (ja) 2015-10-01
AU2013298463A1 (en) 2015-02-19
ES2649739T3 (es) 2018-01-15
WO2014020182A3 (en) 2014-05-30
CA2880028A1 (en) 2014-02-06
AU2016234987A1 (en) 2016-10-20
CN110223701B (zh) 2024-04-09
RU2015107202A (ru) 2016-09-27
US20150142427A1 (en) 2015-05-21
ZA201501383B (en) 2016-08-31
RU2628195C2 (ru) 2017-08-15
JP6133422B2 (ja) 2017-05-24
HK1210863A1 (en) 2016-05-06
PL2880654T3 (pl) 2018-03-30
CN104885150B (zh) 2019-06-28
PT2880654T (pt) 2017-12-07
EP2880654B1 (en) 2017-09-13
CN110223701A (zh) 2019-09-10
EP2880654A2 (en) 2015-06-10
BR112015002228B1 (pt) 2021-12-14
CN104885150A (zh) 2015-09-02
MY176410A (en) 2020-08-06
KR20150032734A (ko) 2015-03-27
KR101657916B1 (ko) 2016-09-19
MX350690B (es) 2017-09-13
AU2016234987B2 (en) 2018-07-05
MX2015001396A (es) 2015-05-11

Similar Documents

Publication Publication Date Title
JP7469350B2 (ja) マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
JP7270096B2 (ja) フレーム制御同期化を使用して多チャネル信号を符号化又は復号化する装置及び方法
BR112015002228A2 (pt) Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
ES2914474T3 (es) Método de decodificación de una señal de audio estéreo codificada usando una dirección de predicción variable
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
ES2605248T3 (es) Aparato para generar señal de mezcla descendente mejorada, método para generar señal de mezcla descendente mejorada y programa de ordenador
EP2904609B1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/08/2013, OBSERVADAS AS CONDICOES LEGAIS.