BR112015002228B1 - Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal - Google Patents

Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal Download PDF

Info

Publication number
BR112015002228B1
BR112015002228B1 BR112015002228-6A BR112015002228A BR112015002228B1 BR 112015002228 B1 BR112015002228 B1 BR 112015002228B1 BR 112015002228 A BR112015002228 A BR 112015002228A BR 112015002228 B1 BR112015002228 B1 BR 112015002228B1
Authority
BR
Brazil
Prior art keywords
downmix
channel
signal
audio
threshold value
Prior art date
Application number
BR112015002228-6A
Other languages
English (en)
Other versions
BR112015002228A2 (pt
Inventor
Leon Terentiv
Oliver Hellmuth
Juergen Herre
Thorsten Kastner
Original Assignee
Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V. filed Critical Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V.
Publication of BR112015002228A2 publication Critical patent/BR112015002228A2/pt
Publication of BR112015002228B1 publication Critical patent/BR112015002228B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

decodificador método para um conceito paramétrico de codificação objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal. um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de downmix, compreendendo um ou mais canal (is) de downmix é fornecido. o sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. o decodificador compreende um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos, um de um ou mais canal (is) de downmix. além disso,o decodificador compreende uma unidade de processamento (120) para gerar um ou mais canal(ie) de saída de áudio a partir de um ou mais canal(is) de downmix, dependendo do valor limite. figura 1

Description

[0001] A presente invenção refere-se a um aparelho e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal.
[0002] Nos sistemas de áudio digital modernos, é uma grande tendência permitir modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado receptor. Estas modificações incluem as modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial dos objetos de áudio dedicados no caso de reprodução multicanal através dos alto-falantes distribuídos espacialmente. Isso pode ser obtido individualmente pela entrega de partes diferentes do conteúdo de áudio aos diferentes alto-falantes.
[0003] Em outras palavras, na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientada por objeto e também uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para individualmente apresentar os conteúdos de áudio ou porções destes a fim de melhorar a impressão da audição. Pelo presente, a utilização do conteúdo de áudio multicanal traz melhorias significativas para o usuário. Por exemplo, uma impressão da audiçãotridimensional pode ser obtida, o que traz uma satisfação melhorada do usuário nas aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal também é útil em ambientes profissionais, por exemplo, nas aplicações de conferência telefônica, pois a integibilidade do emissor de voz pode ser melhorada utilizando uma reprodução de áudio multicanal. Outra possivel aplicação é oferecer a um ouvinte de uma peça musical o ajuste individual do nivel de reprodução e/ou posição espacial de diferentes peças (ainda definido como "objetos de áudio") ou faixas, como uma parte vocal ou diferentes instrumentos. O usuário pode realizar este ajuste por razões de gosto pessoal, para transcrever de forma mais fácil uma ou mais partes da peça musical, finalidades educacionais, karaokê, ensaio, etc.
[0004] A transmissão discreta direta de todo o conteúdo de áudio multicanal digital ou multiobjeto, por exemplo, na forma de dados de modulação de pulso (PCM | pulse code modulation)ou ainda formatos de áudio comprimidos, exige taxas de bit muito altas* Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente da taxa de bit. Assim, alguém deseja aceitar uma vantagem razoável entre a qualidade do áudio e as exigências da taxa de bit a fim de evitar uma carga de recurso excessivo causada pelas aplicações multicanal/ multiobjeto.
[0005] Recentemente, no campo da codificação de áudio, as técnicas paramétricas para a transmissão/ armazenamento eficientes por taxa de bit de sinais de áudio multicanal/ multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas de Imagens com Movimento (MPEG | Moving Picture Experts Group) e outros. Um exemplo é MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou Codificação do Objeto de Áudio Espacial MPEG (SAOC | Spatial Audio Object Coding)como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada por objeto é denominada "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas pretendem reconstruir uma cena de áudio de saida desejada ou um objeto de fonte de áudio desejada com base em um downmix de canais/ objetos e informações laterais adicionais que descrevem a cena de áudio transmitida/ armazenada e/ou os objetos de fonte de áudio na cena de áudio.
[0006] A estimativa e a aplicação da informação adicional relacionada ao canal/ objeto nestes sistemas é feita em uma forma seletiva de tempo/frequência. Assim, estes sistemas empregam as transformadas de tempo/frequência como a Transformada Discreta de Fourier (DFT I Discrete Fourier Transform) , a Transformada de Fourier de Curta Duração (STFT I Short Time Fourier Transform)ou bancos de filtro como bancos de Filtro Espelhado em Quadratura (QMF | Quadrature Mirror Filter) , etc. O principio básico destes sistemas é descrito na figura 2, utilizando o exemplo de MPEG SAOC.
[0007] No caso de STFT, a dimensão temporal é representada pelo número de bloco de tempo e a dimensão espectral é capturada pelo número de coeficiente espectral ("posição"). No caso de QMF, a dimensão temporal é representada pelo número da faixa de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF é melhorada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de fina resolução são denominadas sub-bandas hibridas.
[0008] Conforme já mencionado acima, em SAOC oprocessamento geral é realizado em uma forma seletiva de tempo/frequência e pode ser descrito como segue dentro de cada faixa de frequência, conforme descrito na figura 2:- sinais de objeto de áudio de entrada N Si ... sN são misturados aos canais P xi ... xP como parte do processamento do codificador utilizando uma matriz de downmix que consiste em elementos difi ... dN,P. Além disso, o codificador extrai a informação adicional que descreve as características dos objetos de áudio de entrada (módulo do estimador de informação adicional(SIE | side-information- estimator)). Para MPEG SAOC, as relações das potências do objeto entre elas são a forma mais básica desta informação adicional.- sinal (s) de downmixe informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix podem ser comprimidos, por exemplo, utilizando os codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 Camada II ou III (aka .mp3), Codificação de Áudio Avançada MPEG-2/4 (AAC | Advanced Audio Coding)etc.- na extremidade de recepção, o decodificador conceitualmente tenta recuperar os sinais do objeto originais ("separação do objeto") do(s) sinais de downmix (decodificados) utilizando a informação adicional transmitida. Estes sinais do objeto aproximado Si ... sN são então misturados em uma cena alvo representada por canais de saida de áudio M ... yM utilizando uma matriz de renderização descrita pelos coeficientes ri,i ... rNfM na Figura 2. A cena alvo desejada pode ser, no caso extremo, a renderização de apenas um sinal fonte da mistura (cenário de separação da fonte), mas ainda qualquer outra cena acústica arbitrária que consiste em objetos transmitidos. Por exemplo, a saida pode ser uma cena alvo com canal único, de 2 canais estéreos ou multicanal 5.1.
[0009] A largura de banda/armazenamento crescente disponível e as melhorias continuas no campo da codificação de áudio permitem que o usuário selecione a partir de uma escolha constantemente crescente de produções de áudio multicanal. Os formatos de áudio multicanal 5.1 já são padrão em produções de DVD e Blue-Ray. Os novos formatos de áudio como Áudio 3D MPEG-H com canais de transporte de áudio aparecem no horizonte, o que fornecerá aos usuários finais uma experiência de áudio altamente imersiva.
[0010] Os esquemas de codificação de áudio paramétrico são atualmente restritos a um máximo de dois canais de downmix. Eles podem ser aplicados apenas em alguma extensão nas misturas multicanal, por exemplo, apenas em dois de downmix selecionados. A flexibilidade que estes esquemas de codificação oferecem ao usuário para ajustar a cena de áudio nas suas próprias preferências é então severamente limitada, por exemplo, com relação à mudança do nivel de áudio do comentarista de esportes e a atmosfera na transmissão de esportes.
[0011] Além disso, os esquemas de codificação do objeto de áudio atuais oferecem apenas uma variabilidade limitada no processo de mistura no lado do codificador. O processo de mistura é limitado à mistura variante de tempo dos objetos de áudio; e a mistura variante de frequência não é possivel.
[0012] Assim, seria altamente observado se os conceitos melhorados para a codificação de objeto de áudio fossem fornecidos.
[0013] O objetivo da presente invenção é fornecer os conceitos melhorados para a codificação de objeto de áudio. O objetivo da presente invenção é solucionado por um decodificador de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.
[0014] Um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal (is) de saida de áudio a partir de um sinal de downtníx compreendendo um ou mais canal(is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. O decodificador compreende um determinador de limite para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix. Além disso, o decodificador compreende uma unidade de processamento para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite.
[0015] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.
[0016] Em uma aplicação, o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0017] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
[0018] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0019] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal (is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência. 0 determinador de limite pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, caracterizado por um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência poder diferir de uma segunda porção de tempo/frequência da pluralidade de porções detempo/frequência. A unidade de processamento pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite da referida porção de tempo/frequência.
[0020] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula
[0021]
Figure img0001
[0022] ou de acordo com a fórmula
(0023]
Figure img0002
[0024] caracterizado por T[t/B] indicar o valorlimite em decibel, em que EMofrt[t/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que Ere/[dB]indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í/B] indica a soma de toda energia de ruidoem dois ou mais canais de downmix em decibelnúmero de canais de downmix.
[0025] De acordo com uma aplicação, o decodificador pode ser configurado para determinar o valor limite T de acordo com a formula
[0026]
Figure img0003
[0027] ou de acordo com a fórmula
[0028]
Figure img0004
[0029]caracterizado por T indicar o valor limite, em que Enoise indica a soma de toda energia de ruído em dois ou mais canais de downmix, em que Eref indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação al terna tiva, Enoise[dB] indica a soma de toda energia de ruído em dois ou mais canais de downmix dividido pelo número de canais de downmix.
[0030] De acordo com uma aplicação, a unidade de processamento pode ser conf igurada para gerar um ou mais canal(is) de saída de áudio à partir de um ou mais canal(is) de downmix dependendo de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, dependendo de uma matriz de downmix (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite,
[0031] Em uma aplicação~ a unidade de processamenté configurada para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix através da aplicação do valor limite em uma função para inverter uma matriz de correção cruzada do canal de downmixQ, caracterizado por Q ser definido como Q = DED*, em que D é a matriz de downmix para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de downmix, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.
[0032] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através do cálculo dos valores próprios da matriz de correção cruzada do canal de downmixQ ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de downmix Q.
[0033] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ com o valor limite para obter um limite relativo.
[0034] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração de uma matriz modificada. A unidade de processamento pode ser configurada para gerar a matriz modificada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que tem um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. Além disso, a unidade de processamento pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Além disso, a unidade de processamento pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal(is) de saida de áudio.
[0035] Além disso, um método para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal (is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal (is) de objeto de áudio. 0 decodificador compreende:- determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix. E:- gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite.
[0036] Além disso, um programa de computador para implementar o método descrito acima ao ser executado em um computador ou processador de sinal é fornecido.
[0037] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:
[0038] A figura 1 ilustra um decodificador paragerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio de acordo com uma aplicação,
[0039] A figura 2 é uma visão geral do sistema SAOCque descreve o principio destes sistemas utilizando o exemplo de MPEG SAOC,
[0040] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC, e
[0041] A figura 4 ilustra um conceito geral dedownmix/ upmix.
[0042] Antes de descrever as aplicações da presenteinvenção, mais histórico dos sistemas de SAOC do estado da técnica é fornecido.
[0043] A figura 2 mostra uma disposição geral de umcodificador SAOC 10 e um decodificador SAOC 12. O codificador SAOC 10 recebe, como uma entrada, objetos N, ou seja, sinais de áudio Sj a sN. Em particular, o codificador 10 compreende um downmixer16 que recebe os sinais de áudio s2 a sN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente {"downmix artistico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder com o downmix calculado. Na figura 2, o sinal de downmix é mostrado para ser um sinal do canal P. Assim, qualquer configuração do sinal de downmix mono (P=l), estéreo (P=2) ou multicanal (P>2) é concebivel.
[0044] No caso de um downmix estéreo, os canais dosinal de downmix 18 são denotados L0 e R0, no caso de um downmix mono o mesmo é simplesmente denotado L0. A fim de permitir que o decodificador SAOC 12 recupere os objetos individuais Si a sN,o estimador de informação adicional 17 fornece o decodificador SAOC 12 com informação adicional incluindo parâmetros de SAOC* Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem as diferenças do nivel do objeto (OLD | object level differences') , correlações entre objeto (IOC | inter-object correlations)(parâmetros de correlação cruzada entre objetos), valores de ganho de downmix (DMG | downmix gain values)e diferenças do nivel do canal de downmix (DCLD | downmix channel level differences) . Ainformação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saida de SAOC recebido pelo decodificador SAOC 12.
[0045] O decodificador SAOC 12 compreende um up-mixer que recebe o sinal de downmix 18 bem como a informação adicional 20 a fim de recuperar e apresentar os sinais de áudio §i e sN em qualquer conjunto selecionado pelo usuário de canais yi a yM, com a renderização sendo prescrita pela informação de renderização 26 inserida no decodificador SAOC 12.
[0046] Os sinais de áudio Si a sN podem serinseridos no codificador 10 em qualquer dominio de codificação, como, no dominio de tempo ou espectral. No caso em que os sinais de áudio Si a sN são inseridos no codificador 10 no dominio de tempo, como PCM codificado, o codificador 10 pode utilizar um banco de filtro, como um banco de QMF hibrido, a fim de transferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com as diferentes partes espectrais, em uma resolução de banco de filtro específica. Se os sinais de áudio Si a sN já estão na representação esperada pelo codificador 10, o mesmo não tem que realizar a decomposição espectral.
[0047] Mais flexibilidade no processo de misturapermite uma ótima exploração das características do objeto do sinal. Um downmix pode ser produzido sendo otimizado para a separação paramétrica no lado do decodificador referente à qualidade percebida.
[0048] A aplicação estende a parte paramétrica doesquema SAOC a um número arbitrário de canais de downmix/upmix. A figura seguinte fornece a visão geral do conceito de upmix paramétrico da Codificação de Objeto de Áudio Espacial Generalizada (G-SAOC I Generalized Spatial Audio Object Coding):
[0049] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC A com pós-mistura completamente flexível (renderização) dos objetos de áudio parametricamente reconstruídos pode ser realizada.
[0050] Inter alia, a figura 3 ilustra umdecodificador de áudio 310, um separador de objeto 320 e um renderizador 330.
[0051] Vamos considerar a seguinte anotação comum:
[0052] x - sinal do objeto de áudio de entrada (comtamanho NobJ)
[0053] y - sinal de áudio de downmix (com tamanho
[0054] z - sinal da cena de saida renderizado (comtamanho Nupmü)
[0055] D - matriz de downmix (com tamanho N^xN^)
[0056] R - matriz de renderização (com tamanho2V.X N„nm,r)obj upmix '
[0057] G- matriz paramétrica de upmix (com tamanhoN, xN )
[0058] E- matriz de covariância do objeto (comtamanho A^xjV^)
[0059] Todas as matrizes introduzidas são (no geral)variantes no tempo e na frequência.
[0060] A seguir, a relação constitutiva para oupmixingparamétrico é fornecida.
[0061] Primeiramente, os conceitos gerais dedownmix/ upmix são fornecidos com referência à figura 4. Em particular, a figura 4 ilustra um conceito geral de downmix/ upmix, em que a figura 4 ilustra os sistemas modelados (esquerda) e de upmixparamétrico (direita).
[0062] Mais particularmente, a figura 4 ilustra umaunidade de renderização 410, uma unidade de downmix 421 e uma unidade de upmixparamétrico 422.
[0063] O sinal da cena de saida renderizado ideal(modelado)z é definido como, veja a figura (esquerda):
[0064] Rx = z (1)
[0065] O sinal de áudio de downmix y é determinado como, veja na figura 4 (direita) t
[0066] DX y. (2)
[0067] A relação constitutiva (aplicada no sinal deáudio de downmix) para a reconstrução do sinal da cena de saida paramétrica pode ser representada como, veja a figura 4 (direita):
[0068] Gy = Z (3)
[0069] A matriz de upmix paramétrico pode serdefinida de (1) e (2) como a seguinte função das matrizes de downmix e renderização G=G(D,R)'
[0070]
Figure img0005
[0071] A seguir, a melhoria da estabilidade daestimativa da fonte paramétrica de acordo com a aplicação é considerada.
[0072] O esquema de separação paramétrica dentro deMPEG SAOC se baseia em uma estimativa da minima média quadrática (LMS | Least Mean Square) das fontes na mistura. A estimativa LMS envolve a inversão da matriz de covariância do canal de downmix descrito de forma paramétrica Q=DED’. Os algoritmos para a inversão da matriz são, no geral, sensiveis às matrizes condicionadas. A inversão desta matriz pode causar sons não naturais, chamados perturbações, na cena de saida renderizada. Um limite fixo determinado de forma de forma heuristica T em MPEG SAOC evita isso atualmente. Embora as perturbações sejam evitadas por este método, um possivel desempenho suficiente de separação no lado do decodificador pode assim não ser obtido.
[0073] A figura 1 ilustra um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal(is) de downmix de acordo com uma aplicação. O sinal de downmixcodifica um ou mais sinal(is) de objeto de áudio*
[0074] 0 decodificador compreende um determinador de limite 110 para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix.
[0075] Além disso, o decodificador compreende uma unidade de processamento 120 para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite*
[0076] Ao contrário do estado da técnica, o valor limite determinado pelo determinador de limite 110 depende de uma energia do sinal ou uma energia de ruido de um ou mais canal (is) de downmix ou de um ou mais sinal (is) de objeto de áudio codificados. Nas aplicações, como as energias do sinal e de ruido de um ou mais canal (is) de downmix e/ou de um ou mais valores do sinal do objeto de áudio variam, então o valor limite varia, por exemplo, periodicamente, ou da porção de tempo/frequência em porção de tempo/frequência.
[0077] As aplicações fornecem um método de limite adaptativo para inversão da matriz atingir uma separação paramétrica melhorada dos objetos de áudio no lado do decodificador. O desempenho da separação está na melhor média, mas nunca menos do que o esquema de limite fixo atualmente utilizado em MPEG SAOC no algoritmo para inverter a matriz Q .
[0078] O limite T é dinamicamente adaptado à precisão dos dados para cada porção de tempo/frequência processado. O desempenho da separação é então melhorado e as perturbações na cena de saida renderizada causadas pela inversão das matrizes condicionadas são evitadas.
[0079] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.
[0080] Em uma aplicação, o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0081] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio dos dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
[0082] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e odeterminador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0083] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal(is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência* O determinador de limite 110 pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência pode diferir de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência. A unidade de processamento 120 pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um de um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite da referida porção de tempo/frequência.
[0084] De acordo com uma aplicação, o decodificadorpode ser configurado para determinar o valor limite T deacordo com a fórmula E
[0085]
Figure img0006
- ou de acordo com a fórmula
[0086]
Figure img0007
f
[0087] em que T indica o valor limite, em que Enoiseindica a soma de toda energia de ruido em dois ou mais canais de downmix, em que Erefindica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Enoxse indica a soma de toda energia de ruido em dois ou mais canais de downmix dividido pelo número de canais de downmix.
[0088] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula
[0089] T[JB] = Eno/Je[dB]- Ew/[dB] - Z
[0090] ou de acordo com a fórmula
[0091] T[dB] = E„,.[^]-E*[dB]j
[0092] em que T[í/5] indica o valor limite em decibel, em que Enota,[í/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í75] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número de canais de downmix.
[0093] Em particular, uma estimativa bruta do limitepode ser dada para cada porção de tempo/frequência por:
(0094)
Figure img0008
[0095] Eno/jepode indicar o nivel base do ruido, porexemplo, a soma de toda energia de ruido nos canais de downmix. A base de ruido pode ser definida pela resolução dos dados de áudio, por exemplo, uma base de ruido causada pela codificação por PCM dos canais. Outra possibilidade é considerar o ruido da codificação se o downmix for comprimido. Para este caso, a base de ruido causada pelo algoritmo de codificação pode ser adicionada. Em uma aplicação alternativa, Eno/je[í/5] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número dos canais de downmix.
[0096] Ere/pode indicar uma energia do sinal de referência. Na forma mais simples, essa pode ser a energia do objeto de áudio mais forteí
[0097] Ere/-max(E). (6)
[0098] Z pode indicar um fator de penalidade para causar parâmetros adicionais que afetam a resolução de separação, por exemplo, a diferença do número de canais de downmix e número de objetos fonte. O desempenho da separação reduz com o número crescente de objetos de áudio. Além disso, os efeitos da quantização da informação do lado paramétrico sobre a separação podem também ser incluidos.
[0099] Em uma aplicação, a unidade de processamento 120 é configurada para gerar am ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo da matriz de covariância do objeto E de um ou mais sinal (is) de objeto de áudio, dependendo da matriz de downmixD para reduzir os dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite.
[0100] De acordo com uma aplicação, para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite, a unidade de processamento 120 pode ser configurada para proceder como segue:
[0101] O limite (que pode ser referido como "limitede resolução por separação") é aplicado no lado do decodificador na função para inverter a matriz de correção cruzada parametricamente estimada do canal de downmix Q.
[0102] Os valores singulares de Q ou os valorespróprios de Q são calculados.
[0103] O maior valor próprio é considerado emultiplicado com o limite T .
[0104] Todos, exceto o maior valor próprio, sãocomparados com este limite relativo e omitidos se são menores.
[0105] A inversão da matriz é então realizada em umamatriz modificada, em que a matriz modificada pode, por exemplo, ser a matriz definida pelo conjunto reduzido de vetores. Deveria ser observado que, para o caso que todos exceto o valor próprio mais alto são omitidos, o valor próprio mais alto deveria ser definido no nivel base do ruido se o valor próprio estiver abaixo.
[0106] Por exemplo, a unidade de processamento 120pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração da matriz modificada. A matriz modificada pode ser gerada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. A unidade de processamento 120 pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Então, a unidade de processamento 120 pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal (is) de saida de áudio. Por exemplo, a matriz invertida pode ser aplicada em um ou mais dos canais de downmix em uma das formas como a matriz invertida do produto da matriz DED é aplicado nos canais de downmix (veja, por exemplo [SAOC], veja, em particular, por exemplo: ISO/IEC, "tecnologias de áudio MPEG - Parte 2: Codificação de objeto de áudio espacial (SAOC),"ISO/IEC JTC1/SC29/WG11 (MPEG) Padrão Internacional 23003-2:2010, em particular, veja, capitulo "Processamento SAOC", mais particularmente, veja subcapitulo "Códigos de transcodificação" e subcapitulo "Modos de decodificação").
[0107] Os parâmetros que podem ser empregados para estimar o limite Tpodem ser tanto determinados no codificador quanto incorporados na informação adicional paramétrica ou estimados diretamente no lado do decodificador.
[0108] Uma versão simplificada do estimador de limite pode ser utilizada no lado do codificador para indicar instabilidades potenciais na estimativa fonte no lado do decodificador. Na sua forma mais simples, negligenciando todos os termos de ruido, a norma da matriz de downmix pode ser computada indicando que o potencial total dos canais de downmix disponíveis para estimar parametricamente os sinais fontes no lado do decodificador não pode ser explorado. Este indicador pode ser utilizado durante o processo de mistura para evitar misturar as matrizes que são criticas para estimar os sinais fonte.
[0109] Com referência à parametrização da matriz de covariância do objeto, um pode ver que o método de upmix paramétrico descrito com base na relação constitutiva (4) é invariante ao sinal das entidades fora da diagonal da matriz de covariância do objeto E . Isso resulta na possibilidade da parametrização mais eficiente (em comparação com SAOC) (quantização e codificação) dos valores que representam as correlações entre o objeto.
[0110] Referente ao transporte de informações que representam a matriz de downmix, de forma geral, a entrada de áudio e sinais de downmix x, y juntos com a matriz de covariância E são determinados no lado do codificador. A representação codificada do sinal de áudio de downmix y e informações que descrevem a matriz de covariância E são transmitidas ao lado do decodificador (através da carga útil do fluxo de bits continuo). A matriz de renderização R é definida e disponível no lado do decodificador.
[0111] As informações que representam a matriz de downmixD (aplicadas no codificador e utilizadas como o decodificador) podem ser determinadas (no codificador) e obtidas (no decodificador) utilizando os seguintes métodos do principio.
[0112] A matriz de downmixD pode ser:definida e aplicada (no codificador) e sua representação codificada e quantificada explicitamente transmitida (ao decodificador) através da carga útil do fluxo de bits continuo.atribuida e aplicada (no codificador) e recuperada (no decodificador) utilizando as tabelas de visualização armazenadas (ou seja, definida das matrizes de downmix predeterminadas).atribuida e aplicada (no codificador) e recuperada (no decodificador) de acordo com o algoritmo especifico ou método (por exemplo, colocação especialmente ponderada e equidistante ordenada dos objetos de áudio aos canais de downmix disponíveis).estimada e aplicada (no codificador) e recuperada (no decodificador) utilizando os critérios de otimização particulares permitindo a "mistura flexivel" de objetos de áudio de entrada (ou seja, geração da matriz de downmix que é otimizada para a estimativa paramétrica dos objetos de áudio no lado do decodificador). Por exemplo, o codificador gera a matriz de downmix em uma forma para tornar o upmixparamétrico mais eficiente, em termos de reconstrução de propriedade do sinal especial, como covariância, correlação entre sinais ou melhorar/ garantir a estabilidade numérica do algoritmo de upmixparamétrico.
[0113] As aplicações fornecidas podem ser aplicadas em um número arbitrário de canais de downmix/ upmix e podem ser combinadas com qualquer corrente e outros formatos de áudio futuros.
[0114] A flexibilidade do método inventivo permite que o desvio dos canais inalterados reduza a complexidade computacional, reduzindo a carga útil do fluxo de bits continuo/quantidade de dados reduzida.
[0115] Um codificador de áudio, método ou programa de computador para codificação é fornecido. Além disso, um decodificador de áudio, método ou programa de computador para decodificação é fornecido. Além disso, um sinal codificado é fornecido.
[0116] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
[0117] O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
[0118] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware OU em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memóriaROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH tendo sinais de controle eletronicamente legiveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realização.
[0119] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitórios tendo sinais de controle eletronicamente legiveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.
[0120] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legivel por máquina.
[0121] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legivel por máquina.
[0122] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0123] Outra aplicação dos métodos inventivos é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.
[0124] Outra aplicação do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0125] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.
[0126] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[0127] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0128] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção.Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.
REFERÊNCIAS*
[0129] [MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part lí MPEG Surround, 2007.
[0130] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications,"IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[0131] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006
[0132] [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[0133] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Hõlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008
[0134] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[0135] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010
[0136] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier:"A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010
[0137] [ISS3] A. Liutkus and J. Pinel and R. Badeauand L. Girin and G. Richards "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011
[0138] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G.Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011
[0139] [ISS5] Shuhua Zhang and Laurent Girin: "AnInformed Source Separation System for Speech Signals", INTERSPEECH, 2011
[0140] [ISS6]L. Girin and J. Pinel: "Informed AudioSource Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

Claims (10)

1. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e uma unidade de processamento (120) para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite; em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q é definido como Q=DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX; em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio; e em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIXatravés do cálculo de valores próprios da matriz de correção cruzada do canal de DOWNMIX Q ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de DOWNMIX Q.
2. Um decodificador de acordo com a reivindicação 1, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia de ruído de cada um de dois ou mais canais de DOWNMIX.
3. Um decodificador de acordo com a reivindicação 2, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo da soma de toda a energia de ruído em dois ou mais canais de DOWNMIX.
4. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
5. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo sinal de DOWNMIX codificar um ou mais sinal(is) do objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência, em que o determinador de limite (110) é configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência, dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência difere de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência, e em que a unidade de processamento (120) é configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite da referida porção de tempo/frequência.
6. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo decodificador ser configurado para determinar o valor limite T em decibel de acordo com a fórmula T[DB] = ENOISE[DB] - EREF[DB] - Z ou de acordo com a fórmula T[DB] = ENOISE[DB]- EREF[DB] , em que T[DB] indica o valor limite em decibel, em que ENOISE [DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que E REF [ DB ] indica a energia do sinal de um REF dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número.
7. Um decodificador de acordo com uma das reivindicações de 1 a 5, caracterizado pelo decodificador ser configurado para determinar o valor limite T de acordo com a fórmula
Figure img0009
ou de acordo com formula
Figure img0010
em que T indica o valor limite, em que ENOISE indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que EREF indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número.
8. Um decodificador, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX,através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q com o valor limite para obter um limite relativo.
9. Um decodificador, de acordo com a reivindicação 8, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX gerando uma matriz modificada, em que a unidade de processamento (120) é configurada para gerar a matriz modificada, dependendo apenas dos vetores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que é maior ou igual ao limite modificado, em que a unidade de processamento (120) é configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida, e em que a unidade de processamento (120) é configurada para aplicar a matriz invertida em um ou mais dos canais de DOWNMIX para gerar um ou mais canal(is) de saída de áudio.
10. Um método para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite, em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX depende de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, é conduzido dependendo de uma matriz de DOWNMIX (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de DOWNMIX, e dependendo do valor limite; em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q ser definido como Q = DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.
BR112015002228-6A 2012-08-03 2013-08-05 Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal BR112015002228B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261679404P 2012-08-03 2012-08-03
US61/679,404 2012-08-03
PCT/EP2013/066405 WO2014020182A2 (en) 2012-08-03 2013-08-05 Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases

Publications (2)

Publication Number Publication Date
BR112015002228A2 BR112015002228A2 (pt) 2019-10-15
BR112015002228B1 true BR112015002228B1 (pt) 2021-12-14

Family

ID=49150906

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015002228-6A BR112015002228B1 (pt) 2012-08-03 2013-08-05 Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal

Country Status (18)

Country Link
US (1) US10096325B2 (pt)
EP (1) EP2880654B1 (pt)
JP (1) JP6133422B2 (pt)
KR (1) KR101657916B1 (pt)
CN (2) CN104885150B (pt)
AU (2) AU2013298463A1 (pt)
BR (1) BR112015002228B1 (pt)
CA (1) CA2880028C (pt)
ES (1) ES2649739T3 (pt)
HK (1) HK1210863A1 (pt)
MX (1) MX350690B (pt)
MY (1) MY176410A (pt)
PL (1) PL2880654T3 (pt)
PT (1) PT2880654T (pt)
RU (1) RU2628195C2 (pt)
SG (1) SG11201500783SA (pt)
WO (1) WO2014020182A2 (pt)
ZA (1) ZA201501383B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
EP3271918B1 (en) * 2015-04-30 2019-03-13 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
CN107533844B (zh) * 2015-04-30 2021-03-23 华为技术有限公司 音频信号处理装置和方法
GB2548614A (en) * 2016-03-24 2017-09-27 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
BR112020018466A2 (pt) 2018-11-13 2021-05-18 Dolby Laboratories Licensing Corporation representando áudio espacial por meio de um sinal de áudio e de metadados associados
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真系统的数据处理方法及解码器架构
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
WO2003092260A2 (en) * 2002-04-23 2003-11-06 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
EP1521240A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying echo cancellation by modifying the codebook gain
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
ATE557552T1 (de) * 2004-07-14 2012-05-15 Koninkl Philips Electronics Nv Verfahren, vorrichtung, kodierer, dekodierer und audiosystem
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
RU2376656C1 (ru) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
WO2009116280A1 (ja) 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
US8811621B2 (en) 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
DE102008026886B4 (de) * 2008-06-05 2016-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Strukturierung einer Nutzschicht eines Substrats
US8583424B2 (en) * 2008-06-26 2013-11-12 France Telecom Spatial synthesis of multichannel audio signals
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2218447B1 (en) * 2008-11-04 2017-04-19 PharmaSol GmbH Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal
WO2010070225A1 (fr) * 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
KR101485462B1 (ko) * 2009-01-16 2015-01-22 삼성전자주식회사 후방향 오디오 채널의 적응적 리마스터링 장치 및 방법
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
PL2491555T3 (pl) * 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置

Also Published As

Publication number Publication date
SG11201500783SA (en) 2015-02-27
CN110223701B (zh) 2024-04-09
US20150142427A1 (en) 2015-05-21
CA2880028A1 (en) 2014-02-06
ZA201501383B (en) 2016-08-31
CN110223701A (zh) 2019-09-10
AU2016234987A1 (en) 2016-10-20
US10096325B2 (en) 2018-10-09
KR101657916B1 (ko) 2016-09-19
EP2880654B1 (en) 2017-09-13
RU2015107202A (ru) 2016-09-27
KR20150032734A (ko) 2015-03-27
PL2880654T3 (pl) 2018-03-30
MY176410A (en) 2020-08-06
WO2014020182A2 (en) 2014-02-06
MX2015001396A (es) 2015-05-11
AU2013298463A1 (en) 2015-02-19
PT2880654T (pt) 2017-12-07
AU2016234987B2 (en) 2018-07-05
ES2649739T3 (es) 2018-01-15
RU2628195C2 (ru) 2017-08-15
JP2015528926A (ja) 2015-10-01
CA2880028C (en) 2019-04-30
CN104885150A (zh) 2015-09-02
MX350690B (es) 2017-09-13
EP2880654A2 (en) 2015-06-10
BR112015002228A2 (pt) 2019-10-15
JP6133422B2 (ja) 2017-05-24
CN104885150B (zh) 2019-06-28
WO2014020182A3 (en) 2014-05-30
HK1210863A1 (en) 2016-05-06

Similar Documents

Publication Publication Date Title
BR112015002228B1 (pt) Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
RU2660638C2 (ru) Устройство и способ для улучшенного пространственного кодирования аудиообъектов
BR112012007138B1 (pt) Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
BR112015007532B1 (pt) Codificador, decodificador e métodos para codificação de objeto de áudio espacial multirresolução compatível regressivo
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
JPWO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/08/2013, OBSERVADAS AS CONDICOES LEGAIS.