BR112015002228B1 - Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal - Google Patents
Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal Download PDFInfo
- Publication number
- BR112015002228B1 BR112015002228B1 BR112015002228-6A BR112015002228A BR112015002228B1 BR 112015002228 B1 BR112015002228 B1 BR 112015002228B1 BR 112015002228 A BR112015002228 A BR 112015002228A BR 112015002228 B1 BR112015002228 B1 BR 112015002228B1
- Authority
- BR
- Brazil
- Prior art keywords
- downmix
- channel
- signal
- audio
- threshold value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims description 74
- 238000012937 correction Methods 0.000 claims description 16
- 238000000926 separation method Methods 0.000 description 19
- 230000005236 sound signal Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 12
- 238000009877 rendering Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 2
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 2
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 2
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- -1 ISS2 Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
decodificador método para um conceito paramétrico de codificação objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal. um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de downmix, compreendendo um ou mais canal (is) de downmix é fornecido. o sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. o decodificador compreende um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos, um de um ou mais canal (is) de downmix. além disso,o decodificador compreende uma unidade de processamento (120) para gerar um ou mais canal(ie) de saída de áudio a partir de um ou mais canal(is) de downmix, dependendo do valor limite. figura 1
Description
[0001] A presente invenção refere-se a um aparelho e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal.
[0002] Nos sistemas de áudio digital modernos, é uma grande tendência permitir modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado receptor. Estas modificações incluem as modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial dos objetos de áudio dedicados no caso de reprodução multicanal através dos alto-falantes distribuídos espacialmente. Isso pode ser obtido individualmente pela entrega de partes diferentes do conteúdo de áudio aos diferentes alto-falantes.
[0003] Em outras palavras, na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientada por objeto e também uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para individualmente apresentar os conteúdos de áudio ou porções destes a fim de melhorar a impressão da audição. Pelo presente, a utilização do conteúdo de áudio multicanal traz melhorias significativas para o usuário. Por exemplo, uma impressão da audiçãotridimensional pode ser obtida, o que traz uma satisfação melhorada do usuário nas aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal também é útil em ambientes profissionais, por exemplo, nas aplicações de conferência telefônica, pois a integibilidade do emissor de voz pode ser melhorada utilizando uma reprodução de áudio multicanal. Outra possivel aplicação é oferecer a um ouvinte de uma peça musical o ajuste individual do nivel de reprodução e/ou posição espacial de diferentes peças (ainda definido como "objetos de áudio") ou faixas, como uma parte vocal ou diferentes instrumentos. O usuário pode realizar este ajuste por razões de gosto pessoal, para transcrever de forma mais fácil uma ou mais partes da peça musical, finalidades educacionais, karaokê, ensaio, etc.
[0004] A transmissão discreta direta de todo o conteúdo de áudio multicanal digital ou multiobjeto, por exemplo, na forma de dados de modulação de pulso (PCM | pulse code modulation)ou ainda formatos de áudio comprimidos, exige taxas de bit muito altas* Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente da taxa de bit. Assim, alguém deseja aceitar uma vantagem razoável entre a qualidade do áudio e as exigências da taxa de bit a fim de evitar uma carga de recurso excessivo causada pelas aplicações multicanal/ multiobjeto.
[0005] Recentemente, no campo da codificação de áudio, as técnicas paramétricas para a transmissão/ armazenamento eficientes por taxa de bit de sinais de áudio multicanal/ multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas de Imagens com Movimento (MPEG | Moving Picture Experts Group) e outros. Um exemplo é MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou Codificação do Objeto de Áudio Espacial MPEG (SAOC | Spatial Audio Object Coding)como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada por objeto é denominada "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas pretendem reconstruir uma cena de áudio de saida desejada ou um objeto de fonte de áudio desejada com base em um downmix de canais/ objetos e informações laterais adicionais que descrevem a cena de áudio transmitida/ armazenada e/ou os objetos de fonte de áudio na cena de áudio.
[0006] A estimativa e a aplicação da informação adicional relacionada ao canal/ objeto nestes sistemas é feita em uma forma seletiva de tempo/frequência. Assim, estes sistemas empregam as transformadas de tempo/frequência como a Transformada Discreta de Fourier (DFT I Discrete Fourier Transform) , a Transformada de Fourier de Curta Duração (STFT I Short Time Fourier Transform)ou bancos de filtro como bancos de Filtro Espelhado em Quadratura (QMF | Quadrature Mirror Filter) , etc. O principio básico destes sistemas é descrito na figura 2, utilizando o exemplo de MPEG SAOC.
[0007] No caso de STFT, a dimensão temporal é representada pelo número de bloco de tempo e a dimensão espectral é capturada pelo número de coeficiente espectral ("posição"). No caso de QMF, a dimensão temporal é representada pelo número da faixa de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF é melhorada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de fina resolução são denominadas sub-bandas hibridas.
[0008] Conforme já mencionado acima, em SAOC oprocessamento geral é realizado em uma forma seletiva de tempo/frequência e pode ser descrito como segue dentro de cada faixa de frequência, conforme descrito na figura 2:- sinais de objeto de áudio de entrada N Si ... sN são misturados aos canais P xi ... xP como parte do processamento do codificador utilizando uma matriz de downmix que consiste em elementos difi ... dN,P. Além disso, o codificador extrai a informação adicional que descreve as características dos objetos de áudio de entrada (módulo do estimador de informação adicional(SIE | side-information- estimator)). Para MPEG SAOC, as relações das potências do objeto entre elas são a forma mais básica desta informação adicional.- sinal (s) de downmixe informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix podem ser comprimidos, por exemplo, utilizando os codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 Camada II ou III (aka .mp3), Codificação de Áudio Avançada MPEG-2/4 (AAC | Advanced Audio Coding)etc.- na extremidade de recepção, o decodificador conceitualmente tenta recuperar os sinais do objeto originais ("separação do objeto") do(s) sinais de downmix (decodificados) utilizando a informação adicional transmitida. Estes sinais do objeto aproximado Si ... sN são então misturados em uma cena alvo representada por canais de saida de áudio M ... yM utilizando uma matriz de renderização descrita pelos coeficientes ri,i ... rNfM na Figura 2. A cena alvo desejada pode ser, no caso extremo, a renderização de apenas um sinal fonte da mistura (cenário de separação da fonte), mas ainda qualquer outra cena acústica arbitrária que consiste em objetos transmitidos. Por exemplo, a saida pode ser uma cena alvo com canal único, de 2 canais estéreos ou multicanal 5.1.
[0009] A largura de banda/armazenamento crescente disponível e as melhorias continuas no campo da codificação de áudio permitem que o usuário selecione a partir de uma escolha constantemente crescente de produções de áudio multicanal. Os formatos de áudio multicanal 5.1 já são padrão em produções de DVD e Blue-Ray. Os novos formatos de áudio como Áudio 3D MPEG-H com canais de transporte de áudio aparecem no horizonte, o que fornecerá aos usuários finais uma experiência de áudio altamente imersiva.
[0010] Os esquemas de codificação de áudio paramétrico são atualmente restritos a um máximo de dois canais de downmix. Eles podem ser aplicados apenas em alguma extensão nas misturas multicanal, por exemplo, apenas em dois de downmix selecionados. A flexibilidade que estes esquemas de codificação oferecem ao usuário para ajustar a cena de áudio nas suas próprias preferências é então severamente limitada, por exemplo, com relação à mudança do nivel de áudio do comentarista de esportes e a atmosfera na transmissão de esportes.
[0011] Além disso, os esquemas de codificação do objeto de áudio atuais oferecem apenas uma variabilidade limitada no processo de mistura no lado do codificador. O processo de mistura é limitado à mistura variante de tempo dos objetos de áudio; e a mistura variante de frequência não é possivel.
[0012] Assim, seria altamente observado se os conceitos melhorados para a codificação de objeto de áudio fossem fornecidos.
[0013] O objetivo da presente invenção é fornecer os conceitos melhorados para a codificação de objeto de áudio. O objetivo da presente invenção é solucionado por um decodificador de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.
[0014] Um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal (is) de saida de áudio a partir de um sinal de downtníx compreendendo um ou mais canal(is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. O decodificador compreende um determinador de limite para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix. Além disso, o decodificador compreende uma unidade de processamento para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite.
[0015] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.
[0016] Em uma aplicação, o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0017] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
[0018] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0019] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal (is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência. 0 determinador de limite pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, caracterizado por um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência poder diferir de uma segunda porção de tempo/frequência da pluralidade de porções detempo/frequência. A unidade de processamento pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite da referida porção de tempo/frequência.
[0020] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula
[0022] ou de acordo com a fórmula
[0024] caracterizado por T[t/B] indicar o valorlimite em decibel, em que EMofrt[t/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que Ere/[dB]indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í/B] indica a soma de toda energia de ruidoem dois ou mais canais de downmix em decibelnúmero de canais de downmix.
[0025] De acordo com uma aplicação, o decodificador pode ser configurado para determinar o valor limite T de acordo com a formula
[0027] ou de acordo com a fórmula
[0029]caracterizado por T indicar o valor limite, em que Enoise indica a soma de toda energia de ruído em dois ou mais canais de downmix, em que Eref indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação al terna tiva, Enoise[dB] indica a soma de toda energia de ruído em dois ou mais canais de downmix dividido pelo número de canais de downmix.
[0030] De acordo com uma aplicação, a unidade de processamento pode ser conf igurada para gerar um ou mais canal(is) de saída de áudio à partir de um ou mais canal(is) de downmix dependendo de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, dependendo de uma matriz de downmix (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite,
[0031] Em uma aplicação~ a unidade de processamenté configurada para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix através da aplicação do valor limite em uma função para inverter uma matriz de correção cruzada do canal de downmixQ, caracterizado por Q ser definido como Q = DED*, em que D é a matriz de downmix para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de downmix, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.
[0032] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através do cálculo dos valores próprios da matriz de correção cruzada do canal de downmixQ ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de downmix Q.
[0033] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ com o valor limite para obter um limite relativo.
[0034] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração de uma matriz modificada. A unidade de processamento pode ser configurada para gerar a matriz modificada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que tem um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. Além disso, a unidade de processamento pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Além disso, a unidade de processamento pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal(is) de saida de áudio.
[0035] Além disso, um método para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal (is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal (is) de objeto de áudio. 0 decodificador compreende:- determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix. E:- gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite.
[0036] Além disso, um programa de computador para implementar o método descrito acima ao ser executado em um computador ou processador de sinal é fornecido.
[0037] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:
[0038] A figura 1 ilustra um decodificador paragerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio de acordo com uma aplicação,
[0039] A figura 2 é uma visão geral do sistema SAOCque descreve o principio destes sistemas utilizando o exemplo de MPEG SAOC,
[0040] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC, e
[0041] A figura 4 ilustra um conceito geral dedownmix/ upmix.
[0042] Antes de descrever as aplicações da presenteinvenção, mais histórico dos sistemas de SAOC do estado da técnica é fornecido.
[0043] A figura 2 mostra uma disposição geral de umcodificador SAOC 10 e um decodificador SAOC 12. O codificador SAOC 10 recebe, como uma entrada, objetos N, ou seja, sinais de áudio Sj a sN. Em particular, o codificador 10 compreende um downmixer16 que recebe os sinais de áudio s2 a sN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente {"downmix artistico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder com o downmix calculado. Na figura 2, o sinal de downmix é mostrado para ser um sinal do canal P. Assim, qualquer configuração do sinal de downmix mono (P=l), estéreo (P=2) ou multicanal (P>2) é concebivel.
[0044] No caso de um downmix estéreo, os canais dosinal de downmix 18 são denotados L0 e R0, no caso de um downmix mono o mesmo é simplesmente denotado L0. A fim de permitir que o decodificador SAOC 12 recupere os objetos individuais Si a sN,o estimador de informação adicional 17 fornece o decodificador SAOC 12 com informação adicional incluindo parâmetros de SAOC* Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem as diferenças do nivel do objeto (OLD | object level differences') , correlações entre objeto (IOC | inter-object correlations)(parâmetros de correlação cruzada entre objetos), valores de ganho de downmix (DMG | downmix gain values)e diferenças do nivel do canal de downmix (DCLD | downmix channel level differences) . Ainformação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saida de SAOC recebido pelo decodificador SAOC 12.
[0045] O decodificador SAOC 12 compreende um up-mixer que recebe o sinal de downmix 18 bem como a informação adicional 20 a fim de recuperar e apresentar os sinais de áudio §i e sN em qualquer conjunto selecionado pelo usuário de canais yi a yM, com a renderização sendo prescrita pela informação de renderização 26 inserida no decodificador SAOC 12.
[0046] Os sinais de áudio Si a sN podem serinseridos no codificador 10 em qualquer dominio de codificação, como, no dominio de tempo ou espectral. No caso em que os sinais de áudio Si a sN são inseridos no codificador 10 no dominio de tempo, como PCM codificado, o codificador 10 pode utilizar um banco de filtro, como um banco de QMF hibrido, a fim de transferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com as diferentes partes espectrais, em uma resolução de banco de filtro específica. Se os sinais de áudio Si a sN já estão na representação esperada pelo codificador 10, o mesmo não tem que realizar a decomposição espectral.
[0047] Mais flexibilidade no processo de misturapermite uma ótima exploração das características do objeto do sinal. Um downmix pode ser produzido sendo otimizado para a separação paramétrica no lado do decodificador referente à qualidade percebida.
[0048] A aplicação estende a parte paramétrica doesquema SAOC a um número arbitrário de canais de downmix/upmix. A figura seguinte fornece a visão geral do conceito de upmix paramétrico da Codificação de Objeto de Áudio Espacial Generalizada (G-SAOC I Generalized Spatial Audio Object Coding):
[0049] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC A com pós-mistura completamente flexível (renderização) dos objetos de áudio parametricamente reconstruídos pode ser realizada.
[0050] Inter alia, a figura 3 ilustra umdecodificador de áudio 310, um separador de objeto 320 e um renderizador 330.
[0051] Vamos considerar a seguinte anotação comum:
[0052] x - sinal do objeto de áudio de entrada (comtamanho NobJ)
[0053] y - sinal de áudio de downmix (com tamanho
[0054] z - sinal da cena de saida renderizado (comtamanho Nupmü)
[0055] D - matriz de downmix (com tamanho N^xN^)
[0056] R - matriz de renderização (com tamanho2V.X N„nm,r)obj upmix '
[0057] G- matriz paramétrica de upmix (com tamanhoN, xN )
[0058] E- matriz de covariância do objeto (comtamanho A^xjV^)
[0059] Todas as matrizes introduzidas são (no geral)variantes no tempo e na frequência.
[0060] A seguir, a relação constitutiva para oupmixingparamétrico é fornecida.
[0061] Primeiramente, os conceitos gerais dedownmix/ upmix são fornecidos com referência à figura 4. Em particular, a figura 4 ilustra um conceito geral de downmix/ upmix, em que a figura 4 ilustra os sistemas modelados (esquerda) e de upmixparamétrico (direita).
[0062] Mais particularmente, a figura 4 ilustra umaunidade de renderização 410, uma unidade de downmix 421 e uma unidade de upmixparamétrico 422.
[0063] O sinal da cena de saida renderizado ideal(modelado)z é definido como, veja a figura (esquerda):
[0064] Rx = z (1)
[0065] O sinal de áudio de downmix y é determinado como, veja na figura 4 (direita) t
[0066] DX y. (2)
[0067] A relação constitutiva (aplicada no sinal deáudio de downmix) para a reconstrução do sinal da cena de saida paramétrica pode ser representada como, veja a figura 4 (direita):
[0068] Gy = Z (3)
[0069] A matriz de upmix paramétrico pode serdefinida de (1) e (2) como a seguinte função das matrizes de downmix e renderização G=G(D,R)'
[0071] A seguir, a melhoria da estabilidade daestimativa da fonte paramétrica de acordo com a aplicação é considerada.
[0072] O esquema de separação paramétrica dentro deMPEG SAOC se baseia em uma estimativa da minima média quadrática (LMS | Least Mean Square) das fontes na mistura. A estimativa LMS envolve a inversão da matriz de covariância do canal de downmix descrito de forma paramétrica Q=DED’. Os algoritmos para a inversão da matriz são, no geral, sensiveis às matrizes condicionadas. A inversão desta matriz pode causar sons não naturais, chamados perturbações, na cena de saida renderizada. Um limite fixo determinado de forma de forma heuristica T em MPEG SAOC evita isso atualmente. Embora as perturbações sejam evitadas por este método, um possivel desempenho suficiente de separação no lado do decodificador pode assim não ser obtido.
[0073] A figura 1 ilustra um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal(is) de downmix de acordo com uma aplicação. O sinal de downmixcodifica um ou mais sinal(is) de objeto de áudio*
[0074] 0 decodificador compreende um determinador de limite 110 para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix.
[0075] Além disso, o decodificador compreende uma unidade de processamento 120 para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite*
[0076] Ao contrário do estado da técnica, o valor limite determinado pelo determinador de limite 110 depende de uma energia do sinal ou uma energia de ruido de um ou mais canal (is) de downmix ou de um ou mais sinal (is) de objeto de áudio codificados. Nas aplicações, como as energias do sinal e de ruido de um ou mais canal (is) de downmix e/ou de um ou mais valores do sinal do objeto de áudio variam, então o valor limite varia, por exemplo, periodicamente, ou da porção de tempo/frequência em porção de tempo/frequência.
[0077] As aplicações fornecem um método de limite adaptativo para inversão da matriz atingir uma separação paramétrica melhorada dos objetos de áudio no lado do decodificador. O desempenho da separação está na melhor média, mas nunca menos do que o esquema de limite fixo atualmente utilizado em MPEG SAOC no algoritmo para inverter a matriz Q .
[0078] O limite T é dinamicamente adaptado à precisão dos dados para cada porção de tempo/frequência processado. O desempenho da separação é então melhorado e as perturbações na cena de saida renderizada causadas pela inversão das matrizes condicionadas são evitadas.
[0079] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.
[0080] Em uma aplicação, o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0081] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio dos dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
[0082] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e odeterminador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.
[0083] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal(is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência* O determinador de limite 110 pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência pode diferir de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência. A unidade de processamento 120 pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um de um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite da referida porção de tempo/frequência.
[0084] De acordo com uma aplicação, o decodificadorpode ser configurado para determinar o valor limite T deacordo com a fórmula E
[0087] em que T indica o valor limite, em que Enoiseindica a soma de toda energia de ruido em dois ou mais canais de downmix, em que Erefindica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Enoxse indica a soma de toda energia de ruido em dois ou mais canais de downmix dividido pelo número de canais de downmix.
[0088] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula
[0089] T[JB] = Eno/Je[dB]- Ew/[dB] - Z
[0090] ou de acordo com a fórmula
[0091] T[dB] = E„,.[^]-E*[dB]j
[0092] em que T[í/5] indica o valor limite em decibel, em que Enota,[í/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í75] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número de canais de downmix.
[0093] Em particular, uma estimativa bruta do limitepode ser dada para cada porção de tempo/frequência por:
[0095] Eno/jepode indicar o nivel base do ruido, porexemplo, a soma de toda energia de ruido nos canais de downmix. A base de ruido pode ser definida pela resolução dos dados de áudio, por exemplo, uma base de ruido causada pela codificação por PCM dos canais. Outra possibilidade é considerar o ruido da codificação se o downmix for comprimido. Para este caso, a base de ruido causada pelo algoritmo de codificação pode ser adicionada. Em uma aplicação alternativa, Eno/je[í/5] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número dos canais de downmix.
[0096] Ere/pode indicar uma energia do sinal de referência. Na forma mais simples, essa pode ser a energia do objeto de áudio mais forteí
[0097] Ere/-max(E). (6)
[0098] Z pode indicar um fator de penalidade para causar parâmetros adicionais que afetam a resolução de separação, por exemplo, a diferença do número de canais de downmix e número de objetos fonte. O desempenho da separação reduz com o número crescente de objetos de áudio. Além disso, os efeitos da quantização da informação do lado paramétrico sobre a separação podem também ser incluidos.
[0099] Em uma aplicação, a unidade de processamento 120 é configurada para gerar am ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo da matriz de covariância do objeto E de um ou mais sinal (is) de objeto de áudio, dependendo da matriz de downmixD para reduzir os dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite.
[0100] De acordo com uma aplicação, para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite, a unidade de processamento 120 pode ser configurada para proceder como segue:
[0101] O limite (que pode ser referido como "limitede resolução por separação") é aplicado no lado do decodificador na função para inverter a matriz de correção cruzada parametricamente estimada do canal de downmix Q.
[0102] Os valores singulares de Q ou os valorespróprios de Q são calculados.
[0103] O maior valor próprio é considerado emultiplicado com o limite T .
[0104] Todos, exceto o maior valor próprio, sãocomparados com este limite relativo e omitidos se são menores.
[0105] A inversão da matriz é então realizada em umamatriz modificada, em que a matriz modificada pode, por exemplo, ser a matriz definida pelo conjunto reduzido de vetores. Deveria ser observado que, para o caso que todos exceto o valor próprio mais alto são omitidos, o valor próprio mais alto deveria ser definido no nivel base do ruido se o valor próprio estiver abaixo.
[0106] Por exemplo, a unidade de processamento 120pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração da matriz modificada. A matriz modificada pode ser gerada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. A unidade de processamento 120 pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Então, a unidade de processamento 120 pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal (is) de saida de áudio. Por exemplo, a matriz invertida pode ser aplicada em um ou mais dos canais de downmix em uma das formas como a matriz invertida do produto da matriz DED é aplicado nos canais de downmix (veja, por exemplo [SAOC], veja, em particular, por exemplo: ISO/IEC, "tecnologias de áudio MPEG - Parte 2: Codificação de objeto de áudio espacial (SAOC),"ISO/IEC JTC1/SC29/WG11 (MPEG) Padrão Internacional 23003-2:2010, em particular, veja, capitulo "Processamento SAOC", mais particularmente, veja subcapitulo "Códigos de transcodificação" e subcapitulo "Modos de decodificação").
[0107] Os parâmetros que podem ser empregados para estimar o limite Tpodem ser tanto determinados no codificador quanto incorporados na informação adicional paramétrica ou estimados diretamente no lado do decodificador.
[0108] Uma versão simplificada do estimador de limite pode ser utilizada no lado do codificador para indicar instabilidades potenciais na estimativa fonte no lado do decodificador. Na sua forma mais simples, negligenciando todos os termos de ruido, a norma da matriz de downmix pode ser computada indicando que o potencial total dos canais de downmix disponíveis para estimar parametricamente os sinais fontes no lado do decodificador não pode ser explorado. Este indicador pode ser utilizado durante o processo de mistura para evitar misturar as matrizes que são criticas para estimar os sinais fonte.
[0109] Com referência à parametrização da matriz de covariância do objeto, um pode ver que o método de upmix paramétrico descrito com base na relação constitutiva (4) é invariante ao sinal das entidades fora da diagonal da matriz de covariância do objeto E . Isso resulta na possibilidade da parametrização mais eficiente (em comparação com SAOC) (quantização e codificação) dos valores que representam as correlações entre o objeto.
[0110] Referente ao transporte de informações que representam a matriz de downmix, de forma geral, a entrada de áudio e sinais de downmix x, y juntos com a matriz de covariância E são determinados no lado do codificador. A representação codificada do sinal de áudio de downmix y e informações que descrevem a matriz de covariância E são transmitidas ao lado do decodificador (através da carga útil do fluxo de bits continuo). A matriz de renderização R é definida e disponível no lado do decodificador.
[0111] As informações que representam a matriz de downmixD (aplicadas no codificador e utilizadas como o decodificador) podem ser determinadas (no codificador) e obtidas (no decodificador) utilizando os seguintes métodos do principio.
[0112] A matriz de downmixD pode ser:definida e aplicada (no codificador) e sua representação codificada e quantificada explicitamente transmitida (ao decodificador) através da carga útil do fluxo de bits continuo.atribuida e aplicada (no codificador) e recuperada (no decodificador) utilizando as tabelas de visualização armazenadas (ou seja, definida das matrizes de downmix predeterminadas).atribuida e aplicada (no codificador) e recuperada (no decodificador) de acordo com o algoritmo especifico ou método (por exemplo, colocação especialmente ponderada e equidistante ordenada dos objetos de áudio aos canais de downmix disponíveis).estimada e aplicada (no codificador) e recuperada (no decodificador) utilizando os critérios de otimização particulares permitindo a "mistura flexivel" de objetos de áudio de entrada (ou seja, geração da matriz de downmix que é otimizada para a estimativa paramétrica dos objetos de áudio no lado do decodificador). Por exemplo, o codificador gera a matriz de downmix em uma forma para tornar o upmixparamétrico mais eficiente, em termos de reconstrução de propriedade do sinal especial, como covariância, correlação entre sinais ou melhorar/ garantir a estabilidade numérica do algoritmo de upmixparamétrico.
[0113] As aplicações fornecidas podem ser aplicadas em um número arbitrário de canais de downmix/ upmix e podem ser combinadas com qualquer corrente e outros formatos de áudio futuros.
[0114] A flexibilidade do método inventivo permite que o desvio dos canais inalterados reduza a complexidade computacional, reduzindo a carga útil do fluxo de bits continuo/quantidade de dados reduzida.
[0115] Um codificador de áudio, método ou programa de computador para codificação é fornecido. Além disso, um decodificador de áudio, método ou programa de computador para decodificação é fornecido. Além disso, um sinal codificado é fornecido.
[0116] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
[0117] O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
[0118] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware OU em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memóriaROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH tendo sinais de controle eletronicamente legiveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realização.
[0119] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitórios tendo sinais de controle eletronicamente legiveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.
[0120] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legivel por máquina.
[0121] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legivel por máquina.
[0122] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0123] Outra aplicação dos métodos inventivos é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.
[0124] Outra aplicação do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0125] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.
[0126] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[0127] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0128] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção.Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.
[0129] [MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part lí MPEG Surround, 2007.
[0130] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications,"IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[0131] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006
[0132] [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[0133] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Hõlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008
[0134] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[0135] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010
[0136] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier:"A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010
[0137] [ISS3] A. Liutkus and J. Pinel and R. Badeauand L. Girin and G. Richards "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011
[0138] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G.Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011
[0139] [ISS5] Shuhua Zhang and Laurent Girin: "AnInformed Source Separation System for Speech Signals", INTERSPEECH, 2011
[0140] [ISS6]L. Girin and J. Pinel: "Informed AudioSource Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
Claims (10)
1. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e uma unidade de processamento (120) para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite; em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q é definido como Q=DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX; em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio; e em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIXatravés do cálculo de valores próprios da matriz de correção cruzada do canal de DOWNMIX Q ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de DOWNMIX Q.
2. Um decodificador de acordo com a reivindicação 1, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia de ruído de cada um de dois ou mais canais de DOWNMIX.
3. Um decodificador de acordo com a reivindicação 2, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo da soma de toda a energia de ruído em dois ou mais canais de DOWNMIX.
4. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.
5. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo sinal de DOWNMIX codificar um ou mais sinal(is) do objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência, em que o determinador de limite (110) é configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência, dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência difere de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência, e em que a unidade de processamento (120) é configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite da referida porção de tempo/frequência.
6. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo decodificador ser configurado para determinar o valor limite T em decibel de acordo com a fórmula T[DB] = ENOISE[DB] - EREF[DB] - Z ou de acordo com a fórmula T[DB] = ENOISE[DB]- EREF[DB] , em que T[DB] indica o valor limite em decibel, em que ENOISE [DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que E REF [ DB ] indica a energia do sinal de um REF dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número.
7. Um decodificador de acordo com uma das reivindicações de 1 a 5, caracterizado pelo decodificador ser configurado para determinar o valor limite T de acordo com a fórmulaou de acordo com formula em que T indica o valor limite, em que ENOISE indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que EREF indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número.
8. Um decodificador, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX,através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q com o valor limite para obter um limite relativo.
9. Um decodificador, de acordo com a reivindicação 8, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX gerando uma matriz modificada, em que a unidade de processamento (120) é configurada para gerar a matriz modificada, dependendo apenas dos vetores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que é maior ou igual ao limite modificado, em que a unidade de processamento (120) é configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida, e em que a unidade de processamento (120) é configurada para aplicar a matriz invertida em um ou mais dos canais de DOWNMIX para gerar um ou mais canal(is) de saída de áudio.
10. Um método para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite, em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX depende de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, é conduzido dependendo de uma matriz de DOWNMIX (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de DOWNMIX, e dependendo do valor limite; em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q ser definido como Q = DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261679404P | 2012-08-03 | 2012-08-03 | |
US61/679,404 | 2012-08-03 | ||
PCT/EP2013/066405 WO2014020182A2 (en) | 2012-08-03 | 2013-08-05 | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112015002228A2 BR112015002228A2 (pt) | 2019-10-15 |
BR112015002228B1 true BR112015002228B1 (pt) | 2021-12-14 |
Family
ID=49150906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112015002228-6A BR112015002228B1 (pt) | 2012-08-03 | 2013-08-05 | Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal |
Country Status (18)
Country | Link |
---|---|
US (1) | US10096325B2 (pt) |
EP (1) | EP2880654B1 (pt) |
JP (1) | JP6133422B2 (pt) |
KR (1) | KR101657916B1 (pt) |
CN (2) | CN104885150B (pt) |
AU (2) | AU2013298463A1 (pt) |
BR (1) | BR112015002228B1 (pt) |
CA (1) | CA2880028C (pt) |
ES (1) | ES2649739T3 (pt) |
HK (1) | HK1210863A1 (pt) |
MX (1) | MX350690B (pt) |
MY (1) | MY176410A (pt) |
PL (1) | PL2880654T3 (pt) |
PT (1) | PT2880654T (pt) |
RU (1) | RU2628195C2 (pt) |
SG (1) | SG11201500783SA (pt) |
WO (1) | WO2014020182A2 (pt) |
ZA (1) | ZA201501383B (pt) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US9774974B2 (en) | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
EP3271918B1 (en) * | 2015-04-30 | 2019-03-13 | Huawei Technologies Co., Ltd. | Audio signal processing apparatuses and methods |
CN107533844B (zh) * | 2015-04-30 | 2021-03-23 | 华为技术有限公司 | 音频信号处理装置和方法 |
GB2548614A (en) * | 2016-03-24 | 2017-09-27 | Nokia Technologies Oy | Methods, apparatus and computer programs for noise reduction |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
BR112020018466A2 (pt) | 2018-11-13 | 2021-05-18 | Dolby Laboratories Licensing Corporation | representando áudio espacial por meio de um sinal de áudio e de metadados associados |
GB2580057A (en) * | 2018-12-20 | 2020-07-15 | Nokia Technologies Oy | Apparatus, methods and computer programs for controlling noise reduction |
CN109814406B (zh) * | 2019-01-24 | 2021-12-24 | 成都戴瑞斯智控科技有限公司 | 一种轨道模型电控仿真系统的数据处理方法及解码器架构 |
US11968268B2 (en) | 2019-07-30 | 2024-04-23 | Dolby Laboratories Licensing Corporation | Coordination of audio devices |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4669120A (en) * | 1983-07-08 | 1987-05-26 | Nec Corporation | Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
US6400310B1 (en) * | 1998-10-22 | 2002-06-04 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
WO2003092260A2 (en) * | 2002-04-23 | 2003-11-06 | Realnetworks, Inc. | Method and apparatus for preserving matrix surround information in encoded audio/video |
EP1521240A1 (en) * | 2003-10-01 | 2005-04-06 | Siemens Aktiengesellschaft | Speech coding method applying echo cancellation by modifying the codebook gain |
RU2323551C1 (ru) * | 2004-03-04 | 2008-04-27 | Эйджир Системс Инк. | Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования |
ATE557552T1 (de) * | 2004-07-14 | 2012-05-15 | Koninkl Philips Electronics Nv | Verfahren, vorrichtung, kodierer, dekodierer und audiosystem |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
RU2376656C1 (ru) * | 2005-08-30 | 2009-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ кодирования и декодирования аудиосигнала и устройство для его осуществления |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
EP3712888B1 (en) * | 2007-03-30 | 2024-05-08 | Electronics and Telecommunications Research Institute | Apparatus and method for coding and decoding multi object audio signal with multi channel |
BRPI0809760B1 (pt) * | 2007-04-26 | 2020-12-01 | Dolby International Ab | aparelho e método para sintetizar um sinal de saída |
DE102008009025A1 (de) * | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals |
DE102008009024A1 (de) * | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals |
WO2009116280A1 (ja) | 2008-03-19 | 2009-09-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 |
WO2009125046A1 (en) * | 2008-04-11 | 2009-10-15 | Nokia Corporation | Processing of signals |
US8811621B2 (en) | 2008-05-23 | 2014-08-19 | Koninklijke Philips N.V. | Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder |
DE102008026886B4 (de) * | 2008-06-05 | 2016-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zur Strukturierung einer Nutzschicht eines Substrats |
US8583424B2 (en) * | 2008-06-26 | 2013-11-12 | France Telecom | Spatial synthesis of multichannel audio signals |
PL2146344T3 (pl) * | 2008-07-17 | 2017-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
EP2218447B1 (en) * | 2008-11-04 | 2017-04-19 | PharmaSol GmbH | Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles |
ES2435792T3 (es) * | 2008-12-15 | 2013-12-23 | Orange | Codificación perfeccionada de señales digitales de audio multicanal |
WO2010070225A1 (fr) * | 2008-12-15 | 2010-06-24 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
KR101485462B1 (ko) * | 2009-01-16 | 2015-01-22 | 삼성전자주식회사 | 후방향 오디오 채널의 적응적 리마스터링 장치 및 방법 |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
CN101533641B (zh) * | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
PL2491555T3 (pl) * | 2009-10-20 | 2014-08-29 | Fraunhofer Ges Forschung | Wielotrybowy kodek audio |
TWI557723B (zh) * | 2010-02-18 | 2016-11-11 | 杜比實驗室特許公司 | 解碼方法及系統 |
CN102243876B (zh) * | 2010-05-12 | 2013-08-07 | 华为技术有限公司 | 预测残差信号的量化编码方法及装置 |
-
2013
- 2013-08-05 CA CA2880028A patent/CA2880028C/en active Active
- 2013-08-05 BR BR112015002228-6A patent/BR112015002228B1/pt active IP Right Grant
- 2013-08-05 KR KR1020157002923A patent/KR101657916B1/ko active IP Right Grant
- 2013-08-05 CN CN201380051915.9A patent/CN104885150B/zh active Active
- 2013-08-05 WO PCT/EP2013/066405 patent/WO2014020182A2/en active Application Filing
- 2013-08-05 MY MYPI2015000251A patent/MY176410A/en unknown
- 2013-08-05 PL PL13759676T patent/PL2880654T3/pl unknown
- 2013-08-05 PT PT137596763T patent/PT2880654T/pt unknown
- 2013-08-05 JP JP2015524812A patent/JP6133422B2/ja active Active
- 2013-08-05 SG SG11201500783SA patent/SG11201500783SA/en unknown
- 2013-08-05 ES ES13759676.3T patent/ES2649739T3/es active Active
- 2013-08-05 RU RU2015107202A patent/RU2628195C2/ru active
- 2013-08-05 MX MX2015001396A patent/MX350690B/es active IP Right Grant
- 2013-08-05 AU AU2013298463A patent/AU2013298463A1/en not_active Abandoned
- 2013-08-05 CN CN201910433878.7A patent/CN110223701B/zh active Active
- 2013-08-05 EP EP13759676.3A patent/EP2880654B1/en active Active
-
2015
- 2015-01-28 US US14/608,139 patent/US10096325B2/en active Active
- 2015-03-02 ZA ZA2015/01383A patent/ZA201501383B/en unknown
- 2015-11-23 HK HK15111530.7A patent/HK1210863A1/xx unknown
-
2016
- 2016-09-29 AU AU2016234987A patent/AU2016234987B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
SG11201500783SA (en) | 2015-02-27 |
CN110223701B (zh) | 2024-04-09 |
US20150142427A1 (en) | 2015-05-21 |
CA2880028A1 (en) | 2014-02-06 |
ZA201501383B (en) | 2016-08-31 |
CN110223701A (zh) | 2019-09-10 |
AU2016234987A1 (en) | 2016-10-20 |
US10096325B2 (en) | 2018-10-09 |
KR101657916B1 (ko) | 2016-09-19 |
EP2880654B1 (en) | 2017-09-13 |
RU2015107202A (ru) | 2016-09-27 |
KR20150032734A (ko) | 2015-03-27 |
PL2880654T3 (pl) | 2018-03-30 |
MY176410A (en) | 2020-08-06 |
WO2014020182A2 (en) | 2014-02-06 |
MX2015001396A (es) | 2015-05-11 |
AU2013298463A1 (en) | 2015-02-19 |
PT2880654T (pt) | 2017-12-07 |
AU2016234987B2 (en) | 2018-07-05 |
ES2649739T3 (es) | 2018-01-15 |
RU2628195C2 (ru) | 2017-08-15 |
JP2015528926A (ja) | 2015-10-01 |
CA2880028C (en) | 2019-04-30 |
CN104885150A (zh) | 2015-09-02 |
MX350690B (es) | 2017-09-13 |
EP2880654A2 (en) | 2015-06-10 |
BR112015002228A2 (pt) | 2019-10-15 |
JP6133422B2 (ja) | 2017-05-24 |
CN104885150B (zh) | 2019-06-28 |
WO2014020182A3 (en) | 2014-05-30 |
HK1210863A1 (en) | 2016-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112015002228B1 (pt) | Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal | |
JP6687683B2 (ja) | マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム | |
JP6735053B2 (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
RU2660638C2 (ru) | Устройство и способ для улучшенного пространственного кодирования аудиообъектов | |
BR112012007138B1 (pt) | Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos | |
BR112015007532B1 (pt) | Codificador, decodificador e métodos para codificação de objeto de áudio espacial multirresolução compatível regressivo | |
KR101837686B1 (ko) | 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법 | |
RU2604337C2 (ru) | Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования | |
JPWO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B350 | Update of information on the portal [chapter 15.35 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/08/2013, OBSERVADAS AS CONDICOES LEGAIS. |