BR112012012097B1 - aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear - Google Patents
aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear Download PDFInfo
- Publication number
- BR112012012097B1 BR112012012097B1 BR112012012097-2A BR112012012097A BR112012012097B1 BR 112012012097 B1 BR112012012097 B1 BR 112012012097B1 BR 112012012097 A BR112012012097 A BR 112012012097A BR 112012012097 B1 BR112012012097 B1 BR 112012012097B1
- Authority
- BR
- Brazil
- Prior art keywords
- matrix
- interpretation
- downmix
- audio
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000005236 sound signal Effects 0.000 title claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 307
- 238000010606 normalization Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 23
- 238000011002 quantification Methods 0.000 claims description 6
- 230000000670 limiting effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 2
- 239000000654 additive Substances 0.000 claims 2
- 230000000996 additive effect Effects 0.000 claims 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 238000012074 hearing test Methods 0.000 description 20
- 230000005540 biological transmission Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000000926 separation method Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000011664 signaling Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 101001020552 Rattus norvegicus LIM/homeobox protein Lhx1 Proteins 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000015123 black coffee Nutrition 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
APARELHO PARA PROVER UMA REPRESENTAÇÃO DE SINAL UPMIX COM BASE NA REPRESENTAÇÃO DE SINAL DOWNMIX, APARELHO PARA 5 PROVER UM FLUXO DE BITS QUE REPRESENTA UM SINAL DE ÁUDIO DE MULTICANAIS, MÉTODOS, PROGRAMAS DE COMPUTADOR E FLUXO DE BITS REPRESENTANDO UM SINAL DE ÁUDIO DE MULTICANAIS UTILIZANDO UM PARÂMETRO DE COMBINAÇÃO LINEAR. Um aparelho para prover uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, que são incluídas em uma representação de fluxo de bits de um conteúdo de áudio, em independência de uma matriz de interpretação especificada pelo usuário, o aparelho compreende um limitador de distorção configurado para obter uma matriz de interpretação modificada utilizando urna combinação linear de urna matriz de interpretação especificada pelo usuário em uma matriz de interpretação alvo em dependência de um parâmetro de combinação linear. O aparelho também compreende um processador de sinal configurado para obter 20 uma representação de sinal upmix com base na representação de sinal downmix e na informação paramétrica relacionada ao objeto utilizando a matriz de interpretação modificada. O aparelho também é configurado para avaliar um elemento de fluxo de bits que representa o parâmetro de combinação linear a fim de (...).
Description
As realizações, de acordo com a invenção, referem-se a um aparelho para prover uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, que são incluidas em uma representação de fluxo de bits de um conteúdo de áudio e em dependência de uma matriz de interpretação especificada pelo usuário.
Outras realizações, de acordo com a invenção, referem-se a um aparelho para prover um fluxo de bits representando um sinal de áudio de multicanais.
Outras realizações, de acordo com a invenção, referem-se a um método para prover uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto que são incluidas em uma representação de fluxo de bits do conteúdo de áudio e em dependência a uma matriz de interpretação especificada pelo usuário.
Outras realizações, de acordo com a invenção, referem-se a um método para prover um fluxo de bits representando um sinal de áudio de multicanais.
Outras realizações, de acordo com a invenção, referem-se a um programa de computador que realiza um dos ditos métodos.
Outra realização, de acordo com a invenção, refere-se a um fluxo de bits que representa um sinal de áudio de multicanais.
Na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente de manipular conteúdos de multicanais a fim de melhorar a impressão auditiva. O uso de um conteúdo de áudio de multicanais traz consigo melhoras significativas para o usuário. Por exemplo, uma impressão auditiva tridimensional pode ser obtida, que traz consigo uma satisfação de usuário aprimorada em aplicações de entretenimento. Entretanto, conteúdo de áudios de multicanais também são úteis em ambientes profissionais, por exemplo, aplicações de teleconferência, devido à inteligibilidade do locutor poder ser aprimorada ao utilizar uma gravação fonográfica de áudio de multicanais.
Entretanto, também é desejável ter uma boa compensação entre qualidade de áudio e exigências de taxa de bits a fim de evitar consumo de recurso excessivo em aplicações de multicanais de baixo custo ou profissionais.
Técnicas paramétricas para a transmissão e/ou armazenamento eficiente em questão de taxa de bits de cenários de áudio que contêm múltiplos objetos de áudio foram recentemente propostas. Por exemplo, uma codificação de indicador biauricular, que é descrita, por exemplo, na referência [1], e uma codificação de união paramétrica de fontes de áudio, que é descrita, por exemplo, na referência [2], foram propostas. Também, uma codificação de objeto de áudio espacial MPEG (SAOC) foi proposta, que é descrita, por exemplo, nas referências [3] e [4]. A codificação de objeto de áudio espacial MPEG está atualmente em padronização e descrita na referência não pré-publicada [5].
Essas técnicas visam à reconstrução perceptual do cenário de saida desejado em vez de por uma correspondência de forma de onda.
Entretanto, em combinação com a interatividade do usuário no lado de recepção, essas técnicas podem levar a uma baixa qualidade de áudio dos sinais de áudio de saida se a interpretação de objeto extrema for realizada. Isso é descrito, por exemplo, na referência [6].
A seguir, esses sistemas serão descritos e deve ser observado que os conceitos básicos também se aplicam às realizações da invenção.
A Figura 8 apresenta uma visão geral do sistema desse um sistema (aqui: SAOC MPEG) . O sistema de SAOC MPEG 800 apresentado na Figura 8 compreende um codificador de SAOC 810 e um decodif icador de SAOC 820. O codificador de SAOC 810 recebe uma pluralidade de sinais de objeto Xi a xN, que podem ser representados, por exemplo, como sinais de dominio de tempo ou como sinais de dominio de frequência de tempo (por exemplo, na forma de um conjunto de coeficientes de transformação de uma transformada do tipo Fourier ou na forma de sinais de sub-banda de QMF) . O codificador de SAOC 810 tipicamente também recebe coeficientes de downmix di a dN, que são associados aos sinais de objeto Xi a xN. Os conjuntos separados de coeficientes de downmix podem estar disponíveis para cada canal do sinal downmix. O codificador de SAOC 810 é tipicamente configurado para obter um canal do sinal downmix ao combinar os sinais de objeto Xi a xN de acordo com os coeficientes de downmix associados dT a dN. Tipicamente, há menos canais downmix que sinais de objeto Xi a xN. A fim de permitir (pelo menos aproximadamente) uma separação (ou tratamento separado) dos sinais de objeto no lado do decodificador de SAOC 820, o codificador de SAOC 810 provê um ou mais sinais downmix (designados como canais de downmix) 812 e uma informação paralela 814. A informação paralela 814 descreve características dos sinais de objeto Xi a xN, a fim de permitir um processamento específico de objeto do lado do decodificador.
O decodif icador de SAOC 820 é configurado para receber um ou mais sinais downmix 812 e a informação paralela 814. Também, o decodificador de SAOC 820 é tipicamente configurado para receber uma informação de interação do usuário e/ou a informação de controle do usuário 822, que descreve uma configuração de interpretação desejada. Por exemplo, a informação de interação do usuário/informação de controle do usuário 822 pode descrever uma configuração de alto-falante e a colocação espacial desejada dos objetos que provêem os sinais de objeto Xi a xN.
O decodif icador de SAOC 820 é configurado para prover, por exemplo, uma pluralidade de sinais de canal upmix decodificados a yM. Os sinais de canal upmix podem, por exemplo, serem associados a alto-falantes individuais de uma disposição de interpretação de múltiplos alto-falantes. O decodificador de SAOC 820 pode, por exemplo, compreender um separador de objeto 820a, que é configurado para reconstruir, pelo menos aproximadamente, os sinais de objeto Xi a xN com base em um ou mais sinais downmix 812 e a informação paralela 814, obtendo, assim, sinais de objeto reconstruídos 820b. Entretanto, os sinais de objeto reconstruídos 820b podem desviar um pouco dos sinais de objeto originais Xi a xN, por exemplo, devido à informação paralela 814 não ser mais que suficiente para uma reconstrução perfeita devido às limitações de taxa de bits. O decodificador de SAOC 820 pode ainda compreender um mixador 820c, que pode ser configurado para receber os sinais de objeto reconstruídos 820b e a informação de interação do usuário/informação de controle do usuário 822, e para prover, com base nisso, os sinais de canal upmix y1 a yM. O mixador 820 pode ser configurado para utilizar a informação de interação do usuário /informação de controle do usuário 822 para determinar a contribuição dos sinais de objeto reconstruídos individuais 820b para os sinais de canal upmix yT a yM. A informação de interação do usuário/informação de controle do usuário 822 pode, por exemplo, compreender parâmetros de interpretação (também designados como coeficientes de interpretação), que determinam a contribuição dos sinais de objeto reconstruídos individuais 822 para os sinais de canal upmix y1 a yM.
Entretanto, deve ser observado que em muitas realizações, a separação de objeto, que é indicada pelo separador de objeto 820a na Figura 8, e a mixagem, que é indicada pelo mixador 820c na Figura 8, são realizadas em uma única etapa. Para este fim, os parâmetros gerais podem ser computados que descrevem um mapeamento direto do um ou mais sinais downmix 812 nos sinais de canal upmix y1 a yM. Esses parâmetros podem ser computados com base na informação paralela e na informação de interação do usuário/informação de controle do usuário 820.
Tendo como referência agora as Figuras 9a, 9b e 9c, diferentes aparelhos para obter uma representação de sinal upmix com base em uma representação de sinal downmix e informação paralela relacionada ao objeto serão descritos. A Figura 9a apresenta um diagrama de blocos esquemático de um sistema de SAOC MPEG 900 compreendendo um decodif icador de SAOC 920. O decodificador de SAOC 920 compreende, como blocos funcionais separados, um decodificador de objeto 922 e um mixador/interpretador 926. O decodificador de objeto 922 provê uma pluralidade de sinais de objeto reconstruídos 924 em dependência da representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix representados no domínio de tempo ou no domínio de frequência de tempo) e informação paralela relacionada ao objeto (por exemplo, na forma de metadados de objeto) . O mixador/interpretador 924 recebe os sinais de objeto reconstruídos 924 associados a uma pluralidade de N objetos e provê, com base nisso, um ou mais sinais de canal upmix 928. No decodificador de SAOC 920, a extração dos sinais de objeto 924 é realizada separadamente da mixagem/interpretação que permite uma separação da funcionalidade de decodificação do objeto da funcionalidade de mixagem/interpretação, mas traz consigo uma complexidade computacional relativamente alta.
Tendo como referência agora a Figura 9b, outro sistema de SAOC MPEG 930 será brevemente discutido, que compreende um decodificador de SAOC 950. O decodificador de SAOC 950 provê uma pluralidade de sinais de canal upmix 958 em dependência de uma representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix) e uma informação paralela relacionada ao objeto (por exemplo, na forma de metadados de objeto). O decodificador de SAOC 950 compreende um decodificador de objeto combinado e mixador/interpretador, que é configurado para obter os sinais de canal upmix 958 em um processo de mixagem de união sem uma separação da decodificação de objeto e da mixagem/interpretação, em que os parâmetros para o dito processo upmix de união são dependentes tanto da informação paralela relacionada ao objeto como da informação de interpretação. O processo upmix de união também depende das informações de downmix, que são consideradas para serem parte da informação paralela relacionada ao objeto.
Para resumir o dito acima, a provisão dos sinais de canal upmix 928, 958 pode ser realizada em um processo de uma etapa ou um processo de duas etapas.
Tendo como referência agora a Figura 9c, um sistema de SAOC MPEG 960 será descrito. O sistema de SAOC 960 compreende uma SAOC para o transcodificador de MPEG Surround 980, em vez de um decodificador de SAOC.
A SAOC ao transcodificador de MPEG Surround compreende um transcodificador de informação paralela 982, que é configurado para receber a informação paralela relacionada ao objeto (por exemplo, na forma de metadados de objeto) e, opcionalmente, informações sobre um ou mais sinais downmix e as informações de interpretação. O transcodificador de informação paralela também é configurado para prover uma informação paralela de MPEG Surround (por exemplo, na forma de um fluxo de bits de MPEG Surround) com base em um dado recebido. Da mesma forma, o transcodificador de informação paralela 982 é configurado para transformar uma informação paralela (paramétrica) relacionada ao objeto, que é recebida do codificador de canal, em uma informação paralela (paramétrica) relacionada ao canal, levando em consideração as informações de interpretação e, opcionalmente, as informações sobre o conteúdo do um ou mais sinais downmix.
Opcionalmente, a SAOC para o transcodificador de MPEG Surround 980 pode ser configurada para manipular o um ou mais sinais downmix, descritos, por exemplo, pela representação de sinal downmix, para obter uma representação de sinal downmix manipulada 988. Entretanto, o manipulador de sinal downmix 986 pode ser omitido, de modo que uma representação de sinal downmix de saida 988 da SAOC ao transcodificador de MPEG Surround 980 seja idêntica à representação de sinal downmix de entrada da SAOC ao transcodificador de MPEG Surround. O manipulador de sinal downmix 986 pode, por exemplo, ser utilizado se a informação paralela relacionada ao canal de MPEG Surround 984 não fosse permitida para prover uma impressão auditiva desejada com base na representação de sinal downmix de entrada da SAOC ao transcodificador de MPEG Surround 980, que pode ser o caso em algumas constelações de interpretações.
Da mesma forma, a SAOC ao transcodificador de MPEG Surround 980 provê uma representação de sinal downmix 988 e o fluxo de bits de MPEG Surround 984 de modo que uma pluralidade de sinais de canal upmix, que representa os objetos de áudio de acordo com a entrada de informações de interpretação à SAOC ao transcodificador de MPEG Surround 980 possa ser gerada utilizando um decodificador de MPEG Surround que recebe o fluxo de bits de MPEG Surround 984 e uma representação de sinal downmix 988.
Para resumir o dito acima, diferentes conceitos para decodificar sinais de áudio codificados por SAOC podem ser utilizados. Em alguns casos, um decodificador de SAOC é utilizado, que provê sinais de canal upmix (por exemplo, sinais de canal upmix 928, 958) em dependência da representação de sinal downmix e da informação paralela paramétrica relacionada ao objeto. Exemplos para esse conceito podem ser vistos nas Figuras 9a e 9b. De maneira alternativa, as informações de áudio codificado por SAOC podem ser transcodifiçadas para obter uma representação de sinal downmix (por exemplo, uma representação de sinal downmix 988) e uma informação paralela relacionada ao canal (por exemplo, o fluxo de bits relacionado ao canal de MPEG Surround 984), que pode ser utilizada por um decodificador de MPEG Surround para prover os sinais de canal upmix desejados.
No sistema de SAOC MPEG 800, uma visão geral do sistema que é dada na Figura 8, o processamento geral é realizado em uma maneira seletiva de frequência e pode ser descrito como segue dentro de cada faixa de frequência: • N sinais de objeto de áudio de entrada Xi a xN são downmixados como parte do processamento do codificador de SAOC Para um downmix mono, os coeficientes de downmix são denotados por di a dN. Além disso, o codificador de SAOC 810 extrai a informação paralela 814 que descreve as características dos objetos de áudio de entrada. Para SAOC MPEG, as relações das energias de objeto em relação umas às outras são a forma mais básica dessa uma informação paralela. • Sinal (ou sinais) downmix 812 e informação paralela 814 são transmitidos e/ou armazenados. Para este fim, o sinal de áudio downmix pode ser comprimido utilizando codificadores de áudio perceptual bem conhecidos, como Camada II ou II de MPEG—1 (também conhecida como ".mp3"), Codificação de Áudio Avançada de MPEG (AAC) ou qualquer outro codificador de áudio. • Na extremidade de recepção, o decodificador de SAOC 820 tenta conceitualmente rearmazenar o sinal de objeto original ("separação de objeto") utilizando a informação paralela 814 transmitida (e, naturalmente, o um ou mais sinais downmix 812). Esses sinais de objeto aproximados (também designados como sinais de objeto reconstruídos 820b) são então mixados em um cenário alvo representado por M canais de saída de áudio (que podem, por exemplo, ser representados pelos sinais de canal upmix yi a yM) utilizando uma matriz de interpretação. Para uma saída mono, os coeficientes da matriz de interpretação são dados por rT a rN • De maneira eficaz, a separação dos sinais de objeto é raramente executada (ou mesmo nunca executada), uma vez que tanto a etapa de separação (indicada pelo separador de objeto 820a) como a etapa de mixagem (indicada pelo mixador 820c) são combinadas em uma única etapa de transcodificação, o que geralmente resulta em uma redução enorme na complexidade computacional.
Descobriu-se que um esquema é tremendamente eficiente, tanto em termos de taxa de bits de transmissão (é somente necessário transmitir poucos canais de downmix mais alguma informação paralela em vez de N sinais de áudio de objeto diferentes ou um sistema diferente) como de complexidade computacional (a complexidade de processamento se refere principalmente ao número de canais de saida em vez do número de objetos de áudio). Vantagens adicionais para o usuário sobre a extremidade de recepção incluem a liberdade de escolha de uma configuração de interpretação de sua escolha (mono, estéreo, surround, reprodução fonográfica de fone de ouvido virtualizada e assim por diante) e o aspecto da interatividade do usuário: a matriz de interpretação e, assim, o cenário de saida, podem ser ajustados e alterados de maneira interativa pelo usuário, de acordo com a vontade, preferência pessoal ou outros critérios. Por exemplo, é possivel localizar os locutores de um grupo juntos em uma área espacial para maximizar a diferenciação dos outros locutores restantes. Essa interatividade é alcançada ao prover uma interface de usuário do decodificador:
Para cada objeto sonoro transmitido, seu nivel relativo e (para interpretação não mono) a posição espacial da interpretação podem ser ajustados. Isso pode acontecer em tempo real, como o usuário altera a posição dos cursores da interface de usuário gráfica (GUI) associada (por exemplo: nivel de objeto = +5dB, posição do objeto = -30deg).
Entretanto, descobriu-se que a escolha do lado do decodificador dos parâmetros para a provisão da representação de sinal upmix (por exemplo, os sinais de canal upmix yT a yM) traz consigo degradações audiveis em alguns casos.
Tendo em vista essa situação, é o objetivo da presente invenção criar um conceito que permitir a redução ou até a prevenção da distorção audivel ao prover uma representação de sinal upmix (por exemplo, na forma de sinais de canal upmix yi a YM) .
Uma realização, de acordo com a invenção, cria um aparelho para prover uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, que são incluidas em uma representação de fluxo de bits de um conteúdo de áudio, e em dependência de uma matriz de interpretação especificada pelo usuário. 0 aparelho compreende um limitador de distorção configurado para obter uma matriz de interpretação modificada utilizando uma combinação linear de uma matriz de interpretação especificada pelo usuário e uma matriz de interpretação alvo em dependência de um parâmetro de combinação linear. 0 aparelho também compreende um processador de sinal configurado para obter a representação de sinal upmix com base na representação de sinal downmix e na informação paramétrica relacionada ao objeto utilizando a matriz de interpretação modificada. 0 aparelho é configurado para avaliar um elemento de fluxo de bits que representa o parâmetro de combinação linear a fim de obter o parâmetro de combinação linear.
Essa realização, de acordo com a invenção, tem base na idéia principal que distorções audiveis da representação de sinal upmix podem ser reduzidas ou até evitadas com baixa complexidade computacional ao realizar uma combinação linear de uma matriz de interpretação especificada pelo usuário e a matriz de interpretação alvo em dependência de um parâmetro de combinação linear, que é extraido da representação de fluxo de bits do conteúdo de áudio, pois uma combinação linear pode ser realizada de maneira eficiente e porque a execução da tarefa de demanda de determinação do parâmetro de combinação linear pode ser realizada no lado do codificador de sinal de áudio, onde há tipicamente mais energia computacional disponível que no lado do decodificador de sinal de áudio (aparelho para prover uma representação de sinal upmix).
Da mesma forma, o conceito discutido acima permite obter uma matriz de interpretação modificada, o que resulta em distorções audíveis reduzidas mesmo em uma escolha inadequada da matriz de interpretação especificada pelo usuário, sem adicionar qualquer complexidade significativa ao aparelho para prover uma representação de sinal upmix. Em particular, pode ser até desnecessário modificar o processador de sinal quando comparado a um aparelho sem um limitador de distorção, pois a matriz de interpretação modificada constitui em uma quantidade de entrada ao processador de sinal e substitui meramente a matriz de interpretação especificada pelo usuário. Além disso, o conceito inventivo traz consigo a vantagem de que um codificador de sinal de áudio pode ajustar o esquema de limitação da distorção, que é aplicado no lado do decodificador de sinal de áudio, de acordo com as exigências especificadas no lado do codificador ao ajustar simplesmente o parâmetro de combinação linear, que é incluído na representação de fluxo de bits do conteúdo de áudio. Da mesma forma, o codificador de sinal de áudio pode prover gradualmente mais ou menos liberdade em relação à escolha da matriz de interpretação do usuário do decodificador (aparelho para prover uma representação de sinal upmix) ao escolher adequadamente o parâmetro de combinação linear. Isso permite a adaptação do decodificador de sinal de áudio às expectativas do usuário para um determinado serviço, pois para os mesmo serviços um usuário pode esperar uma qualidade máxima (o que implica reduzir a possibilidade de o usuário ajustar arbitrariamente a matriz de interpretação), enquanto para outros serviços, o usuário pode tipicamente esperar um grau máximo de liberdade (o que implica aumentar o impacto da matriz de interpretação especifica do usuário no resultado da combinação linear).
Para resumir o dito acima, o conceito inventivo combina alta eficiência computacional no lado do decodificador, o que pode ser particularmente importante para decodificadores de áudio portáteis, com a possibilidade de uma implementação simples, sem trazer a necessidade de modificar o processador de sinal e também provê um alto grau de controle para um codificador de sinal de áudio, o que pode ser importante para atender às expectativas do usuário para diferentes tipos de serviços de áudio.
Em uma realização preferida, o limitador de distorção é configurado para obter a matriz de interpretação alvo de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo livre de distorção. Isso traz a possibilidade de ter um cenário de reprodução fonográfica no qual não há distorções ou pelo menos dificilmente quaisquer distorções causadas pela escolha da matriz de interpretação. Também, descobriu-se que a computação de uma matriz de interpretação alvo livre de distorção pode ser realizada de uma maneira muito simples em alguns casos. Ainda, descobriu-se que uma matriz de interpretação, que é escolhida entre uma matriz de interpretação especificada pelo usuário e uma matriz de interpretação alvo livre de distorção, tipicamente resulta em uma boa impressão auditiva.
Em uma realização preferida, o limitador de distorção é configurado para obter a matriz de interpretação alvo de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo semelhante ao downmix. Descobriu-se que o uso de uma matriz de interpretação alvo semelhante ao downmix trás um grau muito baixo ou até minimo de distorções. Também, essa uma matriz de interpretação alvo semelhante ao downmix pode ser obtida com esforço computacional muito baixo, pois a matriz de interpretação alvo semelhante ao downmix pode ser obtida ao escalar as entradas da matriz de downmix com um fator de escala comum e adicionando algumas entradas adicionais de zero.
Em uma realização preferida, o limitador de distorção é configurado para escalar uma matriz de downmix estendida utilizando um escalar de normalização de energia, para obter a matriz de interpretação alvo, em que a matriz de downmix estendida é uma versão estendida da matriz de downmix (uma fileira dessa matriz de downmix descreve contribuições de uma pluralidade de sinais de objeto de áudio ao um ou mais canais da representação de sinal downmix), estendida por fileiras de elementos zero, de modo que diversas fileiras da matriz de downmix estendida sejam idênticas a uma constelação de interpretações descrita pela matriz de interpretação especificada pelo usuário. Assim, a matriz de downmix estendida é obtida utilizando uma cópia de valores da matriz de downmix na matriz de downmix estendida, uma adição de entrada de matriz zero e uma multiplicação escalar de todos os elementos de matriz com o mesmo escalar de normalização de energia. Todas essas operações podem ser realizadas de modo muito eficiente, de modo que uma matriz de interpretação alvo possa ser obtida rapidamente, mesmo em um decodificador de áudio muito simples.
Em uma realização preferida, o limitador de distorção é configurado para obter a matriz de interpretação alvo de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo do melhor empenho. Embora essa abordagem tenha computacionalmente um pouco mais de demanda que o uso de uma matriz de interpretação alvo semelhante ao downmix, o uso de uma matriz de interpretação alvo do melhor empenho provê uma melhor consideração de um cenário de interpretação desejado do usuário. Utilizando a matriz de interpretação alvo do melhor empenho, uma definição do usuário da matriz de interpretação desejada é levada em consideração ao determinar a matriz de interpretação alvo tanto quanto é possivel sem introduzir distorções ou distorções significativas. Em particular, a matriz de interpretação alvo do melhor empenho leva em consideração a sonoridade desejada do usuário para uma pluralidade de alto-falantes (ou canais da representação de sinal upmix). Da mesma forma, uma impressão auditiva aprimorada pode resultar na utilização da matriz de interpretação alvo do melhor empenho.
Em uma realização preferida, o limitador de distorção é configurado para obter a matriz de interpretação alvo de modo que uma matriz de interpretação alvo dependa de uma matriz de downmix e da matriz de interpretação especifica do usuário. Da mesma forma, a matriz de interpretação alvo está relativamente próxima às expectativas do usuário, mas ainda provê uma interpretação de áudio substancialmente livre de distorção. Assim, o parâmetro de combinação linear determina uma compensação entre uma aproximação da interpretação desejada do usuário e minimização das distorções audiveis, em que a consideração da matriz de interpretação especificada pelo usuário para a computação da matriz de interpretação alvo provê uma boa satisfação dos desejos do usuário, mesmo se o parâmetro de combinação linear indicar que a matriz de interpretação alvo deve dominar a combinação linear.
Em uma realização preferida, o limitador de distorção é configurado para computar uma matriz compreendendo valores de normalização individuais por canal para uma pluralidade de canais de áudio de saida do aparelho para prover uma representação de sinal upmix, de modo que um valor de normalização de energia para um determinado canal de saida do aparelho descrita, pelo menos aproximadamente, uma proporção entre uma soma de valores de interpretação de energia associados ao determinado canal de saida na matriz de interpretação especificada pelo usuário para uma pluralidade de objetos de áudio, e uma soma de valores de downmix de energia para uma pluralidade de objetos de áudio. Da mesma forma, uma expectativa do usuário em relação à sonoridade dos diferentes canais de saida do aparelho pode ser atendida em algum grau.
Nesse caso, o limitador de distorção é configurado para escalar um conjunto de valores de downmix utilizando um valor de normalização de energia individual por canal associado, para obter um conjunto de valores de interpretação da matriz de interpretação alvo associada ao determinado canal de saida. Da mesma forma, a contribuição relativa de um determinado objeto de áudio a um canal de saida do aparelho é idêntica à contribuição relativa do determinado objeto de áudio para a representação de sinal downmix, o que permite evitar substancialmente as distorções audiveis que seriam causadas por uma modificação das contribuições relativas dos objetos de áudio. Da mesma forma, cada um dos canais de saida do aparelho é substancialmente não distorcido. Não obstante, a expectativa do usuário em relação a uma distribuição de sonoridade sobre uma pluralidade de alto-falantes (ou canais da representação de sinal upmix) é levada em consideração, embora detalhes sobre onde colocar esse objeto de áudio e/ou como alterar intensidades relativas dos objetos de áudio um em relação ao outro não são considerados (pelo menos para algum grau) a fim de evitar distorções que seriam possivelmente causadas por uma separação espacial excessivamente exata dos objetos de áudio ou uma modificação excessiva das intensidades relativas dos objetos de áudio.
Assim, a avaliação da proporção entre uma soma dos valores de interpretação de energia (por exemplo, quadrados de valores de interpretação de magnitude) associados a um determinado canal de saida na matriz de interpretação especificada pelo usuário para uma pluralidade de objetos de áudio e uma soma de valores de downmix de energia para uma pluralidade de objetos de áudio permite considerar todos os canais de áudio de saida, mesmo que a representação de sinal downmix possa compreender menos canais, enquanto ainda evita distorções que seriam causadas por uma redistribuição espacial dos objetos de áudio ou por uma alteração excessiva da sonoridade relativa dos diferentes objetos de áudio.
Em uma realização preferida, o limitador de distorção é configurado para computar uma matriz que descreve uma normalização de energia individual por canal para uma pluralidade de canais de áudio de saida do aparelho para prover uma representação de sinal upmix em dependência da matriz de interpretação especificada pelo usuário e uma matriz de downmix. Nesse caso, o limitador de distorção é configurado para aplicar a matriz que descreve a normalização de energia individual por canal para obter um conjunto de coeficientes de interpretação da matriz de interpretação alvo associados ao determinado canal de saida do aparelho como uma combinação linear de conjuntos de valores de downmix (isto é, valores que descrevem uma escalação aplicada aos sinais de áudio de diferentes objetos de áudio para obter um canal do sinal downmix) associados aos diferentes canais da representação de sinal downmix. Utilizando esse conceito, uma matriz de interpretação alvo, que é bem adaptada à matriz de interpretação especificada pelo usuário desejada, pode ser obtida mesmo se a representação de sinal downmix compreender mais de um canal de áudio, enquanto ainda evita substancialmente distorções. Descobriu-se que a formação de uma combinação linear de conjuntos de valores de downmix resulta em um conjunto de coeficientes de interpretação que tipicamente causam somente pequenas distorções audiveis. Não obstante, descobriu-se que é possivel aproximar uma expectativa do usuário utilizando essa uma abordagem para derivar a matriz de interpretação alvo.
Em uma realização preferida, o aparelho é configurado para ler um valor indice que representa o parâmetro de combinação linear da representação de fluxo de bits do conteúdo de áudio, e para mapear o valor indice no parâmetro de combinação linear utilizando uma tabela de quantificação de parâmetro. Descobriu-se que isso é um conceito computacionalmente eficiente de modo particular para derivar o parâmetro de combinação linear. Também se descobriu que essa abordagem traz uma melhor compensação entre a satisfação do usuário e a complexidade computacional quando comparada a outros conceitos possiveis nos quais computações complicadas, em vez da avaliação de uma tabela de mapeamento unidimensional, são realizadas.
Em uma realização preferida, a tabela de quantificação descreve uma quantificação não uniforme, em que valores menores do parâmetro de combinação linear, que descrevem uma contribuição mais forte da matriz de interpretação especificada pelo usuário na matriz de interpretação modificada, são quantificados com resolução comparativamente alta e valores maiores do parâmetro de combinação linear, que descrevem uma contribuição menor da matriz de interpretação especificada pelo usuário na matriz de interpretação modificada, são quantificados com resolução comparativamente menor. Descobriu-se que em muitos casos, somente configurações extremas da matriz de interpretação trazem distorções audiveis significativas. Da mesma forma, descobriu-se que um ajuste bom do parâmetro de combinação linear é mais importante na região de uma contribuição mais forte da matriz de interpretação especificada pelo usuário na matriz de interpretação alvo, a fim de obter uma configuração que permite uma compensação ideal entre um cumprimento de uma expectativa de interpretação do usuário e uma minimização de distorções audiveis.
Em uma realização preferida, o aparelho é configurado para avaliar um elemento de fluxo de bits que descreve um modo de limitação de distorção. Nesse caso, o limitador de distorção é preferencialmente configurado para obter seletivamente a matriz de interpretação alvo de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo semelhante ao downmix ou de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo do melhor empenho. Descobriu-se que esse conceito permutável provê uma possibilidade eficiente para obter uma boa compensação entre um cumprimento das expectativas de interpretação de um usuário e uma minimização das distorções audiveis para um amplo número de diferentes peças de áudio. Esse conceito também permite um bom controle de um codificador de sinal de áudio sobre a real interpretação no lado do decodificador. Consequentemente, as exigências de uma ampla variedade de diferentes serviços de áudio podem ser atendidas.
Outra realização, de acordo com a invenção, cria um aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais.
O aparelho compreende um downmixador configurado para prover um sinal downmix com base em uma pluralidade de sinais de objeto de áudio. O aparelho também compreende um provedor de informação paralela configurado para prover uma informação paralela paramétrica relacionada ao objeto, que descreve características dos sinais de objeto de áudio e parâmetros de downmix, e um parâmetro de combinação linear que descreve contribuições de uma matriz de interpretação especificada pelo usuário e de uma matriz de interpretação alvo para uma matriz de interpretação modificada. O aparelho para prover um fluxo de bits também compreende um formatador de fluxo de bits configurado para 22/79 prover um fluxo de bits compreendendo uma representação do sinal downmix, da informação paralela paramétrica relacionada ao objeto e do parâmetro de combinação linear.
Esse aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais é bem adequado para cooperação com o aparelho para prover uma representação de sinal upmix discutido acima. O aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais permite prover o parâmetro de combinação linear em dependência de seu conhecimento dos sinais de objeto de áudio. Da mesma forma, o codificador de áudio (isto é, o aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais) pode ter um forte impacto na qualidade da interpretação provida por um decodificador de áudio (isto é, o aparelho para prover uma representação de sinal upmix discutido acima) que avalia o parâmetro de combinação linear. Assim, o aparelho para prover o fluxo de bits que representa um sinal de áudio de multicanais tem um nivel muito alto de controle sobre o resultado da interpretação, que provê for uma satisfação do usuário aprimorada em muitos cenários diferentes. Da mesma forma, é fato que o codificador de áudio de um provedor de serviço que provê orientação, utilizando o parâmetro de combinação linear, se o usuário deve ser permitido ou não a usar configurações interpretação extremas no risco de distorções audiveis. Assim, o desapontamento do usuário, junto às consequências econômicas negativas correspondentes, pode ser evitado ao utilizar o codificador de áudio descrito acima.
Outra realização, de acordo com a invenção, cria um método para prover uma representação de sinal upmix com base em 23/79 uma representação de sinal downmix e uma informação de parâmetro relacionada ao objeto, que são incluidas em uma representação de fluxo de bits do conteúdo de áudio, em dependência de uma matriz de interpretação especificada pelo usuário. Esse método tem base na mesma idéia principal que a do aparelho descrito acima.
Outro método, de acordo com a invenção, cria um método para prover um fluxo de bits que representa um sinal de áudio de multicanais. 0 dito método tem base na mesma descoberta que do aparelho descrito acima.
Outra realização, de acordo com a invenção, cria um programa de computador para a realização dos métodos acima.
Outra realização, de acordo com a invenção, cria um fluxo de bits que representa um sinal de áudio de multicanais. O fluxo de bits compreende uma representação de um sinal downmix combinando sinais de áudio de uma pluralidade de objetos de áudio em uma informação paralela paramétrica relacionada ao objeto que descreve características dos objetos de áudio. 0 fluxo de bits também compreende um parâmetro de combinação linear que descreve contribuições de uma matriz de interpretação especificada pelo usuário e de uma matriz de interpretação alvo para uma matriz de interpretação modificada. 0 dito fluxo de bits permite algum grau de controle sobre os parâmetros de interpretação do lado do decodificador do lado do codificador de sinal de áudio.
As realizações, de acordo com a presente invenção, serão subsequentemente descritas tendo como referência as figuras anexas, nas quais: A Figura la apresenta um diagrama de blocos esquemático de um aparelho para prover uma representação de sinal upmix, de acordo com uma realização da invenção; A Figura lb apresenta um diagrama de blocos esquemático de um aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, de acordo com uma realização da invenção; A Figura 2 apresenta um diagrama de blocos esquemático de um aparelho para prover uma representação de sinal upmix, de acordo com outra realização da invenção; A Figura 3a apresenta uma representação esquemática de um fluxo de bits que representa um sinal de áudio de multicanais, de acordo com uma realização da invenção; A Figura 3b apresenta uma representação de sintaxe detalhada de uma informação de configuração especifica de SAOC, de acordo com uma realização da invenção; A Figura 3c apresenta uma representação de sintaxe detalhada de uma informação de estrutura de SAOC, de acordo com uma realização da invenção; A Figura 3d apresenta uma representação esquemática de uma codificação de um modo de controle de distorção em um elemento de fluxo de bits "bsDcuMode" que pode ser utilizado em um fluxo de bits de SAOC; A Figura 3e apresenta uma representação de tabela de uma associação entre um indice de fluxo de bits idx e um valor de um parâmetro de combinação linear "DcuParam[idx]", que pode ser utilizado para codificar uma informação de combinação linear em um fluxo de bits de SAOC; A Figura 4 apresenta um diagrama de blocos esquemático de um aparelho para prover uma representação de sinal upmix, de acordo com outra realização da invenção; A Figura 5a apresenta uma representação de sintaxe de uma informação de configuração especifica de SAOC, de acordo com uma realização da invenção; A Figura 5b apresenta uma representação de tabela de uma associação entre um indice de fluxo de bits idx e um parâmetro de combinação linear Param[idx] que podem ser utilizados para codificar o parâmetro de combinação linear em um fluxo de bits de SAOC; A Figura 6a apresenta uma tabela que descreve condições de teste de audição; A Figura 6b apresenta uma tabela que descreve itens de áudio dos testes de audição; A Figura 6c apresenta uma tabela que descreve condições de downmix/interpretação testadas para um cenário de codificação de SAOC de estéreo para estéreo; A Figura 7 apresenta uma representação gráfica dos resultados de teste de audição da unidade de controle de distorção (DCU) para um cenário de SAOC de estéreo para estéreo; A Figura 8 apresenta um diagrama de blocos esquemático de um sistema de SAOC MPEG de referência; A Figura 9a apresenta um diagrama de blocos esquemático de um sistema de SAOC de referência utilizando um decodificador e um mixador separados; A Figura 9b apresenta um diagrama de blocos esquemático de um sistema de SAOC de referência utilizando um decodificador e um mixador integrados; e A Figura 9c apresenta um diagrama de blocos esquemático de um sistema de SAOC de referência utilizando um transcodificador de SAOC para MPEG. DESCRIÇÃO DETALHADA DAS REALIZAÇÕES 1. APARELHO PARA PROVER UMA REPRESENTAÇÃO DE SINAL UPMIX, DE ACORDO COM A FIGURA la A Figura la apresenta um diagrama de blocos esquemático de um aparelho para prover uma representação de sinal upmix, de acordo com uma realização da invenção. O aparelho 100 é configurado para receber uma representação de sinal downmix 110 e uma informação paramétrica relacionada ao objeto 112. O aparelho 100 também é configurado para receber um parâmetro de combinação linear 114. A representação de sinal downmix 110, a informação paramétrica relacionada ao objeto 112 e o parâmetro de combinação linear 114 são todos incluidos em uma representação de fluxo de bits de um conteúdo de áudio. Por exemplo, o parâmetro de combinação linear 114 é descrito por um elemento de fluxo de bits dentro da dita representação de fluxo de bits. O aparelho 100 também é configurado para receber informações de interpretação 120, que definem uma matriz de interpretação especificada pelo usuário. O aparelho 100 é configurado para prover uma representação de sinal upmix 130, por exemplo, sinais de canal individual ou um downmix de sinal MPEG surround em combinação com uma informação paralela de MPEG surround. O aparelho 100 compreende um limitador de distorção 140 que é configurado para obter uma matriz de interpretação modificada 142 utilizando uma combinação linear de xinv uma matriz de interpretação especificada pelo usuário 144 (que é descrita, direta ou indiretamente, pelas informações de interpretação 120) e uma matriz de interpretação alvo em dependência de um parâmetro de combinação linear 146, que pode, por exemplo, ser designada com gDCU •
O aparelho 100 pode, por exemplo, ser configurado para avaliar um elemento de fluxo de bits 114 que representa um parâmetro de combinação linear 146 a fim de obter o parâmetro de combinação linear.
O aparelho 100 também compreende um processador de sinal 148 que é configurado para obter a representação de sinal upmix 130 com base em representação de sinal downmix 110 e a informação paramétrica relacionada ao objeto 112 utilizando a matriz de interpretação modificada 142.
Da mesma forma, o aparelho 100 é capaz de prover uma representação de sinal upmix com boa qualidade de interpretação utilizando, por exemplo, um processador de sinal de SAOC 148, ou qualquer outro processador de sinal relacionado ao objeto 148. A matriz de interpretação modificada 142 é adaptada pelo limitador de distorção 140 de modo que uma impressão auditiva suficientemente boa com distorções suficientemente pequenas seja, na maioria ou em todos os casos, alcançada. A matriz de interpretação modificada tipicamente se encontra "intermediária" à matriz de interpretação (desejada) especificada pelo usuário e a matriz de interpretação alvo, em que um grau de semelhança da matriz de interpretação modificada à matriz de interpretação especificada pelo usuário e à matriz de interpretação alvo é determinada pelo parâmetro de combinação linear, que consequentemente permite um ajuste de uma qualidade de interpretação alcançável e/ou de um nivel de distorção máximo da representação de sinal upmix 130. 0 processador de sinal 148 pode, por exemplo, ser um processador de sinal SAOC. Da mesma forma, o processador de sinal 148 pode ser configurado para avaliar a informação paramétrica relacionada ao objeto 112 para obter parâmetros que descrevem características dos objetos de áudio representados, em uma forma downmixada, pela representação de sinal downmix 110. Além disso, o processador de sinal 148 pode obter (por exemplo, receber) parâmetros que descrevem o procedimento de downmix, que é utilizado no lado de um codificador de áudio provendo a representação de fluxo de bits do conteúdo de áudio a fim de derivar a representação de sinal downmix 110 ao combinar os sinais de objeto de áudio de uma pluralidade de objetos de áudio. Assim, o processador de sinal 148 pode, por exemplo, avaliar uma OLD de informação de diferença de nível por objeto que descreve uma diferença de nível entre uma pluralidade de objetos de áudio para uma determinada estrutura de áudio e uma ou mais faixas de frequência, e uma informação de correlação inter-objetos IOC que descreve uma correlação entre sinais de áudio de uma pluralidade de pares de objetos de áudio para uma determinada estrutura de áudio e para uma ou mais faixas de frequência. Além disso, o processador de sinal 148 também pode avaliar informações de downmix DMG,DCLD que descrevem um downmix, que é realizado no lado de um codificador de áudio que provê representação de fluxo de bits do conteúdo de áudio, por exemplo, na forma de um ou mais parâmetros de ganho de downmix DMG e um ou mais parâmetros de diferença de nível de canal de downmix DCLD.
Além disso, o processador de sinal 148 recebe a matriz de interpretação modificada 142, que indica quais canais de áudio da representação de sinal upmix 130 devem compreender um conteúdo de áudio dos diferentes objetos de áudio. Da mesma forma, o processador de sinal 148 é configurado para determinar as contribuições dos diferentes objetos de áudio para a representação de sinal downmix 110 utilizando esse conhecimento (obtido das informações de OLD e das informações de IOC) dos objetos de áudio assim como seu conhecimento do processo de downmix (obtido das informações de DMG e das informações de DCLD) . Além disso, o processador de sinal provê a representação de sinal upmix de modo que uma matriz de interpretação modificada 142 seja considerada.
Da mesma forma, o processador de sinal 148 atende à funcionalidade do decodif icador de SAOC 820, em que a representação de sinal downmix 110 toma o lugar do um ou mais sinais downmix 812, em que a informação paramétrica relacionada ao objeto 112 toma o lugar da informação paralela 814, e em que a matriz de interpretação modificada 142 toma o lugar da informação de interação/controle de usuário 822. Os sinais de canal Jia tomam o papel da representação de sinal upmix 130. Da mesma forma, é feita referência à descrição do decodificador de SAOC 820.
Semelhantemente, o processador de sinal 148 pode tomar o papel do decodificador/mixador 920, em que a representação de sinal downmix 110 toma o papel do um ou mais sinais downmix, em que a informação paramétrica relacionada ao objeto 112 toma o papel dos metadados de objeto, em que a matriz de interpretação modificada 142 toma o papel das informações de interpretação inseridas ao mixador/interpretador 926, e em que o sinal de canal 928 toma o papel da representação de sinal upmix 130.
De maneira alternativa, o processador de sinal 148 pode realizar a funcionalidade do decodificador e mixador integrados 950, em que a representação de sinal downmix 110 pode tomar o papel do um ou mais sinais downmix, em que a informação paramétrica relacionada ao objeto 112 pode tomar o papel dos metadados de objeto, em que a matriz de interpretação modificada 142 pode tomar o papel das informações de interpretação inseridas ao decodificador de objeto mais mixador/interpretador 950, e em que os sinais de canal 958 podem tomar o papel da representação de sinal upmix 130.
De maneira alternativa, o processador de sinal 148 pode realizar a funcionalidade do transcodificador de SAOC para MPEG Surround 980, em que a representação de sinal downmix 110 pode tomar o papel do um ou mais sinais downmix, em que a informação paramétrica relacionada ao objeto 112 pode tomar o papel dos metadados de objeto, em que a matriz de interpretação modificada 142 pode tomar o papel das informações de interpretação, e em que o um ou mais sinais downmix 988 em combinação com o fluxo de bits de MPEG Surround 984 pode tomar o papel da representação de sinal upmix 130.
Da mesma forma, para detalhes sobre a funcionalidade do processador de sinal 148, feita referência à descrição do decodificador de SAOC 820, do decodificador e mixador separados 920, do decodificador e mixador integrados 950 e do transcodif icador de SAOC para MPEG Surround 980. Também é feita referência, por exemplo, aos documentos [3] e [4] a respeito da funcionalidade do processador de sinal 148, em que a matriz de interpretação modificada 142, em vez da matriz de interpretação especificada pelo usuário 120, toma o papel das informações de interpretação de entrada nas realizações, de acordo com a invenção.
Detalhes adicionais em relação à funcionalidade do limitador de distorção 140 serão descritos abaixo. 2. APARELHO PARA PROVER UM FLUXO DE BITS QUE REPRESENTA UM SINAL DE ÁUDIO DE MULTICANAIS, DE ACORDO COM A FIGURA lb
A Figura lb apresenta um diagrama de blocos esquemático de um aparelho 150 para prover um fluxo de bits que representa um sinal de áudio de multicanais.
O aparelho 150 é configurado para receber uma pluralidade de sinais de objeto de áudio 160a a 160N. O aparelho 150 é ainda configurado para prover um fluxo de bits 170 que representa o sinal de áudio de multicanais, que é descrito pelos sinais de objeto de áudio 160a a 160N.
O aparelho 150 compreende um downmixador 180 que é configurado para prover um sinal downmix 182 com base na pluralidade de sinais de objeto de áudio 160a a 160N. O aparelho 150 também compreende um provedor de informação paralela 184 que é configurado para prover uma informação paralela paramétrica relacionada ao objeto 186 que descreve características dos sinais de objeto de áudio 160a a 160N e parâmetros de downmix utilizados pelo downmixador 180. O provedor de informação paralela 184 também é configurado para prover um parâmetro de combinação linear 188 que descreve uma contribuição desejada de uma matriz de 32/79 interpretação especificada pelo usuário (desejada) e de uma matriz de interpretação (baixa distorção) alvo para uma matriz de interpretação modificada.
A informação paralela paramétrica relacionada ao objeto 186 pode, por exemplo, compreender uma informação de diferença de nivel por objeto (OLD) que descreve diferenças de nivel por objeto dos sinais de objeto de áudio 160a a 160N (por exemplo, em uma maneira do tipo de faixa) . A informação paralela paramétrica relacionada ao objeto também pode compreender uma informação de correlação inter-objetos (I0C) que descreve correlações entre os sinais de objeto de áudio 160a a 160N. Além disso, a informação paralela paramétrica relacionada ao objeto pode descrever o ganho de downmix (por exemplo, em uma maneira do tipo de objeto) , em que os valores de ganho de downmix são utilizados pelo downmixador 180 a fim de obter o sinal downmix 182 combinando os sinais de objeto de áudio 160a a 160N. A informação paralela paramétrica relacionada ao objeto 186 pode compreender uma informação de diferença de nivel por canal de downmix (DCLD), que descreve as diferenças entre os niveis de downmix para múltiplos canais do sinal downmix 182 (por exemplo, se o sinal downmix 182 for um sinal de multicanais). 0 parâmetro de combinação linear 188 pode, por exemplo, ser um valor numérico entre 0 e 1, que descreve para utilizar somente uma matriz de downmix especificada pelo usuário (por exemplo, para um valor de parâmetro de 0), somente uma matriz de interpretação alvo (por exemplo, para um valor de parâmetro de 1) ou qualquer determinada combinação da matriz de interpretação especificada pelo usuário e da matriz de interpretação alvo intermediária desses extremos (por exemplo, para valores de parâmetro entre 0 e 1).
O aparelho 150 também compreende um formatador de fluxo de bits 190 que é configurado para prover o fluxo de bits 170 de modo que o fluxo de bits compreenda uma representação do sinal downmix 182, da informação paralela paramétrica relacionada ao objeto 186 e do parâmetro de combinação linear 188.
Da mesma forma, o aparelho 150 realiza a funcionalidade do codificador de SAOC 810, de acordo com a Figura 8, ou do codificador de canal, de acordo com a Figuras 9a a 9c. Os sinais de objeto de áudio 160a a 160N são equivalentes aos sinais de objeto a xN recebidos, por exemplo, pelo codificador de SAOC 810. O sinal downmix 182 pode, por exemplo, ser equivalente ao um ou mais sinais downmix 812. A informação paralela paramétrica relacionada ao objeto 186 pode, por exemplo, se equivalente à informação paralela 814 ou aos metadados de objeto. Entretanto, além do dito sinal downmix de 1 canal ou um sinal downmix de multicanais 182 e a dita informação paralela paramétrica relacionada ao objeto 186, o fluxo de bits 170 também pode codificar o parâmetro de combinação linear 188.
Da mesma forma, o aparelho 150, que pode ser considerado um codificador de áudio, tem um impacto em uma manipulação do lado do decodificador do esquema de controle de distorção, que é realizado pelo limitador de distorção 140, ao configura apropriadamente o parâmetro de combinação linear 188, de modo que o aparelho 150 espere uma qualidade de interpretação suficiente provida por um decodificador de áudio (por exemplo, um aparelho 100) que recebe o fluxo de bits 170.
Por exemplo, o provedor de informação paralela 184 pode ajustar o parâmetro de combinação linear em dependência de uma informação de exigência de qualidade, que é recebida de uma interface de usuário opcional 199 do aparelho 150. De maneira alternativa ou além disso, o provedor de informação paralela 184 também pode levar em consideração as características dos sinais de objeto de áudio 160a a 160N, e dos parâmetros de downmixagem do downmixador 180. Por exemplo, o aparelho 150 pode estimar um grau de distorção, que é obtido em um decodif icador de áudio sob a suposição de uma ou mais matrizes de interpretação especificada pelo usuário do pior caso e pode ajustar o parâmetro de combinação linear 188 de modo que uma qualidade de interpretação, que é esperada para ser obtida pelo decodificador de sinal de áudio em consideração desse parâmetro de combinação linear, ainda seja considerada como sendo suficiente pelo provedor de informação paralela 184. Por exemplo, o aparelho 150 pode ajustar o parâmetro de combinação linear 188 a um valor que permite um forte impacto do usuário (influência da matriz de interpretação especificada pelo usuário) na matriz de interpretação modificada, se o provedor de informação paralela 184 descobrir que uma qualidade de áudio de uma representação de sinal upmix não seria degradada gravemente mesmo na presença de configurações de interpretação especificadas pelo usuário extremas. Isso pode, por exemplo, ser o caso se os sinais de objeto de áudio 160a a 160N forem suficientemente semelhantes. Ao contrário, o provedor de informação paralela 184 pode ajustar o parâmetro de combinação linear 188 a um valor que permite um impacto comparativamente pequeno do usuário (ou da matriz de interpretação especificada pelo usuário), se o provedor de informação paralela 184 descobrir que configurações de interpretação extremas poderiam levar a fortes distorções audiveis. Isso pode, por exemplo, ser o caso se os sinais de objeto de áudio 160a a 160N forem significativamente diferentes, de modo que uma separação clara de objetos de áudio no lado do decodificador de áudio seja dificil (ou conectada a distorções audiveis).
Deve ser observado aqui que o aparelho 15 0 pode utilizar o conhecimento para a configuração do parâmetro de combinação linear 188 que está somente disponível no lado para o aparelho 150, mas não no lado de um decodificador de áudio (por exemplo, o aparelho 100), como, por exemplo, uma informação de qualidade de interpretação desejada inserida ao aparelho 150 por meio de uma interface de usuário ou conhecimento detalhado sobre os objetos de áudio separados representados pelos sinais de objeto de áudio 160a e 160N.
Da mesma forma, o provedor de informação paralela 184 pode prover o parâmetro de combinação linear 188 em uma maneira muito significativa. 3. SISTEMA DE SAOC COM UNIDADE DE CONTROLE DE DISTORÇÃO (DCU), DE ACORDO COM A FIGURA 2 3.1 ESTRUTURA DO DECODIFICADOR DE SAOC
A seguir, um processamento realizado por uma unidade de controle de distorção (processamento de DCU) será descrito tendo como referência a Figura 2, que apresenta um diagrama de blocos esquemático de um sistema de SAOC 200. Especificamente, a Figura 2 ilustra a unidade de controle de distorção DCU dentro do sistema de SAOC geral.
Tendo como referência a Figura 2, o decodificador de SAOC 200 é configurado para receber uma representação de sinal downmix 210 que representa, por exemplo, um downmix de sinal de 1 canal ou um downmix de sinal de 2 canais, ou mesmo um sinal downmix tendo mais de dois canais. O decodificador de SAOC 200 é configurado para receber um fluxo de bits de SAOC 212, que compreende uma informação paralela paramétrica relacionada ao objeto, como, por exemplo, uma informação de nivel de diferença de objeto OLD, uma informação de correlação inter-objetos IOC, uma informação de ganho de downmix DMG e, opcionalmente, uma informação de diferença de nivel de canal de downmix DCLD. O decodificador de SAOC 200 também é configurado para obter um parâmetro de combinação linear 214, que também é designado com 8DCU •
Tipicamente, a representação de sinal downmix 210, o fluxo de bits de SAOC 212 e o parâmetro de combinação linear 214 são incluidos em uma representação de fluxo de bits de um conteúdo de áudio.
O decodificador de SAOC 200 também é configurado para receber, por exemplo, de uma interface de usuário, uma entrada de matriz de interpretação 220. Por exemplo, o decodificador de SAOC 200 pode receber uma entrada de matriz de interpretação 220 na forma de uma matriz Mren, que define a contribuição (especificada pelo usuário, desejada) de uma pluralidade de No^ objetos de áudio para 1, 2 ou até mais canais de sinal de áudio de saida (da representação upmix) . A matriz de interpretação Mren pode, por exemplo, ser inserida de uma interface de usuário, em que a interface de usuário pode traduzir 37/79 uma forma especificada pelo usuário diferente da representação de uma configuração de interpretação desejada em parâmetros da matriz de interpretação Mren . Por exemplo, a interface de usuário pode traduzir uma entrada na forma de valores de cursor nivel e uma informação de posição de objeto de áudio em uma matriz de interpretação especificada pelo usuário Mren utilizando algum mapeamento.
Deve ser observado aqui que ao longo de toda a presente descrição, os indices 1 que definem um intervalo de tempo de parâmetro e m que define uma faixa de processamento são algumas vezes omitidos visando à clareza. Não obstante, deve ser mentido em mente que o processamento pode ser realizado individualmente para uma pluralidade de intervalos de tempo de parâmetro subsequentes tendo indices 1 e para uma pluralidade de faixas de frequência tendo indices de faixa de frequência m.
O decodificador de SAOC 200 também compreende uma unidade de controle de distorção DCU 240 que é configurada para receber a matriz de interpretação especificada pelo usuário Mren, pelo menos uma parte das informações de fluxo de bits de SAOC 212 (conforme será descrito em detalhes abaixo) e o parâmetro de combinação linear 214. A unidade de controle de distorção 240 provê a matriz de interpretação modificada Mrenlim .
O decodificador de áudio 200 também compreende uma unidade de decodificação/transcodificação de SAOC 248, que pode ser considerada como um processador de sinal, e que recebe a representação de sinal downmix 210, o fluxo de bits de SAOC 212 e a matriz de interpretação modificada Mrenlim . A unidade de decodificação/transcodificação de SAOC 248 provê uma representação 230 de um ou mais canais de saida, que pode ser considerada como uma representação de sinal upmix. A representação 230 do um ou mais canais de saida pode, por exemplo, tomar a forma de uma representação de dominio de frequência dos canais de sinal de áudio individuais, de uma representação de dominio de tempo de canais de áudio individuais ou de uma representação de multicanais paramétrica. Por exemplo, a representação de sinal upmix 230 toma a forma de uma representação de MPEG surround compreendendo um sinal downmix de MPEG surround e uma informação paralela de MPEG surround.
Deve ser observado que a unidade de decodificação/transcodificação de SAOC 248 pode compreender a mesma funcionalidade que o processador de sinal 148, e pode ser equivalente ao decodificador de SAOC 820, ao decodificador e mixador separados 920, ao decodificador e mixador integrados 950 e ao transcodificador de SAOC para MPEG Surround 980. 3.2 INTRODUÇÃO NA OPERAÇÃO DO DECODIFICADOR DE SAOC
A seguir, uma breve introdução na operação do decodificador de SAOC 200 será dada.
Dentro do sistema de SAOC geral, a unidade de controle de distorção (DCU) é incorporada na cadeia de processamento de decodificador/transcodificador de SAOC entre a interface de interpretação (por exemplo, uma interface de usuário na qual a matriz de interpretação especificada pelo usuário ou uma informação da qual a matriz de interpretação especificada pelo usuário pode ser derivada, é inserida) e a unidade de decodificação/transcodificação de SAOC real.
A unidade de controle de distorção 240 provê uma matriz de interpretação modificada Mren]im utilizando as informações da interface de interpretação (por exemplo, a matriz de interpretação especificada pelo usuário inserida, direta ou indiretamente, por meio da interface de interpretação ou da interface de usuário) e dados de SAOC (por exemplo, dados do fluxo de bits de SAOC 212) . Para mais detalhes, é feita referência à Figura 2. A matriz de interpretação modificada Mren]im pode ser acessada pela aplicação (por exemplo, a unidade de decodificação/transcodificação de SAOC 248), que reflete as configurações de interpretação realmente eficazes.
Com base no cenário de interpretação especificado pelo usuário representado pela matriz de interpretação (especificada pelo usuário) com elementos , a DCU evita configurações de interpretação extremas ao produzir uma matriz modificada compreendendo coeficientes de interpretação limitados, que devem ser utilizados pelo mecanismo de interpretação de SAOC. Para todos os modos operacionais de SAOC, os coeficientes de interpretação finais (processados de DCU) devem ser calculados de acordo com:
O parâmetro e[0,l], que também é designado como um parâmetro de combinação linear, é utilizado para definir o grau de transição da matriz de interpretação especificada pelo usuário para a matriz alvo livre de distorção .
O parâmetro gDCU é derivado do elemento de fluxo de bits "bsDcuParam" de acordo com: 8DCU = DcuParam[bsDcuParam].
Da mesma forma, uma combinação linear entre a matriz de interpretação especificada pelo usuário Mren e a matriz de interpretação alvo livre de distorção Mrentor é formada em dependência do parâmetro de combinação linear gDCU • O parâmetro de combinação linear gDC(/ é derivado de um elemento de fluxo de bits, de modo que não haja computação dificil do dito parâmetro de combinação linear gDcu necessário (pelo menos no lado do decodificador). Também, a derivação do parâmetro de combinação linear gDCU do fluxo de bits, incluindo a representação de sinal downmix 210, o fluxo de bits de SAOC 212 e o elemento de fluxo de bits que representa o parâmetro de combinação linear, dá a um codificador de sinal de áudio uma chance de controlar parcialmente o mecanismo de controle de distorção, que é realizado no lado do decodificador de SAOC.
Há duas versões possiveis da matriz alvo livre de distorção Mzr^tar, adequadas para diferentes aplicações. Ela é controlada pelo elemento de fluxo de bits "bsDcuMode": • ("bsDcuMode" = 0): A interpretação "semelhante ao downmix", onde Mzre™tar corresponde à matriz de downmix normalizada de energia. • ("bsDcuMode" = 1): A interpretação do "melhor empenho", onde M^tar é definido como uma função tanto da matriz de interpretação de downmix como da especificada pelo usuário.
Para resumir, há dois modos de controle de distorção chamados de interpretação "semelhante ao downmix" e interpretação do "melhor empenho", que podem ser selecionados de acordo com os elementos de fluxo de bits "bsDcuMode". Esses dois modos diferem na maneira que sua matriz de interpretação alvo é computada. A seguir, detalhes em relação à computação da matriz de interpretação alvo para os dois modos de interpretação "semelhante ao downmix" e interpretação do "melhor empenho" serão descritos em detalhes. 3.3 INTERPRETAÇÃO "SEMELHANTE AO DOWNMIX" 3.3.1 INTRODUÇÃO
O método de interpretação "semelhante ao downmix" pode tipicamente ser utilizado nos casos onde o downmix é uma referência importante de alta qualidade artistica. A matriz de interpretação "semelhante ao downmix" M'en_DS é computada como onde NlDS representa um escalar de normalização de energia (para cada intervalo de parâmetro l) e DZDS é a matriz de downmix D1 estendida pelas fileiras de elementos zero de modo que o número e a ordem das fileiras de DZDS correspondem à constelação de M^.
Por exemplo, no modo de transcodificação de estéreo de SAOC a multicanais NMPS=6. Da mesma forma, DZDS é do tamanho de NMPSXN (onde N retrata o número de objetos de áudio de entrada) e suas fileiras que representam os canais de saida frontais da esquerda e da direita iguais a Dz (ou fileiras correspondentes de Dz) .
Para facilitar o entendimento do mencionado acima, as definições a seguir da matriz de interpretação e da matriz de downmix devem ser consideradas.
A matriz de interpretação (modificada) Mren.iim aplicada aos objetos de áudio de entrada S determina a saida interpretada alvo como Y = Mren lim S. A matriz de interpretação (modificada) Mren,lim com elementos mi ■ mapeia todos os objetos de entrada i (isto é, objetos de entrada tendo indice de objeto i) aos canais de saida desejados j (isto é, canais de saida tendo indice de canal j). A matriz de interpretação (modificada) Mren,lim é dada por de saida 5.1, para configuração de saida estéreo, para configuração de saida mono.
As mesmas dimensões tipicamente também se aplicam à matriz de interpretação especificada pelo usuário Mren e à matriz de interpretação alvo Mren,tar.
A matriz de downmix D aplicada aos objetos de áudio de entrada S (em um decodificador de áudio) determina o sinal downmix como X = DS .
Para o caso de downmix estéreo, a matriz de downmix D de tamanho 2xN (também designada com D1, para apresentar uma possivel dependência de tempo) com elementos di,j (i = 0,l;j = 0,...,2V-f ) é obtida (em um decodificador de áudio) dos parâmetros DMG e DCLD como
Para o caso de downmix mono, a matriz de downmix D de tamanho IxN com elementos (i = 0; j = 0,...,2V-l) é obtida (em um decodificador de áudio) dos parâmetros de DMG como
Os parâmetros de downmix DMG e DCLD são obtidos do fluxo de bits de SAOC 212. 3.3.2 COMPUTAÇÃO DO ESCALAR DE NORMALIZAÇÃO DE ENERGIA PARA TODOS OS MODOS DE SAOC DE DECODIFICAÇÃO/TRANSCODIFICAÇÃO
Para todos os modos de SAOC de decodificação/transcodificação, a escalar de normalização de energia NlDS é computada utilizando a seguinte equação: 3.4 INTERPRETAÇÃO DO "MELHOR EMPENHO" 3.4.1 INTRODUÇÃO
O método de interpretação do "melhor empenho" pode tipicamente ser utilizado nos casos onde a interpretação alvo é uma referência importante.
A matriz de interpretação do "melhor empenho" descreve uma matriz de interpretação alvo, que depende das informações de downmix e de interpretação. A normalização da energia é representada por uma matriz de tamanho NMPSXM , por isso, provê valores individuais para cada canal de saida. Isso requer diferentes cálculos de para os diferentes modos de operação de SAOC, que são delineados a seguir. A matriz de interpretação do "melhor empenho" é computada como ^renBE “-^ren.tar “ A/N^D', para os seguintes modos de SAOC "x-l-l/2/5/b", "x-2-l/b", , para os seguintes modos de SAOC "x-2-2/5".
Aqui, Dz é a matriz de downmix e representa a matriz de normalização de energia.
O operador de raiz quadrada na equação acima designa uma formação de raiz quadrada de modo de elemento.
A seguir, a computação do valor NBE, que pode ser um escalar de normalização de energia no caso de um modo de decodificação de mono para mono de SAOC e que pode ser uma matriz de normalização de energia no caso de outros modos de decodificação ou transcodificação, será discutida em detalhes. 3.4.2 MODO DE DECODIFICAÇÃO ("x-1-1") DE MONO PARA MONO DE SAOC
Para o modo de SAOC "x-1-1" no qual um sinal downmix mono é decodificado para obter um sinal de saida mono (como uma representação de sinal upmix), o escalar de normalização de energia é computado utilizando a seguinte equação 3.4.3 MODO DE DECODIFICAÇÃO ("x-1-2") DE MONO PARA ESTÉREO DE SAOC
Para o modo de SAOC "x-1-2", no qual um sinal downmix mono é decodificado para obter uma saida estéreo (dois canais) (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho 2x1 é computada utilizando a seguinte equação 3.4.4 MODO DE DECODIFICAÇÃO ("x-l-b") DE MONO
PARA BIAURICULAR DE SAOC Para o modo de SAOC "x-l-b", no qual um sinal downmix mono é decodificado para obter um sinal de saida interpretado biauricularmente (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho 2x1 é computada utilizando a seguinte equação
Os elementos a*™ compreendem (ou são tomados na forma) a matriz de interpretação biauricular alvoAz,m . 3.4.5 MODO DE DECODIFICAÇÃO ("x-2-1") DE MONO PARA ESTÉREO DE SAOC Para o modo de SAOC "x-2-1", no qual um sinal downmix de dois canais (estéreo) é decodificado para obter um sinal de saida de um canal (mono) (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho 1x2 é computada utilizando a seguinte equação onde é a matriz de interpretação mono de tamanho 1X/V . 3.4.6 MODO DE DECODIFICAÇÃO ("x-2-2") DE ESTÉREO PARA ESTÉREO DE SAOC
Para o modo de SAOC "x-2-2", no qual um sinal downmix estéreo é decodificado para obter um sinal de saida estéreo (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho 2x2 é computada utilizando a seguinte equação onde MLn é a matriz de interpretação estéreo de tamanho 2xN . 3.4.7 MODO DE DECODIFICAÇÃO ("x-2-b") ESTÉREO PARA BIAURICULAR DE SAOC
Para o modo de SAOC "x-2-b", no qual um sinal downmix estéreo é decodificado para obter um sinal de saida interpretado biauricularmente (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho 2x2 é computada utilizando a seguinte equação onde A1'"1 é uma matriz de interpretação biauricular de tamanho 2xN . 3.4.8 MODO DE TRANSCODIFICAÇÃO ("x-1-5") DE MONO PARA MULTICANAIS DE SAOC
Para o modo de SAOC "x-1-5", no qual um sinal downmix mono é transcodifiçado para obter um sinal de saida de 5 canais ou de 6 canais (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho NMPSX1 é computada utilizando a seguinte equação 3.4.9 MODO DE TRANSCODIFICAÇÃO ("x-2-5") DE ESTÉREO PARA MULTICANAIS DE SAOC
Para o modo de SAOC "x-2-5", no qual um sinal downmix estéreo é transcodifiçado para obter um sinal de saida de 5 canais ou de 6 canais (como uma representação de sinal upmix), a matriz de normalização de energia de tamanho NMPS'X.'l é computada utilizando a seguinte equação 3.4.10 COMPUTAÇÃO DE J*
Para evitar problemas numéricos ao calcular o D'(DZ) j em 3.4.5, 3.4.6, 3.4.7 e 3.4.9, Jz e modificado em algumas realizações. Primeiro, os autovalores de Jl são calculados, solucionando det(J-^2I) = 0. Os autovalores são sorteados na ordem decrescente ( A ^^2 ) e autovetor correspondente ao maior autovalor é calculado de acordo com a equação acima. É assegurado que exista no x-plano positivo (o primeiro elemento tem de ser positivo). O segundo autovetor é obtido do primeiro por uma rotação de -90 graus: 3.4.11 APLICAÇÃO DA UNIDADE DE CONTROLE DE DISTORÇÃO (DCU) PARA OBJETOS DE ÃUDIO APRIMORADOS (EAO)
A seguir, algumas extensões opcionais em relação à aplicação da unidade de controle de distorção serão descritas, que podem ser implementadas em algumas realizações, de acordo com a invenção.
Para os decodificadores de SAOC que decodificam dados de codificação residuais e, portanto, suportam a manipulação de EAOs, pode ser significativo prover uma segunda parametrização da DCU que permite tirar vantagem da qualidade de áudio aprimorada provida pelo uso de EAOs. Isso á alcançado ao decodificar e utilizar um segundo conjunto alternado de parâmetros de DCU (isto é, bsDcuMode2 e bsDcuParam2) que é adicionalmente transmitido como parte das estruturas de dados que contêm dados residuais (isto é, SAOCExtensionConfigData() e SAOCExtensionFrameData()). Uma aplicação pode fazer uso desse segundo conjunto de parâmetros se decodificar dados de codificação residuais e operar no modo de EAO estrito EAO que é definido pela condição que somente EAOs podem ser modificados arbitrariamente enquanto todos os não EAOs somente se submetem a uma única modificação comum. Especificamente, esse modo de EAO estrito requer cumprimento da duas condições a seguir:
A matriz de downmix e a matriz de interpretação têm as mesmas dimensões (implicando que o número de interpretação canais é igual ao número de canais de downmix).
A aplicação somente emprega coeficientes de interpretação para cada um dos objetos regulares (isto é, não EAOs) que são relacionados a seus coeficientes de downmix correspondentes por um único fator de escalamento comum. 4. FLUXO DE BITS, DE ACORDO COM A FIGURA 3a
A seguir, um fluxo de bits que representa um sinal de áudio de multicanais será descrito tendo como referência a Figura 3a que apresenta uma representação gráfica desse um fluxo de bits 300.
O fluxo de bits 300 compreende uma representação de sinal downmix 302, que é uma representação (por exemplo, uma representação codificada) de um sinal downmix que combina os sinais de áudio de uma pluralidade de objetos de áudio. 0 fluxo de bits 300 também compreende uma informação paralela paramétrica relacionada ao objeto 304 que descreve características do objeto de áudio e, tipicamente, também características de um downmix realizado em um codificador de áudio. A informação paramétrica relacionada ao objeto 304 preferencialmente compreende uma informação de nível de diferença de objeto OLD, uma informação de correlação inter-objetos I0C, uma informação de ganho de downmix DMG e uma informação diferente de nível de canal de downmix DCLD. 0 fluxo de bits 300 também compreende um parâmetro de combinação linear 306 que descreve as contribuições desejadas de uma matriz de interpretação especificada pelo usuário e de uma matriz de interpretação alvo para uma matriz de interpretação modificada (a ser aplicada por um decodificador de sinal de áudio).
Os detalhes opcionais adicionais em relação a esse fluxo de bits 300, que podem ser providos pelo aparelho 150 como o fluxo de bits 170, e que podem ser inseridos no aparelho 100 para obter a representação de sinal downmix 110, a informação paramétrica relacionada ao objeto 112 e o parâmetro de combinação linear 140, ou no aparelho 200 para obter as informações de downmix 210, os informações de fluxo de bits de SAOC 212 e o parâmetro de combinação linear 214, serão descritos a seguir tendo como referência as Figuras 3b e 3c. 5. DETALHES DA SINTAXE DE FLUXO DE BITS 5.1. SINTAXE DE CONFIGURAÇÃO ESPECÍFICA DE SAOC A Figura 3b apresenta uma representação de sintaxe detalhada de uma informação de configuração específica de SAOC.
A configuração específica de SAOC 310, de acordo com a Figura 3b, pode, por exemplo, ser parte de um cabeçote do fluxo de bits 300, de acordo com a Figura 3a.
A configuração específica de SAOC pode, por exemplo, compreender uma configuração de frequência de amostragem que descreve uma frequência de amostragem a ser aplicada por um decodificador de SAOC. A configuração específica de SAOC também compreende uma configuração de modo de atraso baixo que descreve se um modo de atraso baixo ou modo de atraso alto do processador de sinal 148 ou da unidade de decodificação/transcodificação de SAOC 248 deve ser utilizado. A configuração específica de SAOC também compreende uma configuração de resolução de frequência que descreve uma resolução de frequência a ser utilizada pelo processador de sinal 148 ou pela unidade de decodificação/transcodificação de SAOC 248. Além disso, a configuração específica de SAOC pode compreender uma configuração de comprimento de estrutura que descreve um comprimento de estruturas de áudio a serem utilizadas pelo processador de sinal 148 ou pela unidade de decodificação/transcodificação de SAOC 248. Ademais, a configuração específica de SAOC tipicamente compreende uma configuração de número de objetos que descreve um número de objetos de áudio a ser processado pelo processador de sinal 148 ou pela unidade de decodificação/transcodificação de SAOC 248. A configuração de número de objetos também descreve um número de parâmetros relacionados ao objeto incluídos na informação paramétrica relacionada ao objeto 112 ou no fluxo de bits de SAOC 212. A configuração específica de SAOC pode compreender uma configuração de relação de objeto, que designa objetos que têm uma informação paramétrica comum relacionada ao objeto. A configuração especifica de SAOC também pode compreender uma configuração de transmissão de energia absoluta, que indica se uma informação de energia absoluta é transmitida de um codificador de áudio a um decodificador de áudio. A configuração especifica de SAOC também pode compreender uma configuração de número de canais de downmix, que indica se há somente um canal de downmix, se há dois canais de downmix ou se há, opcionalmente, mais de dois canais de downmix. Além disso, a configuração especifica de SAOC pode compreender informações de configuração adicionais em algumas realizações.
A configuração especifica de SAOC também pode compreender informações de configuração de ganho de downmix pós- processamento "bsPdgFlag" que definem se um ganho de downmix pós- processamento para um pós-processamento opcional é transmitido.
A configuração especifica de SAOC também compreende um indicador "bsDcuFlag" (que pode, por exemplo, se um indicador de 1 bit), que define se os valores "bsDcuMode" e "bsDcuParam" são transmitidos no fluxo de bits. Se esse indicador "bsDcuFlag" ter o valor de "1", outro indicador que é marcado "bsDcuMandatory" e um indicador "bsDcuDynamic" são incluidos na configuração especifica de SAOC 310. O indicador "bsDcuMandatory" descreve se o controle de distorção deve ser aplicado por um decodificador de áudio. Se o indicador "bsDcuMandatory" for igual a 1, então, a unidade de controle de distorção deve ser aplicada utilizando os parâmetros "bsDcuMode" e "bsDcuParam", conforme transmitidos no fluxo de bitsSe o indicador "bsDcuMandatory" for igual a "0", então, os parâmetros da unidade de controle de distorção "bsDcuMode" e "bsDcuParam" transmitidos no fluxo de bits são somente valores recomendados e também outras configurações de unidade de controle de distorção poderiam ser utilizadas.
Em outras palavras, um codificador de áudio pode ativar o indicador "bsDcuMandatory" a fim de forçar o uso do mecanismo de controle de distorção em um decodificador de áudio compatível com o padrão, e pode desativar o dito indicador a fim de deixar a decisão se aplica a unidade de controle de distorção, e se sim, quais parâmetros usar para a unidade de controle de distorção, ao decodificador de áudio.
O indicador "bsDcuDynamic" permite uma sinalização dinâmica dos valores "bsDcuMode" e "bsDcuParam". Se o indicador "bsDcuDynamic" for desativado, os parâmetros "bsDcuMode" e "bsDcuParam" são incluídos na configuração específica de SAOC e, de outra forma, os parâmetros "bsDcuMode" e "bsDcuParam" são incluídos nas estruturas de SAOC ou, pelo menos, em algumas das estruturas de SAOC, conforme será discutido posteriormente. Da mesma forma, um codificador de sinal de áudio pode alternar entre a sinalização de uma vez (por pedaço de áudio compreendendo uma única configuração específica de SAOC e, tipicamente, uma pluralidade de estruturas de SAOC) e uma transmissão dinâmica dos ditos parâmetros dentro de algumas ou de todas as estruturas de SAOC.
O parâmetro "bsDcuMode" define o tipo de matriz alvo livre de distorção para a unidade de controle de distorção (DCU), de acordo com a tabela da Figura 3d.
O parâmetro "bsDcuParam" define o valor de parâmetro para o algoritmo da unidade de controle de distorção (DCU), de acordo com a tabela da Figura 3e. Em outras palavras, o parâmetro de 4 bits "bsDcuParam" define um valor indice idx, que pode ser mapeado por um decodif icador de sinal de áudio em um valor de combinação linear gr>cu (também designado com "DcuParam[ind]" ou "DcuParam[idx]"). Assim, o parâmetro "bsDcuParam" representa, em uma maneira quantificada, o parâmetro de combinação linear.
Como pode ser visto na Figura 3b, os parâmetros "bsDcuMandatory", "bsDcuDynamic", "bsDcuMode" e "bsDcuParam" são ajustados a um valor padrão de "0", se o indicador "bsDcuFlag" tiver o valor de "0", o que indica que os parâmetros da unidade de controle de distorção não são transmitidos.
A configuração especifica de SAOC também compreende, opcionalmente, um ou mais bites de alinhamento de byte "ByteAlign()" para trazer a configuração especifica de SAOC ta um comprimento desejado.
Além disso, a configuração especifica de SAOC pode opcionalmente compreender uma configuração de extensão de SAOC "SAOCExtensionConfig()", que compreende parâmetros de configuração adicionais. Entretanto, os ditos parâmetros de configuração não são relevantes para a presente invenção, de modo que uma discussão seja omitida aqui por uma questão de concisão. 5.2. SINTAXE DE ESTRUTURA DE SAOC
A seguir, a sintaxe de uma estrutura de SAOC será descrita tendo como referência a Figura 3c.
A estrutura de SAOC "SAOCFrame" tipicamente compreende valores de diferença de nivel de objeto codificados OLD, conforme discutido antes, que podem ser incluidos nos dados da estrutura de SAOC para uma pluralidade de faixas de frequência ("do tipo faixa") e para uma pluralidade de objetos de áudio (por objeto de áudio).
A estrutura de SAOC também, opcionalmente, compreende valores de energia absoluta codificados NRG que podem ser incluidos para uma pluralidade de faixas de frequência (do tipo faixa).
A estrutura de SAOC também pode compreender valores de correlação inter-objetos codificados IOC, que são incluidos nos dados da estrutura de SAOC para uma pluralidade de combinações de objetos de áudio. Os valores de IOC são tipicamente incluidos em uma maneira do tipo faixa.
A estrutura de SAOC também compreende valores de ganho de downmix codificados DMG, em que há tipicamente uma valor de ganho de downmix por objeto de áudio por estrutura de SAOC.
A estrutura de SAOC também compreende, opcionalmente, diferenças de nivel de canal downmix codificadas DCLD, em que há tipicamente um valor de diferença de nivel de canal de downmix por objeto de áudio e por estrutura de SAOC.
Também, A estrutura de SAOC tipicamente compreende, opcionalmente, valores de ganho de downmix pós- processamento codificados PDG.
Além disso, uma estrutura de SAOC também pode compreender, em alguns circunstâncias, um ou mais parâmetros de controle de distorção. Se o indicador "bsDcuFlag", que é incluido na seção de configuração especifica de SAOC, for igual a "1", o que indica o uso das informações da unidade de controle de distorção no fluxo de bits, e se o indicador "bsDcuDynamic" na configuração especifica de SAOC também tem o valor de "1", o que indica o uso de uma informação de unidade de controle de distorção dinâmica (do tipo de estrutura), a informação de controle de distorção é incluida na estrutura de SAOC, contanto que a estrutura de SAOC seja uma denominada estrutura de SAOC "independente", para a qual o indicador "bsIndependencyFlag" é ativo ou que o indicador "bsDcuDynamicüpdate" é ativo.
Deve ser observado aqui que o indicador "bsDcuDynamicüpdate" é somente incluido da estrutura de SAOC se o indicador "bsIndependencyFlag" estiver inativo e que o indicador "bsDcuDynamicüpdate" define se os valores "bsDcuMode" e "bsDcuParam" são atualizados. Mais precisamente, "bsDcuDynamicüpdate" = = 1 significa que os valores "bsDcuMode" e "bsDcuParam" estão atualizados na estrutura atual, enquanto que "bsDcuDynamicüpdate" = = 0 significa que os valores transmitidos anteriormente são mantidos.
Da mesma forma, os parâmetros "bsDcuMode" e "bsDcuParam", que foram explicados acima, são incluidos na estrutura de SAOC se a transmissão dos parâmetros da unidade de controle de distorção estiverem ativados e uma transmissão dinâmica dos dados da unidade de controle de distorção também estiver ativada e o indicador "bsDcuDynamicüpdate" estiver ativado. Além disso, os parâmetros "bsDcuMode" e "bsDcuParam" também são incluidos na estrutura de SAOC se a estrutura de SAOC for uma estrutura de SAOC "independente", a transmissão dos dados da unidade de controle de distorção estiver ativada e a transmissão dinâmica dos dados da unidade de controle de distorção também estiverem ativados.
A estrutura de SAOC também compreende, 56/79 opcionalmente, dados de preenchimento "byteAlign()" para preencher a estrutura de SAOC a um comprimento desejado.
Opcionalmente, a estrutura de SAOC pode compreender informações adicionais, que são designadas como "SAOCExt ou ExtensionFrame()". Entretanto, essas informações adicionais opcionais de estrutura de SAOC não são relevantes para a presente invenção e, por uma questão de concisão, não serão, portanto, discutidas aqui.
Para completar, deve ser observado que o indicador "bsIndependencyFlag" indica se a codificação sem perdas da estrutura de SAOC atual é feita independentemente da estrutura de SAOC anterior, isto é, se a estrutura de SAOC atual pode ser decodificada sem o conhecimento da estrutura de SAOC anterior. 6. DECODIFICADOR/TRANSCODIFICADOR DE SAOC, DE ACORDO COM A FIGURA 4
A seguir, realizações adicionais dos esquema de limitação do coeficiente de interpretação para o controle de distorção em SAOC serão descritas. 6.1. VISÃO GERAL
A Figura 4 apresenta um diagrama de blocos esquemático de um decodificador de áudio 400, de acordo com uma realização da invenção.
O decodificador de áudio 400 é configurado para receber um sinal downmix 410, um fluxo de bits de SAOC 412, um parâmetro de combinação linear 414 (também designado com A) e uma informação de matriz de interpretação 420 (também designada com R) . O decodificador de áudio 400 é configurado para receber uma representação de sinal upmix, por exemplo, na forma de uma pluralidade de canais de saida 130a a 130M. 0 decodificador de áudio 400 compreende uma unidade de controle de distorção 440 (também designada com DCU) que recebe pelo menos uma parte das informações de fluxo de bits de SAOC do fluxo de bits de SAOC 412, o parâmetro de combinação linear 414 e uma informação de matriz de interpretação 420. A unidade de controle de distorção provê uma informação de interpretação modificada Rnm que pode ser uma informação de matriz de interpretação modificada.
O decodificador de áudio 400 também compreende um decodif icador de SAOC e/ou transcodif icador de SAOC 448, que recebe o sinal downmix 410, o fluxo de bits de SAOC 412 e as informações de interpretação modificadas Rlim e provê, com base nisso, os canais de saida 130a a 130M.
A seguir, a funcionalidade do decodificador de áudio 400, que usa um ou mais esquemas de limitação de coeficiente de interpretação, de acordo com a presente invenção, será discutida em detalhes.
O processamento de SAOC geral é realizado de maneira seletiva de tempo/frequência e pode ser descrito como segue. O codificador de SAOC (por exemplo, o codificador de SAOC 150) extrai as características psicoacústicas (por exemplo, relações e correlações de energia de objeto) de diversos sinais de objeto de áudio de entrada e, então, downmixa eles em um canal mono ou estéreo (por exemplo, o sinal downmix 182 ou o sinal downmix 410). Esse sinal downmix e a informação paralela extraída (por exemplo, a informação paralela paramétrica relacionada ao objeto ou as informações de fluxo de bits de SAOC 412 são transmitidas (ou armazenadas) em formato comprimido utilizando os codificadores de áudio perceptual bem conhecidos. Na extremidade de recepção, o decodificador de SAOC 418 tenta conceitualmente rearmazenar os sinais de objeto originais (isto é, objetos downmixados separados) utilizando a informação paralela 412 transmitida. Esses sinais de objeto aproximados são, então, mixados em um cenário alvo utilizando uma matriz de interpretação. A matriz de interpretação, por exemplo, R ou Rnm é composta dos Coeficientes de Interpretação (RCs) especificados para cada objeto de áudio transmitido e alto-falante de configuração upmix. Esses RCs determinam ganhos e posições espaciais de todos os objetos separados/interpretados.
De maneira eficaz, a separação dos sinais de objeto é raramente ou até nunca executada, uma vez que a separação e a mixagem são realizadas em uma única etapa de processamento combinada que resulta em uma redução enorme da complexidade computacional. Esse esquema é tremendamente eficiente, tanto em termos de taxa de bits de transmissão (somente precisa transmitir um ou dois canais de downmix 182, 410 mais alguma informação paralela 186, 188, 412, 414, em vez de diversos sinais de áudio de objeto individuais) como de complexidade computacional (a complexidade do processamento se refere principalmente ao número de canais de saida em vez do número de objetos de áudio) . 0 decodificador de SAOC transforma (em um nivel paramétrico) os ganhos de objeto e outra informação paralela diretamente nos Coeficientes de Transcodificação (TCs) que são aplicados ao sinal downmix 182, 414 para criar os sinais correspondentes 130a a 130M para o cenário de áudio de saida interpretado (ou sinal downmix pré-processado para uma operação de decodificação adicional, isto é, tipicamente interpretação de MPEG Surround de multicanais).
A qualidade do áudio percebida subjetivamente do cenário de saida interpretado pode ser melhorada pela aplicação de uma unidade de controle de distorção DCU (por exemplo, uma unidade de modificação de matriz de interpretação), conforme descrito em [6]. Essa melhora pode ser alcançada para o preço de aceitação de uma modificação dinâmica moderada das configurações de interpretação alvo. A modificação das informações de interpretação pode ser feita variando em tempo e frequência, o que, em circunstâncias especificas, pode resultar em colorações sonoras não naturais e/ou artefatos de oscilação temporal.
Dentro do sistema de SAOC geral, a DCU pode ser incorporada na cadeia de processamento de decodificador/transcodificador de SAOC na maneira direta. A saber, é colocado na extremidade frontal do SAOC ao controlar os RCs R , vide Figura 4 . 6.2. HIPÓTESE IMPLÍCITA
A hipótese implicita do método de controle indireto considera uma relação entre o nivel de distorção e desvios dos RCs se seus niveis de objetos correspondentes no downmix. Isso tem base na observação que a atenuação/estimulo mais especifico é aplicado pelos RCs a um objeto em particular em relação aos outros objetos, a modificação mais agressiva do sinal downmix transmitido deve ser realizada pelo decodificador/transcodificador de SAOC. Em outras palavras: o maior desvio dos valores de "ganho de objeto" que são relativos entre si, é a maior chance de uma distorção inaceitável ocorrer (assumindo coeficientes de downmix idênticos). 6.3. CÁLCULO DOS COEFICIENTES DE INTERPRETAÇÃO LIMITADOS
Com base no cenário de interpretação especificado pelo usuário representado pelos coeficientes (os RCs) de uma matriz de tamanho ch ob (isto e as fileiras correspondem aos canais de saida 130a a 130M, as colunas aos objetos de áudio de entrada), a DCU evita as configurações de interpretação extremas ao produzir uma matriz modificada lim compreendendo coeficientes de interpretação limitados, que são de fato utilizados pelo mecanismo de interpretação de SAOC 448. Sem perda da generalidade, na descrição subsequente, os RCs são presumidos para serem invariantes em frequência para simplificar a notação. Para todos os modos operacionais de SAOC, os coeficientes de interpretação limitados podem ser derivados como
Isso significa que ao incorporar o parâmetro de transição AG [0,1] (também designado como um parâmetro de combinação linear), uma combinação da matriz de interpretação (especificada pelo usuário) R para uma matriz alvo R pode ser realizada. Em outras palavras, a matriz limitada Rlim representa uma combinação linear da matriz de interpretação R e de uma matriz alvo. Por um lado, a matriz de interpretação alvo poderia ser a matriz de downmix (isto é, os canais de downmix são passados através do transcodificador 448) com um fator de normalização ou outra matriz estática que resulta em uma matriz de transcodificação estática. Essa "interpretação semelhante ao downmix" garante que a matriz de interpretação alvo não introduz quaisquer artefatos de processamento de SAOC e, consequentemente, representa um ponto de interpretação ideal em termos de qualidade de áudio apesar de ser totalmente independente dos coeficientes de interpretação iniciais.
Entretanto, se uma aplicação demandar um cenário de interpretação especifico ou um alto valor de ajuste de usuário em sua configuração de interpretação inicial (especialmente, por exemplo, a posição espacial de um ou mais objetos), a interpretação semelhante ao downmix falha em servir como ponto alvo. Por outro lado, esse ponto pode ser interpretado como "interpretação do melhor empenho" ao considerar tanto os coeficientes de interpretação de downmix como os iniciais (por exemplo, a matriz de interpretação especificada pelo usuário). O objetivo dessa segunda definição da matriz de interpretação alvo é preservar o cenário de interpretação especifico (por exemplo, definido pela matriz de interpretação especificada pelo usuário) da melhor maneira possivel, mas ao mesmo tempo mantendo a degradação audivel devido à manipulação de objeto excessiva em um nivel minimo. 6.4. INTERPRETAÇÃO SEMELHANTE AO DOWNMIX 6.4.1 INTRODUÇÃO
A matriz de downmix D de tamanho Ndm^Nob θ determinada pelo codificador (por exemplo, o codificador de áudio 150) e compreende informações sobre como os objetos de entrada são linearmente combinados no sinal downmix que é transmitido ao decodificador. Por exemplo, com um sinal downmix mono, D reduz a um vetor de única fileira e no caso de downmix estéreo = 2 .
A matriz de "interpretação semelhante ao downmix" RDS é computada como onde NDS representa a escalar de normalização de energia e DR é a matriz de downmix estendida pelas fileiras de elementos zero, de modo que o número e a ordem das fileiras de DR correspondam à constelação de R . Por exemplo, no modo de transcodificação de estéreo para multicanais de SAOC (x-2-5) Ndrm. = 'l e Nch=6 . Da mesma forma DR é de tamanho e suas fileiras que representam os canais de saida frontais esquerdo e direito iguais a D . 6.4.2 TODOS OS MODOS DE SAOC DE DECODIFICAÇÃO/TRANSCODIFICAÇÃO
Para todos os modos de SAOC de decodificação/transcodificação, a escalar de normalização de energia NDS pode ser computada utilizando a seguinte equação onde o operador trace(X) implica a soma de todos os elementos diagonais da matriz X . O (*) implica o operador transposto de conjugado complexo. 6.5. INTERPRETAÇÃO DO MELHOR EMPENHO 6.5.1 INTRODUÇÃO
O método de interpretação do melhor empenho descreve uma matriz de interpretação alvo, que depende das informações de downmix e de interpretação. Tas normalização de energia é representada por uma matriz NBE de tamanhoNch, com isso ela provê valores individuais para cada canal de saida (contanto que haja mais que um canal de saida) . Isso requer diferentes cálculos de NBE para os diferentes modos de operação de SAOC, que são delineados nas seções subsequentes.
A matriz de "interpretação do melhor empenho" é computada como onde D é a matriz de downmix e NBE representa a matriz de normalização de energia. 6.5.2 MODO DE DECODIFICAÇÃO ("x-1-1") DE MONO PARA MONO DE SAOC
Para o modo de SAOC "x-1-1", a escalar de normalização de energia NBE pode ser computada utilizando a seguinte equação 6.5.3 MODO DE DECODIFICAÇÃO ("x-1-2") DE MONO PARA ESTÉREO DE SAOC
Para o modo de SAOC "x-1-2", a matriz de normalização de energia NBE de tamanho 2x1 pode ser computada utilizando a seguinte equação 6.5.4 MODO DE DECODIFICAÇÃO ("x-l-b") DE MONO PARA BIAURICULAR DE SAOC
Para o modo de SAOC "x-l-b", a matriz de normalização de energia NBE de tamanho 2x1 pode ser computada utilizando a seguinte equação
Deve ser observado ainda que aqui ri e r2 consideram/incorporam informações de parâmetro HRTF biauricular.
Também deve ser observado que para todas as 3 equações acima, a raiz quadrada de NBE deve ser considerada, isto é (vide descrição anterior). 6.5.5 MODO DE DECODIFICAÇÃO ("x-2-1") DE ESTÉREO PARA MONO DE SAOC
Para o modo de SAOC "x-2-1", a matriz de normalização de energia NBE de tamanho 1x2 pode ser computada utilizando a seguinte equação onde a matriz de interpretação mono Rr de tamanho lxNob é definida como 6.5.6 MODO DE DECODIFICAÇÃO ("x-2-2") DE ESTÉREO PARA ESTÉREO DE SAOC
Para o modo de SAOC "x-2-2", a matriz de normalização de energia NBE de tamanho 2x2 pode ser computada utilizando a seguinte equação onde a matriz de interpretação de estéreo Z?2 de tamanho 2xNob é definida como 6.5.7 MODO DE DECODIFICAÇÃO ("x-2-b") DE MONO PARA BIAURICULAR DE SAOC
Para o modo de SAOC "x-2-b", a matriz de normalização de energia NBE de tamanho 2x2 pode ser computada utilizando a seguinte equação onde a matriz de interpretação biauricular 7?2 de tamanho 2xNob é definida como
Deve ser ainda observado que aqui r1/n e r2,n consideram/incorporam informações de parâmetro HRTF biauricular. 6.5.8 MODO DE TRANSCODIFICAÇÃO ("x-1-5") DE MONO PARA MULTICANAIS DE SAOC
Para o modo de SAOC "x-1-5", a matriz de normalização de energia NBE de tamanho NchXl pode ser computada utilizando a seguinte equação
Novamente, considerar a raiz quadrada para cada elemento é recomendado ou mesmo necessário em alguns casos. 6.5.9 MODO DE TRANSCODIFICAÇÃO ("x-2-5") DE ESTÉREO PARA MULTICANAIS DE SAOC
Para o modo de SAOC "x-2-5", a matriz de normalização de energia NBE de tamanho Nchx2 pode ser computada utilizando a seguinte equação 6.5.10 COMPUTAÇÃO DO (DD*)"1
Para a computação do termo [DD* j , métodos de regularização podem ser aplicados para evitar resultados de matriz mal colocados. 6.6. CONTROLE DOS ESQUEMAS DE LIMITAÇÃO DO COEFICIENTE DE INTERPRETAÇÃO 6.6.1 EXEMPLO DA SINTAXE DE FLUXO DE BITS
A seguir, uma representação de sintaxe de configuração especifica de SAOC será descrita, tendo como referência a Figura 5a. A configuração especifica de SAOC "SAOCSpecificConfig()" compreende informações de configuração de SAOC convencionais. Ademais, a configuração especifica de SAOC compreende uma adição especifica de DCU 510, que será descrita em mais detalhes a seguir. A configuração especifica de SAOC também compreende um ou mais bits de preenchimento "ByteAlign()", que podem ser utilizados para ajustar o comprimento da configuração especifica de SAOC. Além disso, a configuração especifica de SAOC pode opcionalmente compreender uma configuração de extensão de SAOC, que compreende parâmetros de configuração adicionais.
A adição especifica de DCU 510, de acordo com a Figura 5a, ao elemento de sintaxe de fluxo de bits "SAOCSpecificConfig()", é um exemplo da sinalização de fluxo de bits para o esquema de DCU proposto. Isso se refere à sintaxe descrita na sub-cláusula "5.1 cargas úteis para SAOC" do Padrão de SAOC de rascunho, de acordo com referência [8].
A seguir, a definição de alguns dos parâmetros será dada. "bsDcuFlag" Define se as configurações para DCU são determinadas pelo codificador de SAOC ou decodificador/transcodificador. Mais precisamente, "bsDcuFlag" = 1 significa que os valores "bsDcuMode" e "bsDcuParam" especificados em SAOCSpecificConfig() pelo codificador de SAOC são aplicados ao DCU, enquanto que "bsDcuFlag" = 0 significa que as variáveis "bsDcuMode" e "bsDcuParam" (inicializadas pelos valores padrão) podem ser ainda modificadas pela aplicação de decodificador/transcodificador de SAOC ou usuário. "bsDcuMode" Define o modo do DCU. Mais precisamente, "bsDcuMode" = 0 significa que o modo de interpretação "semelhante ao downmix" é aplicado pelo DCU, enquanto que "bsDcuMode" = 1 que o modo de interpretação "do melhor empenho" é aplicado pelo algoritmo de DCU. "bsDcuParam" Define o valor de parâmetro de combinação para o algoritmo de DCU, em que a tabela da Figura 5b apresenta uma tabela de quantificação para os parâmetros "bsDcuParam".
Os valores possiveis "bsDcuParam" são, nesse exemplo, parte de uma tabela com 16 entradas representadas por 4 bits. De fato, qualquer tabela, maior ou menor, poderia ser utilizada. O espaçamento entre os valores pode ser logarítmico a fim de corresponder à máxima separação de objeto em decibéis. Mas os valores também poderiam ser linearmente espaçados ou uma combinação híbrida de logarítmico e linear ou qualquer outro tipo de escala.
O parâmetro "bsDcuMode" no fluxo de bits torna possível que no lado do codificador se escolha, para a situação, de um algoritmo de DCU ideal. Isso pode ser muito útil, umas vez que algumas aplicações ou conteúdo poderiam se beneficiar do modo de interpretação "semelhante ao downmix", enquanto outras poderiam de beneficiar do modo de interpretação do "melhor empenho".
Tipicamente, o modo de interpretação "semelhante ao downmix" pode ser o método desejado para aplicações nas quais a compatibilidade retrógrada/avançada é importante e o downmix tem qualidades artísticas importantes que precisam ser preservadas. Por outro lado, o modo de interpretação do "melhor empenho" pode ter melhor desempenho em casos nos quais esse não é o caso.
Esses parâmetros de DCU relacionados à presente invenção poderiam, de fato, ser transmitidos em quaisquer outras partes do fluxo de bits de SAOC. Uma localização alternativa seria a utilização do contentor "SAOCExtensionConfig()", onde uma determinada ID de extensão poderia ser utilizada. Ambas essas seções estão localizadas no cabeçote de SAOC, garantindo sobrecarga de taxa de dados mínima.
Outra alternativa é transmitir os dados de DCU nos dados de carga útil (isto é, em SAOCFrame()). Isso permitiria a sinalização variante no tempo (por exemplo, controle adaptativo de sinal) .
Uma abordagem flexível é definir a sinalização de fluxo de bits dos dados de DCU tanto para o cabeçote (isto é, sinalização dinâmica) como nos dados de carga útil (isto é, sinalização dinâmica). Então, um codificador de SAOC é livre para escolher um dos dois métodos de sinalização. 6.7. ESTRATÉGIA DE PROCESSAMENTO
No caso, se as configuração de DCU (por exemplo, o modo de DCU "bsDcuMode" e a configuração de parâmetro de combinação "bsDcuParam") forem explicitamente especificadas pelo codificador de SAOC (por exemplo, "bsDcuFlag"=l) , o decodificador/transcodificador de SAOC aplica esses valores diretamente ao DCU. Se as configurações de DCU não forem explicitamente especificadas (por exemplo, "bsDcuFlag"=0), o decodificador/transcodificador de SAOC utiliza os valores padrão e permite que a aplicação do decodificador/transcodificador de SAOC ou o usuário modifique-os. O primeiro indice de quantificação (por exemplo, idx=0) pode ser utilizado para desabilitar o DCU. De maneira alternativa, o valor padrão de DCU ("bsDcuParam") pode ser "0", isto é, desabilitando o DCU, ou "1", isto é, limitando o preenchimento. 7. AVALIAÇÃO DE DESEMPENHO 7.1. PROJETO DE TESTE DE AUDIÇÃO
Um teste de audição subjetivo foi conduzido para avaliar o desempenho perceptual do conceito de DCM proposto e compara ele aos resultados do processamento de decodificação/transcodificação RM de SAOC regular. Comparado aos outros testes de audição, a tarefa desse teste é considerar a melhor qualidade de reprodução possivel em situações de interpretação extremas ("objetos de solo", "objetos de mutação") em relação a dois aspectos de qualidade: 1. alcançar o objetivo da interpretação (boa atenuação/estimulo dos objetos alvo) 2. qualidade sonora de cenário geral (considerando distorções, artefatos, artificialidade...)
Observe que um processamento de SAOC não modificado pode atender ao aspecto n- 1, mas não ao aspecto n- 2, enquanto simplesmente a utilização do sinal downmix transmitido pode atender ao aspecto n- 2, mas não ao aspecto n- 1.
O teste de audição foi conduzido apresentando somente escolhas reais ao ouvinte, isto é, somente material que está realmente disponível como um sinal no lado do decodificador. Assim, os sinais apresentados são o sinal de saída do decodificador de SAOC regular (não processados pelo DCU) , demonstrando o desempenho basal da saída de SAOC e de SAOC/DCU. Além disso, o caso de interpretação trivial, que corresponde ao sinal downmix, é apresentado no teste de audição.
A tabela da Figura 6a descreve as condições de teste de audição.
Uma vez que o DCU proposto opera utilizando os dados de SAOC regulares e downmixagens e não depende de informações residuais, não foi aplicado codificador central aos sinais downmix de SAOC correspondentes. 7.2. ITENS DO TESTE DE AUDIÇÃO
Os seguintes itens juntos às interpretações extrema e crítica foram escolhidos para o teste de audição atual a partir do material de teste de audição CfP.
A tabela da Figura 6b descreve os itens de áudio dos testes de audição. 7.3. CONFIGURAÇÕES DE DOWNMIX E INTERPRETAÇÃO Os ganhos de objetos de interpretação que são descritos em uma tabela da Figura 6c foram aplicados para os cenários de upmix considerados. 7.4. INSTRUÇÕES DO TESTE DE AUDIÇÃO
Os testes de audição subjetivos foram conduzidos em um ambiente de escuta acusticamente isolado que é designado para permitir audição de alta qualidade. A reprodução fonográfica foi realizada utilizando fones de ouvido (STAX SR Lambda Pro com Lake-People D/A-Converter e STAX SRM-Monitor).
O método do teste seguiu o procedimento utilizado nos testes de verificação de áudio espacial, semelhante ao método "Múltiplos Estimulos com Referência Oculta e Âncoras" (MUSHRA) para a avaliação subjetiva do áudio de qualidade intermediária [2] . O método de teste foi modificado, conforme descrito acima, a fim de avaliar o desempenho perceptual do DCU proposto. Os ouvintes foram instruídos a aderirem às seguintes instruções de teste de audição: "Cenário de aplicação: Imagine que você é o usuário de um sistema de remixagem de música interativo que permite que você faça remixagens dedicadas de material de música. O sistema provê cursores do tipo de mesa de mixagem para cada instrumento para alterar seu nível, posição espacial etc.
Devido à natureza do sistema, algumas mixagens de som extremas podem levar à distorção que degrada a qualidade de som geral. Por outro lado, as mixagens de som com níveis de instrumento semelhantes tendem a produzir qualidade de som melhor.
É o objetivo desse teste avaliar diferentes algoritmos de processamento em relação a seu impacto na potência de modificação sonora e qualidade do som.
Não há "Sinal de referência" nesse teste! Em vez disso, uma descrição das mixagens de som desejadas é dada abaixo.
Para cada item de áudio: - primeiro, leia a descrição das mixagens de som desejadas que você, como um usuário do sistema, gostaria de alcançar Item "BlackCoffee": Seção de metais suaves dentro da mixagem do som Item "VoiceOverMusic": música de fundo suave Item "Audition": Som vocal potente e música suave Item "LovePop": Seção de cordas suaves dentro da mixagem de som - então, gradua os sinais utilizando um grau comum para descrever ambos - alcançar o objetivo da interpretação da mixagem de som desejada - qualidade sonora de cenário geral (considerar distorções, artefatos, artificialidade, distorções espaciais, . . . ) " Um total de 8 ouvintes participou em cada um dos testes realizados. Todos os indivíduos podem ser considerados ouvintes experientes. As condições dos testes foram randomizadas automaticamente para cada item de teste e para cada ouvinte. As respostas subjetivas foram registrada por um programa de teste de audição com base em computador em uma escala que varia de 0 a 100, com cinco intervalos marcados da mesma forma, como na escala de MUSHRA. Uma troca instantânea entre os itens sob teste foi permitida. 7.5. RESULTADOS DOS TESTES DE AUDIÇÃO
Os gráficos apresentados na representação gráfica da Figura 7 apresentam a pontuação média por item sobre todos os ouvintes e o valor médio estatístico sobre todos os itens avaliados junto aos 95% de intervalos de confiança associados.
As seguintes observações podem ser feitas com base nos resultados dos testes de audição conduzidos: Para o teste de audição conduzido, as pontuações de MUSHRA obtidas provam que a funcionalidade de DCU provê um desempenho significativamente melhor em comparação com o sistema RM de SAOC regular no sentido de valores médios estatísticos gerais. Deve ser observado que a qualidade de todos os itens produzidos pelo decodificador de SAOC regular (apresentando artefatos de áudio potentes para as condições de interpretação extremas consideradas) é considerada tão baixa quanto à qualidade das configurações de interpretação idênticas ao downmix que não atendem ao cenário de interpretação desejado absolutamente. Com isso, pode ser concluído que os métodos de DCU propostos levaram à melhoria considerável da qualidade de sinal subjetiva para todos os cenários de teste de audição considerados. 8. CONCLUSÕES
Para resumir a discussão acima, os esquemas de limitação de coeficiente de interpretação para o controle de distorção em SAOC foram descritos. As realizações, de acordo com a invenção, podem ser utilizadas em combinação a técnicas paramétricas para transmissão/armazenamento eficiente em termos de taxa de bits de cenários de áudio que contêm múltiplos objetos de áudio, que foram recentemente propostas (por exemplo, vide as referências [1], [2], [3], [4] e [5]).
Em combinação com a interatividade do usuário na extremidade de recepção, essas técnicas podem convencionalmente (sem o uso dos cenários de limitação do coeficiente de interpretação inventivos) levar a uma baixa qualidade do sinal de saidas se a interpretação de objeto extrema for realizada (vide, por exemplo, a referência [6]).
A presente especificação é focada na Codificação de Objeto de Áudio Espacial (SAOC) que provê meios para uma interface de usuário para a seleção da configuração de reprodução fonográfica desejada (por exemplo, mono, estéreo, 5.1 etc.) e modificação real de tempo interativa do cenário de interpretação de saida desejado ao controlar a matriz de interpretação, de acordo com a preferência pessoal ou outros critérios. Entretanto, a invenção também é aplicável a técnicas paramétricas em geral.
Devido à abordagem paramétrica a base de downmíx/separação/mixagem, a qualidade subjetiva da saida de áudio interpretado depende das configurações de parâmetro de interpretação. A liberdade de seleção das configurações de interpretação da escolha do usuário implica o risco de o usuário selecionar opções de interpretação de objeto inadequadas, como manipulações de ganho extremas de um objeto dentro do cenário sonoro geral. Para um produto comercial, é por todos os meios inaceitáveis produzir qualidade sonora ruim e/ou artefatos de áudio para quaisquer configurações na interface de usuário. A fim de controlar a deterioração excessiva da saida de áudio de SAOC produzida, diversas medidas computacionais foram descritas que têm base na idéia de computação de uma medida de qualidade perceptual do cenário interpretado, e dependendo dessa medida (e, opcionalmente, outras informações), modificar os coeficientes de interpretação realmente aplicados (vide, por exemplo, a referência [6] ) .
O presente documento descreve idéias alternativas para salvaguardar a qualidade sonora subjetiva do cenário de SAOC interpretado para o qual todo o processamento é realizado inteiramente dentro do decodificador/transcodificador de SAOC, e que não envolve o cálculo explicito de medidas sofisticadas da qualidade sonora percebida do cenário sonoro interpretado.
Essas idéias podem, portanto, ser interpretadas em uma maneira estruturalmente simples e extremamente eficiente dentro do quadro do decodificador/transcodificador de SAOC. O algoritmo da Unidade de controle de distorção (DCU) proposto visa os parâmetros de entrada de limitação do decodificador de SAOC, a saber, os coeficientes de interpretação.
Para resumir o mencionado acima, as realizações, de acordo com a invenção, criam um codificador de áudio, um decodificador de áudio, um método de codificação, um método de decodificação e programas de computador para codificar ou decodificar ou sinais de áudio codificados, conforme descritos acima. 9. ALTERNATIVAS DE IMPLEMENTAÇÃO
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um aspecto de uma etapa do método. De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou aspecto correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, alguma ou mais das etapas mais importantes do método podem ser executadas por esse aparelho.
O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão cabeado, como a Internet.
Dependendo de determinadas exigências de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma FROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle legiveis eletronicamente armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legivel por computador.
Algumas realizações, de acordo com a invenção, compreendem um suporte de dados tendo sinais de controle legiveis eletronicamente, que são capazes de cooperar com um sistema de computado programável, de modo que um dos métodos aqui descritos seja realizado.
De modo geral, as realizações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operado para realizar um dos métodos quando o produto de programa de computador for executado em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte legível por máquina.
Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados em um suporte legível por máquina.
Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador for executado em um computador.
Uma realização adicional dos métodos inventivos é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos aqui descritos. 0 suporte de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.
Uma realização adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
Uma realização adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável configurado ou adaptado para realizar um dos métodos aqui descritos.
Uma realização adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos aqui descritos.
Em algumas realizações, um dispositivo de lógica programável (por exemplo, uma matriz lógica de campo programável) pode ser utilizado para realizar alguma ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, uma matriz lógica de campo programável pode cooperar com um microprocessador a fim de realizar um dos métodos aqui descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
As realizações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que modificações e variações das disposições e dos detalhes aqui descritos serão aparentes aos técnicos no assunto. Pretende-se, portanto, ser limitada somente ao escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das realizações aqui.
REFERÊNCIAS [1] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [2] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752. [3] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [4] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 5 7377. [5] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2. [6] US patent application 61/173,456, METHODS, 10 APPARATUS, AND COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING [7] EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality", Doc. B/AIM022, October 1999. 15 [8] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10843, "Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding (SAOC)", 89th MPEG Meeting, London, UK, July 2009.
Claims (20)
1. APARELHO DE PROCESSAMENTO DE ÁUDIO (100; 200) PARA PROVER UMA REPRESENTAÇÃO DE SINAL UPMIX (130; 230) COM BASE EM UMA REPRESENTAÇÃO DE SINAL DOWNMIX (110; 210) E UMA INFORMAÇÃO PARAMÉTRICA RELACIONADA AO OBJETO, que são incluídas em uma representação de fluxo de bits (300) de um conteúdo de áudio, e em dependência de uma matriz de interpretação especificada pelo usuário (144, Mren) que define uma contribuição desejada de uma pluralidade de objetos de áudio a um, dois ou mais canais de áudio de saída, o aparelho é caracterizado por compreender: um limitador de distorção (140; 240) configurado para obter uma matriz de interpretação modificada (142; Mreíllim) utilizando uma combinação linear de uma matriz de interpretação especificada pelo usuário (Mren) e uma matriz de interpretação alvo livre de distorção (M ) em dependência de um parâmetro de ren,tar combinação linear (146; gDCU ) ; e um processador de sinal (148; 248) configurado para obter uma representação de sinal upmix com base na representação de sinal downmix e a informação paramétrica relacionada ao objeto utilizando a matriz de interpretação modificada; em que o aparelho é configurado para avaliar um elemento de fluxo de bits (306; bsDcuParameter) que representa o parâmetro de combinação linear (146; gDCU ) a fim de obter o parâmetro de combinação linear.
2. APARELHO (100; 200), de acordo com a reivindicação 1, caracterizado por o limitador de distorção é configurado para obter a matriz de interpretação alvo (MreBíar) de modo que a matriz de interpretação alvo seja uma matriz de interpretação alvo livre de distorção.
3. APARELHO (100; 200), de acordo com a reivindicação 1 ou reivindicação 2, caracterizado por o limitador de distorção é configurado para obter a matriz de interpretação modificada Mzr’™lim de acordo com: em que gDCD designa o parâmetro de combinação linear, cujo valor é um intervalo [0,1]; em que Mzr’™ designa a matriz de interpretação especificada pelo usuário; e em que designa a matriz de interpretação alvo.
4. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3, caracterizado por o limitador de distorção é configurado para obter a matriz de interpretação alvo (ürentar ) de modo que a matriz de interpretação alvo seja uma matriz de interpretação alvo semelhante ao downmix.
5. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 4, caracterizado por o limitador de distorção é configurado para escalar uma matriz de downmix estendida (DzflS) utilizando uma escalar de normalização de energia (y]NlDS |, para obter a matriz de interpretação alvo (Mren,tar ) r em que a matriz de downmix estendida é uma versão estendida de uma matriz de downmix, uma ou mais fileiras dessa matriz de downmix descrevem contribuições de uma pluralidade de sinais de objeto de áudio a um ou mais canais da representação de sinal downmix, estendida pelas fileiras de elementos zero, de modo que diversas fileiras da matriz de downmix estendida sejam idênticas a uma constelação de interpretações descrita pela matriz de interpretação especificada pelo usuário ( Mr,,r ) .
6. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3, caracterizado por o limitador de distorção é configurado para obter a matriz de interpretação alvo (Mren,tar ) r de modo que a matriz de interpretação alvo seja uma matriz de interpretação alvo do melhor empenho.
7. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3 ou 6, caracterizado por o limitador de distorção é configurado para obter a matriz de interpretação alvo (Mre„;tor), de modo que a matriz de interpretação alvo dependa de uma matriz de downmix (D) e da matriz de interpretação especificada pelo usuário ( M/v,r ) .
8. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3, 6 ou 7, em que o limitador de distorção é configurado para computar uma matriz (NB£) caracterizada por compreender valores de normalização de energia individual de canal para uma pluralidade de canais de áudio de saida do aparelho para prover uma representação de sinal upmix, de modo que um valor de normalização de energia para um determinado canal de áudio de saida do aparelho descreva, pelo menos aproximadamente, uma proporção entre uma soma dos valores de interpretação de energia associados ao determinado canal de áudio de saida na matriz de interpretação especificada pelo usuário para uma pluralidade de objetos de áudio e uma soma de valores de downmix de energia para a pluralidade de objetos de áudio; e em que o limitador de distorção é configurado para escalar um conjunto de valores de downmix utilizando um valor de normalização de energia individual por canal, para obter um conjunto de valores de interpretação da matriz de interpretação alvo (ürentar') associada ao determinado canal de saida.
9. APARELHO (100; 200), de acordo com uma das reivindicações Ia3e6a8, em que o limitador de distorção é configurado para computar uma matriz () caracterizada por compreender os valores de normalização de energia individuais por canal para uma pluralidade de canais de áudio de saida, de acordo com: para o caso de um downmix de representação de sinal de 1 canal e a sinal de saida de 2 canais do aparelho; ou de acordo com: para o caso de um downmix de representação de sinal de 1 canal e um sinal de saida interpretado biauricular do aparelho; ou para o caso de um downmix de representação de sinal de 1 canal e um sinal de saída de NMPS canais do aparelho; em que m1-™ designa os coeficientes de interpretação da matriz de interpretação especificada pelo usuário (Mzr’™lim) que descrevem uma contribuição desejada de um objeto de áudio tendo indice de objeto j para um primeiro canal de áudio de saida do aparelho; em que mz’™ designa os coeficientes de interpretação da matriz de interpretação especificada pelo usuário (Mzr’™ ) que descrevem uma contribuição desejada de um objeto de áudio tendo indice de objeto j a um segundo canal de áudio de saida do aparelho; em que íiz’“ e a1-™ designam os coeficientes de interpretação da matriz de interpretação especificada pelo usuário (Mzr’™iim) que descrevem uma contribuição desejada de um objeto de áudio tendo indice de objeto j para um primeiro e segundo canais de áudio de saida do aparelho e levando em consideração as informações HRTF paramétricas. em que dZ;. designa um coeficiente de downmix que descreve uma contribuição de um objeto de áudio tendo um indice de objeto j para uma representação de sinal downmix; e em que £ designa uma constante aditiva para evitar a divisão por zero; e em que o limitador de distorção é configurado para computar a matriz de interpretação alvo [MzreBtar ] de acordo com: em que D1 designa uma matriz de downmix compreendendo o coeficiente de downmix dj.
10. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3 ou 6 a 7, caracterizado por o limitador de distorção ser configurado para computar uma matriz que descreve uma normalização de energia individual por canal para uma pluralidade de canais de áudio de saida do aparelho em dependência da matriz de interpretação especificada pelo usuário (Mre„) e uma matriz de downmix D; e em que o limitador de distorção é configurado para aplicar a matriz que descreve a normalização de energia individual por canal para obter um conjunto de coeficientes de interpretação da matriz de interpretação alvo (üren tar ) associado a um determinado canal de áudio de saida do aparelho como uma combinação linear de conjuntos de valores de downmix associados aos diferentes canais da representação de sinal downmix.
11. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3 ou 6 a 7 ou 10, caracterizado por o limitador de distorção é configurado para computar uma matriz que descreve a normalização de energia individual por canal para uma pluralidade de canais de áudio de saida, de acordo com: para o caso de um downmix de representação de sinal de 2 canais e um sinal de áudio de saida de multicanais do aparelho; em que Mzr’™ designa a matriz de interpretação especificada pelo usuário que descreve contribuições desejadas especificadas pelo usuário de uma pluralidade de sinais de objeto de áudio ao sinal de áudio de saida de multicanais do aparelho; em que DZ designa uma matriz de downmix que descreve contribuições de uma pluralidade de sinais de objeto de áudio para a representação de sinal downmix; em que em que o limitador de distorção é configurado para computar a matriz de interpretação alvo ülrentar de acordo com
12. APARELHO (100; 200), de acordo com as reivindicações 1 a 3 ou 6 a 7 ou 10, caracterizado por o limitador de distorção ser configurado para computar uma matriz Ng£ de acordo com para o caso de um downmix de representação de sinal de 2 canais e um sinal de áudio de saida de 1 canal do aparelho, ou de acordo com para o caso de um downmix de representação de sinal de 2 canais e um sinal de áudio de saida interpretado de maneira biauricular do aparelho; em que Mzr’™ designa a matriz de interpretação especificada pelo usuário que descreve contribuições desejadas especificadas pelo usuário de uma pluralidade de sinais de objeto de áudio ao sinal de saida do aparelho; em que DZdesigna uma matriz de downmix que descreve contribuições de uma pluralidade de sinais de objeto de áudio para uma representação de sinal downmix; em que AZ,m designa uma matriz de interpretação biauricular que tem base na matriz de interpretação especificada pelo usuário e parâmetros de uma função de transferência relacionada à cabeça.
13. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 3 ou 6 a 7, caracterizado por o limitador de distorção é configurado para computar um escalar de normalização de energia Ng£ de acordo com em que designa um coeficiente de interpretação da matriz de interpretação especificada pelo usuário (Mzre“ ) que descreve uma contribuição desejada de um objeto de áudio tendo indice de objeto j para um sinal de áudio de saída do aparelho; em que dj designa um coeficiente de downmix que descreve uma contribuição de um objeto de áudio tendo índice de objeto j para uma representação de sinal downmix; e em que £ designa uma constante aditiva para evitar divisão por zero.
14. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 13, caracterizado por o aparelho ser configurado para ler um valor índice (idx) que representa um parâmetro de combinação linear (gDCU ) a partir da representação de fluxo de bits do conteúdo de áudio e para mapear o valor índice no parâmetro de combinação linear (gDCU ) utilizando uma tabela de quantificação de parâmetro.
15. APARELHO (100; 200), de acordo com a reivindicação 14, caracterizado por a tabela de quantificação descreve uma quantificação não uniforme, em que valores menores do parâmetro de combinação linear (gDCU ) , que descrevem uma contribuição mais forte da matriz de interpretação especificada pelo usuário (Mre(j) na matriz de interpretação modificada (Mre/jlim), são quantificados com resolução maior.
16. APARELHO (100; 200), de acordo com uma das reivindicações 1 a 15, caracterizado por o aparelho ser configurado para avaliar um elemento de fluxo de bits (bsDcuMode) que descreve um modo de limitação de distorção, e em que o limitador de distorção é configurado para obter seletivamente a matriz de interpretação alvo de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo semelhante ao downmix, ou de modo que uma matriz de interpretação alvo seja uma matriz de interpretação alvo do melhor empenho.
17. APARELHO (150) PARA PROVER UM FLUXO DE BITS (170) QUE REPRESENTA UM SINAL DE ÁUDIO DE MULTICANAIS, o aparelho é caracterizado por compreender: um downmixador (180) configurado para prover um sinal downmix (182) com base em uma pluralidade de sinais de objeto de áudio (160a-160N); um provedor de informação paralela (184) configurado para prover uma informação paralela paramétrica relacionada ao objeto (186) que descreve características dos sinais de objeto de áudio (160a-160N) e dos parâmetros de downmix, e um parâmetro de combinação linear (188) que descreve contribuições desejadas de uma matriz de interpretação especificada pelo usuário (Mre„) e de uma matriz de interpretação alvo (Hrentar) para uma matriz de interpretação modificada (Mreíjlim ) a ser utilizada por um aparelho (100; 200) para prover uma representação de sinal upmix com base no fluxo de bits; e um formatador de fluxo de bits (190) configurado para prover um fluxo de bits (170) compreendendo uma representação do sinal downmix, da informação paralela paramétrica relacionada ao objeto e do parâmetro de combinação linear.
18. MÉTODO DE PROCESSAMENTO DE ÁUDIO PARA PROVER UMA REPRESENTAÇÃO DE SINAL UPMIX COM BASE EM UMA REPRESENTAÇÃO DE SINAL DOWNMIX E UMA INFORMAÇÃO PARAMÉTRICA RELACIONADA AO OBJETO, que são incluídas em uma representação de fluxo de bits de um conteúdo de áudio e em uma dependência de uma matriz de interpretação especificada pelo usuário que define uma contribuição desejada de uma pluralidade de objetos de áudio para um, dois ou mais canais de áudio de saida, o método é caracterizado por compreender: avaliação de um elemento de fluxo de bits que representa um parâmetro de combinação linear, a fim de obter o parâmetro de combinação linear; obtenção de uma matriz de interpretação modificada utilizando uma combinação linear de uma matriz de interpretação especificada pelo usuário e uma matriz de interpretação alvo livre de distorção em dependência do parâmetro de combinação linear; e obtenção da representação de sinal upmix com base na representação de sinal downmix e a informação paramétrica relacionada ao objeto utilizando a matriz de interpretação modificada.
19. MÉTODO PARA PROVER UM FLUXO DE BITS QUE REPRESENTA UM SINAL DE ÁUDIO DE MULTICANAIS, o método é caracterizado por compreender: provisão de um sinal downmix com base em uma pluralidade de sinais de objeto de áudio; provisão de uma informação paralela paramétrica relacionada ao objeto que descreve características dos sinais de objeto de áudio e parâmetros de downmix, e um parâmetro de combinação linear que descreve contribuições desejadas de uma matriz de interpretação especificada pelo usuário e de uma matriz de interpretação alvo para uma matriz de interpretação modificada; e provisão de um fluxo de bits compreendendo uma representação do sinal downmix, da informação paralela paramétrica relacionada ao objeto e do parâmetro de combinação linear; em que a matriz de interpretação especificada pelo usuário define uma contribuição desejada de uma pluralidade de objetos de áudio para um, dois ou mais canais de áudio de saida.
20. FLUXO DE BITS (3 00) QUE REPRESENTA UM SINAL DE ÁUDIO DE MULTICANAIS, o fluxo de bits é caracterizado por compreender: uma representação (302) de um sinal downmix que combina sinais de áudio de uma pluralidade de objetos de áudio: uma informação paramétrica relacionada ao objeto (304) que descreve características do objetos de áudio; e um parâmetro de combinação linear (306) que descreve contribuições desejadas de uma matriz de interpretação especificada pelo usuário e de uma matriz de interpretação alvo para uma matriz de interpretação modificada.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US26304709P | 2009-11-20 | 2009-11-20 | |
US61/263,047 | 2009-11-20 | ||
US36926110P | 2010-07-30 | 2010-07-30 | |
EP10711452.5 | 2010-07-30 | ||
EP10171452 | 2010-07-30 | ||
US61/369,261 | 2010-07-30 | ||
PCT/EP2010/067550 WO2011061174A1 (en) | 2009-11-20 | 2010-11-16 | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112012012097A2 BR112012012097A2 (pt) | 2017-12-12 |
BR112012012097B1 true BR112012012097B1 (pt) | 2021-01-05 |
Family
ID=44059226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112012012097-2A BR112012012097B1 (pt) | 2009-11-20 | 2010-11-16 | aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear |
Country Status (15)
Country | Link |
---|---|
US (1) | US8571877B2 (pt) |
EP (1) | EP2489038B1 (pt) |
JP (1) | JP5645951B2 (pt) |
KR (1) | KR101414737B1 (pt) |
CN (1) | CN102714038B (pt) |
AU (1) | AU2010321013B2 (pt) |
BR (1) | BR112012012097B1 (pt) |
CA (1) | CA2781310C (pt) |
ES (1) | ES2569779T3 (pt) |
MX (1) | MX2012005781A (pt) |
MY (1) | MY154641A (pt) |
PL (1) | PL2489038T3 (pt) |
RU (1) | RU2607267C2 (pt) |
TW (1) | TWI441165B (pt) |
WO (1) | WO2011061174A1 (pt) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2011011399A (es) | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
CN108989721B (zh) | 2010-03-23 | 2021-04-16 | 杜比实验室特许公司 | 用于局域化感知音频的技术 |
KR20120071072A (ko) * | 2010-12-22 | 2012-07-02 | 한국전자통신연구원 | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 |
EP2727383B1 (en) | 2011-07-01 | 2021-04-28 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
MX351193B (es) * | 2012-08-10 | 2017-10-04 | Fraunhofer Ges Forschung | Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos. |
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
CN108806706B (zh) | 2013-01-15 | 2022-11-15 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
WO2014112793A1 (ko) * | 2013-01-15 | 2014-07-24 | 한국전자통신연구원 | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 |
EP2804176A1 (en) | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
RU2630754C2 (ru) | 2013-05-24 | 2017-09-12 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
JP6248186B2 (ja) | 2013-05-24 | 2017-12-13 | ドルビー・インターナショナル・アーベー | オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
EP3005353B1 (en) * | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
US10049683B2 (en) | 2013-10-21 | 2018-08-14 | Dolby International Ab | Audio encoder and decoder |
WO2015073454A2 (en) * | 2013-11-14 | 2015-05-21 | Dolby Laboratories Licensing Corporation | Screen-relative rendering of audio and encoding and decoding of audio for such rendering |
EP2879131A1 (en) | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
JP6439296B2 (ja) * | 2014-03-24 | 2018-12-19 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
WO2015183060A1 (ko) * | 2014-05-30 | 2015-12-03 | 삼성전자 주식회사 | 오디오 객체를 이용한 오디오 콘텐트 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
CN105227740A (zh) * | 2014-06-23 | 2016-01-06 | 张军 | 一种实现移动终端三维声场听觉效果的方法 |
CN106796809B (zh) | 2014-10-03 | 2019-08-09 | 杜比国际公司 | 个性化音频的智能访问 |
TWI587286B (zh) | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
CN105895086B (zh) * | 2014-12-11 | 2021-01-12 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
CN105989845B (zh) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
WO2017035281A2 (en) | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
CN108665902B (zh) * | 2017-03-31 | 2020-12-01 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
BR112020015835A2 (pt) * | 2018-04-11 | 2020-12-15 | Dolby International Ab | Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof |
GB2593136B (en) * | 2019-12-18 | 2022-05-04 | Nokia Technologies Oy | Rendering audio |
CN113641915B (zh) * | 2021-08-27 | 2024-04-16 | 北京字跳网络技术有限公司 | 对象的推荐方法、装置、设备、存储介质和程序产品 |
US20230091209A1 (en) * | 2021-09-17 | 2023-03-23 | Nolan Den Boer | Bale ripper assembly for feed mixer apparatus |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60326782D1 (de) * | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
KR100663729B1 (ko) * | 2004-07-09 | 2007-01-02 | 한국전자통신연구원 | 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 |
CN101138274B (zh) | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
JP4966981B2 (ja) * | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
WO2007111568A2 (en) * | 2006-03-28 | 2007-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for a decoder for multi-channel surround sound |
AU2007271532B2 (en) * | 2006-07-07 | 2011-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for combining multiple parametrically coded audio sources |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
EP2595152A3 (en) * | 2006-12-27 | 2013-11-13 | Electronics and Telecommunications Research Institute | Transkoding apparatus |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
KR100998913B1 (ko) * | 2008-01-23 | 2010-12-08 | 엘지전자 주식회사 | 오디오 신호의 처리 방법 및 이의 장치 |
AU2009221443B2 (en) * | 2008-03-04 | 2012-01-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for mixing a plurality of input data streams |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
-
2010
- 2010-11-16 AU AU2010321013A patent/AU2010321013B2/en active Active
- 2010-11-16 MX MX2012005781A patent/MX2012005781A/es active IP Right Grant
- 2010-11-16 PL PL10779542T patent/PL2489038T3/pl unknown
- 2010-11-16 BR BR112012012097-2A patent/BR112012012097B1/pt active IP Right Grant
- 2010-11-16 JP JP2012539298A patent/JP5645951B2/ja active Active
- 2010-11-16 CA CA2781310A patent/CA2781310C/en active Active
- 2010-11-16 WO PCT/EP2010/067550 patent/WO2011061174A1/en active Application Filing
- 2010-11-16 RU RU2012127554A patent/RU2607267C2/ru not_active Application Discontinuation
- 2010-11-16 CN CN201080062050.2A patent/CN102714038B/zh active Active
- 2010-11-16 MY MYPI2012002219A patent/MY154641A/en unknown
- 2010-11-16 KR KR1020127013091A patent/KR101414737B1/ko active IP Right Grant
- 2010-11-16 EP EP10779542.9A patent/EP2489038B1/en active Active
- 2010-11-16 ES ES10779542.9T patent/ES2569779T3/es active Active
- 2010-11-19 TW TW099139952A patent/TWI441165B/zh active
-
2012
- 2012-05-18 US US13/475,084 patent/US8571877B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
ES2569779T3 (es) | 2016-05-12 |
KR20120084314A (ko) | 2012-07-27 |
CN102714038A (zh) | 2012-10-03 |
US8571877B2 (en) | 2013-10-29 |
TWI441165B (zh) | 2014-06-11 |
WO2011061174A1 (en) | 2011-05-26 |
MY154641A (en) | 2015-07-15 |
JP5645951B2 (ja) | 2014-12-24 |
US20120259643A1 (en) | 2012-10-11 |
AU2010321013A1 (en) | 2012-07-12 |
CA2781310C (en) | 2015-12-15 |
MX2012005781A (es) | 2012-11-06 |
RU2012127554A (ru) | 2013-12-27 |
CA2781310A1 (en) | 2011-05-26 |
EP2489038A1 (en) | 2012-08-22 |
EP2489038B1 (en) | 2016-01-13 |
RU2607267C2 (ru) | 2017-01-10 |
CN102714038B (zh) | 2014-11-05 |
TW201131553A (en) | 2011-09-16 |
AU2010321013B2 (en) | 2014-05-29 |
BR112012012097A2 (pt) | 2017-12-12 |
JP2013511738A (ja) | 2013-04-04 |
KR101414737B1 (ko) | 2014-07-04 |
PL2489038T3 (pl) | 2016-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112012012097B1 (pt) | aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear | |
JP5554830B2 (ja) | ダウンミックス信号表現に基づいたアップミックス信号表現の供給のための一つ以上の調整されたパラメータを供給するための装置、オブジェクト関連のパラメトリック情報を用いたオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法およびコンピュータ・プログラム | |
CN112151049B (zh) | 解码器、编码器、产生音频输出信号的方法及编码方法 | |
ES2529219T3 (es) | Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión | |
JP5758902B2 (ja) | ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム | |
PT2483887T (pt) | Descodificador de sinal de áudio mpeg-saoc, método para fornecer uma representação de sinal de mistura ascendente usando descodificação mpeg-saoc e programa de comutador usando um valor comum de parâmetros de correlação inter-objetos dependente de tempo/frequência | |
BR112014010062B1 (pt) | Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio | |
BRPI1005299B1 (pt) | aparelho e método para realizar o upmmix em um sinal de áudio downmix | |
BR112012008921B1 (pt) | Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 05/01/2021, OBSERVADAS AS CONDICOES LEGAIS. |
|
B25G | Requested change of headquarter approved |
Owner name: FRAUNHOFER - GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN TEN FORSCHUNG E.V. (DE) ; DOLBY INTERNATIONAL AB. (IE) |