BRPI1009648B1

BRPI1009648B1 - decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata

Info

Publication number: BRPI1009648B1
Application number: BRPI1009648-5A
Authority: BR
Inventors: Oliver Hellmuth; Cornelia FALCH; Jürgen Herre; Johannes Hilpert; Falko Ridderbusch; Leonid Terentiev
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2009-06-24
Filing date: 2010-06-23
Publication date: 2020-12-29
Also published as: ES2524428T3; RU2558612C2; PL2446435T3; CN102460573A; KR20120023826A; CN103474077A; EP2535892A1; TW201108204A; MY154078A; JP2012530952A; US20120177204A1; PL2535892T3; CN102460573B; US8958566B2; RU2012101652A; CA2766727C; HK1180100A1; CN103489449A; AU2010264736B2; AR077226A1

Abstract

Decodificador de Sinal de Áudio, Método para Decodificar um Sinal de Áudio e Programa de Computador com o uso de Etapas de Processamento de Objeto de Áudio em Cascata Um decodificador de sinal de áudio para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e de uma informação paramétrica relacionada a um objeto compreende um separador de objeto configurado para decompor a representação de sinal downmix, para oferecer uma primeira informação de áudio descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio e uma segunda informação de áudio descrevendo um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo de uma representação de sinal downmix e com o uso de pelo menos parte da informação paramétrica relacionada a um objeto. O decodificador de sinal de áudio também compreende um processador de sinal de áudio configurado para receber uma segunda informação de áudio e processar uma segunda informação de áudio dependendo da informação paramétrica relacionada a um objeto, para obter uma versão processada da segunda informação de áudio. O decodificador de sinal de áudio também compreende um (...).

Description

Campo Técnico

Configurações de acordo com a invenção referem-se a um decodificador de sinal de áudio para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e informações paramétricas relacionadas a um objeto.

Outras configurações de acordo com a invenção referem-se a um método para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e informações paramétricas relacionadas a um objeto.

Outras configurações de acordo com a invenção | referem-se a um programa de computador.

Algumas configurações de acordo com a invenção referem-se a um sistema de Karaokê/Solo SAOC aprimorado.

Histórico da Invenção

Em sistemas de áudio modernos, deseja-se transferir e armazenar informações de áudio de forma eficiente em termos de taxa de bits. Além disso, comumente deseja-se reproduzir teores de áudio com o uso de uma pluralidade de dois ou mais alto- falantes, espacialmente distribuídos em uma sala. Nesses casos, deseja-se explorar as capacidades dessa disposição de múltiplos alto-falantes para permitir que um usuário identifique espacialmente diferentes teores de áudio ou itens diferentes de um teor de áudio. Isso pode ser obtido pela distribuição individual de diferentes teores de áudio aos diferentes alto-falantes.

Em outras palavras, na arte de processamento de áudio, transmissão de áudio e armazenamento de áudio, há um crescente desejo de gerenciar teores de canais múltiplos a fim de aprimorar a impressão auditiva. 0 uso de teor de áudio de canais múltiplos traz aperfeiçoamentos significativos para o usuário. Por 5 exemplo, pode-se obter uma impressão auditiva tridimensional, que traz um aperfeiçoamento na satisfação do usuário em aplicações de entretenimento. No entanto, os teores de áudio de canais múltiplos também são úteis em ambientes profissionais, por exemplo, em aplicações de conferência telefônica, porque a inteligibilidade de 10 alto-falantes pode ser aumentada com o uso de reprodução de áudio de canais múltiplos.

No entanto, também é desejável ter uma boa compensação entre qualidade de áudio e exigências de taxa de bits a fim de evitar uma carga de recursos excessiva causada por 15 aplicações de canais múltiplos.

Recentemente, técnicas paramétricas para transmissão eficiente em taxa de bits e/ou armazenamento de cenas de áudio com múltiplos objetos de áudio foram propostas, por exemplo, Binaural Cue Coding (Tipo I) (vide, por exemplo, a 20 referência [BCC]), Joint Source Coding (vide, por exemplo, a referência [JSC] e MPEG Spatial Audio Object Coding (SAOC) (vide, por exemplo, as referências [SAOC1], [SAOC2]).

Essas técnicas têm o objetivo de reconstruir perceptualmente a cena de saida de áudio desejada em vez de fazê- 25 lo por meio de combinação de forma de onda.

A Fig. 8 apresenta uma visão geral do sistema (aqui: MPEG SAOC). O sistema MPEG SAOC 800 apresentado na Fig. 8 compreende um codificador SAOC 810 e um decodificador SAOC 820. O codificador SAOC 810 recebe uma pluralidade de sinais de objeto xx a xN, que podem ser representados, por exemplo, como sinais de tempo-dominio ou sinais de tempo-frequência-dominio (por exemplo, na forma de um conjunto de coeficientes de transformação de uma 5 transformação de tipo de Fourier, ou na forma de sinais sub-banda de QMF) . O codificador SAOC 810 tipicamente também recebe coefic- ientes de downmix di a dN, que são associados com os sinais de objeto de xx a xN. Conjuntos separados de coeficientes de downmix podem estar disponíveis para cada canal do sinal de downmix. O 10 codificador SAOC 810 é tipicamente configurado para a obtenção de um canal do sinal de downmix pela combinação dos sinais de objeto de Xx a xN de acordo com os coeficientes de downmix associados de di a dN. Tipicamente, há menos canais de downmix do que sinais de objeto Xi a xN. Para permitir (pelo menos aproximadamente) uma separação (ou tratamento separado) dos sinais de objeto do lado do decodificador SAOC 820, o codificador SAOC 810 oferece tanto um como mais sinais de downmix (designados como canais de downmix) 812 e uma informação de lado 814. A informação de lado 814 descreve características dos sinais de objeto Xi a xN, a fim de permitir o processamento especifico de objeto de lado de decodificador.

O decodificador SAOC 820 é configurado para receber um ou mais sinais de downmix 812 e as informações de lado 814. Além disso, o decodif icador SAOC 820 é tipicamente configurado para receber uma informação de interação com usuário e/ou informação de controle de usuário 822, que descreve um ajuste de renderização desejado. Por exemplo, a informação de interação com usuário/informação de controle de usuário 822 pode descrever um ajuste de alto-falante e o posicionamento espacial desejado dos objetos oferecido pelos sinais de objeto Xi a xN. 0 decodificador SAOC 820 é configurado para oferecer, por exemplo, uma pluralidade de sinais de canal upmix 5 decodifiçados yi a yM. Os sinais de canal upmix podem, por exemplo, ser associados com alto-falantes individuais de uma disposição de renderização de múltiplos alto-falantes. O decodificador SAOC 820 pode, por exemplo, compreender um separador de objeto 820a, que é configurado para reconstruir, pelo menos aproximadamente, os sinais de objeto xx a xN com base em um ou mais sinais de downmix 812 e na informação de lado 814, desse modo obtendo sinais reconstruidos de objeto 820b. No entanto, os sinais reconstruídos de objeto 820b podem desviar-se um pouco dos sinais de objeto xx a xN originais, por exemplo, porque a informação de lado 814 não é suficiente para uma reconstrução perfeita devido às restrições da taxa de bits. O decodificador SAOC 820 também pode compreender um que pode ser configurado para receber sinais reconstruidos de objeto 820b e informações de interação com usuário e/ou informação de controle de usuário 822 e oferecer, com base nos mesmos, sinais de canal upmix yx a yM. O mixer 820c pode ser configurado para usar a informação de interação com usuário e/ou informação de controle de usuário 822 para determinar a contribuição dos sinais reconstruidos de objeto individuais 820b para os sinais de canal upmix yx a yM. A informação de interação com usuário e/ou informação de controle de usuário 822 pode, por exemplo, compreender parâmetros de renderização (também designados como coeficientes de renderização) , que determinam a contribuição dos sinais reconstruidos de objeto individuais 820b para os sinais de canal upmix yi a yM.

No entanto, deve-se notar que em muitas configurações, a separação de objeto, que é indicada pelo separador de objeto 820a na fig. 8, e o mixing, que é indicado 5 pelo mixer 820c na fig. 8, são realizados em um único passo. Para essa finalidade, os parâmetros totais podem ser computados, descrevendo um mapeamento direto de um ou mais sinais de downmix 812 para os sinais de canal upmix yi a yM. Esses parâmetros podem ser computados com base na informação de lado 814 e a informação 10 de interação com usuário e/ou informação de controle de usuário 822.

Referindo-se agora às figuras 9a, 9b e 9c, serão descritos diferentes aparelhos para a obtenção de uma representação de sinal upmix com base em uma representação de 15 sinal downmix e uma informação de lado relacionada a um objeto. A figura 9a apresenta um diagrama esquemático de bloco de um sistema MPEG SAOC 900 compreendendo um decodif icador SAOC 920. O decodificador SAOC 920 compreende, como blocos funcionais independentes, um decodificador de objeto 922 e um mixer/renderizador 926. O decodificador de objeto 922 oferece uma pluralidade de sinais reconstruídos de objeto 924 dependendo da representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix representados no tempo-dominio ou no tempo- frequência-dominio) e informações de lado relacionadas a um objeto i 25 (por exemplo, na forma de dados de meta de objeto) . O mixer/renderizador 926 recebe os sinais reconstruídos do objeto 924 associados a uma pluralidade de objetos N e oferece, com base nos mesmos, um ou mais sinais de canal upmix 928. No decodificador SAOC 920, a extração dos sinais de objeto 924 é realizada separadamente da mixagem/renderização, o que permite uma separação da funcionalidade decodificadora de objeto da funcionalidade de mixagem/renderização, mas traz uma complexidade computacional 5 relativamente alta.

Referindo-se agora à Figura 9b, será brevemente examinado outro sistema MPEG SAOC 930, o qual compreende um decodificador SAOC 950. O decodificador SAOC 950 oferece uma pluralidade de sinais de canal upmix 958 dependendo de uma 10 representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix) e uma informação de lado relacionada a um objeto (por exemplo, na forma de dados de meta de objeto) . O decodificador SAOC 950 compreende uma combinação de decodificador de objeto e mixer/renderizador, que é configurada para obter 15 sinais de canal upmix 958 em um processo de mixagem conjunto sem uma separação da decodificação de objeto e da mixagem/ renderização, em que os parâmetros para dito processo de upmix conjunto são dependentes tanto da informação de lado relacionada a um objeto quanto da informação de renderização. O processo de 20 upmix conjunto também depende das informações de downmix, que são consideradas parte de uma informação de lado relacionada a um objeto.

Para resumir o descrito acima, o fornecimento de sinais de canal upmix 928 e 958 pode ser realizado em um processo 25 de passo único ou em processo de dois passos.

Referindo-se agora à Figura 9c, será descrito um sistema MPEG SAOC 960. O sistema SAOC 960 compreende um transcodif icador de SAOC para MPEG Surround 980, em vez de um decodificador SAOC.

O transcodificador de SAOC para MPEG Surround compreende um transcodificador de informação de lado 982, que é configurado para receber informações de lado relacionadas a um 5 objeto (por exemplo, na forma de dados de meta de objeto) e, opcionalmente, informações sobre um ou mais sinais de downmix e informações de renderização. 0 transcodificador de informações de lado também é configurado para oferecer uma informação de lado do MPEG Surround 98 4 (por exemplo, na forma de um fluxo de bits de MPEG Surround) com base nos dados recebidos. Portanto, o transcodificador de informações de lado 982 é configurado para transformar uma informação de lado (paramétrica) relacionada a um objeto, que é emitida de um codificador de objeto, em uma informação de lado (paramétrica) relacionada a um canal 984, 15 considerando as informações de renderização e, opcionalmente, as informações sobre o teor de um ou mais sinais downmix.

Opcionalmente, o transcodificador SAOC para MPEG Surround 980 pode ser configurado para manipular um ou mais sinais downmix, descritos, por exemplo, pela representação de um sinal downmix, para obter uma representação de sinal downmix manipulado 988. No entanto, o manipulador de sinais downmix 986 pode ser omitido de tal modo que a representação de sinal downmix de saida 988 do transcodificador SAOC para MPEG Surround 980 seja idêntica à representação de sinal downmix de entrada do transcodificador SAOC para MPEG Surround. O manipulador de sinais downmix 986 pode, por exemplo, ser usado se a informação de lado relacionada ao canal MPEG Surround 984 não permitir o oferecimento de uma impressão auditiva desejada com base na representação de sinais downmix de entrada do transcodificador SAOC para MPEG Surround 980, que pode ser o caso em algumas constelações de renderização.

Portanto, o transcodificador de sinais SAOC para MPEG Surround 980 oferece a representação de sinal downmix 988 e o 5 fluxo de bits MPEG Surround 98 4, de tal modo que uma pluralidade de sinais de canal upmix, que representa os objetos de áudio de acordo com a entrada de informações de renderização do transcodificador SAOC para MPEG Surround 980 possa ser gerada com o uso de um decodificador MPEG Surround que recebe o fluxo de bits 10 do MPEG Surround 984 e a representação de sinal downmix 988.

Resumindo o descrito acima: podem ser usados diferentes conceitos para a decodificação de sinais de áudio SAOC codificados. Em alguns casos, usa-se um decodificador SAOC, que oferece sinais de canal upmix (por exemplo, sinais de canal upmix 15 928, 958) dependendo de uma representação de sinal downmix e de informações de lado paramétricas relacionadas a um objeto. Exemplos para este conceito podem ser vistos nas figuras 9a e 9b. Alternativamente, a informação de áudio codificada SAOC pode ser transcodifiçada para se obter uma representação de sinal downmix 20 (por exemplo, uma representação de sinal downmix 988) e uma informação de lado relacionada ao canal (por exemplo, um fluxo de bits relacionado ao canal MPEG Surround 984), que pode ser utilizada por um decodificador MPEG Surround para oferecer os sinais de canal upmix desejados.

No sistema MPEG SAOC 800, é fornecida uma visão geral do sistema na Figura 8, o processamento geral é realizado por meio de frequência seletiva e pode ser descrito, como se segue, de acordo com cada banda de frequência: • Os sinais de objeto de áudio de entrada N xx a xNsão dowmixadas como parte do processamento do codificador SAOC. Para urn mono downmix, os coeficientes de downmix são denominados por di a dn. Além disso, o codificador SAOC 810 extrai as I 5 informações de lado 814 descrevendo as características dos objetos I de áudio de entrada. Para o MPEG SAOC, as relações de poderes de i objeto com relação uns aos outros são as formas mais básicas de I tal informação de lado. • O sinal (ou sinais) downmix 812 e informações de lado 814 são transmitidos e/ou armazenados. Para isto, o sinal de áudio downmix pode ser comprimido com o uso dos bem-conhecidos codificadores de áudio perceptual, como o MPEG-1 Layer II ou III (também conhecido como ".mp3"), MPEG Advanced Audio Coding (AAC) ou qualquer outro codificador de áudio. • Na ponta receptora, o decodif icador SAOC 820 : conceitualmente tenta recuperar o sinal de objeto original ; ("separação de objeto") com uso das informações de lado 814 transmitidas (e, naturalmente, um ou mais sinais downmix 812) . Estes sinais de objeto aproximados (também designados como sinais de objeto reconstruídos 820b) são então mixados em uma cena alvo ! representada pelos canais de saida de áudio- M (que podem, por I exemplo, ser representados por sinais de canal upmix yx a yM) utilizando uma matriz de renderização. Para uma saida mono, os coeficientes da matriz de renderização são dados por rx a rn. • Efetivamente, a separação de sinais de objeto é raramente executada (ou mesmo nunca é executada) uma vez que tanto o passo de separação (indicado pelo separador de objeto 820a) como o passo de mixagem (indicado pelo mixer 820c) são combinados em único passo de transcodificação, que comumente resulta em enorme redução da complexidade computacional.

Foi verificado que tal esquema é extremamente eficiente, tanto em termos de taxa de transmissão de bits (isto é 5 somente necessário para transmiti r alguns canais de downmix mais algumas informações de lado em vez de sinais de áudio de objeto 10 discreto N ou computacional (a sistema discreto), complexidade do quanto em processamento complexidade relaciona-se principalmente ao número de canais de saída do que ao número de objetos de áudio). Outras vantagens para o usuário final incluem a liberdade de escolher um ajuste de renderização segundo escolha pessoal (mono, estéreo, surround, reprodução virtualizada em auscultadores etc.) e a característica de interati v idade com o usuário: a matriz de renderização e, portanto, a cena de saída, 15 pode ser configurada e modificada de modo interativo pelo usuário de acordo com sua vontade, preferência pessoal ou outros critérios. Por exemplo, é possível localizar os falantes de um grupo reunido em uma única área espacial para maximizar a diferença para com os outros falantes. Esta interatividade é 20 obtida por meio do oferecimento de uma interface de usuário do decodificador.

Para cada objeto sonoro transmitido, pode ser ajustado seu nivel relativo e (para nãomono renderização) e a renderização da posição espacial. Isto pode acontecer em temporeal 25 conforme o usuário troca a posição da interface gráfica do usuário associada (GUI) deslizantes (por exemplo: nivel do objeto = +5dB, posição do objeto = - 30deg).

No entanto, foi verificado que em tal sistema é difícil gerenciar objetos de áudio de tipos diferentes de objeto de áudio. Especialmente, foi verificado que é difícil processar objetos de áudio de tipos diferentes de objeto de áudio, por exemplo, objetos de áudio aos quais são associadas diferentes 5 informações de lado, se o número total de objetos de áudio a serem processados não for predeterminado.

Tendo em vista essa situação, é um objetivo da presente invenção criar um conceito que permita uma decodificação flexível e computacionalmente eficiente de um sinal de áudio 10 compreendendo uma representação de sinal downmix e uma informação paramétrica relacionada a um objeto, em que a informação paramétrica relacionada a um objeto descreve objetos de áudio de dois ou mais tipos diferentes de objetos de áudio.

Resumo da Invenção

Este objetivo é obtido por um decodif icador de sinal de áudio para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e de uma informação paramétrica relacionada a um objeto, um método para oferecer uma representação de sinal upmix dependendo de uma 20 representação de sinal downmix e de uma informação paramétrica relacionada a um objeto, e de um programa de computador, como definido pelas reivindicações independentes.

Uma configuração de acordo com a invenção cria um decodificador de sinal de áudio para oferecer uma representação de 25 sinal upmix dependendo de uma representação de sinal downmix e de uma informação paramétrica relacionada a um objeto. O decodificador de sinal de áudio compreende um separador de objeto configurado para decompor a representação de sinal downmix, oferecer uma primeira informação de áudio descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio e uma segunda informação de áudio descrevendo um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo de uma representação de sinal downmix e com o uso de pelo menos parte da informação paramétrica relacionada a um objeto. 0 decodificador de sinal de áudio também compreende um processador de sinal de áudio configurado para receber uma segunda informação de áudio e processar uma segunda informação de áudio dependendo da informação paramétrica relacionada a um objeto, para obter uma versão processada da segunda informação de áudio. O decodificador de sinal de áudio também compreende um combinador de sinal de áudio configurado para combinar a primeira informação de áudio com a versão processada da 15 segunda informação de áudio para obter a representação de sinal upmix.

É uma ideia-chave da presente invenção que um processamento eficiente de diferentes tipos de objeto de áudio pode ser obtido em uma estrutura em cascata, que permite uma 20 separação dos diferentes tipos de objeto de áudio com o uso de pelo menos uma parte da informação paramétrica relacionada a um objeto, no primeiro passo do processamento realizado pelo separador de objetos, e que permite um processamento espacial adicional em um segundo passo do processamento realizado 25 dependendo de pelo menos parte da informação paramétrica relacionada a um objeto pelo processador de sinal de áudio.

Foi verificado que a extração de uma segunda informação de áudio, que compreende objetos de áudio do segundo tipo de objeto de áudio, de uma representação de sinal downmix pode ser realizada com complexidade moderada mesmo se houver grande número de objetos de áudio do segundo tipo de objeto de áudio. Além disso, foi verificado que um processamento espacial 5 dos objetos de áudio do segundo tipo de áudio pode ser realizado de modo eficiente uma vez que a segunda informação de áudio está separada da primeira informação de áudio, descrevendo objetos de áudio do primeiro tipo de objeto de áudio.

Adicionalmente, foi verificado que o 10 processamento algoritmo realizado pelo separador de objeto para separar a primeira informação de áudio e a segunda informação de áudio pode ser realizado com complexidade comparativamente menor se o processamento individual dos objetos de áudio do segundo tipo de objeto de áudio for postergado para o processador de sinal de 15 áudio e não realizado ao mesmo tempo em que a separação da primeira informação de áudio e segunda informação de áudio.

Em uma configuração preferida, o decodificador de sinal de áudio é configurado para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix, a 20 informação paramétrica relacionada a um objeto e uma informação residual associada a um subconjunto de objetos de áudio, representado por uma representação de sinal downmix. Neste caso, o separador de objeto é configurado para decompor a representação de sinal downmix e oferecer a primeira informação de áudio 25 descrevendo o primeiro conjunto de um ou mais objetos de áudio (por exemplo, objetos de primeiro plano FGO) do primeiro tipo de objeto de áudio, ao qual a informação residual está associada, e a segunda informação de áudio descrevendo o segundo conjunto de um ou mais objetos de áudio (por exemplo, objetos de segundo plano BGO) do segundo tipo de objeto de áudio, ao qual não há informação residual associada dependendo da representação de sinal downmix e com o uso de pelo menos uma parte das informações paramétricas 5 relacionadas a um objeto e das informações residuais.

Esta configuração é baseada na verificação de que uma separação especialmente precisa entre a primeira informação de áudio descrevendo o primeiro conjunto de objetos de áudio do primeiro tipo de objeto de áudio e a segunda informação de áudio 10 descrevendo um segundo conjunto de objetos de áudio do segundo tipo de objeto de áudio pode ser obtida com o uso de uma informação residual além da informação paramétrica relacionada a um objeto. Foi verificado que o simples uso da informação paramétrica relacionada a um objeto resultaria, em muitos casos, 15 em distorções, as quais podem ser reduzidas de modo significativo ou mesmo totalmente eliminadas com o uso de informações residuais. A informação residual descreve, por exemplo, uma distorção residual, a qual se espera que permaneça se um objeto de áudio do primeiro tipo de objeto de áudio for simplesmente isolado com o uso de uma informação paramétrica relacionada a um objeto. A informação residual é tipicamente estimada pelo codificador de sinal de áudio. Ao aplicar a informação residual, a separação entre os objetos de áudio do primeiro tipo de objeto de áudio e os objetos de áudio do segundo tipo de objeto de áudio pode ser 25 aperfeiçoada.

Isto permite a obtenção da primeira informação de áudio e da segunda informação de áudio com uma separação especialmente boa entre os objetos de áudio do primeiro tipo de objeto de áudio e dos objetos de áudio do segundo tipo de objeto de áudio, o que, por sua vez, permite alcançar um processamento espacial de alta qualidade dos objetos de áudio do segundo tipo de objeto de áudio quando processar a segunda informação de áudio no 5 processador de sinais de áudio.

Em uma configuração preferida, o separador de objeto é, portanto, configurado para a primeira informação de áudio de tal modo que os objetos de áudio do primeiro tipo de objeto de áudio são ressaltados sobre os objetos de áudio do segundo tipo na primeira informação de áudio. O separador de objeto também é configurado para oferecer a segunda informação de áudio, de tal modo que os objetos de áudio do segundo tipo de objeto de áudio são ressaltados sobre os objetos de áudio do primeiro tipo de objeto de áudio na segunda informação de áudio.

Em uma configuração preferida, o decodificador de sinal de áudio está configurado para realizar um processamento em dois passos, de tal modo que um processamento da segunda informação de áudio em um processador de sinal de áudio é realizado posteriormente a uma separação entre a primeira 20 informação de áudio descrevendo o primeiro conjunto de um ou mais objetos de áudio do primeiro tipo de objeto de áudio e a segunda informação descrevendo o segundo conjunto de um ou mais objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o processador de sinal de áudio é configurado para processar a segunda informação de áudio dependendo de uma informação paramétrica relacionada a um objeto associada a objetos de áudio do segundo tipo de objeto de áudio e independente da informação paramétrica relacionada a um objeto associada a objetos de áudio do primeiro tipo de objeto de áudio. Do mesmo modo, pode ser obtido um processamento separado dos objetos de áudio do primeiro tipo de objeto de áudio e dos objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o separador de objeto é configurado para se obter a primeira informação de áudio e a segunda informação de áudio com o uso de uma combinação linear de um ou mais canais downmix e de um ou mais canais residuais. Neste caso, o separador de objeto é configurado para obter 10 parâmetros de combinação, para realizar a combinação linear dependendo dos parâmetros downmix associados a objetos de áudio do primeiro tipo de objeto de áudio e dependendo dos coeficientes de predição de canal dos objetos de áudio do primeiro tipo de objeto de áudio. A computação dos coeficientes de predição de canal dos 15 objetos de áudio do primeiro tipo de objeto de áudio pode, por exemplo, considerar os objetos de áudio do segundo tipo de objeto de áudio como um objeto de áudio único e comum. Assim, um processo de separação pode ser realizado com complexidade computacional suficientemente pequena, o que pode, por exemplo, ser quase 20 independente do número de objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o separador de objeto é configurado para aplicar uma matriz de renderização à primeira informação de áudio para mapear sinais de objeto da 25 primeira informação de áudio em canais de áudio da representação de sinal de áudio upmix. Isto pode ser feito porque o separador de objeto pode ser capaz de extrair individualmente sinais de áudio separados, representando os objetos de áudio do primeiro tipo de objeto de áudio. Assim, é possivel mapear os sinais de objeto da primeira informação de áudio diretamente sobre os canais de áudio da representação de sinal de áudio upmix.

Em uma configuração preferida, o processador de áudio é configurado para realizar um processamento estéreo da segunda informação de áudio dependendo de uma informação de renderização, de uma informação de covariância relacionada a um objeto e de uma informação de downmix, para obter canais de áudio da representação de sinal de áudio upmix.

Assim, o processamento estéreo dos objetos de áudio do segundo tipo de objeto de áudio é separado da separação entre os objetos de áudio do primeiro tipo de objeto de áudio e os objetos de áudio do segundo tipo de objeto de áudio. Portanto, a separação eficiente entre os objetos de áudio do primeiro tipo de objeto de áudio e objetos de áudio do segundo tipo de objeto de áudio não é afetada (ou degradada) pelo processamento estéreo, que tipicamente leva a uma distribuição de objetos de áudio sobre uma pluralidade de canais de áudio sem oferecer o alto grau de separação do objeto, o qual pode ser obtido no separador de objeto, por exemplo, com o uso da informação residual.

Em outra configuração preferida, o processador de áudio é configurado para realizar um pós-processamento da segunda informação de áudio dependendo de uma informação de renderização, uma informação de covariância relacionada a um objeto e uma informação de downmix. Esta forma de pós-processamento permite um posicionamento espacial dos objetos de áudio do segundo tipo de objeto de áudio em uma cena de áudio. Contudo, devido ao conceito em cascata, a complexidade computacional do processador de áudio pode ser mantida baixa o suficiente, porque o processador de áudio não precisa considerar a informação paramétrica relacionada a um objeto associada aos objetos de áudio do primeiro tipo de objeto de áudio.

Além disso, diferentes tipos de processamentos podem ser realizados pelo processador de áudio, como, por exemplo, um processamento mono para binaural, processamento mono para estéreo, processamento estéreo para binaural ou um processamento estéreo para estéreo.

Em uma configuração preferida, o separador de objeto é configurado para tratar objetos de áudio do segundo tipo de objeto de áudio, ao qual não é associado nenhum tipo de informação residual, como um único objeto de áudio. Além disso, o processador de sinal de áudio é configurado para considerar 15 parâmetros de renderização específicos em relação ao objeto para ajustar as contribuições dos objetos do segundo tipo de objeto de áudio para a representação de sinal upmix. Portanto, os objetos de áudio do segundo tipo de objeto de áudio são considerados como um único objeto de áudio pelo separador de objetos, o que reduz de 20 modo significativo a complexidade do separador de objeto e também permite ter uma única informação residual, que é independente dos parâmetros de renderização associados aos objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o separador de objeto é configurado para obter um valor comum de diferença de nivel de objeto para uma pluralidade de objetos de áudio do segundo tipo de objeto de áudio. O separador de objeto é configurado para usar o valor comum de diferença de nivel em relação ao objeto para computar os coeficientes de predição de canal. Além disso, o separador de objeto é configurado para usar os coeficientes de predição de canal para obter um ou dois canais de áudio representando a segunda informação de áudio. Para o valor 5 comum de diferença de nivel em relação ao objeto, os objetos de áudio do segundo tipo de objeto de áudio podem ser gerenciados de modo eficiente como um único objeto de áudio pelo separador de objeto.

Em uma configuração preferida, o separador de objeto é configurado para obter um valor comum de diferença de nivel em relação ao objeto para uma pluralidade de objetos de áudio do segundo tipo de objeto de áudio e o separador de objeto é configurado para o valor comum de diferença de nivel em relação ao objeto para computar as entradas de uma matriz de mapeamento do modo de energia. O separador de objeto é configurado para usar a matriz de mapeamento do modo de energia para se obter um ou mais canais de áudio representando a segunda informação de áudio. Novamente, o valor comum de diferença de nivel em relação ao objeto permite o tratamento comum computacionalmente eficiente dos objetos de áudio do segundo tipo de objeto de áudio pelo separador de objeto.

Em uma configuração preferida, o separador de objeto é configurado para obter de modo seletivo um valor comum de correlação entre objetos associado aos objetos de áudio do segundo 25 tipo de objeto de áudio dependendo da informação paramétrica relacionada a um objeto se for verificado que há dois objetos de áudio do segundo tipo de objeto de áudio e para ajustar a zero o valor de correlação entre objetos associado aos objetos de áudio do segundo tipo de objeto de áudio, se for verificado que há mais ou menos do que dois objetos de áudio do segundo tipo de objeto de áudio.

O separador de objeto é configurado para usar o valor comum de correlação entre objetos associado aos objetos de áudio do segundo tipo de objeto de áudio para se obter um ou mais canais de áudio representando a segunda informação de áudio. Com o uso desta abordagem, explora-se o valor de correlação entre objeto, se este for adquirível com alta eficiência computacional, ou seja, se houver dois objetos de áudio do segundo tipo de objeto de áudio. Caso contrário, isso seria exigir muito computacionalmente para obter valores de correlação entre objeto. Assim, foi verificado ser um bom compromisso em termos de impressão auditiva e de complexidade computacional ajustar a zero o valor de correlação entre objeto associado aos objetos de áudio do segundo tipo de objeto de áudio, se houver mais ou menos do que dois objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o processador de sinal de áudio é configurado para renderizar a segunda informação 20 de áudio dependendo (de pelo menos parte) da informação paramétrica relacionada a um objeto, para obter uma representação renderizada dos objetos de áudio do segundo tipo de objeto de áudio como uma versão processada da segunda informação de áudio. Neste caso, a renderização pode ser feita de modo independente dos objetos de áudio do primeiro tipo de objeto de áudio.

Em uma configuração preferida, o separador de objeto é configurado para oferecer a segunda informação de áudio de tal modo que a segunda informação de áudio descreva mais que dois objetos do segundo tipo de objeto de áudio. Configurações de acordo com a invenção permitem um ajuste flexivel do número de objetos de áudio do segundo tipo de objeto de áudio, que é significativamente facilitado pela estrutura em cascata do processamento.

Em uma configuração preferida, o separador de objeto é configurado para obter, como segunda informação de áudio, uma representação de sinal de áudio de um canal ou uma representação de sinal de áudio de dois canais representando mais 10 do que dois objetos de áudio do segundo tipo de objeto de áudio. Pode-se realizar a extração de um ou de dois canais de sinal de áudio pelo separador de objeto com baixa complexidade computacional. Em particular, a complexidade do separador de objeto pode ser mantida significativamente menor quando comparada 15 a um caso em que o separador de objeto necessitaria gerenciar mais de dois objetos de áudio do segundo tipo de objeto de áudio. Porém, foi verificado que isso é uma representação eficiente computacionalmente dos objetos de áudio do segundo tipo de objeto de áudio para uso em um sinal de áudio de um ou dois canais.

Em uma configuração preferida, o processador de sinal de áudio é configurado para receber a segunda informação de áudio e processar a segunda informação de áudio dependendo de (pelo menos parte) da informação paramétrica relacionada a um objeto, considerando informações paramétricas relacionadas a um 25 objeto associadas com mais do que dois objetos de áudio do Segundo tipo de objeto de áudio. Portanto, um processamento individual de objeto é realizado pelo processador de áudio, enquanto tal processamento individual de objeto não é realizado para objetos áudio do segundo tipo de objeto áudio pelo separador de objetos.

Em uma configuração preferida, o decodificador de áudio é configurado para extrair uma informação do número total de objetos e uma informação do número de objetos de primeiro plano da informação de configuração relacionada à informação paramétrica relacionada a um objeto. 0 decodificador de áudio também é configurado para determinar um número de objetos de áudio do segundo tipo de objeto de áudio ao formar uma diferença entre a informação do número total de objetos e a informação do número de objetos de primeiro plano. Assim, a sinalização eficiente do número de objetos de áudio do segundo tipo de objeto de áudio é obtida. Além disso, este conceito oferece um alto grau de flexibilidade em relação ao número de objetos de áudio do segundo tipo de objeto de áudio.

Em uma configuração preferida, o separador de objeto é configurado para usar informações paramétricas relacionadas a um objeto associadas a objetos de áudio Neao do primeiro tipo de objeto de áudio para obter, como a primeira informação de áudio, sinais de áudio Neao representando (preferencialmente, individualmente) os objetos de áudio Neao do primeiro tipo de objeto de áudio e para obter, como segunda informação de áudio, um ou dois sinais de áudio representando os objetos de áudio N-Neao do segundo tipo de objeto de áudio, tratando os objetos de áudio N- Nea0 do segundo tipo de objeto de áudio como um único objeto de áudio de um ou dois canais. O Iprocessador do sinal de áudio é configurado para renderizar I individualmente os objetos de áudio N-Nea0 representados por um ou dois sinais de áudio da segunda informação de áudio com uso da informação paramétrica relacionada a um objeto associada a objetos de áudio N-Neao do segundo tipo de objeto de áudio. Assim, a separação do objeto de áudio entre os objetos do primeiro tipo de objeto de áudio e do segundo tipo de objeto de áudio é separada do 5 subsequente processamento dos objetos de áudio do segundo tipo de objeto de áudio.

Uma configuração de acordo com a invenção cria um método para oferecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e de uma informação 10 paramétrica relacionada a um objeto.

Outra configuração de acordo com a invenção cria um programa de computador para realizar tal método.

Breve Descrição das Figuras

Configurações de acordo com a invenção serão 15 descritas posteriormente, fazendo referência às Figuras em anexo, dentre as quais: Fig. 1 apresenta um diagrama esquemático de bloco de um decodificador de sinal de áudio, de acordo com a configuração da invenção; Fig. 2 apresenta um diagrama esquemático de bloco de outro decodificador de sinal de áudio, de acordo com a configuração da invenção; Fig. 3a e 3b apresentam diagramas esquemáticos de bloco de um processador residual, que pode ser usado como um 25 separador de objeto em uma configuração da invenção; Fig. 4a a 4e apresentam diagramas esquemáticos de bloco dos processadores de sinal de áudio, que podem ser utilizados em um decodificador de sinal de áudio de acordo com uma configuração da invenção; Fig. 4f apresenta um diagrama de bloco de um modo de processamento do transcodificador SAOC; Fig. 4g apresenta um diagrama de bloco de 5 um modo de processamento do decodificador SAOC; Fig. 5a apresenta um diagrama esquemático de bloco de um decodificador de sinal de áudio, de acordo com uma configuração da invenção; Fig. 5b apresenta um diagrama esquemático 10 de bloco de outro decodificador de sinal de áudio, de acordo com uma configuração da invenção; Fig. 6a apresenta um q'uadro representando uma descrição de projeto de teste de áudio; Fig. 6bapresenta um quadro representando sistemas que estão em teste; Fig. 6c apresenta um quadro representando os itens do teste de áudio e as matrizes de renderização; Fig. 6d apresenta uma representação gráfica da pontuação média MUSHRA para um teste de áudio de 20 renderização do tipo Karaokê/Solo; Fig. 6e apresenta uma representação gráfica da pontuação média MUSHRA para um teste de áudio de renderização clássico; Fig. 7 apresenta um fluxograma de um 25 método para oferecer uma representação de sinal upmix, de acordo com a configuração da invenção; Fig. 8 apresenta um diagrama esquemático de bloco de um sistema MPEG SAOC de referência; Fig. 9a apresenta um diagrama esquemático de bloco de um sistema SAOC de referência, com o uso de decodificador separado e mixer; Fig. 9b apresenta um diagrama esquemático de bloco referente a um sistema SAOC com o uso de decodificador integrado e mixer; Fig. 9c apresenta um diagrama esquemático de bloco referente a um sistema SAOC com uso de transcodificador SAOC para MPEG.

Descrição Detalhada das Configurações 1. Decodificador do sinal de áudio de acordo com a Figura 1

A Fig.l apresenta um diagrama esquemático de bloco de um decodificador de sinal de áudio 100, de acordo com a 15 configuração da invenção.

O decodificador do sinal de áudio 100 é configurado para receber informações paramétricas relacionadas a um objeto 110 e uma representação de sinal downmix 112. O decodificador de sinal de áudio 100 é configurado para oferecer 20 uma representação de sinal upmix 120 dependendo de uma representação de sinal downmix e de uma informação paramétrica relacionada a um objeto 110. 0 decodificador do sinal de áudio 100 compreende um separador de objeto 130, que é configurado para decompor a representação de sinal downmix 112 para oferecer uma 25 primeira informação de áudio 132, descrevendo um primeiro conjunto de um ou mais objetos de áudio do primeiro tipo de objeto de áudio e uma segunda informação de áudio 134 descrevendo um segundo conjunto de um ou mais objetos de áudio do segundo tipo de objeto de áudio dependendo da representação de sinal downmix 112 e com o uso de pelo menos parte da informação paramétrica relacionada a um objeto 110. 0 decodificador de sinal de áudio 100 também compreende um processador de sinal de áudio 140, que é configurado 5 para receber a segunda informação de áudio 134 e processar a segunda informação de áudio dependendo de pelo menos parte da informação paramétrica relacionada a um objeto 112, para obter a versão processada 142 da segunda informação de áudio 134. O decodificador de áudio 100 também compreende um combinador de 10 sinal de áudio 150 configurado para combinar a primeira informação de áudio 132 com a versão processada 142 da segunda informação de áudio 134, para obter uma representação de sinal upmix 120.

O decodificador do sinal de áudio 100 efetua um processamento em cascata da representação de sinal downmix, o qual 15 representa objetos de áudio do primeiro tipo de objeto de áudio e objetos de áudio do segundo tipo de objeto de áudio em um modo combinado.

No primeiro passo do processamento, que é realizado pelo separador de objeto 130, a segunda informação de 20 áudio descrevendo um segundo conjunto de objetos de áudio do segundo tipo de objeto de áudio, é separada da primeira informação de áudio 132, descrevendo um primeiro conjunto de objetos de áudio de um primeiro tipo de objeto de áudio com o uso da informação paramétrica relacionada a um objeto 110. No entanto, a segunda 25 informação de áudio 134 é tipicamente uma informação de áudio (por exemplo, um sinal de áudio de um canal ou um sinal de áudio de dois canais) descrevendo os objetos de áudio do segundo tipo de objeto de áudio em um modo combinado.

No segundo passo do processamento, o processador de sinal de áudio 140 processa a segunda informação de áudio 134 dependendo da informação paramétrica relacionada a um objeto. Assim, o processador de sinal de áudio 140 é capaz de realizar um 5 processamento individual dos objetos ou uma renderização dos objetos de áudio do segundo tipo de objeto de áudio, que são descritos pela segunda informação de áudio 134, e que é tipicamente não realizado pelo separador de objeto 130.

Portanto, enquanto os objetos de áudio do segundo 10 tipo de objetos de áudio são preferencialmente não processados de modo individual pelo separador de objeto 130, os objetos de áudio do segundo tipo de objeto de áudio são, de fato, processados de modo individual (por exemplo, renderizados de modo individual) no segundo passo do processamento, que é realizado pelo processador 15 de sinais de áudio 140. Portanto, a separação entre os objetos de áudio do primeiro tipo de objeto de áudio e os objetos de áudio do segundo tipo de objeto de áudio, que é realizada pelo separador de objeto 130, é separada do processamento individual dos objetos de áudio do segundo tipo de objeto de áudio, a qual é realizada 20 posteriormente pelo processador de sinais de áudio 140. Assim, o processamento realizado pelo separador de objeto 130 é substancialmente independente do número de objetos de áudio do segundo tipo de objeto de áudio. Além disso, o formato (por exemplo, um sinal de áudio de um canal ou um sinal de áudio de 25 dois canais) da segunda informação de áudio 134 é tipicamente independente do número de objetos de áudio do segundo tipo de objeto de áudio. Portanto, o número de objetos de áudio do segundo tipo de objeto de áudio pode variar sem a necessidade de se modificar a estrutura do separador de objeto 130. Em outras palavras, os objetos de áudio do segundo tipo de objeto de áudio são tratados como um único (por exemplo, um ou dois canais) objeto de áudio para cada qual é obtida uma informação paramétrica 5 relacionada a um objeto comum (por exemplo, um valor comum de diferença de nivel em relação a objeto associado a um ou dois canais de áudio) com o uso de um separador de objeto 140.

Assim, o decodificador de sinal de áudio 100, de acordo com a Figura 1, é capaz de gerenciar um número variável de 10 objetos de áudio do segundo tipo de objeto de áudio sem uma modificação estrutural do separador de objeto 130. Além disso, diferentes algoritmos de processamento de objeto de áudio podem ser aplicados pelo separador de objeto 130 e pelo processador de sinal de áudio 140. Assim, por exemplo, é possivel realizar uma 15 separação de objeto de áudio com o uso de uma informação residual pelo separador de objeto 130, que permite uma separação especialmente boa de diferentes objetos de áudio, utilizando as informações residuais, que constituem uma informação de lado para aperfeiçoar a qualidade de uma separação de objeto. Por outro 20 lado, o processador de sinal de áudio 140 pode realizar um processamento individual do objeto sem o uso de uma informação residual. Por exemplo, o processador de sinal de áudio 140 pode ser configurado para realizar um processamento de sinal de áudio tipo codificação de objeto de áudio espacial convencional SAOC 25 para renderizar os diferentes objetos de áudio.

2. Decodificador de sinal de áudio de acordo com a Figura 2

A seguir será descrito um decodificador de sinal de áudio 200 de acordo com uma configuração da invenção. Um diagrama esquemático de bloco deste decodificador de sinal 200 é apresentado na figura 2.

O decodificador de áudio 200 é configurado para receber um sinal downmix 210, chamado fluxo de bits SAOC 212, informação da matriz de renderização 214 e, opcionalmente, parâmetros de função de transferência relativa à cabeça (HRTF) 216. O decodificador de sinal de áudio 200 também é configurado para oferecer um sinal downmix de saida/MPS 220 e (opcionalmente) um fluxo de bits MPS 222.

2.1 Sinais de entrada e sinais de saida do decodificador de sinal de áudio 200

A seguir, serão descritos vários detalhes sobre os sinais de entrada e sinais de saida do decodificador de áudio 15 200.

O sinal downmix 200 pode, por exemplo, ser um sinal de áudio de canal único ou um sinal de áudio de dois canais. 0 sinal downmix 210 pode, por exemplo, derivar-se de uma representação codificada de um sinal downmix.

O fluxo de bits de codificação de objeto de audio espacial SAOC 212 pode, por exemplo, compreender uma informação paramétrica relacionada a um objeto. Por exemplo, o fluxo de bits SAOC 212 pode compreender uma informação de diferença de nivel em relação a objeto, por exemplo, na forma de parâmetros de diferença de nivel em relação a objeto OLD, uma informação de correlação entre objeto, por exemplo, na forma de parâmetros de correlação interobjeto IOC.

Além disso, o fluxo de bits SAOC 212 pode compreender uma informação downmix descrevendo como os sinais downmix foram oferecidos com base em uma pluralidade de sinais de objeto de áudio com uso de um processo downmix. Por exemplo, um fluxo de bits SAOC pode compreender um parâmetro de ganho downmix 5 DMG e (opcionalmente) parâmetros de diferença de nível-canaldownmix DCLD

A informação de matriz de renderização 214 pode, por exemplo, descrever como os diferentes objetos de áudio deveriam ser renderizados por um decodificador de áudio. Por exemplo, uma informação de matriz de renderização 214 pode descrever uma alocação de um objeto de áudio para um ou mais sinais downmix de saída/MPS 220.

A informação paramétrica de função de transferência relativa à cabeça opcional HRTF 216 pode também 15 descrever uma função de transferência para derivar um sinal auscultador binaural.

O sinal downmix de saída/MPEG-Surround (também brevemente designado como "sinal downmix de saída/MPS") 220 representa um ou mais canais de áudio, por exemplo, na forma de uma representação de sinal de áudio tempo-domínio ou uma representação de sinal de áudio frequência-domínio. Forma-se uma representação de sinal upmix, sozinha ou em combinação com o fluxo de bits MPEG-Surround opcional (fluxo de bits MPS) 222, que compreende parâmetros MPEG-Surround descrevendo um mapeamento do 25 sinal downmix de saída/MPS 220 para uma pluralidade de canais de áudio.

2.2 Estrutura e funcionalidade do decodificador de sinal de áudio 200

A seguir, será descrita mais detalhadamente a estrutura do decodificador de sinal de áudio 200, que pode cumprir a funcionalidade de um transcodificador SAOC ou a funcionalidade de um decodificador SAOC.

O decodificador de sinal de áudio 200 compreende um processador downmix 230, que é configurado para receber um sinal downmix 210 e oferecer, com base no mesmo, o sinal downmix de saida/MPS 220. O processador downmix 230 também é configurado para receber, pelo menos, uma parte da informação de fluxo de bits SAOC 212 e pelo menos uma parte da informação de matriz de renderização 214. Além disso, o processador downmix 230 pode também receber uma informação paramétrica processada SAOC 240 a partir de um processador paramétrico 250.

O processador paramétrico 250 é configurado para receber a informação de fluxo de bits SAOC 212, a informação de matriz de renderização 214 e, opcionalmente, a informação paramétrica de função de transferência relativa à cabeça 260 e oferecer, com base na mesma, um fluxo de bits MPEG-Surround 222 portador dos parâmetros MPEG-Surround (se forem exigidos os parâmetros MPEG-Surround, que é, por exemplo, o caso no modo de transcodificação de operação). Além disso, o processador paramétrico 250 oferece a informação processada SAOC 240 (se for exigida esta informação processada SAOC).

A seguir, serão descritas em mais detalhes a estrutura e funcionalidade do processador downmix 230.

O processador downmix 230 compreende um processador residual 260, que é configurado para receber um sinal downmix 210 e oferecer, com base no mesmo, um sinal do primeiro objeto de áudio 262 descrevendo os denominados objetos de áudio aprimorados (EAOs), que podem ser considerados como objetos de áudio do primeiro tipo de objeto de áudio. 0 sinal do primeiro objeto de áudio pode compreender um ou mais canais de áudio e pode 5 ser considerado como uma primeira informação de áudio. 0 processador residual 260 também é configurado para oferecer como um sinal do segundo objeto de áudio 264, o qual descreve objetos de áudio de um segundo tipo de objeto de áudio e pode ser considerado como uma segunda informação de áudio. O sinal do 10 segundo objeto de áudio 264 pode compreender um ou mais canais e pode tipicamente compreender um ou dois canais de áudio descrevendo uma pluralidade de objetos de áudio. Tipicamente, o segundo sinal de objeto de áudio pode descrever até mesmo mais do que dois objetos do segundo tipo de objeto de áudio.

O processador downmix 230 também compreende um pré-processador downmix SAOC 270, que é configurado para receber o segundo sinal do objeto de áudio 264 e oferecer, com base no mesmo, uma versão processada 272 do segundo sinal de objeto de áudio 264, que pode ser considerado como uma versão processada da 20 segunda informação de áudio.

O processador downmix 230 também compreende um combinador de sinal de áudio 280, que é configurado para receber o primeiro sinal de objeto de áudio 262 e a versão processada 272 do segundo sinal de objeto de áudio 264, e oferecer, com base no 25 mesmo, o sinal downmix de saida/MPS 220, que pode ser considerado sozinho ou junto ao (opcional) fluxo de bits MPEG-Surround correspondente 222, como uma representação de sinal upmix.

A seguir, será descrita em mais detalhes a I funcionalidade das unidades individuais do processador downmix 230.

O processador residual 260 é configurado para oferecer separadamente o sinal do primeiro objeto de áudio 262 e o sinal do segundo objeto de áudio 264. Para este objetivo, o processador residual 260 pode ser configurado para aplicar pelo menos parte da informação de fluxo de bits SAOC 212. Por exemplo, o processador residual 260 pode ser configurado para avaliar uma informação paramétrica relacionada a um objeto associada com os objetos de áudio do primeiro tipo de objeto de áudio, ou seja, os denominados "objetos de áudio nãoaprimorados" EAO. Além disso, o processador residual 260 pode ser configurado para obter uma informação global descrevendo os objetos de áudio do segundo tipo de objeto de áudio, por exemplo, os comumente denominados "objetos de áudio nãoaprimorados". O processador residual 260 pode também ser configurado para avaliar uma informação residual, que é oferecida pela informação de fluxo de bits SAOC 212, para uma separação entre os objetos de áudio aprimorados (objetos de áudio do primeiro tipo do objeto de áudio) e objetos de audio nãoaprimorados (objetos de áudio do segundo tipo do objeto de áudio). A informação residual pode, por exemplo, codificar um sinal residual de tempo-dominio, que é aplicado para obter uma separação particularmente clara entre os objetos de áudio aprimorados e os objetos de áudio nãoaprimorados. Além disso, o processador residual 260 pode, opcionalmente, avaliar pelo menos uma parte da informação de matriz de renderização 214, por exemplo, com o objetivo de determinar a distribuição dos objetos de áudio aprimorados para os canais de áudio do primeiro sinal do objeto de áudio 262.

0 pré-processador downmix SAOC 270 compreende um canal redistribuidor 274, que é configurado para receber um ou mais canais de áudio do segundo sinal do objeto de áudio 264 e 5 para oferecer, com base no mesmo, um ou mais (tipicamente dois) canais de áudio do segundo sinal processado do objeto de áudio 272. Além disso, o pré-processador downmix SAOC 270 compreende um provedor de sinal descorrelacionado 276, que é configurado para receber um ou mais canais de áudio do segundo sinal do objeto de 10 áudio 264 e oferecer, com base no mesmo, um ou mais sinais descorrelacionados 278a, 278b, que são adicionados aos sinais oferecidos pelo redistribuidor de canal 274 com o objetivo de obter a versão processada 272 do segundo sinal do objeto de áudio 264.

A seguir, serão descritos mais detalhes sobre o processador downmix SAOC.

O combinador de sinal de áudio 280 combina um sinal do primeiro objeto de áudio 262 com a versão processada 272 do sinal do segundo objeto de áudio. Para esse objetivo, pode ser 20 realizada uma combinação em termos de canais. Assim, é obtido um sinal downmix de saida/MPS 220.

O processador paramétrico 250 é configurado para obter os parâmetros MPEG-Surround (opcional) , que compensa o fluxo de bits do MPEG-Surround 222 da representação de sinal upmix, com 25 base no fluxo de bits SAOC, considerando a informação de matriz de renderização 214 e, opcionalmente, a informação paramétrica HRTF 216. Em outras palavras, o processador paramétrico SAOC 252 é configurado para traduzir a informação paramétrica relacionada a um objeto, que é descrita pela informação de fluxo de bits SAOC 212, em uma informação paramétrica relacionada ao canal, que é descrita pelo fluxo de bits MPEG Surround 222.

A seguir, será dada uma rápida descrição da estrutura da arquitetura do decodificador/transcodificador SAOC apresentado na Fig. 2. A codificação de objeto de áudio espacial (SAOC) é uma técnica paramétrica de codificação de múltiplos objetos. É projetada para transmitir um número de objetos de áudio em um sinal de áudio (por exemplo, o sinal de áudio downmix 210) que compreende canais M. Junto a este sinal downmix compatível com segundo plano, são transmitidos objetos paramétricos (por exemplo, utilizando a informação de fluxo de bits SAOC 212) que permite a recriação e manipulação dos sinais dos objetos originais. Um codificador SAOC (não apresentado aqui) produz um downmix dos sinais de objeto em sua entrada e extrai estes parâmetros do objeto. Em principio, o número de objetos que pode ser gerenciado é ilimitado. Os parâmetros de objeto são quantificados e codificados eficientemente para o fluxo de bits SAOC 212. O sinal downmix 210 pode ser comprimido e transmitido sem a necessidade de atualizar os codificadores existentes e infraestruturas. Os parâmetros do objeto, ou informações de lado SAOC, são transmitidos em um canal de lado de baixa taxa de bits, por exemplo, a parte de dados auxiliares do fluxo de bits downmix.

Sobre o lado do decodif icador, os objetos de entrada são reconstruidos e renderizados para se obter certo número de canais de reprodução. A informação de renderização contendo o nivel de reprodução e a posição panorâmica para cada objeto é fornecida pelo usuário ou pode ser extraida do fluxo de bits SAOC (por exemplo, como uma informação pré-ajustada) . A informação de renderização pode ser variável em função do tempo. Os cenários de saida podem variar de mono a canais múltiplos (por exemplo, 5.1) e são independentes tanto em relação ao número de objetos de entrada como ao número de canais downmix. A renderização binaural dos objetos é possivel incluindo as posições de elevação do objeto virtual e azimute. Uma interface de efeito opcional permite manipulações avançadas dos sinais de objeto, além das modificações de posição e de nivel.

Os próprios objetos podem ser de sinais mono, sinais estereofônicos, bem como sinais de canais múltiplos (por exemplo, 5.1 canais). São tipicas configurações downmix mono e estéreo.

A seguir, será explicada a estrutura básica do decodificador/transcodificador SAOC, que é apresentado na Fig.2. O módulo decodificador/transcodificador SAOC aqui descrito pode agir tanto como um decodificador independente como um transcodificador de SAOC para fluxo de bits MPEG-surround, dependendo da configuração do canal de saida pretendida. Em um primeiro modo de operação, a configuração do sinal de saida é mono, estéreo ou binaural e são utilizados dois canais de saida. Neste primeiro caso, o módulo SAOC pode operar no modo decodificador e a saida do módulo SAOC é uma saida de modulação por código de pulso (saida PCM) . Neste primeiro caso, não é exigido um decodificador MPEG- Surround. Por outro lado, a representação de sinal upmix pode somente compreender um sinal de saida 220, enquanto pode ser omitido o fornecimento do fluxo de bits MPEG surround. Em um segundo caso, a configuração do sinal de saida é uma configuração de canais múltiplos com mais de dois canais de saida. 0 módulo SAOC pode ser operacional em um modo transcodificador. A saida do módulo SAOC, neste caso, pode compreender tanto um sinal downmix 220 como um fluxo de bits MPEG surround 222, como apresentado na 5 Fig.2. Assim, é necessário um decodificador MPEG Surround a fim de se obter uma representação do sinal de áudio final para a saida pelos auscultadores.

A Fig.2 apresenta a estrutura básica da arquitetura do decodificador/transcodificador SAOC. O processador 10 residual 216 extrai o objeto de áudio aprimorado do sinal downmix de entrada 210 com o uso da informação residual contida no fluxo de bits SAOC 212. O pré-processador downmix 270 processa os objetos de áudio comuns (que são, por exemplo, objetos de áudio nãoaprimorados, ou seja, objetos de áudio para os quais não é transmitida nenhuma informação residual pelo fluxo de bits SAOC 212). Os objetos de áudio aprimorados (representados pelo primeiro sinal do objeto de áudio 2 62) e os objetos de áudio comumente processados (representados, por exemplo, pela versão processada 272 do segundo sinal de objeto de áudio 264) são combinados para 20 um sinal de saida 220 para o SAOC no modo decodificador ou para um sinal downmix MPEG surround 220 para o SAOC no modo transcodificador. As descrições detalhadas dos blocos de processamento são dadas a seguir.

3. Arquitetura e funcionalidade do Processador 25 Residual e Processador no Modo de Energia

A seguir, serão descritos detalhes sobre um processador residual, que pode, por exemplo, assumir a funcionalidade do separador de objeto 130 do decodificador de sinal de áudio 100 ou o do processador residual 260 do decodificador de sinal de áudio 200. Para este fim, as Figuras 3a e 3b apresentam diagramas esquemáticos de bloco de tal processador residual 260. A Fig. 3a apresenta menos detalhes que a Fig. 3b. No 5 entanto, a seguinte descrição aplica-se ao processador residual 300 de acordo com a Fig. 3a e também ao processador residual 380 de acordo com a Fig. 3b. O processador residual 300 é configurado para receber um sinal downmix SAOC 310, que pode ser equivalente à 10 representação de sinal downmix 112 da Fig.l ou a representação de sinal downmix 210 da Fig.2. O processador residual 300 é configurado para oferecer, com base no mesmo, uma primeira informação de áudio 32 0 descrevendo um ou mais objetos de áudio aprimorados, que podem, por exemplo, ser equivalentes à primeira 15 informação de áudio 132 ou ao primeiro sinal do objeto de áudio 262. Também, o processador residual 300 pode oferecer uma segunda informação de áudio 322 descrevendo um ou mais objetos de áudio (por exemplo, objetos de áudio nãoaprimorados, para os quais não há informação residual disponível), em que uma segunda informação 20 de áudio 322 pode ser equivalente à segunda informação de áudio 134 ou ao segundo sinal de objeto de áudio 264. O processador residual 300 compreende uma unidade l-a-N/2-a-N (unidade OTN/TTN) 330, que recebe o sinal downmix SAOC 310 e que também recebe dados SAOC e residuais 332. A unidade 1-a- 25 N/2-a-N 330 também oferece um sinal de objeto de áudio aprimorado 334, que descreve objetos de áudio aprimorados (EAO) contidos no sinal downmix SAOC 310. Também, a unidade l-a-N/2-na 330 oferece a segunda informação de áudio 322. O processador residual 300 também compreende uma unidade de renderização 340, que recebe o sinal de objeto de áudio aprimorado 334 e uma informação de matriz de renderização 342e oferece, com base na mesma, a primeira informação de áudio 320.

A seguir, será descrito em mais detalhes o processamento do objeto de áudio aprimorado (processamento EAO) , que é realizado pelo processador residual 300.

Introdução para a Operação do Processador Residual 300

Em relação à funcionalidade do processador residual 300, deve-se notar que a tecnologia SAOC permite a manipulação individual de um número de objetos de áudio em relação ao seu nivel de amplificação/atenuação, sem redução significante do resultado da qualidade sonora, somente de modo muito limitado.

Um cenário de aplicação do tipo "karaokê" especial exige uma supressão total (ou quase total) dos objetos específicos, tipicamente a voz principal, mantendo a qualidade perceptual da cena sonora ilesa de segundo plano.

Um caso de aplicação tipica contém até quarto sinais objetos de áudio aprimorados (EOA), que podem, por exemplo, representar dois objetos estéreos independentes (por exemplo, dois objetos estéreos independentes que são preparados para serem removidos ao lado do decodificador).

Deve-se notar que (um ou mais) objetos de audio de qualidade aperfeiçoada (ou, mais precisamente, contribuições de sinal de áudio associadas com objetos de áudio aprimorados) estão incluídos no sinal downmix SAOC 310. Tipicamente, as contribuições de sinal de áudio associadas a (um ou mais) objetos de áudio aprimorados são mixadas, pelo processamento downmix realizado pelo decodificador de sinal de áudio, com contribuições sinal de áudio de outros objetos de áudio, que não são objetos de áudio aprimorados. Também, deve-se notar que as contribuições de sinal 5 de áudio de uma pluralidade de objetos de áudio aprimorados também são tipicamente sobrepostas ou mixadas pelo processamento downmix realizado pelo decodificador de áudio.

Arquitetura SAOC Apoiando Objetos de Áudio Aprimorados

A seguir, serão descritos detalhes sobre o processador residual 300. O processamento do objeto de áudio aprimorado incorpora as unidades 1-a-N ou 2-a-N, dependendo do modo downmix SAOC. A unidade de processamento 1-a-N é dedicada a um sinal downmix mono e a unidade de processamento 2-a-N édedicada a um sinal downmix estéreo 310. Ambas as unidades representam uma modificação aperfeiçoada e generalizada da caixa 2-a-2 (caixa TTT) conhecida por ISO/IEC23003-1:2007. No codificador, sinais comuns e EAO são combinados em downmix. AS unidades de processamento OTN~ 1/TTN'1 (que são unidades de processamento 1-a-N inversas ou unidades de processamento 2-a-N inversas) são empregadas para produzir e decodificar os sinais residuais correspondentes.

Os sinais comuns e EAO são recuperados do downmix 310 pelas unidades OTN/TTN 330 com o uso da informação de lado SAOC e dos sinais residuais incorporados. Os EAOs recuperados (que são descritos pelo sinal de objeto de áudio aprimorado 334) são alimentados em uma unidade de renderização 340 que representa (ou oferece) o produto da matriz de renderização correspondente (descrita pela informação da matriz de renderização 342) e a saida resultante da unidade OTN/TTN. Os objetos de áudio comuns (que são descritos pela segunda informação de áudio 322) são entregues ao pré-processador downmix SAOC, por exemplo, o pré-processador downmix SAOC 270, para processamento posterior. As Figuras 3a e 3b 5 representam a estrutura geral do processador residual, ou seja, a arquitetura do processador residual.

Os sinais de saida do processador residual 320, 322 são computador como: I

Onde, X0BJrepresenta o sinal de downmix dos objetos de áudio regulares (ou seja, não EAO) e o XEA0 é o sinal EAO produzido apresentado para o modo de decodificação SAOC ou o I sinal de downmix EAO correspondente para o modo de transcodificação SAOC.

O processador residual pode operar no modo de predição (utilizando informações residuais) ou modo de energia (sem informações residuais). 0 sinal de entrada estendido Xres é definido de acordo com:

Para modo de predição Para modo de energia Aqui, X pode, por exemplo, representar um ou mais canais da representação 310 do sinal de downmix, o que pode ser transportado no fluxo de bits representando o conteúdo audivel de multicanais. res pode designar um ou mais sinais residuais, que podem ser descritos pelo fluxo de bits representando o conteúdo 5 audivel de multicanais.

O processamento OTN/TTN é representado pela matriz M e o processador EAO pela matriz AEAo.

A matriz M do processamento OTN/TTN é representada como

A matriz M do processamento OTN/TTN é representada como

Onde a matriz M0BJ está relacionada aos objetos de áudio regular (ou seja, não EAO) e a MEA0 aos objetos de áudio aperfeiçoado (EAOs).

Em algumas materializações, um ou mais objetos de fundo de multicanais (MBO) podem ser tratados do mesmo modo pelo processador residual 300.

Um Objeto de Fundo de Multicanais (MBO) é um downmix mono ou estéreo MPS que faz parte do downmix SAOC. Ao contrário da utilização de objetos SAOC individuais para cada canal em um sinal de multicanais, um MBO pode ser utilizado permitindo que o SAOC manuseie de forma mais eficiente um objeto de multicanais. No caso do MBO, a elevação do SAOC é diminuida já que os parâmetros SAOC do MBO estão apenas relacionados aos canais 5 de downmix ao invés de todos os canais de upmix.

3.3 Outras Definições 3.3.1 Dimensionalidade dos Sinais e Parâmetros

A seguir, a dimensionalidade dos sinais e parâmetros serão rapidamente discutidos a fim de fornecer uma 10 compreensão de quantas vezes os diferentes cálculos são realizados.

Os sinais de áudio são definidos para cada intervalo de tempo n e cada sub-banda hibrida (a qual pode ser uma sub-banda de frequência) k. Os parâmetros SAOC correspondentes são 15 definidos para cada intervalo de tempo 1 do parâmetro e banda de processamento m. O mapeamento subsequente entre o dominio hibrido e o dominio do parâmetro é especificado na tabela A. 31 ISO/IEC 23003-1:2007. Por isso, todos os cálculos são realizados com relação a certos indices de tempo/banda e as dimensionalidades 20 correspondentes são implícitas para cada variável introduzida.

Entretanto, a seguir, os indices de tempo e frequência serão às vezes omitidos para manter a numeração concisa.

3.3.2 Cálculo da Matriz AEA0

A matriz pré-renderizada AEAO é definida de acordo com o número de canais de saida (ou seja, estéreo ou binaural) como:

para modo mono para outro tipo de modo As matrizes A1EAo do tamanho 1xNEAo e A2EAo de tamanho 2xNEAo são definidas como

onde as matrizes de pré-renderização MrenEA0 5 correspondem ao EAO renderizado (e descreve um mapeamento desejável dos objetos de áudio aperfeiçoado nos canais da renderização do sinal de upmix). Os valores Wj.EA0são calculados em dependência das informações recebidas associadas com os objetos de áudio 10 aperfeiçoado utilizando os elementos EAO correspondentes e as equações da seção 4.2.2.1. No caso de renderização binaural, a matriz A2EAO é definida por equações dadas na seção 4.1.2 para as quais a matriz de renderização binaural alvo contém apenas elementos relacionados 15 ao EAO.

3.4 CálculodosElementosOTN/TTNnoModo Residual

A seguir será discutido como o sinal de downmix 310 SAOC, o qual geralmente compreende um ou dois canais de áudio, é mapeado no sinal 334 do objeto de áudio aperfeiçoado, o qual 5 geralmente compreende um ou mais canais de objeto de áudio aperfeiçoado, e a segunda informação 322 de áudio, a qual geralmente compreende um ou mais canais regulares do objeto de áudio.

A funcionalidade das unidades 1-a-N ou 2-a-N 330 10 pode, por exemplo, ser implementada utilizando uma multiplicação do vetor da matriz, sendo que o vetor descrevendo os canais do sinal 334 do objeto de áudio aperfeiçoado e os canais da segunda informação 322 de áudio é obtido através da multiplicação de um vetor descrevendo os canais do sinal 310 de downmix SAOC e 15 (opcionalmente) um ou mais sinais residuais com a matriz MPrediçâo ou ^Energia- Portanto, a determinação da matriz MPredlçSo ou MEnergia é uma etapa importante na derivação da primeira informação 320 de áudio e a segunda informação 322 de áudio do downmix SAOC 310. Resumindo, o processo upmix OTN/TTN é 20 apresentando tanto pela matriz MPredição para um modo de predição ou ^Energia para um modo energia. O procedimento de codificação/decodificação baseado em energia é projetado para um código de preservação sem formato de onda do sinal de downmix. Assim, a matriz downmix 25 OTN/TTN para o modo de energia correspondente não conta com ondas especificas, mas apenas descreve a distribuição relativa de energia dos objetos de áudio de entrada, conforme será discutido com mais detalhes abaixo.

3.4.1 Modo de Predição.

Para o modo de predição a matriz Mpreciiçãoé definida explorando a informação de downmix contida na matriz dados CPC da matriz C: Predição --1 MPrediction = D C • Com relação aos diversos modos SAOC, a matriz downmix estendida Õ e a matriz C CPC exibem as seguintes dimensões e estruturas:

3.4.1.1 Modos de downmix estéreo (TTN)

Para modos de downmix estéreo (TTN) (por exemplo, para o caso de um downmix estéreo com base em dois canais de objeto de áudio regular e canais NEAo de objeto de áudio aperfeiçoado), a matriz downmix (estendida) De a matriz C CPC podem ser obtidas da seguinte forma•

Com um downmix estéreo, cada j mantém dois CPC cj. 0 e cj.l formando a matriz C. Os sinais de saida do processador residual são calculados da seguinte forma:

Portanto, dois sinais Y1 , YR +(que são representados por X0BJ) são obtidos, os quais representam um ou mais ou até mesmo mais que dois objetos de áudio regular (também projetado como objetos de áudio não estendidos). Os sinais NEA0 5 (representados pelo XEA0) , representando os objetos de áudio aperfeiçoado NEAOI também são obtidos. Estes sinais são obtidos com base de dois sinais SAOC downmix l0, r0 e sinais residuais NEAO res0 ao resNEA0-i, que será codificado na informação adicional SAOC, por exemplo, como parte da informação paramétrica relacionada ao 10 objeto.

Deve-se observar que os sinais yL e yR podem ser equivalentes ao sinal 322, e que os sinais y0, EAOθ YNEAO-I,EAO (OS quais são representados por XEAO) podem ser equivalentes aos sinais 320.

A matriz AEA0 é uma matriz de renderização. Entradas da matriz AEA0 podem ser descritas, por exemplo, um mapeamento dos objetos de áudio aperfeiçoado até os canais do sinal 334 (XEA0) do objeto de áudio aperfeiçoado.

Portanto, uma escolha apropriada da matriz AEAO pode permitir uma integração opcional da funcionalidade da unidade de renderização 340, sendo que a multiplicação do vetor descrevendo os canais (lo, r0) do sinal 310 downmix SAOC e um ou maus sinais residuais (res0, . . . resNEA0-i) com a matriz AEA0MEA0Predlçâo pode resultar diretamente em uma renderização XEA0 da primeira informação 320 de áudio.

3.4.1.2 Modos de downmix mono (OTN):

A derivação dos sinais 320 do objeto de áudio aperfeiçoado (ou, alternativamente, dos sinais 334 do objeto de áudio aperfeiçoado) e o sinal 322 do objeto de áudio regular serão descritas a seguir para o caso no qual o sinal de downmix 310 SAOC compreende apenas um sinal de canal.

Para os modos de downmix mono (OTN) (por exemplo, um downmix mono com base em um canal de objeto de áudio regular e canais NEA0 de um objeto de áudio aperfeiçoado), a matriz downmix (estendida) D e a matriz C CPC podem ser obtidas como a seguir:

Com um downmix mono, um EAO j é previsto por apenas um coeficiente Cj, formando a matriz C. Todos os elementos Cj da matriz são obtidos, por exemplo, dos parâmetros SAOC (por exemplo, dos dados 322 SAOC) de acordo com as relações fornecidas abaixo (seção 3.4.1.4). Os sinais de saida do processador residual são calculados como:

O sinal XosJ gerado compreende, por exemplo, um canal descrevendo os objetos de áudio regulares (objetos de áudio não aperfeiçoados). O sinal de saída XEAo compreende, por exemplo, 5 um, dois ou até mesmo mais canais descrevendo os objetos de áudio aperfeiçoado (preferencialmente canais NEAO descrevendo os objetos de áudio aperfeiçoado) . Novamente os referidos sinais são equivalentes aos sinais 320,322.

3.4.1.3 Cálculo da matriz downmix estendida 10 inversa

A matriz Õ-1 é o inverso da matriz de downmix estendida D e C sugere o CPC

A matriz Õ- 1 é o inverso da matriz D e pode ser calculada como

Os elementos di, j (por exemplo, do inverso Õ 1 da matriz downmix estendida Õ de tamanho 6x6) são utilizando os seguintes valores:

Os coeficientes m2 e n2da matriz downmix estendida® denotam os valores de downmix para cada EAO j para os canais de downmix da direita e esquerda como: mj = dor EAO (J) f nj= dlr EAO (J)

Os elementos d±j da matriz de downmix D são obtidos utilizando as informações DMG do downmix e a informação DCLD de nivel diferente do canal de downmix (opcional), a qual é inclusa na informação 322 SAOC que é representada, por exemplo, pela informação paramétrica 110 relacionada ao objeto ou a informação 212 de fluxo de bits SAOC.

No caso de downmix estéreo, a matriz D downmix de tamanho 2 x N com elementos di,j (i= 0,1; j= 0,..., N - 1) é obtida através dos parâmetros DMG e DCLD como

No caso de downmix mono, a matriz D downmix de tamanho 1 x N comelementos di(j (1= 0; j= 0,..., N - 1)é obtido através do parâmetro DMG como dOíj= 10°'05DMGj. Aqui, os parâmetros downmix desquantizados DMGj e DCLDj são obtidos, por exemplo, das informações adicionais paramétricas 110 ou do fluxo de bits 212 SAOC. A função EAO(j) determina o mapeamento entre os 10 indices de entrada dos canais de objeto de áudio e sinais EAO: EAO (j) = N - 1 - j, j = 0,..., NEAO - 1 3.4.1.4 Cálculo da matriz C A matriz C sugere o CPC e é derivada dos parâmetros SAOC transmitidos (ou seja, os OLD, IOC, DMG e DCLD) como: c. 0 =(1- J.)ê; 0 + J.r;•o, c . =(1--/L)c., +J.y Em outras palavras, o CPC restrito é obtido de acordo com as equações acima, as quais podem ser consideradas como um algoritmo restrito. Entretanto, o CPC restrito pode ser 20 derivado dos valores ê j,o, é j,l utilizando uma abordagem de limitação diferente (algoritmo restrito), ou pode ser considerado igual aos valores de E. E. J, O, J, 1 . (As entradas cjfl da matriz são calculadas) são geralmente apenas exigidas se o sinal de downmix for um sinal de 25 downmix estéreo. O CPC é restrito pelas funções limitadoras subsequentes:

Com o fator de ponderação À determinado como

Para urn canal EAO especifico j= 0. . . NEA0 -1 o CPCs não restritos são estimados por:

As quantidades PL0, PR0, PLORO, PLoco,j e PROCo,j são calculadas como:

A matriz covariante elzjé definida da seguinte forma: A matriz covariante E de tamanho N x Ncomo elementos eizJ _ representa uma aproximação do sinal original da matriz covariante E~SS* e são obtidas dos parâmetros OLD e IOC como:

Aqui, os parâmetros desquantizados OLDi, IOCizj são obtidos, por exemplo, das informações paramétricas adicionais 110 ou do fluxo de bits 212 SAOC.

Além disso, eL;R pode, por exemplo, ser obtido como:

Os parâmetros OLDL, OLDRe IOCL,Rcorrespondem aos objetos regulares (áudio) e podem ser derivados utilizando as informações downmix:

Como pode ser visto, dois valores OLDL e OLDR comuns de diferentes niveis de objeto são calculados para os objetos de áudio regular no caso de um sinal de downmix estéreo (que preferencialmente sugere um sinal de dois canais do objeto de áudio regular). Em contraste, apenas um valor OLDL comum de 10 diferentes niveis de objeto é calculado para os objetos de áudio regular no caso de um sinal de downmix de um único canal (mono) (que preferencialmente sugere um sinal de um canal do objeto de áudio regular).

Como pode ser visto, o primeiro (no caso de um 15 sinal de downmix de dois canais) ou único (no caso de um sinal de downmix de um canal) valor OLDL comum de diferentes niveis de objeto são obtidos através da soma das contribuições dos objetos de áudio regular com indice (ou indices) de objeto de áudio i no canal direito do sinal de downmix 310 SAOC. O segundo valor de diferença de nivel de objeto comum OLDR (que é usado no caso de um sinal downmix de dois canais) é obtido pela soma das contribuições dos objetos de áudio regular com o indice (ou indices) de objeto de áudio i para o canal direito do sinal downmix SAOC 310. O OLDL contribuinte dos objetos de áudio regular (com indices de objetos de áudio i=0 para i=N-NEA0_1) no sinal do canal esquerdo (ou sinal do único canal) do sinal de downmix 710 é calculado, por exemplo, levando em consideração o aumento do downmix d0, i, descrevendo o aumento do downmix aplicado no objeto de áudio regular com indice i do objeto de áudio quando obtendo o sinal do canal esquerdo do sinal de downmix 310 SAOC, e também o nivel de objeto do objeto de áudio regular tendo o objeto de áudio i, o qual é representado pelo valor OLDí.

De forma similar, o valor OLDR de diferente nivel 10 de objeto é obtido utilizando os coeficientes d1;ide downmix, descrevendo o aumento de downmix aplicado ao objeto de áudio regular tendo o indice de objeto de áudio i ao formar o sinal do canal direito do sinal de downmix 310 SAOC, e o nivel OLDÍ de informação associado com o objeto de áudio regular tendo o indice 15 i de objeto vde áudio.

Como pode ser visto, as equações para o cálculo das quantidades PLo, PRO, PLORO,P∑ocoj θ Pπocoj não se diferenciam entre os objetos de áudio regular individuais, mas meramente fazem uso dos valores OLDL e OLDR comuns de diferentes niveis de objeto, i I i 20 considerando assim os objetos de áudio regulares (tendo indices I de objeto de áudio) como um único objeto de áudio. O valor IOCL,R de correlação entre objetos que é associado com os objetos de áudio regular também é estabelecido a 0 a menos que haja dois objetos de áudio regular. A matriz de covariância eifj (e eL,R) é definida como a seguir: A matriz de covariância E de tamanho N x N com elementos ei;jrepresenta uma aproximação do sinal original da matriz de covariância E«SS* e são obtido dos parâmetros OLD e IOC como:

onde, o OLDL e OLDR eIOCL/R são calculados conforme descrito acima. Aqui, os parâmetros dos objetos desquantizados são obtidos como: OW, =D0Ln(M,w), IOCIJ = Dloc(i,j,l,m)\ onde, DQLD e DI0C são matrizes que compreendem parâmetros de diferentes niveis de objeto e parâmetros de correlação entre objetos.

3.4.2 Modo de Energia

Outro conceito será descrito a seguir, o qual pode ser usado para separar os sinais 320 de objeto de áudio estendido e os sinais 322 do objeto de áudio regular (objeto de áudio não estendido) , e que pode ser utilizado em combinação com uma codificação de áudio de preservação sem formato de onda dos 20 canais de downmix 310 SAOC.

Em outras palavras, o procedimento de codificação/decodificação baseado em energia foi projetado para o sinal de downmix de preservação de codificação sem formato de onda. Portanto, a matriz upmix OTN/TTN para o modo de energia 25 correspondente não se baseia em forma de ondas especificas, mas apenas descreve a distribuição de energia relativa dos objetos de áudio de entrada.

O conceito que também será discutido aqui, o qual é designado como um conceito de "modo de energia", pode ser transmitido sem uma informação de sinal residual. Novamente, os objetos de áudio regular (objetos de áudio não estendido) são tratados como um objeto de áudio de um canal ou dois canais contendo um ou mais valores OLDL e OLDR de diferentes niveis de objeto.

Para o modo de energia, a matriz MEnergia é definida explorando a informação de downmix e o OLD, conforme será descrito a seguir.

3. 4. 2. 1 Modo de Energia para Modos de Oownmix estéreo (TTN)

No caso de um estéreo (por exemplo, um downmix estéreo com base em dois canais de objeto de áudio regular e canais NEAO de objeto de áudio aperfeiçoado), as matrizes MosJEnergia e 15 MEAoEnergia são obtidas do OLD correspondente de acordo com:

Os sinais gerados do processador residual são calculados como:

Os sinais yL, YR que são representados pelo sinal XosJ, descrevem os objetos de áudio regular (e podem ser equivalentes ao sinal 322), e os sinais Yo,EAo ao YNEAo-l,EAo, que são 5 descritos pelo sinal descrevem os objetos de áudio aperfeiçoado (e podem ser equivalentes ao sinal 334 ao sinal 320).

Se um sinal upmix mono for desejado para o caso de um sinal de downmix estéreo, um processamento 2-a-1 pode ser realizado, por exemplo, pelo pré-processador 270 com base no sinal 10 XooJ de dois canais.

3. 4. 2. 2 Modo de Energia para Modos de Downmix Mono (OTN)

No caso de mono (por exemplo, um downmix mono com base em um canal de objeto de áudio regular e um canal NEAo de objeto de áudio aperfeiçoado), a as matrizes sao obtidas do OLD acordo com:

Os sinais gerados no processador residual são calculados como:

Um único canal 322 de objeto de áudio regular (representado por X0BJ) e canais 320 NEA0 de objeto de áudio aperfeiçoado (representado por XEAO) podem ser obtidos aplicando 5 as matrizes M0BJEnergia e MEA0Energia a uma representação de um único canal de sinal de downmix 310 SAOC (representado por d0) .

Se um sinal upmix (estéreo) for desejado para o caso de um sinal de downmix de um canal (mono) , um processamento de l-a-2 pode ser realizado, por exemplo, por um pré-processador 10 27 0 com base de um sinal X0BJ de um canal.

4. Arquitetura e operação do Pré-processador Downmix SAOC

A operação do pré-processados 270 downmix SAOC será descrita a seguir tanto para os modos de decodificação da 15 operação quanto para os modos de transcodificação da operação,

4.1 Operações dos Modos de Decodificação 4.1.1 Introdução

Um método de obtenção de um sinal de saida utilizando parâmetros SAOC e informações detalhadas (informações 20 de renderização) associadas com cada objeto de áudio será descrito a seguir. O decodificador SAOC 495 será mostrado na Figura 4g e consiste de um processador de parâmetro 496 SAOC e o processador de downmix 497.

Deve-se observar que o decodificador 494 SAOC pode ser utilizado para processar objetos de áudio regular e, portanto, pode receber o segundo sinal 264 do objeto de áudio ou o sinal 322 do objeto de áudio regular ou a segunda informação 134 de áudio, de acordo com o sinal de downmix 497a. Consequentemente, o processador downmix 497 pode fornecer, de acordo com seus sinais de saida 497b, a versão 272 processado do segundo sinal 264 do objeto de áudio ou a versão 142 processada da segunda informação 5 134 do objeto de áudio. Portanto, o processador 497 de downmix pode desempenhar o papel do pré-processador 270 downmix SAOC ou o papel do processador 140 do sinal de áudio.

O processador de parâmetro 496 SAOC pode desempenhar o papel do processador de parâmetro 252 SAOC e 10 consequentemente fornecer a informação 496a de downmix.

4.1.2 Processador de downmix

O processador de downmix, que faz parte do processador 140 de sinal de áudio e que está designado como um "pré-processador 270 SAOC downmix"ilustrado na Figura 2, e que é 15 designado com 497 no decodificador 495 SAOC, será descrito mais detalhadamente a seguir.

Para o modo de decodificação do sistema SAOC, o sinal de saida 142, 272, 497b do processador de downmix (representado no dominio QMF hibrido) é alimentado na sintese 20 correspondente do banco de filtro (não apresentado nas figuras 1 e 2) conforme descrito no ISO/IEC 23003-1:2007 produzindo o sinal PCM de saida final. Não obstante, o sinal de saida 142, 272, 497b do processador de downmix é geralmente combinado com um ou mais sinais 132, 262 de áudio, representando objetos de audio aperfeiçoado. Esta combinação pode ser realizada antes da sintese correspondente do banco de filtro (desde que um sinal combinado reunindo a saida do processador de downmix e um ou mais sinais representando os objetos de áudio aperfeiçoado seja inserido na sintese de banco de filtro). De maneira alternativa, o sinal de saida do processador de downmix pode ser combinado com um ou mais sinais de áudio representando os objetos de áudio aperfeiçoado apenas após o processamento da sintese de banco de filtro.

Portanto, a representação do sinal de upmix 120,220 pode ser uma representação do dominio QMF ou uma representação do dominio PCM (ou qualquer outra representação apropriada). O processamento de downmix incorpora, por exemplo, o processamento mono, o processamento estéreo e, se necessário, o processamento binaural 10 subsequente. O sinal de saida do processador 270,497 de downmix (também designado com 142, 272, 497b) é calculado a partir do sinal de downmix mono X (também designado com 134, 564, 497a) e do sinal Xdde downmix mono não correlacionado como: X = GX + P2Xd. O sinal Xdde downmix mono não correlacionado é calculado como:

Os sinais Xd não correlacionados foram criados do descorrelacionador descrito no ISO/IEC 23003-1:2007, subcláusula 6.6.2. Seguindo este esquema, a configuração do bsDecorrConfig == 0 deve ser utilizada com um indice de descorrelação, X = 8, de acordo com a Tabela A.26 à Tabela A.29 em ISO/IEC 23003-1:2007. Consequentemente, a decorrFunc () denota o processo de descorrelação:

No caso de uma saida binaural, os parâmetros G e P2 de upmix derivam dos dados SAOC, informações de renderização Mrs/'m e parâmetros HRTF são aplicados no sinal X de downmix (e Xd) produzindo a saida binaural X, vide a Figura 2, número de referência 270, onde a estrutura básica do processador de downmix é apresentada.

A matriz A1'”1 de representação do alvo binaural de tamanho 2 x Nconsiste dos elementos ax,y1,m, cada elemento ax,y1,mé derivado dos parâmetros HRTF e da matriz de renderização M1,n’ren com elementos myil1,m, por exemplo, pelo processador de parâmetro SAOC. A matriz A1,m de representação do alvo binaural representa a 10 relação entre todos os objetos de entrada de áudio yea saida binaural desejada.

Os parâmetros HRTF são dados por HmizL, Hmi;R e 0mi para cada banda de processamento m. As posições espaciais para cada parâmetro HRTF disponíveis são caracterizadas pelo indice i.Estes parâmetros são descritos em ISO/IEC 23003-1:2007.

4.1.2.1 Visão Geral

A seguir será apresentada uma visão geral do processamento de downmix com referência nas Figuras 4a e 4b, as 20 quais mostram uma representação em bloco do processamento de downmix, que será realizado pelo processador de sinal de áudio 140 ou pela combinação do processador de parâmetro SAOC 252 e o pré- processador de downmix SAOC 270, ou pela combinação do processador de parâmetro SAOC 496 e o processador de downmix 497.

Tendo como referência a Figura 4a, o processamento de downmix recebe uma matriz de renderização M, uma informação da diferença do nivel do objeto OLD, uma informação de correlação entre objeto IOC, uma informação do aumento de downmix DMG e (opcionalmente) uma informação de diferença do nivel de downmix do canal DCLD. 0 processamento de downmix 400, de acordo com a Figura 4a, obtém uma matriz de renderização A com base na matriz de renderização M, por exemplo, utilizando um ajustador de parâmetro e um mapeamento de M-a-A. Entradas de uma matriz de covariância E também são obtidas dependendo da informação da diferença no nivel do objeto OLD e a informação da correlação no objeto IOC, por exemplo, conforme discutido acima. De maneira similar, as entradas da matriz de downmix D são obtidas em dependência com as informações DMG de aumento do downmix e as informações DCLD de diferença nos niveis de downmix do canal.

Entradas f de uma matriz de covariância F desejada são obtidas em dependência com a matriz de renderização A e a matriz de covariância E. Um valor escalar v também é obtido em dependência com a matriz de covariância E e a matriz de downmix D (ou em dependência com as entradas dos mesmos) .

Os valores de aumento PL e PR para os dois canais são obtidos em dependência com as entradas da matriz de covariância F desejada e o valor escalar v. Um valor 0c de diferença da fase Intercanal também é obtido em dependência das entradas f da matriz de covariância F desejada. Um ângulo de rotação a também é obtido em dependência das entradas f da matriz de covariância F seja de, levando em consideração, por exemplo, uma constante c. Além disso, um segundo ângulo de rotação β é obtido, por exemplo, em dependência dos aumentos PL e PR do canal e do primeiro ângulo de rotação ot. AS entradas da matriz G são obtidas, por exemplo, em dependência dos valores de aumento PL e PR dos dois canais e também em dependência da diferença 0c da fase intercanal e, opcionalmente, os ângulos de rotação α e β. De forma similar, as entradas da matriz P2 são determinadas em dependência de alguns ou de todos os valores PL,PR, 0C,α e β.

A seguir será descrito como a matriz G e/ou P2 (ou as entradas das mesmas), que será aplicada pelo processador de downmix conforme discutido acima, pode ser obtida para diferentes modos de processamento.

4.1.2.2 Modo de Processamento "x-l-b" mono a binaural

A seguir, um modo de processamento será discutido, no qual os objetos de áudio regular são representados por um sinal de downmix 134, 264, 322 e 497a de canal único e no qual uma representação binaural é desejada.

Os parâmetros G1,m e P1,m2 de upmix são calculados como:

Os aumentos P1 1 'm e PRl,m para os canais de saída da esquerda e direita são:

A matriz de covariância F1’m de tamanho 2x2 com elementos f1,πii,j é dada como:

O valor escalar v 1 'm é calculado como:

A diferença 0c1,m da fase intercanal é dado como

A coerência p/'m do intercanal é calculada como:

Os ângulos de rotação cxl.m e R> 1 'm são dados como:

4.1.2.3 Modo de Processamento "x-1-2" Mono a Estéreo O modo de processamento no qual os objetos de áudio regular são representados por um sinal 134, 264, 222 de canal único e no qual uma representação estérea é desejada será descrito a seguir. No caso da saida estérea o modo de processamento de "x-l-b"pode ser aplicado sem o uso da informação HRTF. Isto pode ser feito pela derivação de todos os elementos ax,y1,m da matriz de renderização A, produzindo:

4.1.2.4MododeProcessamento"x-1-1"MonoaMono 0 modo de processamento no qual os objetos de áudio regular são representados por um sinal 134, 264, 322, 497a de canal único e no qual uma representação de dois canais de objetos de áudio regular é desejada será descrito a seguir. No caso da saida mono o modo de processamento "x- 1-2" pode ser aplicado com as seguintes entradas:

4.1.2.5 Modo de processamento "x-2-b"estéreo a binaural

O modo de processamento no qual os objetos de áudio regular são representados por um sinal 134, 264, 322 e 497a de dois canais e no qual uma representação binaural de objetos de áudio regular é desejada será descrito a seguir.

Os parâmetros de upmix G1 'm e P1 'm2 são calculados como:

Os aumentos correspondentes PLl,m,x, P/'m,x e pLl,m,, PRl,m para os canais da esquerda e direi ta são:

A matriz de covariância F1 'm,x desejada de tamanho 2x2 com elementos e dada como

A matriz de covariância C1 'm de tamanho 2x2 com elementos C l,m u,v do sinal binaural "seco" é estimada como

onde,

Os valores escalares v1,m,x e v1,m correspondents são calculados como:

A matriz D1 'x downmix de tamanho 1 x N com 15 elementos di l,x pode ser encontrada como:

A matriz 01 downmix estéreo de tamanho 2 x N com elementos dx,/' pode ser encontrada como

A matriz E1 'm,x com elementos e. _l,m,x 1,] é derivada da seguinte relação:

As diferenças 0c1,m da fase de intercanal são dadas como

Os ICCs sao calculados como

Os ãngulos de rotação cx1 'm e sao dados como

4.1.2.6 MododeProcessamento"x-2-2"Estéreoa Estéreo

O modo de processamento no qual os objetos de áudio regular são representados por um sinal 134, 264, 322 e 497a de dois canais (estéreo) e no qual uma representação de dois canais (estéreo) é desejada será descrito a seguir.

No caso da saida estéreo, o pré-processamento estéreo é diretamente aplicado, o qual será descrito na Seção 4.2.2.3.

4.1.2.7 Modo de processamento "x-2-1" estéreo a 20 mono

O modo de processamento no qual os objetos de áudio regular são representados por um sinal 134, 264, 322 e 497a de dois canais (estéreo) e no qual uma representação de um canal (mono) de objetos desejada será descrito a seguir.

No caso da saída estéreo, o pré-processamento estéreo é diretamente aplicado, o qual será descrito na Seção 4.2.2.3.

4.1.2.8 Conclusão

Tendo como referência as Figuras 4a e 4b, um processamento foi descrito o qual pode ser aplicado ao sinal 134, 264, 322 e 497a de um canal ou dois canais representando os objetos de áudio subsequentes em uma separação entre os objetos de áudio estendido e os objetos de áudio regulares. As Figuras 4a e 10 4b ilustram o processamento, sendo que o processamento descrito nas Figuras 4a e 4b se diferem com relação ao ajuste do parâmetro adicional que é introduzido em diferentes estágios do processamento.

4.2 Operações dos modos de transcodificação 4.2.1 Introdução

Um método combinando os parâmetros SAOC e as informações detalhadas (ou informações de representação) associadas com um objeto de áudio (ou preferencialmente, com cada objeto de áudio regular) em uma conformidade padrão MPEG cercando 20 o fluxo de bits (fluxo de bits MPS) será explicado a seguir.

O transcodificador SAOC 490 é ilustrado na Fig. 4f e consiste de um processador de parâmetro 491 SAOC e de um processador de downmix 492 aplicados para um downmix estéreo.

O transcodificador 490 SAOC pode, por exemplo, assumir a funcionalidade do processador 140 do sinal de áudio. De forma alternativa, o transcodificador 490 SAOC pode assumir a funcionalidade do pré-processador 270 downmix SAOC quando em combinação com o processador de parâmetro 252 SAOC.

Por exemplo, o processador de parâmetro 491 SAOC pode receber fluxos de bits 491a SAOC o que é equivalente à informação 110 paramétrica relacionada ao objeto ou o fluxo de bits 212 SAOC. O processador 491 de parâmetro SAOC pode receber 5 uma informação 491b da matriz de renderização o que pode estar inclusa na informação 110 paramétrica relacionada ao objeto ou pode ser equivalente à informação 214 da matriz de renderização. O processador de parâmetro 491 SAOC também pode fornecer uma informação 491c do processamento downmix ao processador de 10 parâmetro 492 de downmix, a qual pode ser equivalente à informação 240. Além do mais, o processador de parâmetro 491 SAOC pode fornecer um fluxo de bit do surround MPEG (ou fluxo de bits do parâmetro do surround MPEG) 491d, o qual compreende uma informação surround paramétrica compatível com o padrão surround MPEG. O 15 fluxo de bits 491d do surround MPEG pode, por exemplo, ser parte da versão 142 processada, da segunda informação de áudio ou pode, por exemplo, ser parte ou ocupar o lugar do fluxo de bits MPS 222.

O processador 492 de downmix é configurado para receber um sinal de downmix 492a, que é preferivelmente um sinal 20 de downmix de um canal ou sinal de downmix de dois canais, e o que é preferivelmente equivalente à segunda informação de áudio 134 ou ao segundo sinal 264,322 do objeto de áudio. O processador downmix 492 também pode fornecer um sinal 492b surround MPEG downmix, o qual é equivalente à (ou parte da) versão 142 processada da 25 segunda informação 134 de áudio ou equivalente à (ou parte da) versão 272 processada do segundo sinal 264 do objeto de áudio.

Entretanto, há diferentes maneiras de combinar um sinal downmix 492b surround MPEG com o sinal 132, 262 de objeto de áudio aperfeiçoado. A combinação pode ser realizada no dominio do surround MPEG.

De maneira alternada, entretanto, a representação do surround MPEG, compreendendo o parâmetro de fluxo de bits 491d 5 do surround MPEG e o sinal 492b do surround MPEG dos objetos de áudio regular, pode ser convertida de volta a uma representação do dominio de tempo de multicanais ou uma representação do dominio de frequência de multicanais (individualmente representando canais diferentes) por um decodif icador de surround MPEG e pode ser 10 subsequentemente combinada com sinais de objetos de áudio aperfeiçoado.

Deve-se observar que os modos de transcodificação compreendem tanto um ou mais modos de processamento de downmix e um ou mais modos de processamento de downmix estéreo. Entretanto, 15 a seguir apenas um modo de processamento de downmix estéreo será descrito, já que o processamento dos sinais do objeto de áudio regular é mais elaborado no modo de processamento de downmix estéreo.

4.2.2 Processamento de downmix no modo de 20 processamento de downmix estéreo ("x-2-5") 4.2.2.1 Introdução

Na próxima seção será dada uma descrição do modo de transcodificação SAOC para o caso de downmix estéreo.

Os parâmetros do objeto (diferença OLD no nivel 25 do objeto, correlação entre objeto IOC, aumento do downmix DMG e diferença do nivel do canal downmix DCMD) do fluxo de bits do SAOC são transcodifiçados em parâmetros (diferença no nivel do canal, correlação entre canal, coeficiente de predição do canal) espaciais (preferencialmente relacionado ao canal) para o fluxo de bits do surround MPEG de acordo com as informações apresentadas. 0 downmix é modificado de acordo com os parâmetros do objeto e a matriz de renderização.

Tendo como referência as Figuras 4c, 4d e 4e, será apresentada uma visualização geral do processamento e, em especial, uma modificação do downmix.

A Figura 4c mostra uma representação em bloco do processamento realizado para modificar o sinal de downmix, por 10 exemplo, o sinal de downmix 134, 264, 322, 492a, descrevendo o único ou, de preferência, os diversos objetos de áudio regular. Como pode ser visto nas Figuras 4c, 4d e 4e, o processamento recebe uma matriz Mren de representação, uma informação de aumento do downmix DMG, uma informação da diferença no nivel do canal de 15 downmix DCDL, uma informação de diferença no nivel do objeto OLD, e uma informação da correlação interobjeto IOC. A matriz de renderização pode ser modificada, opcionalmente, por um ajuste de parâmetro, conforme é mostrado na Figura 4c. Entradas de uma matriz D de downmix são obtidas em dependência da informação de 20 aumento do downmix DMG. Entradas de uma matriz E de coerência são obtidas em dependência com uma informação de diferença do nivel de objeto OLD e a informação de correlação entre objeto IOC. Além disso, uma matriz J pode ser obtida em dependência de uma matriz D de downmix e da matriz E de coerência, ou em dependência das entradas das mesmas. Subsequentemente, uma matriz C3 pode ser obtida em dependência de uma matriz de renderização Mren, da matriz de downmix D, da matriz de coerência E e da matriz J. A matriz G pode ser obtida em dependência da matriz DTTT, a qual pode ser uma matriz com entradas pré-determinadas e também em dependência com a matriz C3. A matriz G pode, opcionalmente, ser modificada a fim de obter uma matriz modificada Graod. A matriz G ou a versão modificada Gmod podem ser utilizadas para derivar a versão 142, 272 e 492b 5 processada da segunda informação de áudio 134, 264 da segunda informação de áudio 134, 264, 492a (no qual a segunda informação de áudio 134,264 é designada com X e a versão processada 142,272 é designada com %).

A seguir, a representação da energia do objeto, a 10 qual é desempenhada a fim de obter parâmetros de surround MPEG, será discutida. 0 pré-processamento estéreo, o qual é desempenhado a fim de obter a versão processada 142, 272, 492b da segunda informação de áudio 134, 264 e 492b, representando os objetos de áudio regular também será descrito.

4.2.2.2 Representação da energia do objeto

O transcodificador determina os parâmetros para o decodificador MPS de acordo com a representação alvo, conforme descrito na matriz de renderização Mren. A covariância dos seis canais alvo é denotada com F e dada por: F YY' ■ Mre„S(M„„S)- -- Mw (SS‘ . O processo de transcodificação pode conceituadamente ser dividido em duas partes. Uma parte, uma renderização de três canais, é desempenhada em um canal esquerdo, direito e central. Nesta etapa os parâmetros para a modificação do 25 downmix bem como os parâmetros de predição para a caixa TTT do decodificador MPS, são obtidos. Na outra parte, os parâmetros CLD e ICC para a renderização entre os canais frontais e surround (parâmetros OTT, dianteira esquerda - surround esquerdo, dianteira direita - surround direito) são determinados.

4.2.2.2.1 Renderização do canal esquerdo, direito e central

Nesta etapa, os parâmetros espaciais, que determinam a renderização de um canal esquerdo e direito e consistindo de sinais frontais e surround, são determinados. Estes parâmetros descrevem a matriz de predição da caixa TTT para o CTTT decodificando o MPS (parâmetros CPC para o decodificador MPS) e o a matriz G conversora do downmix. CTTT é a matriz de predição para obter a renderização alvo do downmix modificado X = GX:

A3 é uma matriz de renderização reduzida de tamanho 3 x N, descrevendo a renderização para o canal direito, esquerdo e central, respectivamente. É obtido como A3 = D36Mren com 6 a 3 matrizes D35parciais de downmix definido por:

Os pesos downmix parciais wp, p ajustados até que a energia do wp (y2p-i + y2p) seja igual à soma das energias I | y2p-i I I 2 + I I y2pl I 2até um fator limitante.

onde, -fi'jdenota os elementos de F. para a estimação da matriz de predição CTTT desejada e à matriz de pré-processamento de downmix G, definimos uma matriz de predição C, de tamanho 3 x 2, que leva à renderização alvo. C,X»A,S| Tal matriz é derivada considerando as equações normais 2 C,(»ED )« A,ED'| A solução para as equações normais produz a melhor equivalência da forma de onda possivel para a saida alvo segundo o modelo de covariância do objeto. G e CTTT são agora obtidas pela solução do sistema de equações cπrG = C:i. A fim de evitar problemas numéricos ao calcular o periodo de J = (DED*)’1, o J é modificado. Os primeiros autovalores À1;2 de J são calculados, resolvendo det(J - Àlz2I) = 0. Os autovalores são classificados em ordem descendente (À2> À2) e o autovetor correspondendo ao maior autovalor é calculado de acordo com a equação acima. Presume-se que ele fique no plano-x positivo (primeiro elemento deve ser positivo). O segundo autovetor é obtido do primeiro por uma rotação de -90 graus:

Uma matriz de ponderação é computada da matriz de downmix D e da matriz de predição C3, W = (D diag(C3)) . Já que CTTT é uma função dos parâmetros de predição MPS, c2 e c2 (conforme definido no ISO/IEC 23003-1:2007), CTTTG = C3+ é reescrito da seguinte maneira, a fim de achar o ponto ou pontos de equilíbrio da função,

com: r = (Dm c,) WfDπr C,)’ and b = GWC,v, | onde,

Se r não fornece uma solução única (det (D < 10” 3), o ponto escolhido é o mais próximo ao ponto que resulta em uma passagem TTT. A primeira etapa, o y= [Yi,i YÍ,21 > no qual os elementos contém a maior parte de energia, da linha i do r é escolhido, assim YÍ,I 2 + YÍ,22>Yj,i2 + Yj,22, j = 1,2. Então a solução é determinada como

Se a solução obtida for e ^2, ela está fora da faixa permitida para coeficientes de predição definidos como -2 3 (conforme definido em ISO/IEC 23003-1:2007) e deve ser calculado de acordo com o abaixo: Primeiramente defina o conjunto de pontos xp como:

E a distância da função

Então, os parâmetros de predição são calculados de acordo com:

Os parâmetros de predição são restringidos de acordo com:

Para o decodif icador MPS, o CPC e ICCTTT 10 correspondente são fornecidos abaixo D»C J = ct , DCPC.J = O (h ”>) ®icc.rrr =1 .| 4.2.2.2.2 Renderização entre os canais frontais e surround Os parâmetros que determinam a renderização entre surround podem ser estimados diretamente da matriz de covariância F alvo

com (a,b) = (1,2) e (3,4). Os parâmetros MPS são fornecidos na forma de

Para cada caixa OTT h. 4.2.2.3 Processamento estéreo A seguir o processamento estéreo do sinal 134 a 64, 322 do objeto de áudio regular será descrito. 0 processamento estéreo é utilizado para derivar um processo da representação geral 142,272 com base em uma representação de dois canais dos objetos de áudio regular. 0 downmix X estéreo, o qual é representado pelos sinais 134,264, 492a do objeto de áudio regular é processado no sinal de downmix X modificado, o qual é representado pelos sinais 142,272 processados de objeto de áudio regular.

onde: G=DπTCJ=DTTTMmED’J. A saida final do estéreo do transcodificador SAOC X é produzida pela mistura do X com um componente de sinal descorrelacionado de acordo com: X = GMotíX + P2Xd! Onde o sinal de descorrelação Xd é calculado conforme descrito acima, e a mistura das matrizes GMode P2 é conforme abaixo. Primeiramente, defina o erro de renderização do upmix da matriz como

onde

E defina a matriz de covariância do sinal previsível ® como

O aumento do vetor gvec pode ser subsequentemente calculado como:

E a mistura da matriz GMoct é dada como:

r 1 ,2 > O, de outra forma De forma similar, a mistura da matriz P2 é dada como:

r 1 ,2 > O, de outra forma para derivar vR e Wct, a equação característica de R precisa ser resolvida: det(R ,l,,,I)~o,l, dado os autovalores .À1 e .À2. Os autovetores correspondentes vR1 e vR2 de R podem ser calculados resolvendo o sistema de equação: (R-43I)VRLH2 = 0. Os autovalores são classificados em ordem descendente (Ài À2) e o autovetor correspondendo ao maior autovalor é calculado de acordo com a equação acima. Presume-se que ele fique no plano-x positivo (primeiro elemento deve ser 20 positivo). O segundo autovetor é obtido do primeiro por uma rotação de -90 graus:

Incorporando Pi = (1 1)G, Rd pode ser calculado de acordo com:

o que resulta em:

E por fim na mistura da matriz: . θ

4.2.2.4 Modo dual 0 transcodif icador SAOC pode fazer com que as matrizes mistas Plz P2 e a matriz de predição C3 sejam calculadas de acordo com um esquema alternativo para a faixa de frequência superior. Este esquema alternativo é particularmente útil para sinais de downmix onde a faixa de frequência superior é codificada 10 por um algoritmo de codificação sem formato de onda, por exemplo, SBR em AAC de Alta Eficiência. Para as bandas do parâmetro superior, definidas por bsTttBandsLow^ pb< numBands, Px, P2 e C3 devem ser calculados de acordo com o esquema alternativo descrito abaixo:

Defina os vetores alvo do downmix da energia e energia, respectivamente:

E a matriz de suporte p,.,

Então, calcule o vetor adquirido:

O quet por fim, ira gerar a matriz de predição:

5. A combinação do modo de 5 decodificação/transcodificação EKS SAOC, codificador de acordo com a Figura 10 e sistemas de acordo com as Figuras 5a e 5b. A seguir, será dada uma breve descrição do esquema de processamento combinado EKS SAOC. É proposto um esquema de processamento de "EKS SAOC combinado" preferivel, no qual processamento EKS é integrado na cadeia de decodificação/transcodificação SAOC regular por em esquema de cascata.

5.1 Codificadores de sinal de áudio de acordo com a Figura 5

Primeiramente, os objetos dedicados ao processamento EKS (processamento aperfeiçoado de Karaokê/solo) são identificados como objetos de primeiro plano (FGO) e sua numeração NFG0 (também designado como NEA0) é determinada por um fluxo de bits variável "bsNumGroupsFGO." Tal fluxo de bits variável pode, por exemplo, ser incluso em um fluxo de bits SAOC, conforme descrito acima.

Para a geração do fluxo de bits (em urn codificador de sinal de áudio), os parâmetros de todos os objetos de entrada Nob-j são gravados tanto que os objetos de primeiro plano EGO compreendem os últimos parâmetros Nro0 (ou alternativamente, 5 NEA0) em tal caso, por exemplo, OLD∑para [Nobj - Nrco< i < Nobj - 1] .

Dos objetos remanescentes que são, por exemplo, objetos de fundo BGO ou objetos de áudio não aperfeiçoado, um sinal de downmix no estilo "SAOC regular" é gerado, o qual ao mesmo tempo serve como um objeto de fundo BGO. A seguir, o objeto 10 de fundo e o objeto de primeiro plano sofrem downmix no "estilo de processamento EKS" e informações residuais são extraidas de cada objeto de primeiro plano. Dessa forma, nenhuma etapa extra de processamento precisa ser introduzida. Portanto, nenhuma alteração da sintaxe do fluxo de bits é necessária.

Em outras palavras, no lado do decodificador, nenhum objeto de áudio não aperfeiçoado é diferenciado dos objetos de áudio aperfeiçoado. Um sinal de downmix de objetos de áudio regular de um ou dois canais é fornecido, o qual representa os * objetos de áudio regular (objetos de áudio não aperfeiçoado), neste pode haver um, dois ou mais objetos de áudio regular (objetos de áudio não aperfeiçoados). O sinal de downmix de objeto de áudio regular de um ou mais canais é então combinado com um ou mais sinais de áudio aperfeiçoado (que pode, por exemplo, ser sinais de um canal ou sinais de dois canais) , a fim de obter um 25 sinal de downmix comum (que pode, por exemplo, ser um sinal de downmix de um canal ou de dois canais) combinando os sinais de áudio do objeto de áudio aperfeiçoado e o sinal de downmix do objeto de áudio regular.

A seguir, a estrutura básica de tal codificador de cascata será rapidamente descrita, tendo como referência a Figura 10, a qual mostra uma representação esquemática em bloco do codificador SAOC 1000, de acordo com uma materialização da 5 invenção. O codificador SAOC 1000 compreende um primeiro downmixer SAOC 1010 o qual é geralmente um downmixer SAOC que não fornece uma informação residual. O downmixer SAOC 1010 é configurado para receber uma pluralidade de sinais 1012 de objeto de áudio NBG0 de objetos de áudio regular (não aperfeiçoado). O downmixer SAOC 1010 10 também é configurado para fornecer um sinal de downmix 1014 de objeto de áudio regular com base nos objetos de áudio regular 1012, sendo que o sinal de downmix 1014 do objeto de áudio regular combina os sinais 1012 do objeto de áudio regular de acordo com os parâmetros de downmix. O downmixer 1010 SAOC também fornece uma 15 informação SAOC 1016 do objeto de áudio regular, a qual descreve os sinais de áudio regular e o downmix. Por exemplo, a informação 1016 SAOC do objeto de áudio regular pode abranger uma informação de ganho de downmix DMG e uma informação de diferença no nivel de canal de downmix DCLD descrevendo o downmix realizado pelo 20 downmixer 1010. Além disso, a informação 1016 SAOC de objeto de áudio regular pode abranger uma informação de diferença no nivel de objeto e uma informação de correlação entre objetos descrevendo a relação entre os objetos de áudio descritos por um sinal 1012 de objeto de áudio regular.

O codificador 1000 também abrange um Segundo downmixer SAOC 1020, o qual é geralmente configurado para fornecer uma informação residual. 0 segundo downmixer SAOC 1020 preferivelmente configurado para receber um ou mais sinais 1022 de 1 objeto de áudio aperfeiçoado e também para receber o sinal de downmix 1014 de objeto de áudio regular.

O segundo downmixer SAOC 1020 também é configurado para fornecer um sinal de downmix SAOC 1024 com base 5 nos sinais 1022 de objeto de áudio aperfeiçoado e o sinal de downmix de 1014 de objeto de áudio regular. Ao fornecer o sinal comum de downmix SAOC, o segundo downmixer SAOC 1020 tipicamente trata o sinal de downmix 1014 do objeto de áudio regular como um sinal de objeto de um ou dois canais.

O segundo downmixer SAOC 1020 também é configurado para fornecer uma informação SAOC de objeto de áudio aperfeiçoado a qual descreve, por exemplo, os valores da diferença no nivel do canal de downmix DCLD associado com objetos de áudio aperfeiçoado, valores de diferença no nivel do objeto OLD 15 associado com objetos de áudio aperfeiçoado e valores de correlação entre objetos IOC associado com objetos de áudio aperfeiçoado. Além disso, o segundo SAOC 1020 é preferivelmente configurado para fornecer informação residual associada com cada “ um dos objetos de áudio aperfeiçoado, sendo que a informação residual associada com os objetos de áudio aperfeiçoado descreve a diferença entre um sinal individual e original do objeto de áudio aperfeiçoado e um sinal individual e esperado para o sinal do objeto de áudio que pode ser extraido do sinal de downmix utilizando a informação de downmix DMG, DCLD e a informação do objeto OLD e IOC.

O codificador de áudio 1000 é bem adaptado para cooperação com o decodificador de áudio descrito no presente.

5.2 Decodificador do sinal de áudio de acordo com a Figura 5a.

A seguir, serão descritos uma estrutura básica de um decodif icador EKS SAOC 500 e um diagrama esquemático deste apresentado na Figura 5a.

O decodif icador de áudio 500 de acordo com a Figura 5a é configurado para receber um sinal de downmix 510, uma informação 512 do fluxo de bits SAOC e uma informação 514 da matriz de renderização. O decodificador de áudio 500 abrange um processamento de Karaokê/solo e uma renderização 520 de um objeto 10 de primeiro plano, o qual é configurado para fornecer um primeiro sinal 562 de objeto de áudio que descreve objetos de primeiro plano renderizados, e um segundo sinal 564 de objeto de áudio que descrevem objetos de fundo. Os objetos de primeiro plano podem, por exemplo, ser denominados "objetos de áudio aperfeiçoado" e os 15 objetos de áudio de fundo podem, por exemplo, ser denominados "objetos de áudio regular" e "objetos de áudio não aperfeiçoado". O decodificador de áudio 500 também compreende um decodificador SAOC 57 0 regular, o qual é configurado para receber o segundo sinal 562 de objeto de áudio e fornecer, com base no mesmo, uma versão 572 processada do segundo sinal 564 do objeto de áudio. O decodificador de áudio 500 também abrange um combinador 580, o qual é configurado para combinar o primeiro sinal 562 do objeto de áudio e a versão 572 processada do segundo sinal 564 a fim de obter um sinal 520 de saida.

A seguir a funcionalidade do decodificador de áudio 500 será discutida em mais detalhes. No lado de decodificação/transcodificação SAOC, o processo de upmix resulta em um esquema de cascata que abrange primeiramente um processamento de Karaokê/solo (processamento EKS) para decompor o sinal de downmix no objeto de fundo (BGO) e o objeto de primeiro plano (FGO). As diferenças no nível do objeto (OLD) e as correlações entre objeto (IOC) necessárias para o objeto de fundo 5 são derivadas do objeto e da informação de downmix (a qual é uma informação paramétrica relacionada ao objeto e que é tipicamente inclusa no fluxo de bits SAOC):

Além disso, esta etapa (a qual é geralmente executada pelo processamento EKS e renderização 520 do objeto de primeiro plano) inclui o mapeamento dos objetos de primeiro plano até os canais de saida finais (sendo que, por exemplo, o primeiro sinal 562 de objeto de áudio é sinal de multicanal no qual os objetos de primeiro plano são mapeados em um ou mais canais) . O objeto de fundo (o qual geralmente abrange uma pluralidade do então denominado "objetos de áudio regular") é renderizado aos canais de saida correspondentes por um processo de decodificação SAOC regular (ou, de forma alternativa, em alguns casos por um processo de transcodificação SAOC). Este processo pode, por 20 exemplo, ser realizado por uma decodificação 570 SAOC regular. A fase final de mistura (por exemplo, o combinador 580) fornece uma combinação desejada dos objetos de primeiro plano renderizados e sinais de objeto de fundo na saida.

Este sistema EKS SAOC combinado representa uma combinação de todas as propriedades benéficas do sistema SAOC regular e seu modo EKS. Esta abordagem permite o alcance do desempenho correspondente utilizando um sistema proposto com o mesmo fluxo de bits para os cenários de playback clássico (renderização moderada) e similar ao Karaokê/solo (renderização extrema).

5.3 Estrutura Generalizada de acordo com a Figura 5b

A seguir uma estrutura generalizada do sistema EKS SAOC 590 combinado será descrita tendo como referência a Figura 5b, a qual mostra um diagrama esquemático em bloco do 15 referido sistema EKS SAOC combinado. O sistema EKS SAOC 590 combinado da Figura 5b também pode ser considerado um decodificador de áudio.

O sistema EKS SAOC 590 combinado é configurado para receber um sinal de downmix 510a, uma informação 512a do 20 fluxo de bits SAOC e a informação 514a da matriz de renderização.

O sistema EKS SAOC 590 combinado também é configurado para fornecer um sinal de saida 520a com base no mesmo.

O sistema EKS SAOC 590 combinado abrange uma etapa de processamento SAOC tipo I 520a, a qual recebe um sinal 510a de downmix, uma informação 512a do fluxo de bits SAOC (ou, pelo menos, uma parte deste) e a informação 514a da matriz de renderização (ou, pelo menos, uma parte deste). Em especial, a etapa de processamento SAOC tipo I 520a recebe os valores de diferença no nivel do objeto da primeira etapa (OLDS) . A etapa de processamento SAOC tipo I 520a fornece um ou mais sinais 562a descrevendo o primeiro conjunto de objetos (por exemplo, objetos de áudio de um primeiro tipo de objeto de áudio) . A etapa de 5 processamento SAOC tipo I 520a também fornece um ou mais sinais 564a descrevendo um segundo conjunto de objetos.

O sistema EKS SAOC combinado também abrange uma etapa de processamento SAOC tipo II 570a, a qual é configurada para receber um ou mais sinais 564a descrevendo o segundo conjunto 10 de objetos e fornecer, com base nisso, um ou mais sinais 572a descrevendo um terceiro conjunto de objetos utilizando diferenças nos niveis de objeto da segunda etapa, que são inclusos na informação 512a de fluxo de bits e também, pelo menos, uma parte da informação 514 da matriz de renderização. O sistema EKS SAOC 15 590 combinado também abrange um combinador 580a o qual pode, por exemplo, ser um somador para fornecer os sinais 520a de saida através da combinação de um ou mais sinais 562a descrevendo o primeiro conjunto de objetos e um ou mais sinais 570a descrevendo o terceiro conjunto de objetos (sendo que o terceiro conjunto de 20 objetos pode ser uma versão processada do segundo conjunto de objetos).

Resumindo o acima mencionado, a Figura 5b mostra uma forma generalizada da estrutura básica descrita em referência com a Figura 5a acima em uma materialização da invenção.

6. Avaliação Perceptiva do Esquema do Processamento EKS SAOC Combinado 6.1 Metodologia, Design e Termos do Teste

Estes testes de escuta subjetiva foram conduzidos em uma sala acusticamente isolada projetada para permitir a escuta de alta qualidade. 0 playback foi feito utilizando fones de ouvido (STAX SR Lambda Pro com Conversor Lake-People D/A e Monitor STAX SRM) . 0 método de teste acompanhado pelos procedimentos padrões 5 utilizados nos testes de verificação de áudio espacial, com base no método "estímulos múltiplos com referência e âncoras escondidos" (MUSHRA) para a avaliação subjetiva do áudio de qualidade intermediária (vide a referência [7]).

Um total de oito ouvintes participou no teste 10 realizado. Todos os indivíduos podem ser considerados experientes. De acordo com a metodologia MUSHRA, os ouvintes foram instruídos a comparar todas as condições de teste contra a referência. As condições de teste foram randomizadas automaticamente para cada item de teste e cada ouvinte. As respostas subjetivas foram 15 gravadas por um programa MUSHRA com base no computador tendo uma escala variando de 0 a 100. Uma troca instantânea entre os itens no teste foi permitida. O teste MUSHRA foi conduzido a fim de avaliar o desempenho perceptivo dos modos SAOC considerados e do sistema proposto descrito na tabela da Figura 6a, a qual fornece 20 uma descrição do design do teste.

Os sinais de downmix correspondentes foram codificados utilizando um codificador de núcleo AAC com uma taxa de bits de 128 kbps. A fim de avaliar a qualidade perceptiva do sistema EKS SAOC combinado proposto, ele é comparado com o sistema 25 SAOC RM regular (sistema do modelo de referência SAOC) e o modo EKS atual (modo de Karaokê/solo aperfeiçoado) para dois cenários de teste de renderização diferentes descritos na tabela da Figura I 6b a qual descreve os sistemas sujeitos ao teste.

A codificação residual com uma taxa de bits de 20 kbps foi aplicada ao modo EKS atual e para o sistema EKS SAOC combinado proposto. Deve-se observar que para o modo EKS atual é necessário gerar um objeto de fundo estéreo (BGO) antes do 5 procedimento de codificação/decodificação, já que este modo têm limitações no número e tipo de objetos de entrada.

O material do teste de escuta correspondente e os parâmetros de renderização utilizados nos testes de desempenho foram selecionados do conjunto de itens de 10 áudio da apresentação de propostas (CfP) descritos no document [2] . Os dados correspondentes para os de cenários de aplicação de renderização para "Karaokê" e "Clássico" podem ser achados na tabela da Figura 6c, a qual descreve os itens e as matrizes de renderização do teste de escuta.

6.2 Resultados do Teste de Escuta

Uma curta visualização dos termos do diagram mostrando os resultados do teste de escuta pode ser encontrada nas Figuras 6d e 6e, sendo que a figura 6d mostra a pontuação MUSHRA média para o teste de escuta de renderização do tipo Karaokê/Solo, 20 e afigura 6e mostra a pontuação MUSHRA média para o teste de escuta de renderização clássica. O gráfico mostra a pontuação MUSHRA média por item de todos os ouvintes e o valor médio estatístico sobre todos os itens avaliados juntamente com os intervalos de confiança associados de 95%.

As seguintes conclusões podem ser tiradas com base nos resultados dos testes de escuta conduzidos:

A Figura 6d representa a comparação do modos EKS atual com o sistema EKS SAOC combinado para as aplicações do tipo Karaokê. Para todos os itens testados não foi observada nenhuma diferença significativa (no sentido estatistico) no desempenho entre estes dois sistemas. Desta observação podemos concluir que o sistema EKS SAOC combinado é capaz de explorar de maneira 5 eficiente as informações residuais atingindo assim o desempenho para o modo EKS. Também se pode observar que o desempenho do sistema SAOC regular (sem residues) está abaixo dos outros dois sistemas.

A Figura 6e representa uma comparação do SAOC 10 regular atual com o sistema EKS SAOC combinado para os cenários de renderização clássicos. Para todos os itens testados, o desempenho destes dois sistemas é estatisticamente o mesmo. Isto demonstra a funcionalidade apropriada do sistema EKS SAOC combinado para um cenário clássico de renderização.

Portanto, pode-se concluir que o sistema unificado proposto combinando o modo EKS com o SAOC regular preserva as vantagens na qualidade do áudio subjetivo para os tipos correspondentes de renderização.

Levando em consideração o fato de que o sistema 20 EKS SAOC combinado proposto não possui restrições sobre o objeto BGO, porém possui uma capacidade de renderização completamente flexivel do modo SAOC e pode usar o mesmo fluxo de bits para todos os tipos de renderização, ele parece ser vantajoso para ser incorporado no padrão MPEG SAOC.

7. Método em conformidade com a Figura 7

A seguir um método fornecendo uma representação do sinal de upmix em dependência com o a representação do sinal de downmix e uma informação paramétrica relacionada ao objeto será descrito com referência à Figura 7, a qual apresenta um fluxograma do referido método.

O método 700 compreende uma etapa 710 de decomposição de uma representação de sinal de downmix, a fim de fornecer uma primeira informação de áudio descrevendo um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio em dependência da representação do sinal de downmix e de, pelo menos, uma parte da informação paramétrica relacionada ao objeto. O método 700 também abrange uma etapa 720 10 do processamento da segunda informação de áudio em dependência da informação paramétrica relacionada ao objeto a fim de obter uma versão processada da segunda informação de áudio.

O método 700 também compreende uma etapa 730 da combinação da primeira informação de áudio com a versão processada 15 da segunda informação de áudio, a fim de obter uma representação do sinal de upmix.

O método 700 de acordo com a Figura 7 pode ser suplementado por qualquer característica e funcionalidades que são discutidas no presente com relação ao dispositivo inovador. O 20 método 700 também traz as vantagens discutidas com relação ao dispositivo inovador.

8. Alternativas de Implementação

Embora alguns aspectos tenham sido descritos no contexto de um dispositivo, é claro que estes aspectos também 25 representam uma descrição do método correspondente no qual um bloco ou dispositivo corresponde a uma etapa do método ou uma característica da etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um dispositivo correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um dispositivo de hardware, como por exemplo, um microprocessador, um computador 5 programável ou um circuito eletrônico. Em algumas materializações, uma ou mais das etapas mais importantes do método podem ser executadas pelo referido dispositivo.

O sinal de áudio inventivo codificado pode ser armazenado em um meio de armazenamento digital ou pode ser 10 transmitido em um meio de transmissão como o meio de transmissão wireless ou um meio de transmissão com fio, tal como a Internet.

Dependendo de algumas exigências de implementação, as materializações da invenção podem ser implementadas no hardware ou software. A implementação pode ser 15 realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, DVD, blue-ray, CD, ROM, PROM, EPROM, EEPROM ou memória FLASH, que contenha sinais de controles eletronicamente legiveis armazenados nele, o qual coopera (ou é capaz de cooperar) com um sistema de computador programável no qual o respective método é realizado. Portanto, o meio de armazenamento digital pode ser lido pelo computador.

Algumas materializações de acordo com a invenção compreende um portador de dados com sinais de controles lidos eletronicamente, os quais são capazes de cooperar com um sistema 25 de computador programável, sendo que um dos métodos descrito no presente é realizado.

Geralmente, as materializações da presente invenção podem ser implementadas com um produto de programa de computador com um código do programa, sendo o código do programa operacional para o desempenho de um dos métodos quando o produto do programa de computador é operado em um computador. 0 código do programa pode, por exemplo, ser armazenado em um portador legivel.

Outras materializações compreendem o programa de computador para o desempenho de um dos métodos descritos no presente, armazenados em um portador legivel.

Em outras palavras, uma materialização do método inventivo é, portanto, um programa de computador contendo um 10 código do programa para o desempenho de um dos métodos descritos no presente, quando um programa de computador é executado.

Uma materialização adicional dos métodos inventivos é, portanto, um portador de dados (ou um meio de armazenamento digital ou um meio de leitura computadorizada) 15 compreendendo os programas de computador, gravados nele, para o desempenho de um ou mias métodos descritos no presente. 0 portador de dados, o meio de armazenamento digital ou o meio de gravação são geralmente tangíveis e/ou não transmissíveis.

Uma materialização adicional do método inventive é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para o desempenho de um ou mais métodos descritos no presente. O fluxo de dados ou sequência de sinais pode ser configurado, por exemplo, como sendo transferidos via uma conexão de comunicação de dados, por exemplo, 25 através da Internet.

Uma materialização adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para desempenhar um dos métodos descritos no presente.

Uma materialização adicional compreende um computador com o programa instalado para desempenhar um dos métodos descritos no presente.

Em algumas materializações, um dispositivo programável (por exemplo, um arranjo de portas programáveis em campo) pode ser utilizado para desempenhar algumas ou todas as funcionalidades dos métodos descritos no presente. Em algumas materializações, um arranjo de portas programáveis em campo pode 10 cooperar com um microprocessador a fim de desempenhar um dos métodos descritos no presente. Geralmente, os métodos são preferencialmente desempenhados por um dispositivo de hardware.

As materializações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se 15 que as modificações e variações dos arranjos e detalhes descritos no presente serão aparentes a outros especializados na arte. Portanto, é seu objetivo ser limitado apenas pelo escopo das reivindicações de impedimento de patentes e não pelos detalhes específicos apresentados como forma de descrição e explicação da 20 materialização do presente.

9. Conclusões

A seguir alguns aspectos e vantagens do sistema EKS SAOC combinado de acordo com a presente invenção serão rapidamente resumidos. Para os cenários de playback de Karaokê e 25 solo, o modo de processamento SAOC EKS suporta tanto a reprodução, exclusivamente, dos objetos de fundo/primeiro plano quanto à mistura arbitrária (definida pela matriz de renderização) destes grupos de objetos.

O primeiro modo também é considerado como o principal objetivo do processamento EKS, sendo que o último fornece flexibilidade adicional.

Verificou-se que a generalização da funcionalidade EKS consequentemente envolve os esforços de combinação do EKS com o modo de processamento SAOC regular a fim de obter um sistema unificado. Os potenciais de cada sistema unificado são:

Uma estrutura de decodificação/transcodificação SAOC única e clara;

Um fluxo de bits para os modos EKS e SAOC regular;

Nenhuma limitação ao número de objetos de entrada compreendendo o objeto de fundo (BGO) , para que não haja 15 necessidade de gerar um objeto de fundo antes da etapa de codificação SAOC; e

Suporte da codificação residual para objetos de primeiro plano produzindo qualidade perceptiva aperfeiçoada em situações de playback para Karaokê/Solo exigentes.

Estas vantagens podem ser obtidas por um sistema unificado descrito no presente.

Referências [1] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N8853, "Call for Proposals on Spatial Audio Object Coding", 79th 25 MPEG Meeting, Marrakech, January 2007. [2] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N9099, "Final Spatial Audio Object Coding Evaluation Procedures and Criterion", 80th MPEG Meeting, San José, April 2007. [3] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N9250, "Report on Spatial Audio Object Coding RMO Selection", 81 st MPEG Meeting, Lausanne, July 2007. [4] ISO/IEC JTC1/SC29/WG11 (MPEG), Document 5 M15123, "Information and Verification Results for CE on Karaoke/Solo system improving the performance of MPEG SAOC RMO", 83rd MPEG Meeting, Antalya, Turkey, January 2008. [5] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10659, "Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding 10 (SAOC)", 88th MPEG Meeting, Maui, USA, April 2009. [6] ISO/IEC JTC1/SC29/WG11 (MPEG), Document M10660, "Status and Workplan on SAOC Core Experiments", 88th MPEG Meeting, Maui, USA, April 2009. [7] EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality", Doe. B/AIM022, October 1999. [8] ISO/IEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround

Claims

1. Decodificador de sinal de áudio (100; 200; 500; 590) para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix (112; 210; 510; 510a), uma informação paramétrica relacionada ao objeto (110; 212; 512; 512a), sendo que o decodificador de sinal de áudio digital é caracterizado por compreender: um separador de objeto (130; 260; 520; 520a) configurado de forma a decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio (132; 262; 562; 562a) descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio (134; 264; 564; 564a) descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto, em que a segunda informação de áudio é uma informação de áudio que descreve os objetos de áudio do segundo tipo de objeto de áudio de maneira combinada; um processador de sinal de áudio configurado para receber a segunda informação de áudio (134; 264; 564; 564a) e para processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada (142; 272; 572; 572a) da segunda informação de áudio; e um combinador de sinal de áudio (150; 280; 580; 580a) configurado para combinar a informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que o decodificador de sinal de áudio é configurado para fornecer a representação do sinal upmix dependendo de uma informação residual associada a um subconjunto de objetos de áudio representado pela representação do sinal downmix, um separador de objeto é configurado de forma a decompor a representação de sinal downmix para fornecer uma primeira informação de áudio descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio ao qual uma informação residual é associada e uma segunda informação de objeto de áudio descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio, ao qual nenhuma informação residual é associada, dependendo da representação do sinal downmix e usando a informação residual; e em que o processador de sinal de áudio é configurado para processar a segunda informação de áudio, para realizar um processamento individual de objeto dos objetos de áudio do segundo tipo de objeto de áudio, considerando informações paramétricas relacionadas ao objeto associadas com mais de dois objetos de áudio do segundo tipo de objeto de áudio; e em que a informação residual descreve uma distorção residual, que se espera que permaneça caso um objeto de áudio do primeiro tipo de objeto de áudio é isolado meramente usando-se a informação paramétrica relacionada ao objeto.

2. Um decodificador de sinal de áudio (100; 200; 500; 590) de acordo com a reivindicação 1, em que o separador do objeto é caracterizado por ser configurado para fornecer a primeira informação de áudio de forma que um ou mais objetos de áudio do primeiro tipo de objeto de áudio seja enfatizado sobre objetos de áudio do segundo tipo de objeto de áudio na primeira informação de áudio, e em que o separador do objeto é configurado para fornecer a primeira informação de áudio de forma que um ou mais objetos de áudio do primeiro tipo de objeto de áudio seja enfatizado sobre objetos de áudio do segundo tipo de objeto de áudio na primeira informação de áudio.

3. O decodificador do sinal de áudio (100; 200; 500; 570) de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio é caracterizado por ser configurado para processar a segunda informação de áudio (134; 264; 564; 564a) dependendo da informação paramétrica relacionada ao objeto (110; 212; 512; 512a) associada aos objetos de áudio do segundo tipo de objeto de áudio e independente da informação paramétrica relacionada ao objeto (110; 212; 512; 512a) associada com os objetos de áudio do primeiro tipo de objeto de áudio.

4. O decodificador de sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o separador de objeto é caracterizado por ser configurado para obter a primeira informação de áudio (132; 262; 562; 562a, X ) e a segunda informação de áudio (134; 264; 564; 564a, X ) usando uma combinação linear de um ou mais canais de sinal downmix da representação de sinal downmix e um ou mais canais residuais, em que o separador do objeto é configurado para obter parâmetros de combinação para realizar a combinação linear dependendo dos parâmetros de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio (m0... mNEAO-1; n0... nNEAO-1) e dependendo dos coeficientes de previsão de canal (cj,0, cj,1) dos objetos de áudio do primeiro tipo de objeto de áudio.

5. O decodificador de sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter a primeira informação de áudio e a segunda informação de áudio de acordo com

em que XOBJ representa canais da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio; ~-1 , . z em que D representa uma matriz que é um inverso de uma matriz downmix estendida; em que C descreve uma matriz que representa uma pluralidade de coeficientes de previsão do canal, c~ , c~ ; em que l0 e r0 representam canais da representação de sinal de downmix; em que res0 e res representam canais residuais; e em que AEAOé uma matriz de pré-renderização EAO, cujas entradas descrevem um mapeamento de objetos de áudio aprimorados para canais de um sinal de objeto de áudio aprimorado XEAO; em que o separador do objeto é configurado para ~ -1 obter a matriz de downmix inversa D como um inverso de uma matriz de downmix estendida D ~ definida como

em que o separador do objeto é configurado para obter a matriz C como

em que n0 a n são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que o separador de objeto é configurado para computar os coeficientes de previsão c~ e c~ como

em que o separador do objeto é configurado para derivar coeficientes de previsão coagida c e c dos coeficientes ~~ de previsão c e c usando um algoritmo de coação ou para usar os j , 0 j ,1 coeficientes de previsão c~ e c~ como os coeficientes de previsão c j,0e c j,1; em que as quantidades de energia PLo, PRo, PLoRo, PLoCo,j e PRoCo,j são definidas como

em que os parâmetros OLDL, OLDR e IOCL,R correspondem a objetos de áudio do segundo tipo de objeto de áudio e são definidas de acordo com

em que d0,i a d1,i são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDi são valores de diferença de nível de objeto associados com os objetos de áudio do segundo tipo de objeto de áudio; em que N é um número total de objetos de áudio; em que NEAOé um número de objetos de áudio do primeiro tipo de objeto de áudio; em que IOC0,1 é um valor de correlação entre objetos associado com um par de objetos de áudio do segundo tipo de objeto de áudio; em que ei,j e eL,R são valores de covariância derivados dos parâmetros de diferença de nível de objeto e parâmetros de correlação entre objetos; e em que ei,j são associados com um par de objetos de áudio do primeiro tipo de objeto de áudio e eL,Ré associado com um par de objetos de áudio do segundo tipo de objeto de áudio.

6. O decodificador de sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter a primeira informação de áudio e a segunda informação de áudio de acordo com

em que M = D-1C 1T±Prediction em que X representa um canal da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio; ~-1 em que D representa uma matriz que é um inverso de uma matriz downmix estendida; em que C descreve uma matriz que representa uma pluralidade de coeficientes de previsão do canal, c~ , c~ ; em que d0 representa um canal da representação de sinal de downmix; e em que reso a res representam canais residuais; e em que AEAOé uma matriz de pré-renderização EAO.

7. O decodificador do sinal de áudio, de acordo com a reivindicação 6, em que o separador do objeto é caracterizado por ser configurado para obter a matriz de downmix ~-1 ~ inversa D é um inverso de uma matriz de downmix estendida D definida como

em que o separador do objeto é configurado para obter a matriz C como

em que o separador do objeto é configurado para obter a matriz C como ( 1 0 .. . 0" C = co 1 .. 0 . 0 ; K NEAB-1 0 .. ■ em que m0 a m são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio;

8. O decodificador de sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter a primeira informação de áudio e a segunda informação de áudio de acordo com

em que X representa canais da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio; em que

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que n0 a n são valores de downmix 'NEAOAO “1 associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDisão valores de diferença de nível e objeto associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDL e OLDR são valores de diferença de nível e objeto comuns associados com os objetos de áudio do primeiro tipo de objeto de áudio; e em que AEAOé uma matriz de pré-renderização EAO.

9. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter a primeira informação de áudio e a segunda informação de áudio de acordo com

em que XOBJ representa um canal da segunda informação de áudio; em que XEAO representa sinais de objeto da primeira informação de áudio; em que

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDi são valores de diferença de nível de objeto associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDL é um valor de diferença de nível de objeto comum associado com os objetos de áudio do primeiro tipo de objeto de áudio; e em que EAO A é uma matriz de pré-renderização EAO. em que as matrizes Energy MOBJ e Energy MEAO são aplicadas a uma representaçãoto d0 de um único sinal de downmix SAOC.

10. O decodificador do sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para aplicar uma matriz de renderização à primeira informação de áudio (132; 262; 562; 562a) para mapear sinais de objeto da primeira informação de áudio sobre canais de áudio da representação de sinal de áudio upmix (120; 220, 222; 562; 562a).

11. O decodificador do sinal de áudio (100; 200; 500; 590) de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio (140; 270; 570; 570a) é caracterizado por ser configurado para realizar um pré- processamento da segunda informação de áudio (134; 264; 564; 564a) dependendo de uma informação de renderização (Mren), uma informação de covariância relacionada ao objeto (E), uma informação de downmix (D), para obter canais de áudio da versão processada da segunda informação de áudio;

12. O decodificador do sinal de áudio (100; 200; 500; 590) de acordo com a reivindicação 11, em que o processador do sinal de áudio (140; 270; 570; 570a) é caracterizado por ser configurado para realizar o processamento em estéreo para mapear uma contribuição de objeto de áudio estimada (ED*JX) da segunda informação de áudio (134; 264; 564; 564a) sobre uma pluralidade de canais da representação do sinal de áudio upmix dependendo de uma informação de renderização e uma informação de covariância.

13. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio é caracterizado por ser configurado para adicionar uma contribuição de sinal de áudio descorrelacionada (P2Xd), obtida com base em um ou mais canais de áudio da segunda informação de áudio, na segunda informação de áudio ou uma informação derivada da segunda informação de áudio, dependendo de uma informação de erro de upmix de renderização (R) e um ou mais valores de escalamento de intensidade de sinal descorrelacionado (wd1, wd2).

14. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio (140; 270; 570; 570a) é caracterizado por ser configurado para realizar um pós- processamento da segunda informação de áudio (134; 264; 564; 564a) dependendo de uma informação de renderização (A), uma informação de covariância relacionada ao objeto (E) e uma informação de downmix (D);

15. O decodificador do sinal de áudio de acordo com a reivindicação 14, em que o processador do sinal de áudio é caracterizado por ser configurado para realizar um processamento mono para binaural da segunda informação de áudio, para mapear um canal único da segunda informação de áudio sobre dois canais da representação do sinal upmix, considerando uma função de transferência relacionada ao cabeçote.

16. O decodificador do sinal de áudio de acordo com a reivindicação 14, em que o processador do sinal de áudio é caracterizado por ser configurado para realizar um processamento mono para estéreo da segunda informação de áudio, para mapear um canal único da segunda informação de áudio sobre dois canais da representação do sinal upmix.

17. O decodificador do sinal de áudio de acordo com a reivindicação 14, em que o processador do sinal de áudio é caracterizado por ser configurado para realizar um processamento estéreo para binaural da segunda informação de áudio, para mapear dois canais da segunda informação de áudio sobre dois canais da representação do sinal upmix, considerando uma função de transferência relacionada ao cabeçote.

18. O decodificador do sinal de áudio de acordo com a reivindicação 14, em que o processador do sinal de áudio é caracterizado por ser configurado para realizar um processamento estéreo para estéreo da segunda informação de áudio, para mapear dois canais da segunda informação de áudio sobre dois canais da representação do sinal upmix.

19. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para tratar objetos de áudio do segundo tipo de objeto de áudio, aos quais nenhuma informação residual é associada, como um único objeto de áudio, e em que o processador do sinal de áudio (140; 270; 570; 570a) é configurado para considerar parâmetros de renderização específicos do objeto associados aos objetos de áudio do segundo tipo de objeto de áudio para ajustar contribuições dos objetos de áudio do segundo tipo de objeto de áudio para a representação do sinal upmix.

20. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter um ou dois valores de diferença de nível de objeto comuns (OLDL, OLDR) para uma pluralidade de objetos de áudio do segundo tipo de objeto de áudio; e em que o separador do objeto é configurado para usar o valor de diferença de nível de objeto comum para um cálculo dos coeficientes de previsão de canal (CPC); e em que o separador de objeto é configurado para usar os coeficientes de previsão de canal para obter um ou mais canais de áudio que representem a segunda informação de áudio.

21. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para obter um ou dois valores de diferença de nível de objeto comuns (OLDL, OLDR) para uma pluralidade de objetos de áudio do segundo tipo de objeto de áudio; e em que o separador do objeto é configurado para usar o valor de diferença de nível de objeto comum para um cálculo de entradas de uma matriz ( M ); e em que o separador de objeto é configurado para usar a matriz ( M ) para obter um ou mais canais de áudio que representem a segunda informação de áudio.

22. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador de objeto é caracterizado por ser configurado para obter de forma seletiva um valor de correlação entre objetos comum (IOCL,R) associado ao objeto de áudio do segundo tipo de objeto de áudio dependendo da informação paramétrica relacionada ao objeto caso se descubra que há dois objetos de áudio do segundo tipo de objeto de áudio, e para ajustar o valor de correlação entre objetos associados aos objetos de áudio do segundo tipo de objeto de áudio para zero caso se descubra que há mais ou menos do que dois objetos de áudio do segundo tipo de objeto de áudio; e em que o separador do objeto é configurado para usar o valor de correlação entre objetos comum para um cálculo de entradas de uma matriz ( M ); e em que o separador de objeto é configurado para usar o valor de correlação entre objetos comum associado aos objetos de áudio do segundo tipo de objeto de áudio para obter um ou mais canais de áudio que representem a segunda informação de áudio.

23. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio é caracterizado por ser configurado para renderizar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma representação renderizada dos objetos de áudio do segundo tipo de objeto de áudio como a versão processada da segunda informação de áudio.

24. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador do objeto é caracterizado por ser configurado para fornecer a primeira informação de áudio de forma que a segunda informação de áudio descreve mais do que dois objetos do segundo tipo de objeto de áudio.

25. O decodificador do sinal de áudio de acordo com a reivindicação 24, em que o separador do objeto é caracterizado por ser configurado para obter, como a segunda informação de áudio, uma representação de sinal de áudio de um canal ou uma representação de sinal de áudio de dois canais que represente mais do que dois objetos de áudio do segundo tipo de objeto de áudio.

26. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o processador do sinal de áudio é caracterizado por ser configurado para receber a segunda informação de áudio e processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, considerando a informação paramétrica relacionada ao objeto associada a mais do que dois objetos de áudio do segundo tipo de objeto de áudio.

27. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o decodificador do sinal de áudio é caracterizado por ser configurado para extrair uma informação de número de objeto total (bsNumObjects) e uma informação de número de objeto de primeiro plano (SAOCSpecificConfig) da informação paramétrica relacionada ao objeto e determinar o número de objetos de áudio do segundo tipo de objeto de áudio formando uma diferença entre a informação do número de objeto total e a informação do número de objeto de primeiro plano.

28. O decodificador do sinal de áudio de acordo com qualquer uma das reivindicações anteriores, em que o separador de objeto é caracterizado por ser configurado para usar a informação paramétrica relacionada ao objeto associada com objetos de áudio NEAO do primeiro tipo de objeto de áudio para obter, como a primeira informação de áudio, sinais de áudio NEAO ( X ) que representem os objetos de áudio NEAO do primeiro tipo de objeto de áudio e obter, como a segunda informação de áudio, um ou dois sinais de áudio ( X ) que representem os objetos de áudio N-NEAO do segundo tipo de objeto de áudio como um objeto de áudio de um único canal ou dois canais; e em que o processador do sinal de áudio é configurado para renderizar individualmente os objetos de áudio N- NEAO representados por um ou dois sinais de áudio da segunda informação de áudio que use a informação paramétrica relacionada ao objeto associada com os objetos de áudio N-NEAO do segundo tipo de objeto de áudio.

29. Um método para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, sendo que o método é caracterizado por compreender: decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio que descreve um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio que descreve um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto, em que a segunda informação de áudio é uma informação de áudio que descreve os objetos de áudio do segundo tipo de objeto de áudio de forma combinada; e processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada da segunda informação de áudio; e combinar a primeira informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que o decodificador de sinal de áudio é fornecido dependendo de uma informação residual associada a um subconjunto de objetos de áudio representado pela representação do sinal downmix, em que a representação do sinal downmix é decomposta, para fornecer uma primeira informação de áudio descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio ao qual uma informação residual é associada e uma segunda informação de objeto de áudio descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio, ao qual nenhuma informação residual é associada, dependendo da representação do sinal downmix e usando a informação residual; em que um processamento individual de objeto dos objetos de áudio do segundo tipo de objeto de áudio é realizado, considerando informações paramétricas relacionadas ao objeto associadas com mais de dois objetos de áudio do segundo tipo de objeto de áudio; e em que a informação residual descreve uma distorção residual, que se espera que permaneça caso um objeto de áudio do primeiro tipo de objeto de áudio é isolado meramente usando-se a informação paramétrica relacionada ao objeto.

30. Um decodificador de sinal de áudio (100; 200; 500; 590) para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix (112; 210; 510; 510a), uma informação paramétrica relacionada ao objeto (110; 212; 512; 512a), sendo que o decodificador de sinal de áudio digital é caracterizado por compreender: um separador de objeto (130; 260; 520; 520a) configurado de forma a decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio (132; 262; 562; 562a) descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio (134; 264; 564; 564a) descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; um processador de sinal de áudio configurado para receber a segunda informação de áudio (134; 264; 564; 564a) e para processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada (142; 272; 572; 572a) da segunda informação de áudio; e um combinador de sinal de áudio (150; 280; 580; 580a) configurado para combinar a informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que o separador do objeto é configurado para de áudio e a segunda informação de áudio de acordo com

em que X representa canais da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio; ~-1 , . z em que D representa uma matriz que é um inverso de uma matriz downmix estendida; em que C descreve uma matriz que representa uma pluralidade de coeficientes de previsão do canal, c~ , c~ ; em que l0 e r0 representam canais da representação de sinal de downmix; em que res0 e res representam canais residuais; e em que AEAOé uma matriz de pré-renderização EAO, cujas entradas descrevem um mapeamento de objetos de áudio aprimorados para canais de um sinal de objeto de áudio aprimorado XEAO; em que o separador do objeto é configurado para ~ -1 obter a matriz de downmix inversa D como um inverso de uma ~ matriz de downmix estendi D definida como

em que o separador do objeto é configurado para obter a matriz C como

em que m0 a mN 1 NEAO_1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que n0 a nN 1 NEAO_1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que o separador de objeto é configurado para computar os coeficientes de previsão c~ e c~como

em que o separador do objeto é configurado para derivar coeficientes de previsão coagida c e c dos coeficientes ~~ de previsão c e c usando um algoritmo de coação ou para usar os j , 0 j,1 ~~ coeficientes de previsão c e c como os coeficientes de previsão c e c ; em que as quantidades de energia PLo, PRo, PLoRo, PLoCo,j e PRoCo,j são definidas como

em que d0,i a d1,i são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDisão valores de diferença de nível de objeto associados com os objetos de áudio do segundo tipo de objeto de áudio; em que N é um número total de objetos de áudio; Em que NEAOé um número de objetos de áudio do primeiro tipo de objeto de áudio; em que IOC0,1é um valor de correlação entre objetos associado com um par de objetos de áudio do segundo tipo de objeto de áudio; em que ei,j e eL,Rsão valores de covariância derivados dos parâmetros de diferença de nível de objeto e parâmetros de correlação entre objetos; e em que ei,j são associados com um par de objetos de áudio do primeiro tipo de objeto de áudio e eL,Ré associado com um par de objetos de áudio do segundo tipo de objeto de áudio.

31. Um decodificador de sinal de áudio (100; 200; 500; 590) para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix (112; 210; 510; 510a), uma informação paramétrica relacionada ao objeto (110; 212; 512; 512a), sendo que o decodificador de sinal de áudio digital é caracterizado por compreender: um separador de objeto (130; 260; 520; 520a) configurado de forma a decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio (132; 262; 562; 562a) descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio (134; 264; 564; 564a) descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; um processador de sinal de áudio configurado para receber a segunda informação de áudio (134; 264; 564; 564a) e para processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada (142; 272; 572; 572a) da segunda informação de áudio; e um combinador de sinal de áudio (150; 280; 580; 580a) configurado para combinar a informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que o separador do objeto é configurado para obter a primeira informação de áudio e a segunda informação de áudio de acordo com

em que X representa canais da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio;

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que n0 a n são valores de downmix NEAB-1 associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDisão valores de diferença de nível de objeto associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDLe OLDRsão valores de diferença de nível e objeto comuns associados com os objetos de áudio do primeiro tipo de objeto de áudio; e em que AEAOé uma matriz de pré-renderização EAO.

32. Um decodificador de sinal de áudio (100; 200; 500; 590) para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix (112; 210; 510; 510a), uma informação paramétrica relacionada ao objeto (110; 212; 512; 512a), sendo que o decodificador de sinal de áudio digital é caracterizado por compreender: um separador de objeto (130; 260; 520; 520a) configurado de forma a decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio (132; 262; 562; 562a) descrevendo um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio (134; 264; 564; 564a) descrevendo um segundo conjunto de um ou mais objetos de áudio ou um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; um processador de sinal de áudio configurado para receber a segunda informação de áudio (134; 264; 564; 564a) e para processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada (142; 272; 572; 572a) da segunda informação de áudio; e um combinador de sinal de áudio (150; 280; 580; 580a) configurado para combinar a informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que o separador do objeto é configurado para obter a primeira informação de áudio e a áudio de acordo com

em que XOBJ representa um canal da segunda informação de áudio; em que XEAO representa sinais de objeto da primeira informação de áudio;

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDL é um valor de diferença de nível de objeto comum associado com os objetos de áudio do primeiro tipo de objeto de áudio; e em que AEAOé uma matriz de pré-renderização EAO. em ue as matrizes MEnergy e MEnergysão a licadas a em que as matr zes e são ap ca as a uma representação d0de um único sinal de downmix SAOC.

33. Um método para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, sendo que o método é caracterizado por compreender: decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio que descreve um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio que descreve um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; e processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada da segunda informação de áudio; e combinar a primeira informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que a primeira informação de áudio e a segunda informação de áudio são obtidas de acordo com

em que X representa canais da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio; ~-1 . . z em que D representa uma matriz que é um inverso de uma matriz downmix estendida; em que C descreve uma matriz que representa uma pluralidade de coeficientes de previsão do canal, c~ , c~ ; em que l0 e r0 representam canais da representação de sinal de downmix; em que res0 e res representam canais residuais; e em que AEAOé uma matriz de pré-renderização EAO, cujas entradas descrevem um mapeamento de objetos de áudio aprimorados para canais de um sinal de objeto de áudio aprimorado XEAO; ~-1 z em que a matriz downmix inversa D é obtida como um inverso de uma matriz de downmix estendida como

em que a matriz C é obtida como

em que m0 a mN -1 associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que n0 a n são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que os coeficientes de previsão c~ e c~ são calculados como

em que coeficientes de previsão coagida j,0 c e j,1 c são derivados dos coeficientes de previsão ,0 ~ j c e ,1 ~ j c usando um algoritmo de coação ou em que os coeficientes de previsão ,0 ~ j c e ,1 ~ j c são usados como os coeficientes de previsão j,0 c e j,1 c ; em que as quantidades de energia PLo, PRo, PLoRo, Petição 870200109787, de 31/08/2020, pág. 35/40 31/35 PLoCo,j e PRoCo,j são definidas como

em que d0,i a d1,i são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDisão valores de diferença de nível de objeto associados com os objetos de áudio do segundo tipo de objeto de áudio; em que N é um número total de objetos de áudio; em que NEAO é um número de objetos de áudio do primeiro tipo de objeto de áudio; em que IOC0,1 é um valor de correlação entre objetos associado com um par de objetos de áudio do segundo tipo de objeto de áudio; em que ei,je eL,Rsão valores de covariância derivados dos parâmetros de diferença de nível de objeto e parâmetros de correlação entre objetos; e em que ei,j são associados com um par de objetos de áudio do primeiro tipo de objeto de áudio e eL,Ré associado com um par de objetos de áudio do segundo tipo de objeto de áudio.

34. Um método para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, sendo que o método é caracterizado por compreender: decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio que descreve um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio que descreve um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; e processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada da segunda informação de áudio; e combinar a primeira informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que a primeira informação de áudio e a segunda áudio são obtidas de acordo com

em que XOBJ representa canais da segunda informação de áudio; em que XEAO representa sinais de objeto da primeira informação de áudio; em que

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que n0 a 1nNEAO são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDi são valores de diferença de nível de objeto associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDL e OLDR são valores de diferença de nível e objeto comuns associados com os objetos de áudio do primeiro tipo de objeto de áudio; e em que AEAOé uma matriz de pré-renderização EAO.

35. Um método para fornecer uma representação de sinal upmix dependendo de uma representação de sinal downmix e uma informação paramétrica relacionada ao objeto, sendo que o método é caracterizado por compreender: decompor a representação de sinal downmix, para fornecer uma primeira informação de áudio que descreve um primeiro conjunto de um ou mais objetos de áudio de um primeiro tipo de objeto de áudio, e uma segunda informação de objeto de áudio que descreve um segundo conjunto de um ou mais objetos de áudio de um segundo tipo de objeto de áudio dependendo da representação do sinal downmix e usando pelo menos parte da informação paramétrica relacionada ao objeto; e processar a segunda informação de áudio dependendo da informação paramétrica relacionada ao objeto, para obter uma versão processada da segunda informação de áudio; e combinar a primeira informação de áudio com a versão processada da segunda informação de áudio, para obter a representação do sinal upmix; em que a primeira informação de áudio e a segunda informação de áudio são obtidas de acordo com

em que X representa um canal da segunda informação de áudio; em que X representa sinais de objeto da primeira informação de áudio;

em que m0 a mNEAO-1 são valores de downmix associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDi são valores de diferença de nível de objeto associados com os objetos de áudio do primeiro tipo de objeto de áudio; em que OLDL é um valor de diferença de nível de objeto comum associado com os objetos de áudio do primeiro tipo de objeto de áudio; e em que AEAOé uma matriz de pré-renderização EAO. em ue as matrizes MEnergy e MEnergy são a licadas a em que as matrizes e são aplicadas a um único sinal de downmix SAOC.