BR112016001243B1

BR112016001243B1 - Aparelho e método para codificação de objetos áudio espaciais melhorada

Info

Publication number: BR112016001243B1
Application number: BR112016001243-7A
Authority: BR
Inventors: Jürgen Herre; Adrian Murtaza; Jouni PAULUS; Sascha Disch; Harald Fuchs; Oliver Hellmuth; Falko Ridderbusch; Leon Terebtiv
Original assignee: Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2022-03-03
Also published as: CN112839296A; PL3025335T3; EP3025335B1; CA2918869C; CN112839296B; KR101774796B1; BR112016001244B1; EP2830048A1; MX355589B; CA2918869A1; BR112016001244A2; TW201519216A; CN105593929A; CN105593930A; KR101852951B1; US20160142846A1; US11330386B2; TW201519217A; PL3025333T3; SG11201600396QA

Abstract

aparelho e método para codificação de objetos áudio espaciais melhorada. é apresentado um aparelho para geração de um ou mais canais de saída áudio. o aparelho compreende um processador de parâmetro (110) para calcular a informação de mistura e um processador de downmix (120), para gerar o(s) canal/canais de saída áudio. o aparelho processador (120) é configurado para receber um sinal de transporte áudio compreendendo um ou mais canais de transporte áudio. um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio e um ou mais sinais de objetos áudio são misturados dentro do sinal de transporte áudio e em que o número de um ou mais canal/canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio, caracterizado por o processador de parâmetro (110) estar configurado para receber informação de downmix indicando informação em como um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio são misturados dentro de um ou mais canais de transporte áudio, e caracterizado por o processador de parâmetro (110) estar configurado para receber informação de covariância. além disso, o processador de parâmetros (110) está configurado para calcular a informação de mistura, dependendo da informação de downmix e dependendo da informação de covariância. o processador de downmix (120) está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura. a informação de covariância indica uma informação da diferença de nível para pelo menos um ou mais dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. no entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

Description

[001] A presente invenção refere-se a codificação/descodificação áudio, em particular à codificação áudio espacial e codificação de objetos áudio espaciais e, mais particularmente, a um aparelho e método de codificação de objetos áudio espaciais melhorada.

[002] As ferramentas de codificação áudio espacial são bem conhecidas na técnica e encontram-se normalizadas, por exemplo, na norma MPEG surround. A codificação áudio espacial começa a partir de canais de entrada originais, tais como cinco ou sete canais que são identificados pela sua posição na configuração de reprodução, isto é, um canal esquerdo, um canal central, um canal direito, um canal surround esquerdo, um canal surround direito e um canal de aumento de baixa frequência. Um codificador áudio espacial deriva tipicamente um ou mais canais downmix a partir dos canais originais e, adicionalmente, deriva dados paramétricos relacionados com indicadores de directividade (cues) espaciais, tais como diferenças de nível inter-canal nos valores de coerência do canal, diferenças de fase inter-canal, diferenças de tempo inter-canal, etc. O(s) canal/canais downmix é/são transmitido(s) juntamente com a informação lateral, indicando as cues espaciais para um descodificador áudio espacial que descodifica o canal downmix e os dados paramétricos associados a fim de obter finalmente canais de saída que são uma versão aproximada dos canais de entrada originais. O posicionamento dos canais na configuração de saída é tipicamente fixa e tem, por exemplo, um formato 5.1, um formato 7.1, etc.

[003] Estes formatos áudio baseados em canais são amplamente utilizados para guardar ou transmitir conteúdos áudio multi-canal, em que cada canal se refere a um altifalante específico numa dada posição. Uma reprodução fiel deste tipo de formatos exige uma configuração do altifalante em que os altifalantes são instalados nas mesmas posições que os altifalantes que foram utilizados durante a produção dos sinais áudio. Embora o aumento do número de altifalantes melhores a reprodução de cenas áudio 3D verdadeiramente envolvente, tem-se tornado cada vez mais difícil satisfazer este requisito - especialmente num ambiente doméstico como uma sala de estar.

[004] A necessidade de ter uma configuração específica de altifalantes pode ser ultrapassada por uma abordagem baseada em objetos, em que os sinais do altifalante são renderizados especificamente para a configuração de leitura.

[005] Por exemplo, as ferramentas de codificação de objetos áudio espaciais são bem conhecidas na técnica e encontram-se normalizadas na norma MPEG SAOC (SAOC = spatial audio object coding, em português "codificação de objetos áudio espaciais"). Em contraste com a codificação áudio espacial a começar nos canais originais, a codificação de objetos áudio espaciais começa a partir de objetos áudio que não são automaticamente dedicados para uma determinada configuração de reprodução de renderização. Pelo contrário, a colocação de objetos áudio na cena de reprodução é flexível e pode ser determinada pelo utilizador mediante introdução de determinada informação de renderização no descodificador de codificação de objetos áudio espaciais. Em alternativa ou adicionalmente, a informação de renderização, isto é, a informação sobre a posição na configuração de reprodução em que se pode colocar um determinado objeto áudio tipicamente com o tempo pode ser transmitida como informação lateral adicional ou metadados. A fim de obter uma determinada compressão de dados, são codificados vários objetos áudio por um codificador SAOC, o qual calcula a partir dos objetos de entrada, um ou mais canais de transporte, mediante downmix dos objetos de acordo com determinada informação de downmix. Além disso, o codificador SAOC calcula a informação lateral paramétrica que representa cues inter-objeto, tais como diferenças do nível do objeto (OLD), valores de coerência do objeto, etc. Tal como em SAC (SAC= Spatial Audio Coding, em português "Codificação Áudio Espacial") os dados paramétricos inter-objeto são calculados para mosaicos tempo/frequência paramétricos, isto é, para um determinado frame do sinal áudio compreendendo, por exemplo, 1024 ou 2048 amostras, são consideradas 28, 20, 14 ou 10, etc. bandas de processamento, de forma que, no final, existem dados paramétricos para cada frame e cada banda de processamento. A título de exemplo, quando uma peça áudio possui 20 frames e quando cada frame é subdividido em 28 bandas de processamento, então o número de mosaicos tempo/frequência paramétricos é de 560.

[006] Numa abordagem baseada em objetos, o campo de som é descrito por objetos áudio discretos. Esta abordagem requer metadados do objeto que descrevem, entre outros aspectos, a posição variante no tempo de cada fonte sonora num espaço 3D.

[007] Um primeiro conceito de codificação de metadados na técnica anterior consiste no formato spatial sound description interchange (SpatDIF), um formato de descrição da cena áudio que se encontra ainda em desenvolvimento [M1]. Foi concebido como formato de cenas auditivas baseadas em objetos e não proporciona qualquer método de compressão para trajectórias de objetos. O SpatDIF utiliza o formato Open Sound Control (OSC, em português "Controlo de Som Aberto") para estruturar os metadados de objetos [M2]. No entanto, uma simples representação baseada em texto não constitui uma opção para a transmissão comprimida de trajectórias de objetos.

[008] Outro conceito de metadados na técnica anterior consiste no Audio Scene Description Format (ASDF, em português "Formato de Descrição do Cenáriol Áudio") [M3], uma solução baseada em texto que possui a mesma desvantagem. Os dados são estruturados por uma extensão da Synchronized Multimedia Integration Language (SMIL, em português "Linguagem de Integração Multimedia Sincronizada") que é um subconjunto da Extensible Markup Language (XML, em português "Linguagem de Marcação Extensível") [M4], [M5].

[009] Um outro conceito de metadados na técnica anterior reside no formato binário áudio para cenários (AudioBIFS), um formato binário que faz parte da especificação MPEG-4 [M6], [M7]. Está relacionado de perto com a Virtual Reality Modeling Language (VRML, em português "Linguagem de Modelação de Realidade Virtual") baseada em XML, que foi desenvolvida para a descrição de cenários audiovisuais 3D e aplicações de realidade virtual interactivas [M8]. A complexa especificação AudioBIFS utiliza gráficos de cenário para especificar vias de movimentos de objetos. Uma grande desvantagem do AudioBIFS reside no fato de não ter sido concebido para funcionamento em tempo real, o qual exige um atraso do sistema limitado e acesso aleatório ao fluxo de dados. Além disso, a codificação das posições do objeto não explora o desempenho de localização limitado dos ouvintes humanos. Para uma posição fixa do ouvinte dentro do cenário audiovisual, os dados de objetos podem ser quantificados com um número muito menor de bits [M9]. Assim, a codificação dos metadados de objetos que é aplicada em AudioBIFS não é eficiente no que respeita à compressão de dados.

[010] O objeto da presente invenção consiste em proporcionar conceitos aperfeiçoados para a Codificação de Objetos Áudio Espaciais. O objeto da presente invenção é solucionado com um aparelho de acordo com a reivindicação 1, por um aparelho de acordo com a reivindicação 14, com um sistema de acordo com a reivindicação 16, com um método de acordo com a reivindicação 17, com um método de acordo com a reivindicação 18 e com um programa de computador de acordo com a reivindicação 19.

[011] É apresentado um aparelho para geração de um ou mais canais de saída áudio. O aparelho compreende um processador de parâmetros para cálculo de informação de mistura e um processador de downmix, para gerar o(s) canal/canais de saída áudio. O processador downmix está configurado para receber um sinal de transporte áudio, compreendendo um ou mais canais de transporte áudio. Um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio e um ou mais sinais de objetos áudio são misturados dentro do sinal de transporte áudio e em que o número de um ou mais canal/canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio. O processador de parâmetros está configurado para receber informação de downmix indicando a informação sobre a forma como o um ou mais sinais de canal áudio e o um ou mais sinais de objetos áudio são misturados dentro de um ou mais canais de transporte áudio e em que o processador de parâmetros está configurado para receber informação de covariância. Além disso, o processador de parâmetros está configurado para calcular a informação de mistura, dependendo da informação de downmix e dependendo da informação de covariância. em que o processador de sinal (120) está configurado para gerar o ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo do valor de compensação de ruído. A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[012] Além disso, é apresentado um aparelho para geração de um sinal de transporte áudio, compreendendo um ou mais canais de transporte áudio. O aparelho compreende um misturador canal/objeto para gerar o(s) um ou mais canais de transporte áudio do sinal de transporte áudio e uma interface de saída. O misturador canal/objeto está configurado para gerar o sinal de transporte áudio compreendendo o(s) um ou mais canais de transporte áudio através da mistura de um ou mais sinais de canal áudio e um ou mais sinais de objetos áudio dentro do sinal de transporte áudio, dependendo da informação de downmix que indica a informação sobre a forma como o(s) um ou mais sinais de canal áudio e o(s) um ou mais sinais de objetos áudio têm de ser misturados dentro de um ou mais canais de transporte áudio, em que o número de um ou mais canais de transporte áudio é menor do que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio. A interface de saída está configurada para a saída do sinal de transporte áudio, a informação de downmix e informação de covariância. A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[013] Além disso, é apresentado um sistema. O sistema compreende um aparelho para gerar um sinal de transporte áudio como anteriormente descrito e um aparelho para gerar um ou mais canais de saída áudio, como anteriormente descrito. O aparelho para gerar o(s) um ou mais canais de saída áudio está configurado para receber o sinal de transporte áudio, informação de downmix e informação de covariância a partir do aparelho para gerar o sinal de transporte áudio. Além disso, o aparelho para gerar os canais de saída áudio está configurado para gerar o(s) um ou mais canais de saída áudio, dependendo do sinal de transporte áudio na informação de downmix e dependendo da informação de covariância.

[014] Além disso, é apresentado um método para geração de um ou mais canais de saída áudio. O método inclui:

[015] - A recepção de um sinal de transporte áudio compreendendo um ou mais canais de transporte áudio, em que um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio e em que um ou mais sinais de objetos áudio são misturados dentro do sinal de transporte áudio e em que o número de um ou mais canal/canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio.

[016] - Recepção da informação de downmix indicando a informação sobre a forma como o um ou mais sinais de canal áudio e o um ou mais sinais de objetos áudio são misturados dentro de um ou mais canais de transporte áudio.

[017] - Recepção de informação de covariância

[018] - Cálculo da informação de mistura, dependendo da informação de downmix e dependendo da informação de covariância. e:

[019] - Geração de um ou mais canais de saída áudio.

[020] Gerar o(s) um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo do valor de compensação de ruído. A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[021] Além disso, é apresentado um método para geração de um sinal de transporte áudio, compreendendo um ou mais canais de transporte áudio. O método inclui:

[022] Gerar o sinal de transporte áudio compreendendo o(s) um ou mais canais de transporte áudio através da mistura de um ou mais sinais de canal áudio e um ou mais sinais de objetos áudio dentro do sinal de transporte áudio, dependendo da informação de downmix que indica a informação sobre a forma como o(s) um ou mais sinais de canal áudio e o(s) um ou mais sinais de objetos áudio têm de ser misturados dentro de um ou mais canais de transporte áudio, em que o número de um ou mais canais de transporte áudio é menor do que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio. e:

[023] - Saída do sinal de transporte áudio, a informação de downmix e informação de covariância.

[024] A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[025] Além disso, é apresentado um programa informático para implementar o método descrito acima sempre que for executado num computador ou processador de sinal.

[026] Seguidamente, são descritas realizações da presente invenção mais detalhadamente, com referência às figuras, nas quais:

[027] A fig. 1 ilustra um aparelho para gerar um ou mais canais de saída áudio de acordo com uma realização,

[028] A fig. 2 ilustra um aparelho para gerar um sinal de transporte áudio compreendendo um ou mais canais de transporte áudio de acordo com uma realização,

[029] A fig. 3 ilustra um sistema de acordo com uma realização,

[030] A fig. 4 ilustra uma primeira realização de um codificador áudio 3D,

[031] A fig. 5 ilustra uma primeira realização de um descodificador áudio 3D,

[032] A fig. 6 ilustra uma segunda realização de um codificador áudio 3D,

[033] A fig. 7 ilustra uma segunda realização de um descodificador áudio 3D,

[034] A fig. 8 ilustra uma terceira realização de um codificador áudio 3D,

[035] A fig. 9 ilustra uma terceira realização de um descodificador áudio 3D e

[036] A fig. 10 ilustra uma unidade de processamento conjunto de acordo com uma realização.

[037] Antes de descrever detalhadamente realizações preferidas da presente invenção, passa-se a descrever o novo Sistema Codec Áudio 3D.

[038] Na técnica anterior não existe uma tecnologia flexível que combine a codificação do canal por um lado e a codificação do objeto por outra, de forma a obter-se uma qualidade áudio aceitável como taxas de bits menores.

[039] Esta limitação é ultrapassada pelo novo Sistema Codec Áudio 3D.

[040] Antes de descrever detalhadamente realizações, passa-se a descrever o novo Sistema Codec Áudio 3D.

[041] A fig. 4 ilustra um codificador áudio 3D de acordo com uma realização da presente invenção. O codificador áudio 3D está configurado para codificar dados de entrada áudio 101, para obter dados de saída áudio 501. O codificador áudio 3D compreende uma interface de entrada para receber vários canais áudio indicados por CH e vários objetos áudio indicados por OBJ. Além disso, como ilustrado na fig. 4, a interface de entrada 1100 recebe ainda metadados relacionados com um ou mais dos vários objetos áudio OBJ. Além disso, o codificador áudio 3D compreende um misturador 200 para mistura dos vários objetos e dos vários canais, para obter vários canais pré-misturados, em que cada canal pré-misturado compreende dados áudio de um canal e dados áudio de pelo menos um objeto.

[042] Além disso, o codificador áudio 3D compreende um codificador central 300 para codificação central dos dados de entrada do codificador central, um compressor de metadados 400 para comprimir os metadados relacionados com um ou mais dos vários objetos áudio.

[043] Além disso, o codificador áudio 3D pode compreender um controlador de modo 600 para controlar o misturador, o codificador central e/ou uma interface de saída 500 em um ou vários modos operacionais, em que no primeiro modo, o codificador central está configurado para codificar a variedade de canais áudio e a variedade de objetos áudio recebidos pela interface de entrada 1100 sem qualquer intervenção do misturador, isto é, sem qualquer mistura pelo misturador 200. No entanto, num segundo modo em que o misturador 200 se encontra activo, o codificador central codifica os vários canais misturados, isto é, a saída gerada pelo bloco 200. Neste último caso é preferível já não codificar qualquer dado de objeto. Pelo contrário, os metadados que indicam as posições dos objetos áudio já são utilizados pelo misturador 200 para fazer render dos objetos nos canais, como indicado pelos metadados. Por outras palavras, o misturador 200 utiliza metadados relacionados com os vários objetos áudio, para fazer um render preliminar dos objetos áudio e depois misturar os objetos áudio com render preliminar com os canais para obter canais misturados à saída do misturador. Nesta realização, quaisquer objetos podem não ser obrigatoriamente transmitidos e o mesmo se aplica aos metadados comprimidos como saída pelo bloco 400. No entanto, se nem todas as entradas de objetos na interface 1100 são misturadas, mas apenas uma pequena quantidade de objetos é misturada, então apenas os restantes objetos por misturar e os metadados associados são, ainda assim, transmitidos para o codificador central 300 ou compressor de metadados 400, respectivamente.

[044] A fig. 6 ilustra ainda uma outra realização de um codificador áudio 3D que, adicionalmente, compreende um codificador SAOC 800. O codificador SAOC 800 está configurado para gerar um ou mais canais de transporte e dados paramétricos a partir de dados de entrada do codificador de objeto áudio espacial. Como vem ilustrado na fig. 6, os dados de entrada do codificador de objeto áudio espacial são objetos que não foram processados pelo renderizador preliminar/misturador. Em alternativa, desde que o renderizador preliminar/misturador tenha sido contornado como no modo um, em que uma codificação de canal/objeto individual está activa, todos os objetos introduzidos na interface de entrada 1100 são codificados pelo codificador SAOC 800.

[045] Além disso, como ilustrado na fig. 6, o codificador central 300 é preferencialmente implementado como um codificador USAC, isto é como um codificador tal como definido e normalizado na norma MPEG-USAC (USAC = Unified Speech and Audio Coding). A saída da totalidade do codificador áudio 3D ilustrado na fig. 6 é um fluxo de dados MPEG 4, fluxo de dados MPEG H ou fluxo de dados áudio 3D com as estruturas tipo contentor para tipos individuais de dados. Além disso, os metadados estão indicados como dados "OAM" e o compressor de metadados 400 na fig. 4 corresponde ao codificador OAM para obter dados OAM comprimidos, que são introduzidos no codificador USAC 300 que, como se pode ver na fig. 6, compreende adicionalmente a interface de saída para obter o fluxo de dados de saída MP4, possuindo não só os dados do canal/objeto codificados como também os dados OAM comprimidos.

[046] A fig. 8 ilustra mais uma realização do codificador áudio 3D, em que, em contraste com a fig. 6, o codificador SAOC pode ser configurado para codificar com o algoritmo de codificação SAOC ou os canais fornecidos no renderizador preliminar/misturador 200 que não está activo neste modo ou, em alternativa, codificar SAOC os canais com renderização preliminar mais objetos. Assim, na fig. 8 o codificador SAOC pode operar com três tipos diferentes de dados de entrada, isto é, canais sem quaisquer objetos submetidos a renderização preliminar, canais e objetos submetidos a renderização preliminar ou só objetos. Além disso, é preferível fornecer um descodificador OAM adicional 420 na fig. 8 de forma que o codificador SAOC 800 utilize, para o seu processamento, os mesmos dados que no lado do descodificador, isto é, dados obtidos mediante compressão com perdas em vez dos dados OAM originais.

[047] O codificador áudio 3D da fig. 8 pode funcionar em vários modos individuais.

[048] Para além do primeiro e segundo modos, como discutido no contexto da fig. 4, o codificador áudio 3D da fig. 8 pode ainda funcionar num terceiro modo, no qual o codificador central gera o(s) um ou mais canais de transporte a partir dos objetos individuais, quando o renderizador preliminar/misturador 200 não estiver activo. Em alternativa ou adicionalmente, neste terceiro modo, o codificador SAOC 800 pode gerar um ou mais canais de transporte alternativos ou adicionais a partir dos canais originais, isto é novamente quando o renderizador preliminar/misturador 200 correspondente ao misturador 200 da fig. 4 não estava activo.

[049] Finalmente, quando o codificador áudio 3D está configurado para o quarto modo, o codificador SAOC 800 pode codificar os canais mais os objetos submetidos renderização preliminar como gerados pelo renderizador preliminar/misturador. Assim, no quarto modo, as aplicações à mais baixa taxa de bites irá proporcionar boa qualidade devido ao fato de os canais e objetos terem sido completamente transformados em canais de transporte SAOC e informação lateral associada, como indicado nas figs. 3 e 5 como "SAOC-SI" e, adicionalmente, quaisquer metadados comprimidos não têm de ser transmitidos neste quarto modo.

[050] A fig. 5 ilustra um descodificador áudio 3D de acordo com uma realização da presente invenção. O descodificador áudio 3D recebe, como entrada, os dados áudio codificados, isto é, os dados 501 da fig. 4.

[051] O descodificador áudio 3D compreende um descompressor de metadados 1400, um descodificador central 1300, um processador de objetos 1200, um controlador de modo 1600 e um pós-processador 1700.

[052] Especificamente, o descodificador áudio 3D é configurado para descodificar dados áudio codificados e a interface de entrada é configurada para receber os dados áudio codificados, os dados áudio codificados compreendendo vários canais codificados e os vários objetos codificados e metadados comprimidos relacionados com os vários objetos num determinado modo.

[053] Além disso, o descodificador central 1300 é configurado para descodificar os vários canais codificados e os vários objetos codificados e, adicionalmente, o descompressor de metadados é configurado para descomprimir os metadados comprimidos.

[054] Além disso, o processador de objetos 1200 é configurado para processar os vários objetos descodificados à medida que são gerados pelo descodificador central 1300, utilizando os metadados descomprimidos para obter um número pré-determinado de canais de saída compreendendo dados de objetos e os canais descodificados. Estes canais de saída como indicado em 1205 são depois introduzidos num pós-processador 1700. O pós-processador 1700 é configurado para converter o número de canais de saída 1205 num determinado formato de saída que pode ser um formato de saída binaural ou um formato de saída para altifalante, tal como um formato de saída 5.1, 7.1, etc.

[055] De preferência, o descodificador áudio 3D compreende um controlador de modo 1600, que é configurado para analisar os dados codificados para detectar uma indicação de modo. Por conseguinte, o controlador de modo 1600 é ligado à interface de entrada 1100 na fig. 5. No entanto, em alternativa, o controlador de modo não tem obrigatoriamente de se encontrar aí. Pelo contrário, o descodificador áudio flexível pode ser predefinido por qualquer outro tipo de dados de controlo, tal como uma entrada do utilizador ou qualquer outro controlo. O descodificador áudio 3D na fig. 5 e preferencialmente controlado pelo controlador de modo 1600, é configurado para contornar o processador de objetos e introduzir os vários canais descodificados no pós-processador 1700. Trata-se do funcionamento em modo 2, isto é, no qual só são recebidos canais submetidos a renderização preliminar, isto é, quando o modo 2 foi aplicado no codificador áudio 3D da fig. 4. Em alternativa, quando foi aplicado o modo 1 no codificador áudio 3D, isto é, quando o codificador áudio 3D executou uma codificação de canais/objetos individual, nesse caso o processador de objetos 1200 não é contornado, mas os vários canais descodificados e os vários objetos descodificados são introduzidos no processador de objetos 1200 juntamente com os metadados descomprimidos gerados pelo descompressor de metadados 1400.

[056] De preferência, a indicação de se deve ser aplicado o modo 1 ou o modo 2 está incluída nos dados áudio codificados e depois o controlador de modo 1600 analisa os dados codificados para detectar uma indicação de modo. O modo 1 é utilizado quando a indicação de modo indica que os dados áudio codificados compreendem canais codificados e os objetos codificados e o modo 2 é aplicado quando a indicação de modo indica que os dados áudio codificados não contêm quaisquer objetos áudio, isto é, contêm apenas canais submetidos a renderização preliminar, obtidos pelo modo 2 do codificador áudio 3D da fig. 4.

[057] A fig. 7 ilustra uma realização preferida comparada com o descodificador áudio 3D da fig. 5 e a realização da fig. 7 corresponde ao codificador áudio 3D da fig. 6. Para além da implementação do descodificador áudio 3D da fig. 5, o descodificador áudio 3D da fig. 7 compreende um descodificador SAOC 1800. Além disso, o processador de objetos 1200 da fig. 5 é implementado como renderizador separado 1210 e o misturador 1220 enquanto, dependendo do modo, a funcionalidade do renderizador de objetos 1210 pode também ser implementado pelo descodificador SAOC 1800.

[058] Além disso, o pós-processador 1700 pode ser implementado como um renderizador binaural 1710 ou um conversor de formato 1720. Em alternativa, uma saída directa de dados 1205 da fig. 5 pode também ser implementada, como ilustrado por 1730. Por conseguinte, é preferível executar o processamento no descodificador no máximo número de canais, tal como 22.2 ou 32, a fim de ter flexibilidade e depois proceder ao pós-processamento se for necessário um formato menor. No entanto, quando é evidente desde o início que é necessário apenas um pequeno formato como um formato 5.1, nesse caso é preferível, como indicado pela fig. 5 ou 6 pelo atalho 1727, que possa ser aplicado um determinado controlo sobre o descodificador SAOC e/ou no descodificador USAC a fim de evitar operações de upmix desnecessárias e operações de downmix subsequentes.

[059] Numa forma de realização preferida da presente invenção, o processador de objetos 1200 compreende o descodificador SAOC 1800 e o descodificador SAOC está configurado para descodificar um ou mais canais de saída de transporte pelo descodificador central e dados paramétricos associados. Com este propósito, a saída OAM está ligada à caixa 1800.

[060] Além disso, o processador de objetos 1200 é configurado para fazer render da saída de objetos descodificados pelo descodificador central, que não estão codificados em canais de transporte SAOC mas que são individualmente codificados em elementos em canais individuais típicos, tal como indicado pelo renderizador de objetos 1210. Além disso, o descodificador compreende uma interface de saída correspondente à saída 1730 para fazer a saída do misturador para os altifalantes.

[061] Noutra realização, o processador de objetos 1200 compreende um descodificador de codificação de objetos áudio espaciais 1800 para descodificar um ou mais canais de transporte e informação lateral paramétrica associada representando sinais áudio codificados ou canais áudio codificados, em que o descodificador de codificação de objetos áudio espaciais é configurado para transcodificar a informação paramétrica associada e os metadados descomprimidos em informação lateral paramétrica trancodificada utilizável para renderizar directamente o formato de saída, como definido por exemplo numa versão anterior de SAOC. O pós-processador 1700 é configurado para calcular os canais áudio do formato de saída utilizando os canais de transporte descodificados e a informação lateral paramétrica transcodificada. O processamento executado pelo pós-processador pode ser similar ao processamento MPEG Surround ou pode ser qualquer outro processamento tal como processamento BCC ou semelhante.

[062] Numa outra realização, o processador de objetos 1200 compreende um descodificador de codificação de objetos áudio espaciais 1800 configurado para fazer upmix directamente e renderizar os sinais de canal para o formato de saída, utilizando os canais de transporte descodificados (pelo descodificador central) e a informação lateral paramétrica.

[063] Além disso, e mais importante, o processador de objetos 1200 da fig. 5 compreende adicionalmente o misturador 1220, que recebe como entrada uma saída de dados pelo descodificador USAC 1300 directamente quando os objetos com renderização preliminar estão misturados com canais, isto é, quando o misturador 200 da fig. 4 está activo. Adicionalmente, o misturador 1220 recebe dados do renderizador de objetos que executam a renderização de objetos sem descodificação SAOC. Além disso, o misturador recebe dados de saída do descodificador SAOC, isto é objetos renderizados SAOC.

[064] O misturador 1220 liga-se à interface de saída 1730, ao renderizador binaural 1710 e ao conversor de formato 1720. O renderizador binaural 1710 está configurado para renderizar os canais de saída em dois canais binaurais utilizando funções de transferência relacionadas principais ou respostas de impulso espacial binaural (BRIR). O conversor de formato 1720 é configurado para converter os canais de saída num formato de saída com um menor número de canais do que os canais de saída 1205 do misturador e o conversor de formato 1720 exige informação sobre a disposição de reprodução tal como altifalantes 5.1 ou semelhantes.

[065] O descodificador áudio 3D da fig. 9 é diferente do descodificador áudio 3D da fig. 7 na medida em que o descodificador SAOC não pode gerar só objetos renderizados, mas também canais renderizados e é este o caso quando o codificador áudio 3D da fig. 8 foi utilizado e a ligação 900 entre os canais/objetos pré-renderizados e a interface de entrada do codificador SAOC 800 está activa.

[066] Além disso, é configurada uma fase vector base amplitude panning (VBAP, em português "panorâmica de amplitude baseada em vectores") 1810, a qual recebe do descodificador SAOC informação sobre a disposição de reprodução e debita uma matriz de renderização para o descodificador SAOC, de forma que o descodificador SAOC pode, no final, fornecer canais renderizados sem qualquer operação adicional do misturador no formato de canal elevado de 1205, isto é 32 altifalantes.

[067] O bloco VBAP recebe preferencialmente os dados OAM descodificados para derivar as matrizes de renderização. Mais geral, requer preferencialmente informação geométrica não só da disposição de reprodução como também das posições onde os sinais de entrada devem ser renderizados na disposição de reprodução. Estes dados de entrada geométricos podem ser dados OAM para objetos ou informação da posição do canal, para canais que foram transmitidos utilizando SAOC.

[068] No entanto, se apenas uma interface específica de saída é necessária, então o estado VBAP 1810 já pode fornecer a matriz de renderização necessária para a saída, por exemplo a saída 5.1. O descodificador SAOC 1800 executa então uma renderização directa a partir dos canais de transporte SAOC, dos dados paramétricos associados e dos metadados descomprimidos, uma renderização directa no formato de saída necessário sem qualquer interacção do misturador 1220. No entanto, quanto é aplicada uma determinada mistura entre modos, isto é, quando vários canais têm codificação SAOC mas nem todos os canais têm codificação SAOC ou quando vários objetos têm codificação SAOC mas nem todos os objeto têm codificação SAOC ou quando apenas uma certa porção de objetos pré-renderizados com canais têm descodificação SAOC e os restantes canais não têm processamento SAOC, nesse caso o misturador irá reconstituir os dados das porções de entrada individuais, isto é directamente a partir do descodificador central 1300, a partir do renderizador de objetos 1210 e a partir do descodificador SAOC 1800.

[069] É empregue a seguinte notação matemática:

[070] NObjects número de sinais de objetos áudio de entrada

[071] NChannels número de canais de saída

[072] N número de sinais de entrada;

[073] N pode ser igual a NObjects, NChannels ou NObjects + NChannels

[074] NDmxCh número de canais downmix (processados)

[075] NSamples número de amostras de dados processadas

[076] NOutputChannels número de canais de saída do lado do descodificador

[077] D matriz de downmix, tamanho NDmxCh x N

[078] X sinal áudio de entrada, tamanho N x NSamples

[079] EX matriz de covariância do sinal de entrada, tamanho N x N definido como EX = X XH

[080] Y sinal áudio de downmix, tamanho NDmxCh x NSamples definido como Y = DX

[081] EY matriz de covariância dos sinais de downmix, tamanho NDmxCh x NDmxCh definido como EY = Y YH

[082] G matriz de estimativa fonte paramétrica, tamanho N x NDmxCh que aproxima EXDH (D EXDH) -1 V A A I < ■ a M r , , ■ A f

[083] X sinais de entrada com reconstrução paramétrica, tamanho NObjects x NSamples que aproxima X e é definido como X = GY

[084] (•)H operador autoadjunto (hermitiana) que representa o conjugado transposto (•)

[085] R matriz de renderização de tamanho NOutputChannels x N

[086] S matriz de geração de canal de saída de tamanho NOutputChannels x NDmxCh i. definido como S = RG

[087] Z canais de saída, tamanho NOutputChannels x NSamples, gerados no lado do descodificador a partir dos sinais de downmix, Z = SY £

[088] Z canais de saída desejados, tamanho NOutputChannels x NSamples, Z = RX

[089] Sem perda de generalidade, a fim de melhorar a leitura das equações, para todas as variáveis introduzidas os índices que denotam dependência do tempo e frequência são omitidos neste documento.

[090] No contexto áudio 3D, os canais de altifalantes são distribuídos em várias camadas em altura, resultando em pares de canais horizontais e verticais. A codificação conjunta de apenas dois canais, como definido na norma USAC não é suficiente para considerar as relações espaciais e perceptuais entre os canais.

[091] A fim de considerar as relações espaciais e perceptuais entre canais, no contexto áudio 3D, pode-se recorrer à técnica paramétrica tipo SAOC para reconstruir os canais de entrada (sinais de canal áudio e sinais de objetos áudio que são codificados pelo codificador SAOC) para obter canais de entrada reconstruídos X no lado do descodificador. A descodificação SAOC baseia-se num algoritmo Erro Quadrático Médio Mínimo (em inglês "Minimum Mean Squared Error" ou MMSE)

[092] X = GY com G « EX DH (D EX DH) -1 .

[093] Em vez de reconstruir os canais de entrada para obter canais de entrada X reconstruídos, os canais de saída Z podem ser directamente gerados do lado do descodificador tendo em conta a matriz de renderização R.

[094] Z = RX

[095] Z = RGY

[096] Z = SY ; com S = RG

[097] Como se pode observar, em vez de reconstruir explicitamente os objetos áudio de entrada e os canais áudio de entrada, os canais de saída Z podem ser gerados directamente mediante aplicação da matriz de geração de canal de saída S no sinal áudio de downmix Y.

[098] Para se obter a matriz de geração de canal de saída S, a matriz de renderização R pode, por ex., ser determinada ou pode, por ex., estar já disponível. Mais ainda, a matriz de estimativa de fonte paramétrica G pode, por ex., ser calculada como acima descrito. A matriz de geração do canal de saída S pode então ser obtida como o produto da matriz S = RG da matriz de renderização R e da matriz de estimativa de fonte paramétrica G.

[099] Um sistema áudio 3D pode exigir um modo combinado a fim de codificar canais e objetos.

[100] Em geral, para este modo combinado, pode ser aplicada codificação/descodificação SAOC em duas formas diferentes:

[101] Uma abordagem pode consistir em empregar um caso de um sistema paramétrico tipo SAOC, sendo este caso capaz de processar canais e objetos. Esta solução tem a desvantagem de ser complexa em termos informáticos devido ao elevado número de sinais de entrada acrescidos pelo número de canais de transporte a fim de manter uma qualidade de reconstrução similar. Em consequência, o tamanho da matriz D EX DH irá aumentar e a complexidade da inversão irá aumentar. Além disso, esta solução pode introduzir mais instabilidades numéricas à medida que aumenta o tamanho da matriz D EX DH. Além disso, constituindo outra desvantagem, a inversão da matriz D EX DH pode conduzir a diafonias adicionais entre os canais reconstruídos e objetos reconstruídos. Este fato deve-se a alguns coeficientes na matriz de reconstrução G que devem ser iguais a zero mas que são definidos para valores diferentes de zero devido às inexactidões numéricas.

[102] Outra abordagem pode consistir em empregar duas instâncias de sistema paramétricos tipo SAOC, uma instância para o processamento com base no canal e outra instância para o processamento com base no objeto. Esta abordagem teria a desvantagem de transmitir duas vezes a mesma informação para a inicialização dos bancos de filtros e configuração do descodificador. Além disso, não é possível misturar os canais e objetos se for necessário e, consequentemente, não é possível utilizar propriedades de correlação entre os canais e objetos.

[103] Para evitar as desvantagens da abordagem que emprega diferentes casos para objetos áudio e canais áudio, as realizações empregam a primeira abordagem e proporcionam um Sistema SAOC Realçado capaz de processar canais, objetos ou canais e objetos utilizando apenas uma instância. Embora os canais áudio e os objetos áudio sejam processados pela mesma instância codificadora e descodificadora, respectivamente, são apresentados conceitos eficientes, de forma a prevenir as desvantagens da primeira abordagem.

[104] A fig. 2 ilustra um aparelho para gerar um sinal de transporte áudio compreendendo um ou mais canais de transporte áudio de acordo com uma realização,

[105] O aparelho compreende um misturador canal/objeto 210 para gerar o(s) um ou mais canais de transporte áudio do sinal de transporte áudio e uma interface de saída 220.

[106] O misturador de canal/objeto (210) estar configurado para gerar o sinal de transporte áudio que compreende um ou mais sinais de transporte áudio, misturando um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio dentro do sinal de transporte áudio dependendo da informação de downmix que indica informação em como um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio devem ser misturados dentro de um ou mais canais de transporte áudio.

[107] O número do(s) um ou mais canais de transporte áudio é menor do que o número do(s) um ou mais sinais do canal áudio mais o número do(s) um ou mais sinais de objetos áudio. Assim, o misturador de canais/objetos 210 é capaz de proceder ao downmix de um ou mais sinais de canal áudio mais e o(s)o um ou mais sinais de objetos áudio, na medida em que o misturador de canais/objetos 210 é adaptado para gerar um sinal de transporte áudio que possui menos canais do que o número do(s) um ou mais sinais de canal áudio mais o número do(s) um ou mais sinais de objetos áudio.

[108] A interface de saída 220 está configurada para a saída do sinal de transporte áudio, a informação de downmix e informação de covariância.

[109] Por exemplo, o misturador de canais/objetos 210 pode ser configurado para introduzir a informação de downmix, que é utilizada para o processo de downmix do(s) um ou mais sinais de canal áudio e o(s) um ou mais sinais de objetos áudio, na interface de saída 220. Além disso, por exemplo a interface de saída 220 pode, por exemplo, ser configurada para receber o(s) um ou mais sinais do canal de áudio e o(s) um ou mais sinais de objetos áudio e pode também ser configurado para determinar a informação de covariância com base no(s) um ou mais sinais de canal áudio e o(s) um ou mais sinais de objetos áudio. Ou a interface de saída 220 pode, por exemplo, ser configurada para receber a informação de covariância já determinada.

[110] A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[111] A fig. 1 ilustra um aparelho para gerar um ou mais canais de saída áudio de acordo com uma realização,

[112] O aparelho compreende um processador de parâmetro 110 para calcular a informação de mistura e um processador de downmix 120, para gerar o(s) canal/canais de saída áudio.

[113] O aparelho processador 120 é configurado para receber um sinal de transporte áudio compreendendo um ou mais canais de transporte áudio. Um ou mais sinais de canal áudio são misturados no sinal de transporte áudio. Além disso, um ou mais sinais de objeto áudio são misturados no sinal de transporte áudio. O número do(s) um ou mais canais de transporte áudio é menor do que o número do(s) um ou mais sinais do canal áudio mais o número do(s) um ou mais sinais de objetos áudio.

[114] O processador de parâmetro 110 é configurado para receber informação de downmix em como um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio são misturados dentro de um ou mais canais de transporte áudio. Além disso, o processador de parâmetros 110 é configurado para receber a informação de covariância. O processador de parâmetros 110 é configurado para calcular a informação de mistura, dependendo da informação de downmix e dependendo da informação de covariância.

[115] O processador de downmix 120 é configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura,

[116] A informação de covariância indica uma informação da diferença de nível para pelo menos um ou mias dos sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um de entre um ou mais sinais de objetos áudio. No entanto, a informação de covariância não indica informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio.

[117] Numa realização, a informação de covariância pode, por ex. indicar a informação da diferença de nível para cada um ou mais sinais de canal áudio e pode indicar ainda uma informação de diferença de nível para cada um ou mais sinais de objetos áudio.

[118] De acordo com uma realização, dois ou mais sinais de objetos áudio podem, por exemplo, ser misturados dentro de um sinal de transporte áudio e dois ou mais sinais de canal áudio podem ser, por ex. misturados dentro do sinal de transporte áudio. A informação de covariância pode, por exemplo, indicar informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de canal áudio e de um segundo dos dois ou mais sinais de canal áudio. Ou a informação de covariância pode, por exemplo, indicar informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de objetos áudio e de um segundo dos dois ou mais sinais de objetos áudio. Ou a informação de covariância pode, por ex. indicar informação de correlação para um ou mais pares de um primeiro de dois ou mais sinais de canal áudio e um segundo de dois ou mais sinais de canal áudio e indicar informação de correlação para um ou mais pares de um primeiro de dois ou mais sinais de objeto áudio e um segundo de dois ou mais sinais de objeto áudio.

[119] Uma informação sobre o nível de diferença para um sinais de objetos áudio pode, por exemplo ser uma diferença de nível de objeto, em inglês "object level difference" ou OLD. "Nível" pode, por ex. estar relacionado com um nível de energia. "Diferença" pode estar relacionada com, por ex., uma diferença no que respeita a um nível máximo entre os sinais de objetos áudio.

[120] Uma informação de correlação para um par de primeiro dos sinais de objetos áudio e um segundo dos sinais de objetos áudio, por exemplo, ser uma correlação inter-objetos (em inglês, "inter-object correlation" ou IOC).

[121] Por exemplo, de acordo com uma realização, a fim de garantir um desempenho óptimo do SAOC 3D recomenda-se a utilização de sinais de objetos áudio de entrada com potência compatível. O produto de dois sinais áudio de entrada (normalizados de acordo com os mosaicos tempo/frequência correspondentes) é determinado por:

[122]

[123] Aqui, i e j são índices dos sinais de objetos áudio xi e xj, respectivamente, n indica tempo, k indica frequência, l indica um conjunto de índices de tempo e m indica um conjunto de índices de frequência. ε é uma constante aditiva para evitar a divisão por zero, por ex., ε =10 '.

[124] A energia de objeto absoluta (NRG) do objeto com a energia mais elevada pode, por ex. ser calculada da seguinte forma:

[125]

[126] A proporção das potências do sinal de objeto de entrada (OLD) correspondentes pode, por. ex. ser indicada por

[127]

[128] Uma medida de similaridade dos objetos de entrada (IOC) pode, por ex. ser indicada pela inter-relação:

[129]

[130] Por exemplo, numa realização, os IOC podem ser transmitidos para todos os pares de sinais áudio i e j , para o que é definida uma variável de fluxo de dados bsRelatedTo [i] [j] para um.

[131] Uma informação sobre o nível de diferença para um sinal de canal áudio pode, por exemplo ser uma diferença de nível de canal, em inglês "channel level difference" ou CLD. "Nível" pode, por ex. estar relacionado com um nível de energia. "Diferença" pode estar relacionada com, por ex., uma diferença no que respeita a um nível máximo entre os sinais de canais áudio.

[132] Uma informação de correlação para um par de primeiro dos sinais de canais áudio e um segundo dos sinais de canais áudio, por exemplo, ser uma correlação inter-canais (em inglês, "inter-channel correlation" ou ICC).

[133] Numa realização, a diferença de nível de canal (CLD) pode ser definida da mesma forma que a diferença de nível do objeto (OLD) supra, quando os sinais de objetos áudio nas fórmulas supra são substituídas pelos sinais de canais áudio. Além disso, a correlação inter-canais (ICC) pode ser definida da mesma forma que a correlação inter-objetos (IOC) supra, quando os sinais de objetos áudio nas fórmulas supra são substituídas pelos sinais de canais áudio.

[134] Em SAOC, um codificador SAOC faz o downmix (de acordo com a informação de downmix, p. ex.., de acordo com uma matriz de downmix D) de uma variedade de sinais de objetos áudio para obter (p. ex., um número menor de) um ou mais canais de transporte áudio. Do lado do descodificador, um descodificador SAOC descodifica o(s) canais de transporte áudio empregando a informação de downmix recebida do codificador e utilizando a informação de covariância recebida do codificador. A informação de covariância pode, por exemplo, ser os coeficientes de uma matriz de covariância E, a qual indica as diferenças de nível do objeto dos sinais de objetos áudio e as correlações inter- objetos entre dois sinais de objetos áudio. Em SAOC, uma determinada matriz de downmix D e uma determinada matriz de covariância E é utilizada para descodificar várias amostras do(s) um ou mais canais de transporte áudio (p. ex.. 2048 amostras do(s) um ou mais canais de transporte áudio). Empregando este conceito, a taxa de bits é guardada em comparação com a transmissão do(s) um ou maias sinais de objetos áudio sem codificação.

[135] As realizações baseiam-se na descoberta de que, embora os sinais de objetos áudio e os sinais de canais áudio exibam diferenças significativas, um sinal de transporte áudio pode ser gerado por um codificador SAOC intensificado, de forma que num sinal de transporte áudio destes são misturados não só sinais de objetos áudio mas também sinais de canais áudio.

[136] Os sinais de objetos áudio e sinais de canais áudio diferem significativamente. Por exemplo, cada um de entre vários dos sinais de objetos áudio podem representar uma fonte áudio de um cenário sonoro. Por conseguinte, em geral, dois objetos áudio podem ser fortemente descorrelacionados. Em contraste, sinais de canais áudio representam diferentes canais de um cenário sonoro, como se estivessem a ser registados por diferentes microfones. Em geral, dois destes sinais de canais áudio estão fortemente correlacionados, em particular em comparação com a correlação de dois sinais de objetos áudio, que são, em geral, fortemente descorrelacionados. Assim, as realizações estão baseadas na descoberta de que os sinais de canais áudio beneficial particularmente com a transmissão da correlação entre um par de dois sinais de canais áudio e com a utilização deste valor de correlação transmitido para descodificar.

[137] Além disso, os sinais de objetos áudio e os sinais de canais áudio diferem na medida em que a informação de posição é atribuída aos sinais de objetos áudio, por exemplo, indicando uma posição (assumida) de uma fonte sonora (p. ex. um objeto áudio) a partir da qual é originado um sinais de objetos áudio. Esta informação de posição (p. ex. compreendida na informação de metadados) pode ser utlizada durante a geração de canais de saída áudio a partir do sinal de transporte áudio do lado do descodificador. No entanto, em contraste, os sinais do canal de áudio não exibem uma posição e não é atribuída qualquer informação da posição aos sinais de canais áudio. No entanto, as realizações são baseadas na descoberta de que é, ainda assim, eficiente o SAOC codificar sinais de canais áudio juntamente com sinais de objetos áudio, p. ex. dado que os sinais de canais áudio gerados podem ser divididos em dois sub-problemas, nomeadamente, determinar a informação de descodificação (por exemplo, determinar a matriz G para desfazer a mistura, ver abaixo), o que não requer qualquer informação de posição, e determinar a informação de renderização (por exemplo, determinando uma matriz de renderização R, ver abaixo), para o que pode ser empregue informação de posição nos sinais de objetos áudio para renderizar os objetos áudio nos canais de saída áudio que são gerados.

[138] Além disso, a presente invenção baseia-se na descoberta de que não existe qualquer correlação (ou pelo menos uma correlação significativa) entre qualquer par de um dos sinais de objetos áudio e um dos sinais de canais áudio. Por conseguinte, quando o codificador não transmite informação de correlação para qualquer par de um do(s) um ou mais sinais de canal áudio e um do(s) um ou mais sinais de objetos áudio. Deste modo, é poupada uma largura de banda de transmissão significativa e é poupada uma quantidade significativa de tempo de computação tanto para a codificação como para a descodificação. Um descodificador que é configurado para não processar esta informação de correlação insignificante poupa uma quantidade significativa de tempo de computação quando determina a informação de mistura (que é empregue para gerar os canais de saída áudio a partir do sinal de transporte áudio do lado do descodificador).

[139] De acordo com uma realização, o processador de parâmetro 110 pode estar configurado, p. ex., para receber informação de renderização em como o(s) um ou mais sinais de canais áudio e um ou mais sinais de objetos áudio são misturados dentro de um ou mais canais de saída áudio, O processador de parâmetro 110 pode estar, p. ex., configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância e dependendo da informação de renderização.

[140] Por exemplo, o processador de parâmetros 110 pode, por exemplo, ser configurado para receber vários coeficientes de uma matriz de renderização R como a informação de renderização e pode ser configurado para calcular a informação de mistura dependendo da informação de downmix, dependendo da informação de covariância na matriz de renderização R. P. ex., o processador de parâmetros pode receber coeficientes da matriz de renderização R do lado do codificador ou de um utilizador. Noutra realização, o processador de parâmetros 110 pode, por exemplo, ser configurado para receber informação de metadados, p. ex. informação de posição ou informação de ganho e pode, p. ex. ser configurado para calcular os coeficientes da matriz de renderização R dependendo da informação de metadados recebida. Noutra realização, o processador de parâmetros pode ser configurado para receber ambos (informação de renderização a partir do codificador e a partir do utilizador) e para criar a matriz de renderização com base em ambos (o que basicamente significa que a interactividade é realizada).

[141] Ou, o processador de parâmetros pode, p. ex. receber duas sub- matrizes de renderização Rch, Robj, como informação de renderização, em que R=( Rch, Robj), em que Rch indica p. ex. como misturar os sinais de canais de áudio com os canais de saída áudio e em que Robj pode ser uma matriz de renderização obtida da informação OAM, em que Robj pode ser, p. ex. fornecida pelo bloco VBAP 1810 da fig. 9.

[142] Numa realização particular, dois ou mais sinais de objetos áudio podem, por exemplo, ser misturados dentro de um sinal de transporte áudio, dois ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio. Nesta realização, a informação de covariância pode, por exemplo, indicar informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de canal áudio e de um segundo dos dois ou mais sinais de canal áudio. Mais ainda, nesta realização, a informação de covariância (isto é, por exemplo, transmitida de um lado codificador para um lado descodificador) não indica informação de correlação para qualquer par de um primeiro dos dois ou mais sinais de objetos áudio e de um segundo dos dois ou mais sinais de objetos áudio, porque a correlação entre os sinais de objetos áudio pode ser tão pequena que pode ser negligenciada é, deste modo, por exemplo, não transmitida para salvar a taxa de bits e tempo de processamento. Nesta realização, o processador de parâmetro 110 é configurado para calcular a informação de mistura dependendo da informação de downmix, dependendo de uma primeira informação de diferença de nível de cada um dos um ou mais sinais de canal áudio e dependendo de uma segunda informação de diferença de nível de cada um dos um ou mais sinais de objetos áudio e dependendo e dependendo da informação de correlação do par ou mais pares de um primeiro de dois ou mais sinal de canal áudio. Esta realização emprega a descoberta acima descrita em que uma correlação entre sinais de objetos áudio é normalmente relativamente baixa e deverá ser negligenciada, enquanto uma correlação entre dois canais de sinais áudio é, de modo geral, relativamente alta e deverá ser devidamente considerada. Ao não se processar a informação de correlação irrelevante entre sinais de objetos áudio, o tempo de processamento pode ser salvo. Ao se processar a informação de correlação irrelevante entre os sinais de canal áudio, pode optimizar-se a eficácia de codificação.

[143] Em realizações particulares, um ou mais canais de sinais áudio são misturados dentro de um primeiro grupo de um ou mais canais de transporte áudio, em que um ou mais sinais de objetos áudio são misturados dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído pelo segundo grupo e, em que cada canal de transporte áudio do segundo grupo não se encontra incluído pelo primeiro grupo. Nestas realizações, a informação de downmix compreende primeira sub-informação de downmix que indica a informação em como um ou mais sinais de canal áudio são misturados dentro do primeiro grupo de um ou mais canais de transporte áudio e a informação de downmix compreende segunda sub-informação de downmix que indica a informação em como um ou mais sinais de objetos áudio são misturados dentro do segundo grupo de um ou mais canais de transporte áudio. Nestas realizações, o processador de parâmetro 110 é configurado para calcular a informação de mistura dependendo da primeira informação de downmix, dependendo da segunda informação de downmix e dependendo da informação de covariância e o processador de downmix 120 é configurado para gerar um ou mais sinais de saída áudio a partir do primeiro grupo de um ou mais canais de transporte áudio e a partir do segundo grupo de canais de transporte áudio dependendo da informação de mistura. Com esta abordagem a eficácia da codificação é aumentada uma vez que entre os sinal de canal áudio de um cenário sonoro existe uma correlação alta. Mais ainda, coeficientes da matriz de downmix que indicam uma influência de sinal de canal áudio nos canais de transporte áudio, os quais codificam sinais de objetos áudio e vice-versa, não têm que ser calculados pelo codificador e podem ser configurados para zero pelo descodificador sem necessidade de processamento dos mesmos. Este procedimento salva a banda de transmissão e o tempo de computação para o codificador e descodificador.

[144] Numa realização, o processador de downmix 120 é configurado para receber o sinal de transporte áudio num fluxo de bits, o processador de downmix 120 é configurado para receber um primeiro número da contagem de canais indicando o número dos canais de transporte áudio que codificam apenas sinal de canal áudio e o processador de downmix 120 é configurado para receber um segundo número da contagem de canais indicando o número dos canais de transporte áudio que codificam apenas sinais de objetos áudio. Nesta realização, o processador de downmix 120 é configurado para identificar se um canal de transporte áudio do sinal de transporte áudio codifica sinal de canal áudio ou se um canal de transporte áudio do sinal de transporte áudio codifica sinais de objetos áudio dependendo do primeiro número da contagem de canais ou dependendo do segundo número da contagem de canais, ou dependendo do primeiro número da contagem de canais e do segundo número da contagem de canais. Por exemplo, no fluxo de bits, os canais de transporte áudio que codificam sinal de canal áudio aparecem primeiro e os canais de transporte áudio que codificam sinais de objetos áudio aparecem posteriormente. Depois, se o primeiro número da contagem de canais for, por exemplo, 2, o processador de downmix pode concluir que os primeiros três canais de transporte compreendem canais de sinais áudio codificados e os dois subsequentes canais de transporte áudio compreendem sinais de objetos áudio codificados.

[145] Numa realização, o processador de parâmetro 110 é configurado para receber informação de metadados que compreende informação de posição, em que a informação de posição indica uma posição para cada um ou mais sinais de objetos áudio e em que a informação de posição não indica a posição para qualquer um ou mais sinais de canal áudio. Nesta realização o processador de parâmetro 110 é configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância e dependendo da informação de posição. Adicionalmente, ou alternativamente, a informação de metadados compreende ainda informação de ganho, em que a informação de ganho indica um valor ganho para cada um ou mais sinais de objetos áudio e em que a informação obtida não indica um valor ganho para cada um ou mais dos sinal de canal áudio. Nesta realização o processador de parâmetro 110 pode ser configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância, dependendo da informação de posição e dependendo da informação de ganho. Por exemplo, o processador de parâmetro 110 pode ser configurado para calcular a informação de mistura, dependendo ainda da submatriz Rch acima descrita.

[146] De acordo com uma realização, o processador de parâmetro 110 é configurado para calcular uma matriz S mista como a informação de mistura, em que a matriz S mista é definida de acordo com a fórmula S = RG, em que G é uma matriz descodificadora dependendo da informação de downmix e dependendo da informação de covariância, em que R é uma matriz de renderização dependendo da informação de metadados. Nesta realização, o processador de downmix (120) pode ser configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio ao se aplicar a fórmula Z = SY , em que Z é o sinal de saída áudio e em que Y é o sinal de transporte áudio. Por ex., R pode depender das submatrizes Rch e/ou Robj (por ex., R=( Rch, Robj) ) acima descrito.

[147] Fig. 3 ilustra um sistema de acordo com uma realização. O sistema compreende um aparelho 310 para gerar um sinal de transporte áudio tal como acima descrito e um aparelho 320 para gerar um ou mais canais de saída áudio tal como acima descrito.

[148] O aparelho 320 para gerar um ou mais canais de saída áudio é configurado para receber o sinal de transporte áudio, informação downmix e informação de covariância do aparelho 310 para gerar o sinal de transporte áudio. Mais ainda, o aparelho 320 para gerar os canais de saída áudio está configurado para gerar um ou mais canais de saída áudio dependendo do sinal de transporte áudio dependendo da informação downmix e dependendo da informação de covariância.

[149] De acordo com as realizações, a funcionalidade do sistema SAOC, que é um sistema orientado para o objeto que executa a codificação do objeto, é de tal forma alargada que os objetos áudio (codificação de objeto) ou canais áudio (codificação de canais) ou tanto os canais áudio como os objetos áudio (codificação mista) podem ser codificados

[150] O codificador SAOC 800 da Fig. 6 e 8 acima descrito, é optimizado de modo a que não só pode receber objetos áudio como entrada, como também pode receber canais áudio como entrada e de modo a que o codificador SAOC possa gerar canais de downmix (por ex., canais de transporte SAOC) em que os objetos áudio e os canais áudio recebidos são codificados. Nas realizações acima descritas, por ex., das Figs. 6 e 8, um codificador SAOC destes 800 recebe não apenas objetos áudio mas também canais áudio como entrada e gera canais de downmix (por ex., canais de transporte SAOC) em que os objetos áudio recebidos e os canais áudio recebidos são codificados. Por exemplo, o codificador SAOC da Fig. 6 e 8 é implementado como um aparelho para gerar um sinal de transporte áudio (compreendendo um ou mais canais de transporte áudio, por ex., um ou mais canais de transporte áudio SAOC) como descrito com referência à Fig. 2, e as realizações das Figs. 6 e 8 são modificadas de modo a que não apenas os objetos mas também um, alguns ou todos os canais sejam alimentados para o codificador SAOC 800.

[151] O descodificador SAOC 1800 das Figs. 7 e 9 acima descrito é optimizado de modo a que possa receber canais de downmix (por ex., canais de transporte SAOC) em que os objetos áudio e os canais áudio sejam codificados e de modo a que possa gerar os canais de saída (sinais de canal representados e sinais de objetos representados) a partir dos canais de downmix recebidos (por ex., canais de transporte SAOC) em que os objetos áudio e os canais áudio são codificados. Nas realizações acima descritas, por ex. das Fig. 7 e 9, este descodificador SAOC 1800 recebe canais de downmix (por ex., canais de transporte SAOC) em que não só os objetos áudio como também os canais áudio são codificados e gera os canais de saída (sinais de canal representados e sinais de objetos representados) a partir dos canais de downmix recebidos (por ex., canais de transporte SAOC) em que os objetos áudio e os canais áudio são codificados. Por exemplo, o descodificador SAOC da Fig. 7 e 9 é implementado como um aparelho para gerar um ou mais canais de saída áudio como descrito com referência à Fig. 1 e as realizações das Fig. 7 e 9 são modificadas de modo a que um, alguns ou todos os canais ilustrados entre o descodificador USAC 1300 e o misturador 1220 não sejam gerados (reconstruídos) pelo descodificador USAC 1300, sendo ao invés reconstruídos pelo descodificador SAOC 1800 a partir dos canais de transporte SAOC (canais de transporte áudio).

[152] Dependendo da aplicação, podem ser exploradas vantagens diferentes de um sistema SAOC utilizando este sistema SAOC optimizado.

[153] De acordo com algumas realizações, este sistema SAOC suporta qualquer número arbitrário de canais de downmix e representando números arbitrários de canais de saída. Em algumas realizações, por exemplo, o número de canais de downmix (Canais de Transporte SAOC) pode ser reduzido (por ex. em tempo de execução), por ex., para reduzir toda a taxa de bits de forma significativa. Este processo pode originar taxas de bits baixas.

[154] Mais ainda, de acordo com algumas realizações, o descodificador SAOC deste sistema SAOC optimizado pode, por exemplo, ter um renderizador flexível integrado, o qual pode, por ex., permitir a interacção do utilizador. Deste modo, o utilizador pode mudar a posição dos objetos no cenário áudio, atenuar ou aumentar o nível de objetos individuais, suprimir objetos completamente, etc. Por exemplo, considerado os sinais de canais como objetos de fundo (BGOs) e os sinais de objetos como objetos de primeiro plano (FGOs), a característica de interactividade de SAOC pode ser utilizada para aplicações tal como reforço do diálogo. Com esta característica de interactividade, o utilizador pode ter a liberdade de manipular, numa gama limitada, os BGOs e FGOs de forma a aumentar a inteligibilidade de diálogo (por ex., o diálogo pode ser representado por objetos de primeiro plano) ou para obter um equilíbrio entre diálogo (por ex. representado por FGOs) e o ambiente de fundo (por ex., representado por BGOs).

[155] Mais ainda, de acordo com realizações, dependendo da complexidade de cálculo disponível por parte do descodificador, o descodificador SAOC pode reduzir automaticamente a complexidade computacional operando num modo "complexidade-computacional-baixa", por exemplo, reduzindo o número de agentes de descorrelação, e/ou, por exemplo, fazendo a renderização directamente para a disposição de reprodução e desactivando o conversor de formato subsequente 1720 que foi acima descrito. Por exemplo, informação de renderização pode orientar como downmix os canais de um sistema 2.2. para os canais de um sistema 5.1.

[156] De acordo com realizações, o codificador SAOC Optimizado pode processar um número variável de canais de entrada (NChannels) e objetos de entrada (NObjects). O número de canais e objetos são transmitidos para um fluxo de bits de forma a sinalizar para o lado do descodificador a presença do caminho do canal. Os sinais de entrada para o descodificador SAOC são sempre solicitados de modo a que os sinais do canal sejam os primeiros e os sinais do objeto os últimos.

[157] De acordo com outra realização, o misturador de canal/objeto 210 é configurado para gerar o sinal de transporte áudio de forma a que o número de um ou mais canais de transporte áudio do sinal de transporte áudio dependa de quanto a taxa de bits esteja disponível para transmitir o sinal de transporte áudio.

[158] Por exemplo, o número de canais (transporte) de downmix pode, por ex., ser calculado como uma função da taxa de bits disponível e número total de sinais de entrada:

[159] NDmxCh = f (taxa de bits, N).

[160] Os coeficientes downmix em D determinam a mistura dos sinais de entrada (canais e objetos). Dependendo da aplicação, a estrutura da matriz D pode ser especificada de forma a que os canais e objetos sejam misturados em conjunto ou mantidos em separado.

[161] Algumas realizações são baseadas na descoberta que é benéfico não misturar os objetos juntamente com os canais. Para não se misturar os objetos juntamente com os canais, a matriz de downmix pode, por ex., ser construída como segue:

[162]

[163] De forma a sinalizar a mistura separada para o fluxo de bits, os valores do número de canais de downmix atribuídos ao caminho do canal (NDchmxCh) e o número de canais de downmix atribuídos ao caminho do objeto (NDobmjxCh ) podem ser, por ex., transmitidos.

[164] As matrizes de downmixing de bloco Dch e Dobj têm os seguintes tamanhos: NDchmxCh x NChannels e respectivamente NDobmjxCh x NObjects.

[165] No descodificador, os coeficientes da matriz de estimativa de fonte paramétrica G » EX DH (D EX DH) –1 são calculados de modo diferente. Utilizando uma forma de matriz, isto pode ser expresso da seguinte forma

[166]

[167] com:

[168] - Gh «EXDHh(DhEXDHh)-1 de tamanho Nchanneisx NcmxCh ch x ch ch x ch mx MCQI ob ~!Tobjr»H Zr» I7objr»H i 1 Ho tamonhn Obj,- o o oljX

[169] - G obj ~ E x D obj( D objE x D obj ) de tamanho NObjects x NDmxCh

[170] Os valores da covariância do sinal dos canais ( Ech X ) e covariância do sinal do objeto ( Eobj X ) podem, por ex., ser obtidos a partir da matriz de covariância dos sinais de entrada (EX) seleccionando apenas os blocos diagonais correspondentes:

[171]

[172] Como consequência directa, a taxa de bits é reduzida ao não enviar a informação adicional (por ex., OLDs, IOCs) para reconstruir a matriz de ch, obj obj, ch H covariância cruzada entre canais e objetos. Ex, j = |Exj ) .

[173] De acordo com algumas realizações, EXobj ^EXjch)H = 0, e deste modo:

[174]

[175] De acordo com uma realização, o codificador SAOC optimizado é configurado para não transmitir informação numa covariância entre qualquer dos objetos áudio e qualquer dos canais áudio para o descodificador SAOC optimizado.

[176] De acordo com uma realização, o codificador SAOC optimizado é configurado para não transmitir informação numa covariância entre qualquer dos objetos áudio e qualquer dos canais áudio para o descodificador SAOC optimizado.

[177] Os elementos em bloco fora da diagonal de G não são calculados, mas sim definidos para zero. Por conseguinte, possível conversa cruzada entre canais reconstruídos e objetos é evitada. Mais ainda, deste modo, a redução de complexidade computacional é atingida pois são menos os coeficientes de G que têm que ser calculados.

[178] Mais ainda, de acordo com realizações, em vez de inverter a matriz maior: H ch obj ch obj

[179] D EX D de tamanho [N DmxCh + N DmxCh ] X [N DmxCh + NDmxCh ] ,

[180] são invertidas as duas matrizes pequenas: ch H ch ch

[181] DchE X Dch de tamanho NDmxCh x NDmxCh obj H obj obj

[182] DobjEX Dobj de tamanho NDmxCh x NDmxCh ch H obj H

[183] Inverter as matrizes mais pequenas D chE X D ch e DobjE X D é obj bastante mais barato relativamente à complexidade computacional do que inverter a matriz maior D EX DH .

[184] Mais ainda, ao se inverterem as matrizes separadas DchEcXhDcHh e DobjEoXbj DHobj , são reduzidas as possíveis instabilidades numéricas comparativamente à inversão da matriz maior D EX DH. Por exemplo, no pior dos cenários, quando as matrizes de covariância dos canais de transporte D chEcXhDcHh e DobjEoXbj DHobj têm dependências lineares devido a semelhanças de sinal, a matriz completa D EX DH pode ser mal condicionada enquanto as matrizes mais pequenas separadas podem ser bem condicionadas.

[185] Depois de

[186]

[187] ser calculado no lado do descodificador, então é possível, por ex., t ■ I <■ r a I al la ■ estimar de forma paramétrica os sinais de entrada para obter sinais X de entrada reconstruídos (os sinais de canal de entrada áudio e os sinais de objeto de entrada áudio), por ex., utilizando:

[188] X = GY .

[189] Mais ainda, como acima descrito, a renderização pode ser conduzida no lado do descodificador para se obter canais de saída Z, por ex., empregando uma matriz de renderização R:

[190] Z = RX

[191] Z = RGY

[192] Z = SY ; com S = RG

[193] Ao invés de explicitamente se reconstruírem os sinais de entrada (os sinais do canal de entrada áudio e os sinais de objeto de entrada áudio) para se obter canais de entrada reconstruídos X , os canais de saída Z podem ser directamente gerados no lado do descodificador aplicando a matriz de geração do canal de saída S no sinal áudio de downmix Y.

[194] Como já acima descrito, para se obter a matriz de geração de canal de saída S, a matriz de renderização R pode, por ex., ser determinada ou pode, por ex., estar já disponível. Mais ainda, a matriz de estimativa de fonte paramétrica G pode, por ex., ser calculada como acima descrito. A matriz de geração do canal de saída S pode então ser obtida como o produto da matriz S = RG da matriz de renderização R e da matriz de estimativa de fonte paramétrica G.

[195] Relativamente aos sinais de objeto áudio reconstruídos, os metadados comprimidos nos objetos áudio que são transmitidos do codificador para o descodificador podem ser tidos em consideração. Por exemplo, os metadados nos objetos áudio podem indicar informação de posição em cada objeto áudio. Esta informação de posição pode, por exemplo, ser um ângulo de azimute, um ângulo de elevação e um raio. Esta informação de posição pode indicar uma posição de um objeto áudio num espaço 3D. Por exemplo, quando um objeto áudio está localizado perto de uma posição de altifalante assumida ou real, este objeto áudio possui um peso mais alto no canal de saída para o referido altifalante comparativamente ao peso de outro objeto áudio no canal de saída localizado bem mais longe do referido altifalante. Por exemplo, o plano de amplitude base do vector (VBAP)pode ser empregue (ver, por exemplo, [VBAP]) para determinar os coeficientes de renderização da matriz de renderização R para os objetos áudio.

[196] Mais ainda, em algumas realizações, os metadados comprimidos podem compreender um valor de ganho para cada dos objetos áudio. Por exemplo, para cada dos sinais de objetos áudio, um valor de ganho pode indicar um fator de ganho para o referido sinal de objeto áudio.

[197] Por contraste aos objetos áudio, não são transmitidos metadados de informação de posição do codificador para o descodificador para os sinais de canal áudio. Uma matriz adicional (por ex., para converter 22.2 em 5.1) ou identificar matriz (quando a configuração de entrada dos canais é igual à configuração de saída) pode, por ex., ser empregue para determinar os coeficientes de renderização da matriz de renderização R para os canais áudio.

[198] A matriz de renderização R pode ser de tamanho NOutputChannels x N . Aqui, para cada um dos canais de saída, existe uma fila na matriz R. Mais ainda, em cada fila da matriz de renderização R, coeficientes N determinam o peso dos sinais de entrada N (os canais de entrada áudio e os objetos de entrada áudio) no canal de saída correspondente. Esses objetos sendo localizados perto do altifalante do referido canal de saída têm um coeficiente muito maior do que o coeficiente dos objetos áudio localizados longe do altifalante do canal de saída correspondente.

[199] Por exemplo, Plano de Amplitude Base do Vector (VBAP) pode ser empregue (ver, por ex., [VBAP]) para determinar o peso de um sinal de objeto áudio dentro de cada dos canais áudio dos altifalantes. Por ex., relativamente a VBAP, assume-se que o objeto áudio se refere a uma fonte virtual.

[200] Como, em contraste aos objetos áudio, os canais áudio não têm uma posição, os coeficientes relacionados com canais áudio na matriz de renderização podem, por ex., ser independentes da informação de posição.

[201] Seguidamente é descrita a sintaxe de taxa de bits de acordo com realizações .

[202] No contexto de MPEG SAOC, sinalização dos possíveis modos de operação (com base no canal, com base no objeto ou modo combinado) pode ser conseguida utilizando, por exemplo, uma das seguintes possibilidades (primeira possibilidade: utilizando bandeiras para sinalizar o modo de operação; segunda possibilidade: sem utilizar bandeiras para sinalizar o modo de operação):

[203] Assim, de acordo com uma primeira realização, as bandeiras são utilizadas para sinalizar o modo de operação.

[204] Para utilizar bandeiras para sinalizar o modo de operação, uma sintaxe do elemento SAOCSpecifigConfig() ou do elemento SAOC3DSpecifigConfig() pode, por exemplo, compreender:

[205] bsSaocChannelFlag; 1 uimsbf

[206] NumInputSignals = 0;

[207] bsSaocCombinedModeFlag = 0;

[208] se (bsSaocChannelFlag) {

[209] bsNumSaocChannels; 5 uimsbf

[210] bsNumSaocDmxChannels; 5 uimsbf

[211] NumInputSignals += bsNumSaocChannels + 1;

[212] }

[213] bsSaocObjectFlag; 1 uimsbf

[214] se (bsSaocObjectFlag) {

[215] bsNumSaocObjects; 7 uimsbf

[216] bsNumSaocDmxObjects; 5 uimsbf

[217] bsSaocCombinedModeFlag; 1 uimsbfNumInputSignals += bsNumSaocObjects + 1;

[218] }

[219] para ( i=0; i< bsNumSaocChannels+1; i++ ) {

[220] bsRelatedTo [i] [i] = 1;

[221] para ( j=i+1; j< bsNumSaocChannels+1; j++ ) {

[222] bsRelatedTo [i] [j]; 1 uimsbf

[223] bsRelatedTo [j] [i] = bsRelatedTo [i] [j];

[224] }

[225] }

[226] para ( i= bsNumSaocChannels+1; i< bs NumInputSignals; i++ ) {

[227] para( j=0; j< bsNumSaocChannels+1; j++ ) {

[228] bsRelatedTo [i] [j] = 0

[229] bsRelatedTo [j] [i] = 0

[230] }

[231] }

[232] para ( i= bsNumSaocChannels+1; i< bs NumInputSignals; i++ ) {

[233] bsRelatedTo [i] [i] = 1;

[234] para( j=i+1; j< NumInputSignals; j++ ) {

[235] bsRelatedTo [i] [j]; 1 uimsbf

[236] bsRelatedTo [j] [i] = bsRelatedTo [i] [j];

[237] }

[238] }

[239] Se a variável da taxa de bits bsSaocChannelFlag for definida para um, os primeiros sinais de entrada bsNumSaocChannels+1 são tratados como sinais com base em canais. Se a variável da taxa de bits bsSaocChannelFlag for definida para um, os últimos sinais de entrada bsNumSaocChannels+1 são processados como sinais de objeto. Por conseguinte, no caso em que ambas as variáveis da taxas de bits (bsSaocChannelFlag, bsSaocObjectFlag) são diferentes de zero, é sinalizada a presença de canais e objetos para os canais de transporte áudio.

[240] Se a variável de taxa de bits bsSaocCombinedModeFlag for igual a um, o modo de descodificação combinado é sinalizado pata a taxa de bits e o descodificador irá processar os canais de transporte bsNumSaocDmxChannels utilizando a matriz de downmix D completa (isto significando que os sinais de canal e sinais de objeto são misturados conjuntamente).

[241] Se a variável da taxa de bits bsSaocCombinedModeFlag for zero, o modo de descodificação independente é sinalizado e o descodificador irá processar canais de transporte (bsNumSaocDmxChannels+1) + (bsNumSaocDmxObjects+1) utilizando a matriz de downmix de bloco como acima descrito.

[242] De acordo com uma segunda realização preferida, não são necessárias bandeiras para sinalizar o modo de operação.

[243] A sinalização do modo de operação sem utilizar bandeiras pode, por exemplo, ser realizada empregando a seguinte sintaxe

[244] Sinalização:

[245] Sintaxe de SAOC3DSpecificConfig():

[246] Ler os ganhos de downmixing de forma diferente para o caso em que os canais áudio e objetos áudio são misturados em diferentes canais de transporte áudio quando são misturados conjuntamente dentro dos canais de transporte áudio:

[247] Se a variável da taxa de bits bsNumSaocChannels for diferente de zero, os primeiros sinais de entrada bsNumSaocChannels são tratados como sinais com base em canais. Se a variável da taxa de bits bsNumSaocObjects for diferente de zero, os últimos sinais de entrada bsNumSaocObjects são processados como sinais de objeto. Por conseguinte, no caso em que ambas as variáveis da taxas de bits são diferentes de zero, é sinalizada a presença de canais e objetos para os canais de transporte áudio.

[248] Se a variável de taxa de bits bsNumSaocDmxObjects for igual a zero, o modo de descodificação combinado é sinalizado pata a taxa de bits e o descodificador irá processar os canais de transporte bsNumSaocDmxChannels utilizando a matriz de downmix D completa (isto significando que os sinais de canal e sinais de objeto são misturados conjuntamente).

[249] Se a variável da taxa de bits bsNumSaocDmxObjects for diferente de zero, o modo de descodificação independente é sinalizado e o descodificador irá processar canais de transporte (bsNumSaocDmxChannels+bsNumSaocDmxObjects utilizando a matriz de downmix de bloco como acima descrito.

[250] Seguidamente são descritos aspectos do processamento de downmix de acordo com uma realização:

[251] O sinal de saída do processador de downmix (representado no domínio QMF híbrido) é alimentado para o banco de filtros de síntese correspondente como descrito em ISO/IEC 23003-1:2007 rendendo a saída final do descodificador SAOC 3D.

[252] O processador de parâmetro 110 da Fig. 1 e o processador de downmix 120 da Fig. 1 podem ser implementados como uma unidade de processamento conjunta. Esta unidade de processamento conjunta é ilustrada pela Fig.1, caracterizada por as unidades U e R implementarem o processador de parâmetro 110 ao se facultar informação de mistura.

[253] O sinal de saída Y é calculado a partir do sinal de downmix de multicanal X e o sinal multi-canal não correlacionado Xd como:

[254] Y = Pdry RUX + Pwet Mpost Xd ■

[255] em que U representa a matriz paramétrica não misturada.

[256] A matriz misturada P = {Pdry Pwetj é uma matriz misturada.

[257] O sinal multi-canal não correlacionado Xd é definido como

[258] Xd = decorrFunc (MpreYdry j ■

[259] O modo de descodificação é controlado pelo elemento de taxa de bits bsNumSaocDmxObjects:

[260] No caso de modo de descodificação combinado, a matriz paramétrica não misturada U é obtida por:

[261] U = ED* J .

[262] A matriz J de tamanho Ndmx x Ndmx é obtida por J « Δ 1 com Δ = DED*

[263] No caso de modo de descodificação independente, a matriz não misturada U é obtida por: (U, 0 A

[264]

[265] em quer Uch = Ech D*ch J ch e Uobj = EobjD*objJobj .

[266] A matriz de covariância baseada no canal Ech de tamanho N N ch ch ´ e a matriz de covariância baseada no objeto E obj de tamanho N N obj obj ´ são obtidas a partir da matriz de covariância E seleccionando apenas os blocos diagonais correspondentes:

[267]

[268] em que a matriz

representa a matriz de covariância cruzada entre os canais de entrada e objetos de entrada e não necessita ser calculada.

[269] A matriz de downmix baseada no canal Dch de tamanho Ncdhmx xNch e a matriz de downmix baseada no objeto Dobj de tamanho Nodbmjx x Nobj são obtidas a partir da matriz de downmix D seleccionando apenas os blocos diagonais correspondentes. (D h o A

[270]

[271] A matriz

de tamanho

deriva da definição da matriz J para

[272] Δ = DchEchDCh .

[273] A matriz Jobj «(DobjEobjDobj) de tamanho Nobj X Nobj deriva da definição da matriz J para

[274] Δ _ DobjEobjDObj

[275] A matriz J « Δ1 é calculada utilizando a seguinte equação:

[276] J = VAinvV*.

[277] Aqui os vectores singulares V da matriz Δ são obtidos utilizando a equação característica que se segue

[278] VAV* _ Δ .

[279] O Ainv inverso regularizado da matriz de valor singular diagonal A é calculado como

[280]

[281] O Treg L escalar de regularização relativa é determinado utilizando limite absoluto Treg e valor maximal de Λ como

[282]

[283] Seguidamente é descrita a matriz de renderização de acordo com uma realização.

[284] A matriz de renderização R aplicada aos sinais de entrada áudio S determina a saída alvo representada como Y_RS . A matriz de renderização R de tamanho Nout XN é obtida por

[285] R_(Rch Robj ) ,

[286] em que Rch de tamanho Nout XNch representa a matriz de renderização associada aos canais de entrada e R de tamanho N X N representa a obj out obj matriz de renderização associada aos objetos de entrada.

[287] Seguidamente é descrito um sinal multi-canal Xd não correlacionado de acordo com uma realização:

[288] Os sinais de descorrelação Xd são, por exemplo, criados a partir do agente de descorrelação descrito em 6.6.2 de ISO/IEC 23003-1:2007, com bsDecorrConfig == 0 e, por ex., um índice de descorrelação, X . Deste modo, o decorrFunc( ) por exemplo, indica o processo de descorrelação:

[289] Xd = decorrFunc (MpreYdri.).

[290] Embora tenham sido descritos alguns aspectos no contexto de um aparelho, torna-se claro que estes aspectos representam igualmente uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma fase do método ou uma funcionalidade de uma fase do método. Analogamente, aspectos descritos no contexto de uma fase do método representam igualmente uma descrição de um bloco correspondente ou item ou funcionalidade de um aparelho correspondente.

[291] O sinal decomposto inventivo pode ser armazenado num meio de armazenamento digital ou pode ser transmitido num meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como Internet.

[292] Dependendo de determinados requisitos de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode se realizada utilizando um meio de armazenamento digital, por exemplo uma disquete, um DVD, um CD, ROM, PROM, EPROM, EEPROM ou uma memória FLASH, com sinais de controlo electronicamente legíveis armazenados nos mesmos, os quais cooperam (ou têm capacidade de cooperar) com um sistema informático programável de modo a que o método respectivo seja executado.

[293] Algumas realizações, de acordo com a invenção, compreendem um veículo de dados não transitórios com sinais de controlo electronicamente legíveis, os quais têm capacidade de cooperar com um sistema informático programável, de modo a que um dos métodos presentemente descrito seja executado.

[294] De modo geral, as realizações da presente invenção podem ser implementadas como um produto de programa informático com um código de programa, sendo o código de programa operativo para realizar um dos métodos quando o produto do programa informático correr num computador. O código de programa pode, por exemplo, ser armazenado num veículo legível por máquinas.

[295] Outras realizações compreendem o programa informático para realizar um dos métodos presentemente descritos, armazenado num veículo legível por máquinas.

[296] Por outras palavras, uma realização do método inventivo é, por conseguinte, um programa informático com um código de programa para realizar um dos métodos presentemente descritos, quado o programa informático correr num computador.

[297] Uma outra realização dos métodos inventivos é, por conseguinte, um veículo de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, gravados no mesmo, o programa informático para realizar um dos métodos presentemente descritos.

[298] Uma outra realização do métodos inventivo é, por conseguinte, uma corrente de dados ou uma sequência de sinais que representam o programa informático para realizar um dos métodos presentemente descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, através da Internet.

[299] Uma outra realização compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos presentemente descritos.

[300] Uma outra realização compreende um computador que tenha instalado o programa informático para realizar um dos métodos presentemente descritos.

[301] Em algumas realizações, um dispositivo lógico programável (por exemplo, uma matriz de portas de campo programável) pode ser utilizado para realizar algumas das ou todas as funcionalidades dos métodos presentemente descritos. Em algumas realizações, uma matriz de portas de campo programáveis pode cooperar com um microprocessador de modo a realizar um dos métodos presentemente descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.

[302] As realizações acima descritas são meramente ilustrativas para os princípios da presente invenção. Compreende-se que modificações e variações das disposições e dos detalhes presentemente descritos serão evidentes para os especialistas na técnica. A intenção é, por conseguinte, limitarmo-nos apenas ao âmbito das reivindicações da patente iminente e não aos detalhes específicos apresentados em forma de descrição e explicação das realizações aqui compreendidas.

Claims

1. Aparelho para geração de um ou mais canais de saída áudio, caracterizado por o aparelho compreender: um processador de parâmetro (110) para calcular informação de mistura e um processador de downmix (120) para gerar um ou mais canais de saída áudio, em que o processador de downmix (120) está configurado para receber um fluxo de dados compreendendo canais de transporte áudio de um sinal de transporte áudio, em que um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio e um ou mais sinais de objetos áudio são misturados dentro do sinal de transporte áudio e em que o número dos canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio, em que o processador de parâmetros (110) está configurado para receber informação de downmix indicando informações sobre a forma como o um ou mais sinais de canais áudio e o um ou mais sinais de objetos áudio estão misturados dentro dos canais de transporte áudio e em que o processador de parâmetros (110) é configurado para receber a informação de covariância e em que o processador de parâmetros (110) está configurado para calcular a informação de mistura dependendo da informação de downmix e dependendo da informação de covariância e em que o processador de downmix (120) está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura, em que a informação de covariância indica uma informação de diferença de nível para pelo menos um do um ou mais sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um ou um ou mais sinais de objetos áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par do um ou mais sinais de canais áudio e um ou mais sinais de objetos áudio, em que um ou mais sinais de canais áudio são misturados dentro de um primeiro grupo de um ou mais canais de transporte áudio, em que um ou mais sinais de objetos áudio são misturados dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo e, em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix compreende primeira sub- informação de downmix que indica a informação sobre como um ou mais sinais de canal áudio são misturados dentro do primeiro grupo de canais de transporte áudio e em que a informação de downmix compreende a segunda sub-informação de downmix que indica a informação sobre como um ou mais sinais de objetos áudio são misturados dentro do segundo grupo de um ou mais canais de transporte áudio, em que o processador de parâmetro (110) está configurado para calcular a informação de mistura, dependendo da primeira sub-informação de downmix, dependendo da segunda sub-informação de downmix e dependendo da informação de covariância, e em que o processador de downmix (120) está configurado para gerar o um ou mais sinais de saída áudio a partir do primeiro grupo de canais de transporte áudio e a partir do segundo grupo de canais de transporte áudio dependendo da informação de mistura, em que o processador de downmix (120) está configurado para receber um primeiro número da contagem de canais indicando o número de canais de transporte áudio do primeiro grupo de canais de transporte áudio e em que o processador de downmix (120) está configurado para receber um segundo número de contagem de canais indicando o número de canais de transporte áudio do segundo grupo de canais de transporte áudio, e em que o processador de downmix (120) está configurado para identificar se um canal de transporte áudio dentro do fluxo de dados pertence ao primeiro grupo ou ao segundo grupo, dependendo do primeiro número de contagem de canais ou dependendo do segundo número de contagem de canais, ou dependendo do primeiro número de contagem de canais e do segundo número de contagem de canais.

2. Aparelho de acordo com a reivindicação 1, caracterizado por a informação de covariância indicar uma informação da diferença de nível para cada um ou mais sinais de canal áudio e indicar ainda uma informação de diferença de nível para cada um ou mais sinais de objetos áudio.

3. Aparelho de acordo com a reivindicação 1, caracterizado por dois ou mais sinais de objetos áudio estarem misturados dentro de um sinal de transporte áudio, e em que dois ou mais sinais de canal áudio estarem misturados dentro do sinal de transporte áudio, em que a informação de covariância indica a informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de canal áudio e de um segundo dos dois ou mais sinais de canal áudio, ou em que a informação de covariância indica a informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de objeto áudio e de um segundo dos dois ou mais sinais de objeto áudio, ou em que a informação de covariância indica informação de correlação para um ou mais pares de um primeiro de dois ou mais sinais de canal áudio e um segundo de dois ou mais sinais de canal áudio e indica informação de correlação para um ou mais pares de um primeiro de dois ou mais sinais de objeto áudio e um segundo de dois ou mais sinais de objeto áudio.

4. Aparelho de acordo com a reivindicação 1, caracterizado por a informação de covariância compreender uma pluralidade de coeficientes de covariância de uma matriz de covariância EX de tamanho N x N, em que N indica o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objeto áudio, a matriz de covariância EX está definida de acordo

em que EX indica os coeficientes de uma primeira submatriz de covariância de tamanho NChannels x NChannels , em quem NChannels indica o número de um ou mais sinais de canal áudio, em que EX indica os coeficientes de uma segunda submatriz de covariância de tamanho NObjects x NObjects , em quem NObjects indica o número de um ou mais sinais de objeto áudio, em que 0 indica uma matriz de zero, em que o processador de parâmetro (110) está configurado para receber uma pluralidade de coeficientes de covariância da matriz de covariância EX , e em que o processador de parâmetro (110) está configurado para definir todos os coeficientes da matriz de covariância EX para 0, que não são recebidos pelo processador de parâmetro (110).

5. Aparelho de acordo com a reivindicação 1, caracterizado por a informação de downmix compreender uma pluralidade de coeficientes de downmix de uma matriz de downmix D de tamanho NDmxCh x N, em que NDmxCh indica o número de canais de transporte áudio e em que N indica o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objeto áudio, em que a matriz de downmix D está definida de acordo com a fórmula

em que Dch indica os coeficientes de uma primeira submatriz de Nch Nch downmix de tamanho DmxCh x NChannels, em que DmxCh indica o número de canais de transporte áudio do primeiro grupo de canais de transporte áudio, e em que NChannels indica o número de um ou mais sinais de canal áudio, em que Dobj indica os coeficientes de uma segunda submatriz de Nobj Nobj downmix de tamanho DmxCh x NObjects, em que DmxCh indica o número de canais de transporte áudio do segundo grupo de canais de transporte áudio, e em que NObjects indica o número de um ou mais sinais de canal áudio, em que 0 indica uma matriz de zero, em que o processador de parâmetro (110) está configurado para receber a pluralidade de coeficientes de downmix da matriz de downmix D , e em que o processador de parâmetro (110) está configurado para definir todos os coeficientes da matriz de downmix D para 0, que não são recebidos pelo processador de parâmetro (110).

6. Aparelho de acordo com a reivindicação 1, caracterizado por o processador de parâmetro (110) estar configurado para receber informação de renderização indicando informação sobre como um ou mais sinais de canal áudio e o um ou mais sinais de objeto áudio são misturados dentro de um ou mais canais de saída áudio, em que o processador de parâmetro (110) está configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância e dependendo da informação de representação.

7. Aparelho de acordo com a reivindicação 6, caracterizado por o processador de parâmetro (110) estar configurado para receber uma pluralidade de coeficientes de uma matriz de renderização R como a informação de renderização, e em que o processador de parâmetro (110) está configurado para calcular a informação de mistura dependendo da informação de downmix, dependendo da informação de covariância e dependendo da matriz de renderização R.

8. Aparelho de acordo com a reivindicação 6, caracterizado por o processador de parâmetro (110) estar configurado para receber informação de metadados como informação de renderização, em que a informação de metadados compreende informação de posição, em que a informação de posição indica uma posição para cada um dos um ou mais sinais de objeto áudio, em que a informação de posição não indica uma posição para qualquer um dos um ou mais sinais de canal áudio, em que o processador de parâmetro (110) está configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância e dependendo da informação de posição.

9. Aparelho de acordo com a reivindicação 8, caracterizado por a informação de metadados compreender ainda informação de ganho, em que a informação de ganho indica um valor de ganho para cada um dos um ou mais sinais de objeto áudio, em que a informação de ganho não indica um valor de ganho para qualquer um dos um ou mais sinais de canal áudio, em que o processador de parâmetro (110) está configurado para calcular a informação de mistura, dependendo da informação de downmix, dependendo da informação de covariância, dependendo da informação de posição e dependendo da informação de ganho.

10. Aparelho de acordo com a reivindicação 8, caracterizado por o processador de parâmetro (110) estar configurado para calcular uma matriz de mistura S como a informação de mistura, em que a matriz de mistura S é definida de acordo com a fórmula S = RG , em que G é uma matriz descodificadora dependendo da informação de downmix e dependendo da informação de covariância, em que R é uma matriz de renderização dependendo da informação de metadados, em que o processador de downmix (120) esta configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio aplicando a fórmula Z = SY , em que Z é o sinal de saída áudio, e em que Y é o sinal de transporte áudio.

11. Aparelho de acordo com a reivindicação 1, caracterizado por dois ou mais sinais de objetos áudio estarem misturados dentro de um sinal de transporte áudio, dois ou mais sinais de canal áudio estarem misturados dentro do sinal de transporte áudio, em que a informação de covariância indica informação de correlação para um ou mais pares de um primeiro dos dois ou mais sinais de canal áudio e de um segundo dos dois ou mais sinais de canal áudio, em que a informação de covariância não indica informação de correlação para qualquer par de um primeiro de um ou mais sinais de objeto áudio e um segundo de um ou mais sinais de objetos áudio, e em que o processador de parâmetro (110) está configurado para calcular a informação de mistura dependendo da informação de downmix, dependendo de uma informação de diferença de nível de cada um de um ou mais sinais de canal áudio, dependendo da segunda informação de diferença de nível de cada um de um ou mais sinais de objetos áudio e dependendo da informação de correlação de um ou mais pares de um primeiro dos dois ou mais sinais de canal áudio e um segundo dos dois ou mais sinais de canal áudio.

12. Aparelho para gerar um sinal de transporte áudio que compreende canais de transporte áudio, caracterizado por o aparelho incluir: um misturador de canal/objeto (210) para gerar os canais de transporte áudio do sinal de transporte áudio, e uma interface de saída (220), em que o misturador de canal/objeto (210) está configurado para gerar o sinal de transporte áudio que compreende os canais de transporte áudio, misturando um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio dentro do sinal de transporte áudio dependendo da informação de downmix que indica informação sobre como um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio devem ser misturados dentro dos canais de transporte áudio, em que o número de canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio, em que a interface de saída (220) está configurada para fazer sair o sinal de transporte áudio, a informação downmix e a informação de covariância, em que a informação de covariância indica uma informação de diferença de nível para pelo menos um do um ou mais sinais de objetos áudio e indica ainda uma informação de diferença de nível para pelo menos um do um ou mais sinais de objetos áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par do um ou mais sinais de canais áudio e um ou mais sinais de objetos áudio, em que o aparelho está configurado para misturar o um ou mais sinais de canais áudio dentro de um primeiro grupo de um ou mais canais de transporte áudio, em que o aparelho está configurado para misturar o um ou mais sinais de objetos áudio dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo e, em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix compreende primeira sub- informação de downmix que indica a informação sobre como um ou mais sinais de canal áudio são misturados dentro do primeiro grupo de canais de transporte áudio, e em que a informação de downmix compreende segunda sub-informação de downmix que indica a informação sobre como um ou mais sinais de objetos áudio são misturados dentro do segundo grupo de canais de transporte áudio, em que o aparelho está configurado para fazer sair um primeiro número da contagem de canais indicando o número de canais de transporte áudio do primeiro grupo de canais de transporte áudio, e em que o aparelho está configurado para fazer sair um segundo número de contagem de canais indicando o número de canais de transporte áudio do segundo grupo de canais de transporte áudio.

13. Aparelho, de acordo com a reivindicação 12, caracterizado por o misturador de canal/objeto (210) ser configurado para gerar o sinal de transporte áudio de forma que o número de canais de transporte áudio do sinal de transporte áudio dependa da taxa de bits disponível para transmitir o sinal de transporte áudio.

14. Sistema caracterizado por compreender: um aparelho (310) para gerar um sinal de transporte áudio incluindo canais de transporte áudio, em que o aparelho compreende: um misturador de canal/objeto (210) para gerar os canais de transporte áudio do sinal de transporte áudio, e uma interface de saída (220), em que o misturador de canal/objeto (210) está configurado para gerar o sinal de transporte áudio incluindo os canais de transporte áudio, misturando um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio dentro do sinal de transporte áudio, dependendo da informação de downmix que indica informação sobre como o um ou mais sinais de canal áudio e o um ou mais sinais de objeto áudio têm de ser misturados dentro dos canais de transporte áudio, em que o número dos canais de transporte áudio é menor do que o número do um ou mais sinais de canal áudio mais o número do um ou mais sinais de objeto áudio, em que a interface de saída (220) está configurada para fazer sair o sinal de transporte áudio, a informação de downmix e a informação de covariância, em que a informação de covariância indica uma informação de diferença de nível para pelo menos um do um ou mais sinais de canal áudio, e indica ainda uma informação de diferença de nível para pelo menos um do um ou mais sinais de objeto áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par de um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio, em que o aparelho está configurado para misturar o um ou mais sinais de canal áudio dentro de um primeiro grupo de um ou mais dos canais de transporte áudio, em que o aparelho está configurado para misturar o um ou mais sinais de objeto áudio dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo, e em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix inclui primeira sub-informação de downmix que indica informação sobre como o um ou mais sinais de canal áudio são misturados dentro do primeiro grupo dos canais de transporte áudio, e em que a informação de downmix inclui segunda sub-informação de downmix que indica informação sobre como o um ou mais sinais de objeto áudio são misturados dentro do segundo grupo dos canais de transporte áudio, em que o aparelho está configurado para fazer sair um primeiro número de contagem de canais que indica o número dos canais de transporte áudio do primeiro grupo de canais de transporte áudio, e em que o aparelho está configurado para fazer sair um segundo número de contagem de canais que indica o número de canais de transporte áudio do segundo grupo de canais de transporte áudio, e um aparelho para gerar um ou mais canais de saída áudio, em que o aparelho compreende: um processador de parâmetros (110) para calcular informação de mistura, e um processador de downmix (120) para gerar o um ou mais canais de saída áudio, em que o processador de downmix (120) está configurado para receber um fluxo de dados compreendendo canais de transporte áudio de um sinal de transporte áudio, em que um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio, em que um ou mais sinais de objeto áudio são misturados dentro do sinal de transporte áudio, e em que o número dos canais de transporte áudio é menor do que o número do um ou mais sinais de canal áudio mais o número do um ou mais sinais de objeto áudio, em que o processador de parâmetros (110) está configurado para receber informação de downmix indicando informação sobre como o um ou mais sinais de canal áudio e o um ou mais sinais de objeto áudio são misturados dentro dos canais de transporte áudio, e em que o processador de parâmetro (110) está configurado para receber informação de covariância, e em que o processador de parâmetro (110) está configurado para calcular a informação de mistura dependendo da informação de downmix e dependendo da informação de covariância, e em que o processador de downmix (120) está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio, dependendo da informação de mistura, em que a informação de covariância indica uma informação de diferença de nível para pelo menos um do um ou mais sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um do um ou mais sinais de objeto áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par de um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio, em que o um ou mais sinais de canal áudio são misturados dentro de um primeiro grupo de um ou mais dos canais de transporte áudio, em que o um ou mais sinais de objeto áudio são misturados dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo, e em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix inclui primeira sub-informação de downmix que indica informação sobre como o um ou mais sinais de canal áudio são misturados dentro do primeiro grupo dos canais de transporte áudio, e em que a informação de downmix inclui segunda sub-informação de downmix que indica informação sobre como o um ou mais sinais de objeto áudio são misturados dentro do segundo grupo do um ou mais canais de transporte áudio, em que o processador de parâmetro (110) está configurado para calcular a informação de mistura, dependendo da primeira sub-informação de downmix, dependendo da segunda sub-informação de downmix e dependendo da informação de covariância, em que o processador de downmix (120) está configurado para gerar o um ou mais sinais de saída áudio a partir do primeiro grupo de canais de transporte áudio e a partir do segundo grupo de canais de transporte áudio, dependendo da informação de mistura, em que o processador de downmix (120) está configurado para receber um primeiro número de contagem de canais que indica o número dos canais de transporte áudio do primeiro grupo de canais de transporte áudio, e em que o processador de downmix (120) está configurado para receber um segundo número de contagem de canais que indica o número dos canais de transporte áudio do segundo grupo de canais de transporte áudio, e em que o processador de downmix (120) está configurado para identificar se um canal de transporte áudio dentro do fluxo de dados pertence ao primeiro grupo ou ao segundo grupo, dependendo do primeiro número de contagem de canais ou do segundo número de contagem de canais, ou dependendo do primeiro número de contagem de canais e do segundo número de contagem de canais, em que o aparelho para gerar um ou mais canais de saída áudio é configurado para receber o sinal de transporte áudio, informação de downmix e informação de covariância a partir do aparelho para gerar sinal de transporte áudio, e em que o aparelho para gerar um ou mais canais de saída áudio está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio, dependendo da informação de downmix e dependendo da informação de covariância.

15. Método para gerar um ou mais canais de saída áudio, caracterizado por o aparelho compreender: receber um fluxo de dados compreendendo canais de transporte áudio de um sinal de transporte áudio, em que um ou mais sinais de canal áudio são misturados dentro do sinal de transporte áudio, em que um ou mais sinais de objeto áudio são misturados dentro do sinal de transporte áudio, e em que o número dos canais de transporte áudio é menor que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio, receber informação de downmix indicando sobre como um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio são misturados dentro dos canais de transporte áudio, receber informação de covariância, calcular informação de mistura dependendo da informação de downmix e dependendo da informação de covariância, e gerar um ou mais canais de saída áudio, gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura, em que a informação de covariância indica uma informação de diferença de nível para pelo menos um do um ou mais sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um ou um ou mais sinais de objeto áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par do um ou mais sinais de canais áudio e um ou mais sinais de objetos áudio, em que um ou mais sinais de canais áudio serem misturados dentro de um primeiro grupo de um ou mais canais de transporte áudio, em que um ou mais sinais de objetos áudio são misturados dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo e, em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix compreende primeira sub- informação de downmix que indica a informação sobre como um ou mais sinais de canal áudio são misturados dentro do primeiro grupo dos canais de transporte áudio, e em que a informação de downmix compreende segunda sub-informação de downmix que indica a informação sobre como um ou mais sinais de objetos áudio são misturados dentro do segundo grupo de canais de transporte áudio, em que a informação de mistura é calculada dependendo da primeira sub-informação de downmix, dependendo da segunda sub-informação de downmix e dependendo da informação de covariância, em que o um ou mais sinais de saída áudio são gerados a partir do primeiro grupo de canais de transporte áudio e a partir do segundo grupo de canais de transporte áudio dependendo da informação de mistura, em que o método compreende ainda a etapa de receber um primeiro número de contagem de canais indicando o número de canais de transporte áudio do primeiro grupo de canais de transporte áudio, e em que o método compreende ainda a etapa de receber um segundo número de contagem de canais indicando o número de canais de transporte áudio do segundo grupo de canais de transporte áudio, e em que o método compreende ainda a etapa de identificação de se um canal de transporte áudio dentro do fluxo de dados pertence ao primeiro grupo ou ao segundo grupo, dependendo do primeiro número de contagem de canais ou dependendo do segundo número de contagem de canais, ou dependendo do primeiro número de contagem de canais e do segundo número de contagem de canais.

16. Método para gerar um sinal de transporte áudio que compreende canais de transporte áudio, caracterizado por o método incluir: geração do sinal de transporte áudio que compreende os canais de transporte áudio, misturando um ou mais sinais de canal áudio e um ou mais sinais de objeto áudio dentro do sinal de transporte áudio dependendo da informação de downmix que indica a informação sobre como o um ou mais sinais de canal áudio e o um ou mais sinais de objeto áudio devem ser misturados dentro dos canais de transporte áudio, em que o número dos canais de transporte áudio é menor do que o número de um ou mais sinais de canal áudio mais o número de um ou mais sinais de objetos áudio, e fazer sair o sinal de transporte áudio, a informação de downmix e informação de covariância, em que a informação de covariância indica uma informação da diferença de nível para pelo menos um ou mais sinais de canal áudio e indica ainda uma informação de diferença de nível para pelo menos um do um ou mais sinais de objetos áudio, e em que a informação de covariância não indica a informação de correlação para qualquer par de um ou mais sinais de canal áudio e um ou mais sinais de objetos áudio, em que um ou mais canais de sinais áudio são misturados dentro de um primeiro grupo de um ou mais dos canais de transporte áudio, em que um ou mais sinais de objetos áudio são misturados dentro de um segundo grupo de um ou mais dos canais de transporte áudio, em que cada canal de transporte áudio do primeiro grupo não está incluído no segundo grupo, e em que cada canal de transporte áudio do segundo grupo não está incluído no primeiro grupo, e em que a informação de downmix compreende primeira sub- informação de downmix que indica a informação sobre como um ou mais sinais de canal áudio são misturados dentro do primeiro grupo de canais de transporte áudio, e em que a informação de downmix compreende segunda sub-informação de downmix que indica a informação sobre como um ou mais sinais de objetos áudio são misturados dentro do segundo grupo dos canais de transporte áudio, e em que o método compreende ainda fazer sair um primeiro número de contagem de canais indicando o número de canais de transporte áudio do primeiro grupo de canais de transporte áudio e em que o método compreende ainda fazer sair um segundo número de contagem de canais indicando o número de canais de transporte áudio do segundo grupo de canais de transporte áudio.