BR112016008787B1

BR112016008787B1 - Método para decodificação e codificação de uma matriz de downmix, método para apresentação de conteúdo de áudio, codificador e decodificador para uma matriz de downmix, codificador de áudio e decodificador de áudio

Info

Publication number: BR112016008787B1
Application number: BR112016008787-9A
Authority: BR
Inventors: Florin GHIDO; Achim Kuntz; Bernhard Grill
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2013-10-22
Filing date: 2014-10-13
Publication date: 2022-07-12
Also published as: EP2866227A1; CN105723453B; SG11201603089VA; MX2016004924A; EP3061087B1; US11393481B2; MX353997B; PT3061087T; JP2016538585A; CN110675882A; CN105723453A; TW201521013A; US20200090666A1; ZA201603298B; RU2648588C2; EP3061087A1; TWI571866B; BR112016008787A2; WO2015058991A1; US11922957B2

Abstract

MÉTODO PARA DECODIFICAÇÃO E CODIFICAÇÃO DE UMA MATRIZ DE DOWNMIX, MÉTODO PARA APRESENTAÇÃO DE CONTEÚDO DE ÁUDIO, CODIFICADOR E DECODIFICADOR PARA UMA MATRIZ DE DOWNMIX, CODIFICADOR DE ÁUDIO E DECODIFICADOR DE ÁUDIO. Método é descrito que descodifica uma matriz de downmix (306) para mapear uma pluralidade de canais de entrada (300) de conteúdo de áudio para uma pluralidade de canais de saída (302), sendo que os canais de entrada e de saída (300, 302) estão associados aos respectivos altifalantes em posições pré-determinadas relacionadas com uma posição do ouvinte, em que a matriz de downmix (306) é codificada por exploração da simetria de pares de altifalantes (S1-S9) da pluralidade de canais de entrada (300) e da simetria de pares de altifalantes (S10-S11) da pluralidade de canais de saída (302). Informação codificada representando a matriz de downmix codificada (306) é recebida e descodificada para obter a matriz de downmix descodificada (306).

Description

[001] Esta invenção diz respeito ao campo da codificação/decodificação de áudio, em especial a codificação de áudio espacial e a codificação de objeto de áudio espacial, por exemplo para a área dos sistemas codec de áudio 3D. Os modelos da invenção dizem respeito a métodos para codificação e decodificação de uma matriz de downmix para cartografar uma série de canais de entrada de conteúdo de áudio para uma pluralidade de canais de saída, para um método para apresentar conteúdo de áudio, para um codificador para codificar uma matriz de downmix, para um decodificador para decodificar uma matriz de downmix, para um codificador de áudio e para um decodificador de áudio.

[002] As ferramentas de codificação de áudio espacial são bem conhecidas na área e encontram-se normalizadas, por exemplo, na norma MPEG-surround. A codificação de áudio espacial começa a partir de uma pluralidade de entradas originais, por ex., cinco ou sete canais de entrada, identificados pela sua colocação em uma definição de reprodução, por ex., como um canal esquerdo, um canal central, um canal direito, um canal surround esquerdo, um canal surround direito e um canal de enriquecimento de baixa frequência. Um codificador de áudio espacial pode derivar de um ou mais canais de downmix a partir dos canais originais e, adicionalmente, pode derivar de dados paramétricos relacionados com sinais de aviso espaciais tais como diferenças de nível entre canais nos valores de coerência de canal, diferenças de fase entre canais, diferenças de tempo entre canais, etc. O um ou mais canais de downmix são transmitidos juntamente com informação paramétrica paralela indicando os sinais de aviso espaciais para um decodificador de áudio espacial para decodificar os canais de downmix e os respectivos dados paramétricos de modo à finalmente obter canais de saída que são uma versão aproximada dos canais de entrada originais. A colocação dos canais na definição de entrada pode ser fixada, por ex., em um formato 5.1, um formato 7.1, etc.

[003] Também, as ferramentas de codificação do objeto de áudio espacial são bem conhecidas na área e encontram-se normalizadas, por exemplo, na norma MPEG SAOC (SAOC = codificação do objeto de áudio espacial). Ao contrário da codificação de áudio espacial a partir dos canais originais, a codificação do objeto de áudio espacial começa a partir de objetos de áudio não automaticamente destinados a certa transmissão da definição de reprodução. Em vez disso, a colocação dos objetos de áudio na cena de reprodução é flexível e pode ser determinada por um utilizador, por ex., através de uma entrada de certa informação de transmissão em um decodificador de codificação do objeto de áudio espacial. Em alternativa, ou adicionalmente, a informação de transmissão pode ser transmitida como informação paralela adicional ou metadados, a informação de transmissão pode incluir informação em cuja posição na definição de reprodução certo objeto de áudio será colocado (por ex., ao longo do tempo). Para obter certa compressão de dados, um número de objetos de áudio é codificado utilizando um codificador SAOC que calcula, a partir dos objetos de entrada, um ou mais canais de transporte através do downmixing de objetos de acordo com certa informação de downmixing. Além disso, o codificador SAOC calcula informação paramétrica paralela que representa sinais entre objetos tais como diferenças de nível do objeto (OLD), valores de coerência do objeto, etc. Tal como na SAC (SAC = Codificação de Áudio Espacial), os dados paramétricos entre objetos são calculados para mosaicos de tempo/frequência individuais. Para um certo quadro (por exemplo, 1024 ou 2048 amostras) do sinal de áudio uma pluralidade de bandas de frequência (por exemplo 24, 32 ou 64 bandas) são consideradas de modo que dados paramétricos são fornecidos para cada quadro e cada banda de frequência. Por exemplo, quando uma peça de áudio possui 20 quadros e quando cada quadro é subdividido em 32 bandas de frequência, o número de mosaicos de tempo/frequência é de 640.

[004] Em sistemas de áudio 3D pode ser desejado fornecer uma impressão espacial de um sinal de áudio em um receptor utilizando uma configuração de alto-falante ou alto-falante conforme disponível no receptor que, contudo, pode ser diferente da configuração do alto-falante original para o sinal de áudio original. Nessa situação, uma conversão precisa ser efetuada, referida também como um “downmix” de acordo com o qual os canais de entrada, de acordo com a configuração do alto-falante original do sinal de áudio, são mapeados para canais de saída definidos de acordo com a configuração do alto-falante do receptor.

[005] É objetivo desta invenção fornecer uma abordagem melhorada para fornecer a um receptor uma matriz de downmix.

[006] Este objetivo é alcançado através de um método da reivindicação 1, 2 e 20, através de um codificador da reivindicação 24, um decodificador da reivindicação 26, um codificador de áudio da reivindicação 28, e um decodificador de áudio da reivindicação 29.

[007] Esta invenção é baseada na descoberta de que uma codificação mais eficiente de uma matriz de downmix mais estável pode ser obtida através da exploração de simetrias que podem ser encontradas na configuração do canal de entrada e na configuração do canal de saída relativamente à colocação de alto-falantes associados aos respectivos canais. Foi descoberto pelos inventores desta invenção que a exploração dessa simetria permite a combinação de alto-falantes dispostos simetricamente em uma linha/coluna da matriz de downmix, por exemplo aqueles alto-falantes dotados, relativamente a uma posição de ouvinte, uma posição com o mesmo ângulo de elevação e o mesmo valor absoluto do ângulo azimutal mas com diferentes sinais. Isto permite uma geração de uma matriz de downmix compacta dotada de um tamanho reduzido que, desse modo, pode ser mais facilmente e mais eficientemente codificada quando comparada com a matriz de downmix original.

[008] De acordo com os modelos, não apenas grupos de alto-falantes simétricos são definidos, mas efetivamente três classes de grupos de alto- falantes são criadas, em especial os alto-falantes simétricos acima referidos, os alto-falantes centrais e os alto-falantes assimétricos, que podem ser então usados para gerarem a representação compacta. Esta abordagem é vantajosa na medida em que permite que os alto-falantes das respetivas classes sejam manuseados de modo diferente e desse modo mais eficientemente.

[009] De acordo com os modelos, a codificação da matriz de downmix compreende a codificação de valores de ganho separados da informação sobre a verdadeira matriz de downmix compacta. A informação relativa à verdadeira matriz de downmix compacta é codificada através da criação de uma matriz de significância compacta, que indica relativamente às configurações do canal de entrada/saída compacto a existência de ganhos não zero através da fusão de cada um dos pares de alto-falantes simétricos de entrada e de saída em um grupo. Esta abordagem é vantajosa pois permite uma codificação eficaz da matriz de significância com base em um esquema de comprimento.

[010] De acordo com os modelos, uma matriz modelo pode ser fornecida idêntica à matriz de downmix compacta na medida em que as entradas dos elementos da matriz da matriz modelo correspondem significativamente às entradas nos elementos da matriz na matriz de downmix compacta. Regra geral, tais matrizes de downmix são fornecidas no codificador e no decodificador e apenas diferem da matriz de downmix compacta em um número reduzido de elementos da matriz de modo que aplicando um elemento transversal XOR à matriz de significância compacta com essa matriz modelo irá reduzir drasticamente o número de uns. Esta abordagem é vantajosa pois permite um aumento adicional da eficácia de codificação da matriz de significância, novamente, utilizando o exemplo de um esquema de comprimento.

[011] De acordo com um modelo adicional, a codificação é ainda baseada em uma indicação se alto-falantes normais são misturados apenas a alto- falantes normais e se alto-falantes LFE são misturados apenas a alto-falantes LFE. Isto é vantajoso pois melhora adicionalmente a codificação da matriz de significância.

[012] De acordo com um modelo adicional, a matriz de significância compacta ou o resultado da operação XOR em cima referida é fornecida como a um vetor unidimensional ao qual uma codificação de comprimento é aplicada para convertê-lo a comprimentos de zeros seguidos por um que é vantajoso à medida que fornece uma possibilidade muito eficiente para codificação da informação. Para obter uma codificação ainda mais eficiente, de acordo com os modelos uma codificação de Golomb-Rice é aplicada aos valores de comprimento.

[013] De acordo com modelos adicionais para cada grupo de alto-falantes de saída é indicado se as propriedades de simetria e separação se aplicam a todos os grupos de alto-falantes de entrada correspondentes que os geram. Isto é vantajoso na medida em que indica que em um grupo de alto-falantes constituído por, por exemplo, alto-falantes à esquerda e à direita, os alto- falantes à esquerda no grupo de canais de entrada são mapeados apenas para os canais à esquerda no grupo de alto-falantes de saída correspondente, os alto-falantes à direita no grupo de canais de entrada são mapeados apenas para os alto-falantes à direita no grupo de canais de saída, e não existe mixing do canal à esquerda para o canal à direita. Isto permite a substituição de quatro valores de ganho na sub-matriz 2x2 na matriz de downmix original através de um único valor de ganho que pode ser introduzido na matriz compacta ou, no caso de a matriz compacta ser uma matriz de significância pode ser codificada em separado. De qualquer forma, o número total de valores de ganho a ser codificado é reduzido. Desse modo, as propriedades assinaladas da simetria e separação são vantajosas na medida em que permitem uma codificação eficiente das sub-matrizes correspondentes a cada par de grupos de alto- falantes de entrada e de saída.

[014] De acordo com os modelos, para codificação de valores de ganho uma lista de possíveis ganhos é criada em uma sequência especial utilizando um ganho mínimo e máximo assinalado e também uma precisão assinalada desejada. Os valores de ganho são criados em uma sequência tal que ganhos habitualmente utilizados se encontrem no início da lista ou tabela. Isto é vantajoso pois permite a codificação eficiente dos valores de ganho aplicando aos ganhos mais frequentemente utilizados as palavras-código mais curtas para as codificar.

[015] De acordo com um modelo, os valores de ganho gerados podem ser fornecidos em uma lista, cada entrada em uma lista dotada de um índice a ela associada. Aquando da codificação dos valores de ganho, em vez de codificar os próprios valores, os índices dos ganhos são codificados. Este manuseamento dos valores de ganho é vantajoso pois permite codificá-los com eficiência.

[016] De acordo com os modelos, os parâmetros do equalizador (EQ) podem ser transmitidos juntamente com a matriz de downmix.

[017] Os modelos desta invenção serão descritos relativamente aos desenhos que a acompanham, nos quais:

[018] A Fig. 1 ilustra uma visão global de um codificador de áudio 3D de um sistema de áudio 3D;

[019] A Fig. 2 ilustra uma visão global de um decodificador de áudio 3D de um sistema de áudio 3D;

[020] A Fig. 3 ilustra um modelo de um renderer binaural que pode ser implementado no decodificador de áudio 3D da Fig. 2;

[021] A Fig. 4 ilustra uma matriz de downmix exemplo tal como é conhecida na área para mapear desde uma configuração de entrada 22.2 a uma configuração de saída 5.1;

[022] A Fig. 5 ilustra esquematicamente um modelo desta invenção para converter a matriz de downmix original da Fig. 4 em uma matriz de downmix compacta;

[023] A Fig. 6 ilustra a matriz de downmix compacta da Fig. 5 de acordo com um modelo desta invenção dotada de configurações de canais de entrada e de saída convertidos com entradas de matrizes representando valores de significância;

[024] A Fig. 7 ilustra um modelo adicional desta invenção para codificação da estrutura da matriz de downmix compacta da Fig. 5, utilizando uma matriz modelo; e

[025] As Figs. 8(a)-(g) ilustram possíveis sub-matrizes que podem ser derivadas de uma matriz de downmix ilustrada na Fig. 4, de acordo com diferentes combinações de alto-falantes de entrada e de saída.

[026] Os modelos da abordagem inovadora serão descritos. A descrição que se segue irá começar com uma visão global de sistema de um sistema codec de áudio 3D no qual a abordagem inovadora pode ser implementada.

[027] As Figs. 1 e 2 ilustram os blocos algorítmicos de um sistema de áudio 3D de acordo com os modelos. Mais especificamente, a Fig. 1 ilustra uma visão global de um codificador de áudio 3D 100. O codificador de áudio 100 recebe em um circuito pré-renderer/misturador 102, opcional, sinais de entrada, mais especificamente uma pluralidade de canais de entrada fornecendo ao codificador de áudio 100 uma pluralidade de sinais de canais 104, uma pluralidade de sinais de objeto 106 e metadados do objeto correspondentes 108. Os sinais do objeto 106 processados pelo pré- renderer/misturador 102 (ver sinais 110) podem ser fornecidos a um codificador SAOC 112 (SAOC = Codificação do Objeto de Áudio Espacial). O codificador SAOC 112 gera os canais de transporte SAOC 114 fornecidos a um decodificador USAC 116 (USAC = Discurso Unificado e Codificação de Áudio). Além disso, o sinal SAOC-SI 118 (SAOC-SI = Informação Paralela SAOC) é também fornecido ao codificador USAC 116. O codificador USAC 116 recebe ainda sinais do objeto 120 diretamente do pré-renderer/misturador assim como os sinais do canal e sinais do objeto pré-transmitido 122. A informação de metadados do objeto 108 é aplicada a um codificador OAM 124 (OAM = Metadados Associados ao Objeto) que fornece informação de metadados do objeto comprimido 126 ao codificador USAC. O codificador USAC 116, com base nos sinais de entrada referidos em cima, gera um sinal de saída comprimido mp4, tal como ilustrado em 128.

[028] A Fig. 2 ilustra uma visão global de um decodificador de áudio 200 do sistema de áudio 3D. O sinal codificado 128 (mp4) gerado pelo codificador de áudio 100 da Fig. 1 é recebido no decodificador de áudio 200, mais especialmente em um decodificador USAC 202. O decodificador USAC 202 descodifica o sinal recebido 128 para os sinais dos canais 204, os sinais do objeto pré-transmitido 206, os sinais do objeto 208, e os sinais do canal de transporte SAOC 210. Além disso, a informação de metadados do objeto comprimido 212 e o sinal SAOC-SI 214 sai através do decodificador USAC 202. Os sinais do objeto 208 são fornecidos a um renderer de objetos 216 fazendo sair os sinais do renderer de objetos 218. Os sinais do canal de transporte SAOC 210 são fornecidos ao decodificador SAOC 220 que sai dos sinais do objeto rendered 222. A informação de metadados do objeto comprimido 212 é fornecida ao decodificador OAM 224 que faz sair os respectivos sinais de controle para o renderer de objetos 216 e o decodificador SAOC 220 para gerarem os sinais do renderer de objetos 218 e os sinais do renderer de objetos 222. O decodificador compreende ainda um misturador 226 recebendo, tal como ilustrado na Fig. 2, os sinais de entrada 204, 206, 218 e 222, para fazer sair os sinais do canal 228. Os sinais do canal podem sair diretamente para um alto-falante, por ex., um alto-falante de 32 canais, tal como indicando em 230. Os sinais 228 podem ser fornecidos a um circuito para conversão do formato 232 que recebe como uma entrada do controle um sinal de configuração de reprodução indicando o modo como os sinais do canal 228 deverão ser convertidos. No modelo representado na Fig. 2, presume-se que a conversão será efetuada de modo que os sinais possam ser fornecidos a um sistema de alto-falante 5.1, tal como indicado em 234. Também, os sinais do canal 228 podem ser fornecidos a um renderer binaural 236 gerando dois sinais de saída, por exemplo para um auscultador, tal como indicado em 238.

[029] Em um modelo desta invenção, o sistema de codificação/decodificação representado nas Figs. 1 e 2 tem como base o codec MPEG-D USAC para codificação dos sinais do canal e do objeto (ver sinais 104 e 106). Para aumentar a eficiência para codificação de uma grande quantidade de objetos, a tecnologia MPEG SAOC pode ser utilizada. Três tipos de renderers podem executar as tarefas de transmissão de objetos a canais, transmitindo canais aos auscultadores ou transmitindo canais a uma diferente definição de alto-falante (ver Fig. 2, sinais de referência 230, 234 e 238). Quando sinais do objeto são explicitamente rendered ou parametricamente codificados utilizando SAOC, a informação de metadados do objeto correspondente 108 é comprimida (ver sinal 126) e multiplexada no fluxo de bits de áudio 128.

[030] Os blocos de algoritmo do sistema global de áudio 3D ilustrado nas Figs. 1 e 2 serão descritos em baixo em maior detalhe.

[031] O pré-renderer/misturador 102 pode ser opcionalmente fornecido para converter um canal mais uma cena de entrada do objeto em uma cena do canal antes da codificação. Funcionalmente, é idêntico ao trenderer/misturador do objeto a seguir descrito. A pré-renderer de objetos pode ser desejada para assegurar uma entropia do sinal determinístico na entrada do codificador basicamente independente do número de sinais do objeto simultaneamente ativos. Sinais do objeto discreto são transmitidos para a configuração do canal que o codificador está configurado para utilizar. Os pesos dos objetos de cada canal são obtidos de metadados do objeto associados (OAM).

[032] O codificador USAC 116 é o codec principal para sinais do canal do alto-falante, sinais do objeto discreto e sinais pré-rendered. Tem como base a tecnologia MPEG-D USAC. Manuseia a codificação dos sinais em cima criando informação de mapeamento de canais e objetos com base na informação geométrica e semântica do canal de entrada e objeto atribuídos. Esta informação de mapeamento descreve como os canais e objetos de entrada são mapeados para os elementos do canal USAC, como elementos de pares de canais (CPEs), elementos monocanal (SCEs), efeitos de baixa frequência (LFEs) e elementos de canal de quarto (QCEs) e CPEs, SCEs e LFEs, e a informação correspondente é transmitida ao decodificador. Todas as cargas úteis adicionais tais como dados SAOC 114, 118 ou metadados do objeto 126 são consideradas no controle de velocidade do codificador. A codificação de objetos é possível de diferentes maneiras, dependendo dos requisitos de velocidade/distorção e dos requisitos de interatividade para orenderer. De acordo com modelos, as seguintes variantes de codificação do objeto são possíveis: • Objetos pré-rendered: Sinais de objeto são pré-rendered e misturados aos sinais dos canais 22.2 antes da codificação. A cadeia de codificação subsequente observa os sinais dos canais 22.2. • Formas de onda do objeto discreto: Os objetos são fornecidos como formas de onda monofónica ao codificador. O codificador utiliza elementos monocanal (SCEs) para transmitir os objetos para além dos sinais do canal. Os objetos decodificados são rendered e misturados no lado receptor. A informação de metadados do objeto comprimido é rendered ao receptor/renderer. • Formas de onda do objeto paramétrico: Propriedades do objeto e a sua relação entre elas são descritas através de parâmetros SAOC. O downmix dos sinais do objeto é codificado com o USAC. A informação paramétrica é transmitida em paralelo. O número de canais de downmix é escolhido dependendo do número de objetos e da velocidade de transmissão total. A informação de metadados do objeto comprimido é transmitida ao renderer SAOC.

[033] O codificador SAOC 112 e o decodificador SAOC 220 para sinais do objeto podem ter como base a tecnologia MPEG SAOC. O sistema é capaz de recrear, modificar e transmitir um número de objetos de áudio com base em um número pequeno de canais transmitidos e de dados paramétricos adicionais, tais como OLDs, IOCs (Coerência Entre Objetos), DMGs (Ganhos de Downmix). Os dados paramétricos adicionais exibem uma velocidade de transmissão significativamente baixa à exigida para a transmissão de todos os objetos individualmente, tornando a codificação muito eficiente. O codificador SAOC 112 toma como entrada os sinais do objeto/de canal como ondas de forma monofónica e faz sair informação paramétrica (compactada em fluxo de bits de áudio 3D 128) e os canais de transporte SAOC (codificados utilizando elementos monocanal e são transmitidos). O decodificador SAOC 220 reconstrói os sinais do objeto/canal a partir dos canais de transporte SAOC 210 e da informação paramétrica 214, e gera a cena de áudio de saída com base na configuração de reprodução, a informação de metadados do objeto descomprimida e opcionalmente baseado na informação de interação do utilizador.

[034] O codec de metadados do objeto (ver codificador OAM 120 e decodificador OAM 224) é fornecido de modo que, para cada objeto, os dados associados que especificam a posição e volume geométricos dos objetos no espaço 3D são eficientemente codificados por quantização das propriedades do objeto no tempo e no espaço. O metadado do objeto comprimido cOAM 126 é transmitido ao receptor 200 como informação paralela.

[035] O renderer de objetos 216 utiliza os metadados do objeto comprimido para gerar formas de onda do objeto de acordo com um dado formato de reprodução. Cada objeto é transmitido a um certo canal de saída de acordo com os seus metadados. A saída deste bloco resulta da soma dos resultados parciais. Se ambos, conteúdo do canal assim como objetos discretos/paramétricos forem decodificados, as formas de onda baseadas no canal e as formas de onda de objeto transmitidas são misturadas pelo misturador 226 antes da saída das formas de onda resultantes 228 ou antes de as alimentar a um módulo pós-processador como o renderer binaural 236 ou o módulo renderer do alto-falante 232.

[036] O módulo renderer binaural 236 produz um downmix binaural do material de áudio multicanal de modo que cada canal de entrada é representado por uma fonte de som virtual. O processamento é conduzido em quadro transversal no domínio QMF (Filtro de Espelho em Quadratura), e a binauralização é baseada nas respostas de impulso interior binaural medido.

[037] O renderer do alto-falante 232 converte entre a configuração do canal rendered 228 e o formato de reprodução desejado. Pode ser também designado “conversor de formato”. O conversor de formato executa conversões para números inferiores de canais de saída, ou seja, cria downmixes.

[038] A Fig. 3 ilustra um modelo do renderer binaural 236 da Fig. 2. O módulo do renderer binaural pode fornecer um downmix binaural do material de áudio multicanal. A binauralização pode ser baseada em uma resposta de impulso interior binaural medido. A resposta de impulso interior pode ser considerada uma “impressão digital” das propriedades acústicas de um verdadeiro ambiente. A resposta de impulso interior é medida e armazenada, e sinais acústicos arbitrários podem ser fornecidos com esta “impressão digital”, permitindo assim no ouvinte uma simulação das propriedades acústicas da sala associada à resposta de impulso interior. O rendererbinaural 236 pode ser programado ou configurado para transmitir os canais de saída em dois canais binaurais utilizando funções de transferência de cabeçalho ou Respostas de Impulso Interior Binaural (BRIR). Por exemplo, para dispositivos móveis binaurais a transmissão é desejada para auscultadores ou alto-falantes ligados a esses dispositivos móveis. Nesses dispositivos móveis, devido a constrangimentos pode ser necessário limitar o decodificador e transmitir complexidade. Além disso, para omitir a descorrelação nesses cenários de processamento, pode ser preferido primeiro executar um downmix utilizando um downmixer 250 para um sinal de downmix intermédio 252, isto é, para um número inferior de canais de saída que resulte em um número inferior de canal de entrada para o atual conversor binaural 254. Por exemplo, um material do canal 22.2 pode ser downmixed por um downmixer 250 para um downmix intermédio 5.1 ou, em alternativa, o downmix intermédio pode ser diretamente calculado pelo decodificador SAOC 220 na Fig. 2 em um tipo de um modo “atalho”. A transmissão binaural tem então apenas de aplicar dez HRTFs (Funções de Transferência Relativas ao Cabeçalho) ou funções BRIR para transmitir os cinco canais individuais em diferentes posições ao contrário da aplicação de funções HRTF 44 ou BRIR se os canais de entrada 22.2 deveriam ter sido transmitidos. As operações de convolução necessárias para a transmissão binaural exigem muita capacidade de processamento e, desse modo, reduzindo esta capacidade de processamento enquanto ainda se obtém uma qualidade de áudio aceitável é especialmente útil para dispositivos móveis. O renderer binaural 236 produz um downmix binaural 238 do material de áudio multicanal 228, de modo que cada canal de entrada (excluindo os canais LFE) seja representado por uma fonte de som virtual. O processamento pode ser conduzido no quadro transversal no domínio QMF. A binauralização é baseada em respostas de impulsos binaurais interiores, e o som direto e reflexões anteriores podem ser marcadas ao material de áudio através de uma abordagem convolucional em um domínio pseudo-FFT utilizando uma convolução rápida em cima do domínio QMF, enquanto a última reverberação pode ser processada em separado.

[039] Formatos de áudio multicanal estão atualmente presentes em uma grande variedade de configurações, e são utilizados em um sistema de áudio 3D tal como tem sido descrito em cima em detalhe utilizados, por exemplo, para informação de áudio existente em DVDs e Blue-ray. Um tema importante é alojar a transmissão em tempo real de áudio multicanal, enquanto mantém a compatibilidade com as definições de alto-falantes físicos personalizados disponíveis existentes. Uma solução é codificar o conteúdo áudio no formato original utilizado, por exemplo, em produção, que habitualmente tem um grande número de canais de saída. Além disso, a informação de downmix paralela é fornecida para gerar outros formatos dotados de canais menos independentes. Pressupondo, por exemplo, um número N de canais de entrada e um número M de canais de saída, o procedimento de downmix no receptor pode ser especificado por uma matriz de downmix dotada de um tamanho N x M. Este procedimento especial, tal como pode ser efetuado no downmixer do conversor de formato descrito em cima ou renderer binaural, representa um downmix passivo, significando que nenhum processamento de sinal adaptável dependente do verdadeiro conteúdo áudio é aplicado aos sinais de entrada ou aos sinais de saída downmixed.

[040] Uma matriz de downmix tenta corresponder não apenas a mixing física da informação de áudio, mas pode também transmitir as intenções artísticas do produtor que pode utilizar o seu conhecimento sobre o verdadeiro conteúdo áudio transmitido. Desse modo, existem várias maneiras de gerar matrizes de downmix, por exemplo manualmente utilizando conhecimento acústico genérico sobre o papel e posição dos alto-falantes de entrada e de saída, manualmente utilizando conhecimento sobre o verdadeiro, contudo e a intenção artística, e automaticamente, utilizando, por exemplo, uma ferramenta de software que calcula uma aproximação utilizando os alto-falantes de saída fornecidos.

[041] Existe um número de abordagens conhecidas na área para fornecer essas matrizes de downmix. Contudo, os esquemas existentes fazem muitas suposições e codificam fortemente uma parte importante da estrutura e dos conteúdos da verdadeira matriz de downmix. Na referência da técnica anterior [1] é descrita a utilização de procedimentos de downmixing especiais explicitamente definidos para downmixing da configuração do canal 5.1 (ver referência [2] da técnica anterior) para a configuração do canal 2.0, das variantes de Front Height ou Surround Back 6.1 ou 7.1 para as configurações dos canais 5.1 ou 2.0. O inconveniente destas abordagens é que os esquemas de downmixing são apenas dotados de um grau de liberdade limitado no sentido em que alguns dos canais de entrada são misturados com pesos pré- definidos (por exemplo, no caso de mapeamento do Surround Back 7.1 para a configuração 5.1, os canais de entrada L, R e C são diretamente mapeados para os canais de saída correspondentes) e um número reduzido de valores de ganho é partilhado para alguns outros canais de entrada (por exemplo, no caso do mapeamento do Front 7.1 para a configuração 5.1, os canais de entrada L, R, Lc e Rc são misturados aos canais de saída L e R utilizando apenas um valor de ganho). Além disso, os ganhos têm apenas um alcance e precisão limitados, por exemplo de 0dB a -9dB com um total de oito níveis. Descrevendo explicitamente os procedimentos de downmix para cada par de configuração de entrada e de saída é trabalhoso e implica adendas á normas existentes, à custa do cumprimento atrasado. Outra proposta é descrita na referência [5] da técnica anterior. Esta abordagem utiliza matrizes de downmix explícitas que representam uma melhoria na flexibilidade. Contudo, o esquema mais uma vez limita o alcance e precisão de 0dB a -9dB com um total de 16 níveis. Além disso, cada ganho é codificado com uma precisão fixa de 4 bits.

[042] Assim, com vista à técnica anterior conhecida, uma abordagem melhorada para codificação eficiente de matrizes de downmix é necessária, incluindo os aspectos de escolha de um domínio de representação e esquema de quantização adequados, mas também uma codificação sem perdas dos valores quantizados.

[043] De acordo com modelos, flexibilidade sem restrições é obtida para o manuseamento de matrizes de downmix permitindo a codificação de matrizes de downmix arbitrárias, com o alcance e a precisão especificados pelo produtor de acordo com s suas necessidades. Também, os modelos da invenção fornecem uma codificação sem perdas muito eficiente de modo que matrizes típicas utilizem uma pequena quantidade de bits, e afastando-se das matrizes habituais irá apenas gradualmente reduzir a eficiência. Isto significa que quanto mais idêntica é uma matriz de uma típica, mais eficiente a codificação descrita de acordo com os modelos desta invenção será.

[044] De acordo com os modelos, a precisão exigida pode ser especificada pelo produtor como 1 dB, 0,5 dB ou 0,25 dB, a serem utilizados para quantificação uniforme. Dever-se-á ter em atenção que de acordo com outros modelos, também outros valores para a precisão podem ser selecionados. Contrariamente a isto, os esquemas existentes apenas permitem uma precisão de 1,5 dB ou 0,5 dB para valores à volta de 0 dB, enquanto utilizam uma precisão inferior para os outros valores. A utilização de uma quantização grosseira para alguns valores afeta as tolerâncias do pior cenário obtidas e torna a interpretação das matrizes descodificadas mais difícil. Em técnicas existentes, uma precisão mais baixa é utilizada nalguns valores sendo um simples meio para reduzir o número de bits exigidos utilizando codificação uniforme. Contudo, praticamente os mesmos resultados podem ser obtidos sem sacrificar a precisão utilizando um esquema de codificação melhorada que será descrito a seguir com mais detalhe.

[045] De acordo com os modelos, os valores dos ganhos de mixing podem ser especificados entre um valor máximo, por exemplo +22dB e um valor mínimo, por exemplo -47dB. Podem incluir também o valor menos o infinito. O alcance do valor efetivo utilizado na matriz é indicado no fluxo de bits como um ganho máximo e um ganho mínimo, não desperdiçando assim quaisquer bits nos valores não verdadeiramente utilizados enquanto não se limita a flexibilidade desejada.

[046] De acordo com os modelos, pressupõe-se que uma lista do canal de entrada do conteúdo áudio para o qual a matriz de downmix vai ser fornecida está disponível, assim como uma lista do canal de saída indicativa da configuração de saída do alto-falante. Estas listas fornecem informação geométrica sobre cada alto-falante na configuração de entrada e na configuração de saída tal como o ângulo azimutal e o ângulo de elevação.

[047] A Fig. 4 ilustra uma matriz de downmix exemplo tal como conhecida na técnica para mapeamento de uma configuração de entrada 22.2 para uma configuração de saída 5.1. Na coluna à direita 300 da matriz, os respectivos canais de entrada de acordo com a configuração 22.2 são indicados pelos nomes dos alto-falantes associados aos respectivos canais. A linha inferior 302 inclui os respectivos canais de saída da configuração do canal de saída, a configuração 5.1. Mais uma vez, os respectivos canais são indicados pelos nomes do alto-falante associado. A matriz inclui uma pluralidade de elementos da matriz 304, cada uma dotada de um valor de ganho, também referido como um ganho de mixing. O ganho de mixing indica como o nível de um dado canal de entrada é ajustado, por exemplo um dos canais de entrada 300, quando contribuem para um respectivo canal de saída 302. Por exemplo, o elemento da matriz à esquerda superior ilustra um valor de “1” significando que o canal central C na configuração do canal de entrada 300 corresponde totalmente com o canal central C da configuração do canal de saída 302. Do mesmo modo, os respectivos canais à esquerda e à direita nas duas configurações (canais L/R) são completamente mapeados, ou seja, os canais à esquerda/direita na configuração de entrada contribuem completamente para os canais à esquerda/direita na configuração de siada. Outros canais, por exemplo os canais Lc e Rc na configuração de entrada, são mapeados com um nível reduzido de 0,7 para os canais à esquerda e à direita da configuração de saída 302. Tal como pode ser observado da Fig. 4, existe também um número de elementos da matriz não dotados de uma entrada significando que os respectivos canais associados ao elemento da matriz não são mapeados um em relação ao outro ou significando que um canal de entrada ligado a um canal de saída através de um elemento de matriz sem entrada não contribui para o respectivo canal de saída. Por exemplo, nenhum dos canais de entrada à esquerda/direita é mapeado para os canais de saída Ls/Rs, isto é, os canais de entrada à esquerda e à direita não contribuem para os canais de saída Ls/rs. Em vez de fornecer espaços vazios na matriz, também um ganho nulo foi indicado.

[048] A seguir várias técnicas serão descritas sendo aplicadas de acordo com modelos desta invenção para alcançar uma codificação eficiente sem perdas da matriz de downmix. Nos modelos seguintes, será feita referência a uma codificação da matriz de downmix ilustrada na Fig. 4, contudo é rapidamente perceptível que as especificações descritas a seguir podem ser aplicadas a qualquer outra matriz de downmix que pode ser fornecida. De acordo com os modelos uma abordagem para decodificação de uma matriz de downmix é fornecida, na qual a matriz de downmix é codificada explorando a simetria dos pares de alto-falantes da pluralidade de canais de entrada e a simetria dos pares de alto-falantes da pluralidade de canais de saída. A matriz de downmix é descodificada a seguir à sua transmissão para um decodificador, por ex., em um decodificador de áudio que recebe um fluxo de bits incluindo o conteúdo de áudio codificado e também informação codificada ou dados representando a matriz de downmix, permitindo construir no decodificador uma matriz de downmix correspondente à matriz de downmix original. A decodificação da matriz de downmix compreende a recepção de informação codificada representando a matriz de downmix e descodificando a informação codificada para obter a matriz de downmix. De acordo com outros modelos, uma abordagem para codificação da matriz de downmix é fornecida compreendendo a exploração da simetria de pares de alto-falantes da pluralidade de canais de entrada e da simetria de pares de alto-falantes da pluralidade de canais de saída.

[049] Na descrição dos modelos da invenção seguintes, alguns aspectos serão descritos no contexto da codificação da matriz de downmix. Contudo, para o leitor especialista, é nítido que estes aspectos representam também uma descrição da abordagem correspondente para decodificação da matriz de downmix. Do mesmo modo, os aspectos descritos no contexto da decodificação da matriz de downmix representam também uma descrição de uma abordagem correspondente para codificação da matriz de downmix.

[050] De acordo com os modelos, a primeira etapa é aproveitar o número significativo de zero entradas na matriz. Na etapa seguinte, de acordo com os modelos, uma aproveita as regularidades globais e também de nível superior tipicamente apresentadas em uma matriz de downmix. Uma terceira etapa é aproveitar a distribuição típica dos valores de ganho não zero.

[051] De acordo com um primeiro modelo, a abordagem inovadora começa a partir de uma matriz de downmix, tal como pode ser fornecida por um produtor de conteúdo áudio. Para a discussão seguinte, para fins de simplificação, presume-se que a matriz de downmix considerada é aquela constante na Fig. 4. De acordo com a abordagem inovadora, a matriz de downmix da Fig. 4 é convertida para fornecer uma matriz de downmix compacta que pode ser mais eficientemente codificada quando comparada à matriz original.

[052] A Fig. 5 representa esquematicamente a etapa de conversão já mencionada. Na parte superior da Fig. 5, a matriz de downmix original 306 da Fig. 4 é ilustrada convertida de uma maneira que será descrita em mais detalhe em baixo em uma matriz de downmix compacta 308 ilustrada na parte inferior da Fig. 5. De acordo com a abordagem inovadora, o conceito de “pares de alto- falantes simétricos” é utilizado significando que um alto-falante se encontra no semi-plano esquerdo, enquanto o outro está no semi-plano direito, em relação a uma posição de ouvinte. Esta configuração de par simétrico corresponde a dois alto-falantes dotados do mesmo ângulo de elevação, enquanto são dotados do mesmo valor absoluto para o ângulo azimutal mas com diferentes símbolos.

[053] De acordo com os modelos, diferentes classes de grupos de alto- falantes são, definidos, principalmente alto-falantes simétricos S, alto-falantes centrais C, e alto-falantes assimétricos A. Aos alto-falantes centrais são aqueles alto-falantes cujas posições não alteram quando se altera o símbolo do ângulo azimutal da posição do alto-falante. Os alto-falantes assimétricos são aqueles alto-falantes que têm falta de outro ou alto-falante simétrico correspondente em uma dada configuração, ou nalgumas raras configurações o alto-falante no outro lado pode ter um diferente ângulo de elevação ou ângulo azimutal de modo que neste caso existem dois alto-falantes assimétricos separados em vez de um par simétrico. Na matriz de downmix 306 ilustrada na Fig. 5, a configuração do canal de entrada 300 inclui nove pares de alto- falantes simétricos S1 a S9 indicados na parte superior da Fig. 5. Por exemplo, o par de alto-falantes simétricos S1 inclui os alto-falantes Lc e Rc da configuração do canal de entrada 300. Também os alto-falantes LFE na configuração de entrada 22.2 são alto-falantes simétricos visto serem dotados de, relativamente à posição do ouvinte, o mesmo ângulo de elevação e o mesmo ângulo azimutal absoluto com diferentes símbolos. A configuração do canal de entrada 22.2 300 inclui ainda seis alto-falantes centrais C1 a C6, em especial C, Cs, Cv, Ts, Cvr e Cb. Nenhum canal assimétrico está presente na configuração do canal de entrada. A configuração do canal de saída 302, para além da configuração do canal de entrada, inclui apenas dois pares de alto- falantes simétricos S10 e S11, e um alto-falante central C7 e um alto-falante simétrico A1.

[054] De acordo com o modelo descrito, a matriz de downmix 306 é convertida para uma representação compacta 308 através de agrupar os alto- falantes de entrada e de saída que formam pares de alto-falantes simétricos. O agrupamento dos respectivos alto-falantes produz uma configuração de entrada compacta 310 incluindo os mesmos alto-falantes centrais C1 a C6 tal como na configuração de entrada original 300. Contudo, quando comparado com a configuração de entrada original 300 os alto-falantes simétricos S1 a S9 são respectivamente, agrupados de modo que os respectivos pares ocupam agora apenas uma única linha, tal como indicado na parte inferior da Fig. 5. De maneira idêntica, também a configuração do canal de saída original 302 é convertida em uma configuração do canal de saída compacto 312 também incluindo os alto-falantes centrais e não simétricos originais, em especial o alto- falante central C7 e o alto-falante assimétrico A1. Contudo, os respectivos pares de alto-falantes S10 e S11 foram combinados em uma única coluna. Desse modo, tal como pode ser observado da Fig. 5, a dimensão da matriz de downmix original 306 de 24 x 6 foi reduzida para uma dimensão da matriz de downmix compacta 308 de 15 x 4.

[055] No modelo descrito relativamente à Fig. 5 pode observar-se que na matriz de downmix original 306 os ganhos de mixing associados aos respectivos pares de alto-falantes simétricos S1 a S11, que indicam o quão fortemente um canal de entrada contribui para um canal de saída, encontram- se simetricamente colocados para pares de alto-falantes simétricos correspondentes no canal de entrada e no canal de saída. Por exemplo, quando se observa no par S1 e S10, os respectivos canais à esquerda e à direita são combinados com o ganho 0. Desse modo, quando se agrupa os respectivos canais de uma maneira ilustrada na matriz de downmix compacta 308, os elementos da matriz de downmix compacta 314 podem incluir os respectivos ganhos de mixing também descritos relativamente à matriz de downmix original 306. Assim, de acordo com o modelo descrito em cima, o tamanho da matriz de downmix original é reduzido agrupando pares de alto- falantes simétricos de modo que a representação “compacta” 308 possa ser codificada mais eficientemente do que a matriz de downmix original.

[056] Relativamente à Fig. 6, um modelo adicional desta invenção será agora descrito. O ganho da Fig. 6 ilustra uma matriz de downmix compacta 308 dotada de um canal de entrada e de saída convertido 310, 312, tal como já ilustrado e descrito relativamente à Fig. 5. No modelo da Fig. 6, as entradas da matriz 314 da matriz de downmix compacta, para além da Fig. 5, não representam quaisquer valores de ganho, mas os chamados “ganhos de significância”. Um valor de significância indica se nos respectivos elementos da matriz 314 quaisquer dos ganhos nela associados é ou não zero. Aqueles elementos 314 que ilustram o valor “1” indicam que o respectivo elemento tem nele associado um valor de ganho, enquanto os elementos da matriz vazia que indicam nenhum valor ganho ou ganho zero está associado a este elemento. De acordo com este modelo, a substituição dos atuais valores de ganho pelos valores de significância permite codificação ainda mais eficiente da matriz de downmix compacta quando comparado com a Fig. 5 visto que a representação 308 da Fig. 6 pode ser simplesmente codificada utilizando, por exemplo, um bit por entrada indicando um valor de 1 ou um valor de 0 para os respectivos valores de significância. Além disso, para além de codificar os valores de significância será também necessário codificar os respectivos valores de ganho associados aos elementos da matriz de modo que após a decodificação da informação recebida a matriz de downmix completa possa ser reconstruída.

[057] De acordo com outro modelo, a representação da matriz de downmix nesta forma compacta tal como ilustrado na Fig. 6 pode ser codificada utilizando um esquema de comprimento. Nesse esquema de comprimento, os elementos da matriz 314 são transformados em um vetor unidimensional concatenando as linhas a partir da linha 1 e terminando na linha 15. Este vetor unidimensional é então convertido em uma lista contendo os comprimentos, por exemplo o número de zeros consecutivos que termina em 1. No modelo da Fig. 6, isto produz a lista que se segue:

[058] em que (1) representa uma terminação virtual no caso de o vetor de bits terminar em 0. O comprimento ilustrado em cima pode ser codificado utilizando um esquema de codificação adequado, tal como uma codificação de Golomb-Rice limitada que atribui um código de prefixo de comprimento variável para cada número, de modo que o comprimento de bits total seja minimizado. A abordagem de codificação de Golomb-Rice é utilizada para codificar um número inteiro não negativo n>0, utilizando um parâmetro de número inteiro não negativo p>0 do seguinte modo: primeiro, o número h = [n/2p] é codificado utilizando uma codificação unária, o h um (1) bits seguido por uma terminação de zero bits, depois o número l = n - h• 2p é uniformemente codificado utilizando p bits.

[059] A codificação de Golomb-Rice limitada é uma variante trivial utilizada quando é sabido com antecedência que n<N. Não inclui a terminação de zero bits aquando da codificação do valor máximo possível de h, que é hmax = [(N - 1)/2p]. Mais exatamente, para codificar h = hmax apenas h um (1) bits são utilizados sem a terminação de zero bits, que não é necessária pois o decodificador pode implicitamente detectar esta condição.

[060] Tal como mencionado em cima, os ganhos associados ao respectivo elemento 314 precisam ser também codificados e transmitidos e os modelos para isto serão descritos em detalhe em baixo. Antes da discussão da codificação dos ganhos em detalhe, modelos adicionais para codificação da estrutura da matriz de downmix compacta na Fig. 6 será agora descrita.

[061] A Fig. 7 descreve um modelo adicional para codificação da estrutura da matriz de downmix compacta fazendo uso do fato de que matrizes compactas típicas têm uma estrutura significativa de modo que sejam regra geral idênticas a uma matriz modelo disponível tanto em um codificador de áudio e em um decodificador de áudio. A Fig. 7 ilustra a matriz de downmix compacta 308 dotada de valores de significância, tal como ilustrado também na Fig. 6. Além disso, a Fig. 7 ilustra um exemplo de uma matriz modelo possível 316 dotada da mesma configuração do canal de entrada e de saída 310’, 312’. A matriz modelo, tal como a matriz de downmix compacta, inclui valores de significância nos respectivos elementos da matriz modelo 314’ basicamente da mesma maneira que na matriz de downmix compacta, exceto que a matriz modelo, que, tal como mencionado em cima, é apenas “idêntica“ à matriz de downmix compacta, difere nalguns dos elementos 314’. A matriz modelo 316 difere da matriz de downmix compacta 308 na medida em que na matriz de downmix compacta 308 os elementos da matriz 318 e 320 não incluem quaisquer valores de ganho, enquanto a matriz modelo 316 inclui nos elementos de matriz correspondentes 318’ e 320’ o valor de significância. Assim, a matriz modelo 316, relativamente às entradas realçadas 318’ e 320’ difere da matriz compacta que precisa ser codificada. Para obter uma codificação ainda mais eficiente da matriz de downmix compacta, quando comparada à Fig. 6, os elementos correspondentes da matriz 314, 314’ nas duas matrizes 308, 316 são uma combinação lógica para obter, de uma maneira idêntica tal como descrito relativamente à Fig. 6, um vetor unidimensional que pode ser codificado de uma mesma maneira tal como descrito em cima. Cada um dos elementos da matriz 314, 314’ pode ser sujeito a uma operação XOR, mais especificamente uma operação XOR de elementos lógicos é aplicada à matriz compacta utilizando o modelo compacto que produz um vetor unidimensional convertido em uma lista contendo os seguintes comprimentos:

[062] A lista pode ser agora codificada, por exemplo utilizando também a codificação de Golomb-Rice. Quando comparado com o modelo descrito relativamente à Fig. 6, pode ser observado que esta lista pode ser codificada ainda mais eficientemente. No melhor dos casos, quando a matriz compacta é idêntica à matriz modelo, todo o vetor é constituído apenas de zeros e apenas um número de comprimento precisa ser codificado.

[063] Relativamente ao uso de uma matriz modelo, tal como tem sido descrito relativamente à Fig. 7, dever-se-á ter em atenção que ambos codificador e decodificador precisam ter um conjunto pré-definido de tais modelos compactos unicamente determinados por um conjunto de alto-falantes de entrada e de saída, ao contrário de uma configuração de entrada e de saída definida pela lista de alto-falantes. Isto significa que a instrução de alto-falantes de entrada e de saída não é relevante para determinação definição da matriz modelo, pelo contrário pode ser permutada antes da utilização para corresponder a instrução a uma dada matriz compacta.

[064] A seguir, tal como mencionado antes, modelos serão descritos relativamente à codificação dos ganhos de mixing fornecidos na matriz de downmix original que já não se encontram presentes na matriz de downmix compacta e que precisam ser também codificados e transmitidos.

[065] A Fig. 8 descreve um modelo para codificação de ganhos de mixing. Este modelo utiliza as propriedades de sub-matrizes que correspondem a uma ou mais entradas não nulas na matriz de downmix original, de acordo com diferentes combinações de grupos de alto-falantes de entrada e de saída, em especial grupos S (simétricos, L e R), C (centrais) e A (assimétricos). A Fig. 8 descreve possíveis sub-matrizes que podem ser derivadas da matriz de downmix ilustrada na Fig. 4, de acordo com diferentes combinações de alto- falantes de entrada e de saída, em especial alto-falantes L e R, alto-falantes centrais C e alto-falantes assimétricos A. Na Fig. 8, as letras a, b, c e d representam valores de ganho arbitrários.

[066] A Fig.8(a) ilustra quatro possíveis sub-matrizes podendo ser derivadas da matriz da Fig. 4. A primeira é uma sub-matriz que define o mapeamento de dois canais centrais, por exemplo os alto-falantes C na configuração de entrada 300 e o alto-falante C na configuração de saída 302, e o valor de ganho “a” é o valor de ganho indicado no elemento da matriz [1, 1] (elemento à esquerda superior na Fig. 4). A segunda sub-matriz na Fig. 8(a) representa, por exemplo, o mapeamento de dois elementos de entrada simétricos, por exemplo canais de entrada Lc e Rc, a um alto-falante central, tal como o alto-falante C, na configuração do canal de saída. Os valores de ganho “a” e “b” são os valores de ganho indicados nos elementos da matriz [1, 2] e [1, 3]. A terceira sub-matriz na Fig. 8(a) diz respeito ao mapeamento de um alto- falante central C, tal como o alto-falante Cvr na configuração de entrada 300 da Fig. 4, a dois canais simétricos, tal como os canais Ls e Rs, na configuração de saída 302. Os valores de ganho “a” e “b” são os valores de ganho indicados nos elementos da matriz [4, 21] e [5, 21]. A quarta matriz na Fig. 8(a) representa um caso em que dois canais simétricos são mapeados, por exemplo os canais L, R, na configuração de entrada 300 são mapeados para os canais L, R, na configuração de saída 302. Os valores de ganho “a” a “d” são os valores de ganho indicados nos elementos da matriz [2, 4], [2, 5], [3, 4] e [3, 5].

[067] A Fig. 8(b) ilustra as sub-matrizes aquando do mapeamento de alto- falantes assimétricos. A primeira representação é uma sub-matriz obtida através do mapeamento de dois alto-falantes assimétricos (nenhum exemplo para essa sub-matriz é ilustrado na Fig. 4). A segunda sub-matriz da Fig. 8(a) diz respeito ao mapeamento de dois canais de entrada simétricos em um canal de saída assimétrico que, no modelo da Fig. 4 é, por exemplo, o mapeamento dos dois canais de entrada assimétricos LFE e LFE2 no canal de saída LFE. Os valores de ganho “a” e “b” são os valores de ganho indicados nos elementos da matriz [6, 11] e [6, 12]. A terceira sub-matriz na Fig. 8(b) representa o caso no qual um alto-falante assimétrico de entrada corresponde a um par simétrico de alto-falantes de saída. No caso exemplo não existe alto- falante de entrada assimétrico.

[068] A Fig. 8(c) ilustra duas sub-matrizes para mapeamento de alto- falantes centrais para alto-falantes assimétricos. A primeira sub-matriz mapeia um alto-falante central de entrada para um alto-falante de saída assimétrico (nenhum exemplo para essa sub-matriz é ilustrado na Fig. 4), e a segunda sub- matriz mapeia um alto-falante de entrada assimétrico para um alto-falante de saída central.

[069] De acordo com este modelo, para cada grupo de alto-falantes de saída, é verificado se a coluna correspondente satisfaz todas as entradas das propriedades de simetria e de separação e esta informação é transmitida como informação lateral utilizando dois bits.

[070] A propriedade de simetria será descrita relativamente às Figs.8(d) e 8(e) e significa que um grupo S, compreendendo alto-falantes L e R, misturam- se com o mesmo ganho em ou do alto-falante central ou um alto-falante assimétrico, ou que o grupo S é igualmente misturado em ou de outro grupo S. as duas possibilidades agora mencionadas de mistura de um grupo S são descritas na Fig.8(d), e as suas sub-matrizes correspondem à terceira e quarta sub-matrizes descritas em cima relativamente à Fig. 8(a). A aplicação da propriedade de simetria agora mencionada, em especial que a mistura utiliza o mesmo ganho, produz a primeira sub-matriz ilustrada na Fig. 8(e) na qual um alto-falante central de entrada C é mapeado para o grupo de alto-falantes simétricos S utilizando o mesmo valor de ganho (Ver, por exemplo, o mapeamento do alto-falante de entrada Cvr para os alto-falantes de saída Ls e Rs na Fig. 4). Isto aplica também o contrário, por exemplo quando se observa o mapeamento dos alto-falantes de entrada Lc, Rc para o alto-falante central C dos canais de saída. Aqui, a mesma propriedade de simetria pode ser encontrada. A propriedade de simetria conduz adicionalmente à segunda sub- matriz ilustrada na Fig. 8(e) de acordo com a qual a mistura entre alto-falantes simétricos significa igualmente que o mapeamento dos alto-falantes à esquerda e o mapeamento dos alto-falantes à direita utilizam o mesmo fator de ganho e o mapeamento do alto-falante à esquerda para o alto-falante à direita e o alto- falante à direita para o alto-falante à esquerda é também efetuado utilizando o mesmo valor de ganho. Isto encontra-se descrito na Fig. 4, pode exemplo relativamente ao mapeamento dos canais de entrada L, R para os canais de saída L, R, com o valor de ganho “a” = 1 e o valor de ganho “b” = 0.

[071] A propriedade de separação significa que um grupo simétrico é misturado em ou de outro grupo simétrico mantendo todos os símbolos do lado esquerdo para a esquerda e todos os símbolos do lado direito para a direita. Isto aplica-se para a sub-matriz ilustrada na Fig. 8(f) que corresponde à quarta sub-matriz descrita em cima relativamente à Fig.8(a). A aplicação da propriedade de separação agora descrita conduz à sub-matriz ilustrada na Fig. 8(g) de acordo com a qual o canal de entrada à esquerda é apenas mapeado para o canal de saída à esquerda e o canal de entrada à direita é apenas mapeado para o canal de saída à direita e não existe mapeamento “entre canais” devido aos fatores de ganho de zero.

[072] Utilizando as duas propriedades mencionadas em cima, que se podem encontrar em maioria das matrizes de downmix conhecidas, permite reduzir ainda significativamente o número real de ganhos que precisam ser codificados e também diretamente eliminar a codificação necessária para um grande número de ganhos zero no caso de cumprimento com a propriedade de separação. Por exemplo, quando se considera a matriz compacta da Fig. 6, incluindo os valores de significância e quando se aplica as propriedades em cima referidas à matriz de downmix original, pode-se observar ser suficiente definir um único valor de ganho para os respectivos valores de significância, por exemplo na maneira ilustrada na Fig. 5 na parte inferior tal como, devido às propriedades de separação e simetria, é conhecido o modo como os respectivos valores de ganho associados aos respectivos valores de significância precisam ser distribuídos entre a matriz de downmix original após a decodificação. Assim, aquando da aplicação do modelo descrito em cima da Fig. 8, relativamente à matriz ilustrada na Fig. 6, é suficiente apenas fornecer 19 valores de ganho que precisam ser codificados e transmitidos juntamente com os valores de significância codificados para permitir ao decodificador reconstruir a matriz de downmix original.

[073] A seguir, um modelo será descrito para dinamicamente criar uma tabela de ganhos que podem ser utilizados para definir os valores de ganho originais na matriz de downmix original, por exemplo por um produtor de conteúdo áudio. De acordo com este modelo, uma tabela de ganhos é criada dinamicamente entre um valor de ganho mínimo (minGain) e um valor de ganho máximo (maxGain) utilizando uma precisão especificada. De preferência, a tabela é criada de modo que os valores mais frequentemente utilizados e também os valores mais “arredondados” sejam colocados mais próximos do início da tabela ou lista do que os outros valores, em especial os valores não tão frequentemente utilizados ou os valores não tão arredondado. De acordo com um modelo, a lista de possíveis valores que utilizam minGain, maxGain e ao nível de precisão pode ser criada do seguinte modo: - adicionar números inteiros múltiplos de 3 dB, descendo de 0 dB para minGain; - adicionar números inteiros múltiplos de 3 dB, subindo de 3 dB para maxGain; - adicionar restantes números inteiros múltiplos de 1 dB, descendo de 0 dB para minGain; - adicionar restantes números inteiros múltiplos de 1 dB, subindo de 1 dB para maxGain; - parar aqui se o nível de precisão for 1 dB; - adicionar restantes números inteiros múltiplos de 0,5 dB, descendo de 0 dB para minGain; - adicionar restantes números inteiros múltiplos de 0,5 dB, subindo de 0,5 dB para maxGain; - parar aqui se o nível de precisão for 0,5 dB; - adicionar restantes números inteiros múltiplos de 0,25 dB, descendo de 0 dB para minGain; e - adicionar restantes números inteiros múltiplos de 0,25 dB, subindo de 0,25 dB para maxGain.

[074] Por exemplo, quando maxGain é de 2 dB e minGain é de -6 dB, e a precisão é de 0,5 dB, a seguinte lista é criada: 0, -3, -6, -1, -2, -4, -5, 1, 2, -0,5, -1,5, -2,5, -3,5, -4,5, -5,5, 0,5, 1,5.

[075] Relativamente ao modelo em cima, dever-se-á ter em atenção que a invenção não se limita aos valores indicados em cima, pelo contrário, em vez de utilizar números inteiros múltiplos de 3dB e iniciar de 0dB, outros valores podem ser selecionados e também outros valores para o nível de precisão podem ser selecionados dependendo das circunstâncias.

[076] Regra geral, a lista de valores de ganho pode ser criada do seguinte modo: - adicionar números inteiros múltiplos de um primeiro valor de ganho, inclusive, e um valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos do primeiro valor de ganho, entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive, em ordem crescente; - adicionar restantes números inteiros múltiplos de um primeiro nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos de um primeiro nível de precisão, entre o valor de ganho inicial, inclusive, e o valor máximo, inclusive, em ordem crescente; - parar aqui se o nível de precisão for o primeiro nível de precisão; - adicionar restantes números inteiros múltiplos de um segundo nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos de um segundo nível de precisão, entre o valor de ganho inicial, inclusive, e o valor máximo, inclusive, em ordem crescente; - parar aqui se o nível de precisão for o segundo nível de precisão; - adicionar restantes números inteiros múltiplos de um terceiro nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; e - adicionar restantes números inteiros múltiplos de um terceiro nível de precisão, entre o valor de ganho inicial, inclusive, e o valor máximo, inclusive, em ordem crescente.

[077] No modelo em cima, quando o valor de ganho inicial é zero, as partes que adicionam valores restantes em ordem decrescente e cumprem com a condição de multiplicidade associada irá inicialmente adicionar o primeiro valor de ganho ou o primeiro ou o segundo ou o terceiro nível de precisão. Contudo, no caso geral, as partes que adicionam os valores restantes em ordem crescente irão inicialmente adicionar o valor mais pequeno, cumprindo a condição de multiplicidade associada, no intervalo entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive. Correspondentemente, as partes que adicionam valores restantes em ordem decrescente irão inicialmente adicionar o maior valor, cumprindo a condição de multiplicidade associada, no intervalo entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive.

[078] Considerando um exemplo idêntico ao exemplo em cima, mas com um valor de ganho inicial = 1dB (um primeiro valor de ganho = 3dB, maxGain = 2dB, minGain = -6dB e nível de precisão = 0,5dB) produz o seguinte: Descendente: 0, -3, -6 Ascendente: [vazio] Descendente: 1, -2, -4, -5 Ascendente: 2 Descendente: 0,5, -0,5, -1,5, -2,5, -3,5, -4,5, -5-5 Ascendente: 1,5

[079] Para codificar um valor de ganho, de preferência o ganho é procurado na tabela e a sua posição no interior da tabela é retirada. O ganho desejado irá sempre ser encontrado devido a todos os ganhos serem previamente quantizados para o número inteiro múltiplo mais próximo da precisão especificada de, por exemplo, 1dB, 0,5dB ou 0,25dB. De acordo com um modelo preferido, as posições dos valores de ganho têm a elas associadas um índice, indicando a posição na tabela e os índices dos ganhos podem ser codificados, por exemplo, utilizando a abordagem de codificação de Golomb- Rice limitada. Isto resulta em pequenos índices para utilizarem um número mais pequeno de bits do que grandes índices e, desta maneira, os valores frequentemente utilizados ou os valores típicos, como 0dB, -4dB, irão usar um número de bits mais pequeno do que os números não tão arredondados (por exemplo -4,5 dB). Assim, ao utilizar o modelo descrito em cima não apenas um produtor do conteúdo áudio pode gerar uma lista de ganhos desejada, mas estes ganhos podem ser também codificados muito eficientemente de modo que aquando da aplicação, de acordo com ainda outro modelo, de todas as abordagens descritas em cima, uma codificação altamente eficiente de matrizes de downmix pode ser obtida.

[080] A funcionalidade descrita em cima pode fazer parte de um codificador de áudio tal como tem sido descrito em cima relativamente à Fig. 1, em alternativa pode ser fornecido por um dispositivo codificador em separado que fornece uma versão codificada da matriz de downmix ao codificador áudio a ser transmitida no fluxo de bits ao receptor ou decodificador.

[081] Após a recepção da matriz de downmix compacta codificada no lado receptor, de acordo com modelos um método para decodificação é fornecido que descodifica a matriz de downmix compacta codificada e desagrupa (separa) os alto-falantes agrupados em únicos alto-falantes, produzindo assim a matriz de downmix original. Quando a codificação da matriz inclui a codificação de valores de significância e os valores de ganho, durante a etapa de decodificação, estes são decodificados de modo que com base nos valores de significância e com base na configuração de entrada/saída desejada, a matriz de downmix possa ser reconstruída e os respectivos ganhos decodificados possam ser associados aos respectivos elementos da matriz da matriz de downmix reconstruída. Isto pode ser executado por um decodificador separado que produz a matriz de downmix completa ao decodificador de áudio que pode utilizar nela um conversor de formato, por exemplo, o decodificador de áudio descrito em cima relativamente às Figs. 2, 3 e 4.

[082] Desse modo, a abordagem inovadora tal como definida em cima fornece também um sistema e um método para apresentar um conteúdo áudio dotado de uma configuração do canal de entrada específica para um sistema de recepção dotado de uma configuração do canal de saída diferente, em que a informação adicional para o downmix é transmitida juntamente com o fluxo de bits codificado a partir do lado codificador para o lado decodificador e, de acordo com a abordagem inovadora, devido à codificação muito eficiente das matrizes de downmix o cabeçalho é claramente reduzido.

[083] A seguir, um modelo adicional que implementa a codificação da matriz de downmix estática eficiente é descrito. Mais especificamente, um modelo para uma matriz de downmix estática com codificação EQ opcional será descrito. Tal como também mencionado anteriormente, um tema relacionado com áudio multicanal é alojar a sua transmissão em tempo real, enquanto mantém a compatibilidade com todas as etapas de alto-falantes físicos existentes disponíveis ao consumidor. Uma solução é fornecer, juntamente com o conteúdo áudio no formato de produção original, informação paralela de downmix para gerar os outros formatos com canais menos independentes, caso necessário. Pressupondo canais de entrada inputCount e canais de saída outputCount, o procedimento de downmix é especificado por uma matriz de downmix de tamanho inputCount por outputCount. Este procedimento especial representa um downmix passivo, significando que nenhum processamento de sinal adaptável dependendo do verdadeiro conteúdo áudio é aplicado aos sinais de entrada ou aos sinais de saída downmixed. A abordagem inovadora, de acordo com o modelo agora descrito, descreve um esquema completo para codificação eficiente de matrizes de downmix, incluindo aspectos sobre a escolha de um domínio de representação adequado e esquema de quantização, mas também sobre codificação sem perdas dos valores quantizados. Cada elemento da matriz de downmix representa um ganho mixing que ajusta o nível que um dado canal de entrada contribui para um dado canal de saída. O modelo agora descrito tem como objetivo alcançar flexibilidade sem restrições permitindo codificação de matrizes de downmix arbitrárias, com um alcance e uma precisão que podem ser especificadas pelo produtor de acordo com as suas necessidades. Também uma codificação sem perdas eficiente é desejada, de modo que matrizes típicas utilizam uma pequena quantidade de bits, e o afastamento das matrizes típicas irá apenas gradualmente reduzir a eficiência. Isto significa que quanto mais idêntica uma matriz é com uma típica, mais eficiente a sua codificação será. De acordo com os modelos, a precisão exigida pode ser especificada pelo produtor como 1, 0,5 ou 0,25 dB, a serem utilizados para quantização uniforme. Os valores dos ganhos de mixing podem ser especificados entre um máximo de +22 dB a um mínimo de -47 dB inclusive, e também incluindo o valor - ^ (0 em domínio linear). O alcance do valor eficiente utilizado na matriz de downmix é indicado no fluxo de bits como um valor de ganho máximo maxGain e um valor de ganho mínimo minGain, não desperdiçando assim quaisquer bits nos valores que não são verdadeiramente utilizados enquanto não limitando a flexibilidade.

[084] Pressupondo que uma lista de canais de entrada e também uma lista de canais de saída está disponível, fornecendo informação geométrica sobre cada alto-falante, tal como os ângulos azimutais e de elevação e opcionalmente o nome convencional do alto-falante, por exemplo de acordo com as referências [6] ou [7] da técnica anterior, um algoritmo para decodificação de uma matriz de downmix, de acordo com os modelos, pode ser tal como ilustrado na tabela 1 seguinte: Tabela 1 - Sintaxe da Matriz de Downmix

[085] Um algoritmo para decodificação de valores de gan ho, de acordo com os modelos, pode ser tal como ilustrado na tabela 2 seguinte: Tabela 2 - Sintaxe de DecodeGainValue

[086] Um algoritmo para definir a função de alcance de leitura, de acordo com os modelos, pode ser tal como ilustrado na tabela 3 seguinte: Tabela 3 - Sintaxe de Alcance de Leitura

[087] Um algoritmo para definir a configuração do equalizador, de acordo com os modelos, pode ser tal como ilustrado na tabela 4 seguinte: Tabela 4 - Sintaxe de EqualizerConfig

[088] Os elementos da matriz de downmix, de acordo com os modelos, podem ser tal como ilustrado na tabela 5 seguinte: Tabela 5 - Elementos de Matriz de Downmix

[089] A codificação de Golombo-Rice é utilizada para codificar qualquer número inteiro não negativo

utilizando um dado parâmetro de número inteiro não negativo

do seguinte modo: primeiro codifica o número

utilizando codificação unária, como um bits seguido por um zero bits final; depois codifica o número

uniformemente utilizando bits.

[090] A codificação de Golombo-Rice limitada é uma variante trivial utilizada quando é sabido com antecedência que

para um dado número inteiro

Não inclui o zero bit final quando se codifica o valor máximo possível de h1 que é

Mais exatamente, para codificar

escrevemos apenas um bits, não necessário porque o decodificador pode implicitamente detectar esta condição.

[091] A função ConvertToCompactConfig(paramConfig, paramCount) descrita em baixo é utilizada para converter a configuração paramConfig dada constituída por alto-falantes paramCount na configuração compactPAramConfig compacta constituída por grupos de alto-falantes compactParamCount. A área compactParamConfig[i].pairType pode ser SIMÉTRICA (S), quando o grupo representa um par de alto-falantes simétricos, CENTRAL (C), quando o grupo de alto-falantes representa um alto-falante central, ou ASSIMÉTRICA (A), quando o grupo de alto-falantes representa um alto-falante sem um par simétrico. ConvertToCompactConfig(paramConfig, paramCount) { for (i = 0; i < paramCount; ++i) { paramConfig[i].alreadyUsed = 0; } idx = 0; for (i = 0; i < paramCount; ++i) { if (paramConfig[i].alreadyUsed) continue; compactParamConfig[idx].isLFE = paramConfig[i].isLFE; if ((paramConfig[i].AzimuthAngle == 0) || (paramConfig[i].AzimuthAngle == 180°) { compactParamConfig[idx].pairType = CENTER; compactParamConfig[idx].originalPosition = i; } or { j = SearchForSymmetricSpeaker(paramConfig, paramCount, i); if (j != -1) { compactParamConfig[idx].pairType = SYMMETRIC; if (paramConfig.AzimuthDirection == 0) { compactParamConfig[idx].originalPosition = i; compactParamConfig[idx].symmetricPair.originalPosition = j; } or { compactParamConfig[idx].originalPosition = j; compactParamConfig[idx].symmetricPair.originalPosition = i; } paramConfig[j].alreadyUsed = 1; } or { compactParamConfig[idx].pairType = ASYMMETRIC; compactParamConfig[idx].originalPosition = i; } } idx++; } compactParamCount = idx; }

[092] A função FindCompactTemplate(inputConfig, inputCount, outputConfig, outputCount) é utilizada para descobrir uma matriz modelo compacta correspondente à configuração do canal de entrada representada por inputConfig e inputCount, e a configuração do canal de saída representada por outputConfig e outputCount.

[093] A matriz modelo compacta é encontrada por pesquisa em uma lista pré-determinada de matrizes modelo compactas, disponíveis em ambos codificador e decodificador, para uma com o mesmo conjunto de alto-falantes de entrada como inputConfig e o mesmo conjunto de alto-falantes de saída como outputConfig, independentemente da verdadeira ordem do alto-falante, não sendo relevante. Antes de devolver a matriz modelo compacta descoberta, a função pode precisar de reordenar novamente as suas linhas e colunas para corresponderem aos grupos de alto-falantes tal como derivados da configuração de entrada dada e a ordem dos grupos de alto-falantes tal como derivados da configuração de saída dada.

[094] Se uma matriz modelo compacta correspondente não for descoberta, a função deverá devolver uma matriz com o número correto de linhas (o número calculado de grupos de alto-falantes de entrada) e colunas (o número calculado de grupos de alto-falantes de saída), que para todas as entradas é o valor um (1).

[095] A função SearchForSymmetricSpeaker(paramConfig, paramCount, i) é utilizada para procurar a configuração do canal representada por paramConfig e paramCount para o alto-falante simétrico correspondente ao alto-falante paramConfig[i]. Este alto-falante simétrico, paramConfig[i], deverá esta situado após o alto-falante paramConfig[i], por isso j pode estar ao alcance i+1 para paramConfig - 1, inclusive. Adicionalmente, não deverá fazer já parte de um grupo de alto-falantes, significando que paramConfig[i].alreadyUsed deverá ser falso.

[096] A função readRange() é utilizada para ler um número inteiro uniformemente distribuído no alcance de 0 ... alphabetSize - 1 inclusive, que pode ter um total de valores possíveis de alpjaSize. Isto pode simplesmente ser feito através da leitura de bits de ceil(log2(alphabetSize)), mas sem tirar proveito dos valores não utilizados. Por exemplo, quando alphabetSize é 3, a função irá utilizar apenas um bit para o número inteiro de 0, e dois bits para os números inteiros 1 e 2.

[097] A função generateGainTable(maxGain), minGain, precisionLevel) é utilizada para dinamicamente gerar a tabela de ganhos gainTable que contém a lista de todos os ganhos possíveis entre minGain e maxGain com precisão de precisionLevel. A ordem dos valores é escolhida de modo que os valores mais frequentemente utilizados e também os valores mais “arredondados” estariam tipicamente mais próximos do início da lista. A tabela de ganhos com a lista de todos os valores de ganhos possíveis é gerada do seguinte modo: - adicionar números inteiros múltiplos de 3 dB, descendo de 0 dB para minGain; - adicionar números inteiros múltiplos de 3 dB, subindo de 3 dB para maxGain; - adicionar restantes números inteiros múltiplos de 1 dB, descendo de 0 dB para minGain; - adicionar restantes números inteiros múltiplos de 1 dB, subindo de 1 dB para maxGain; - parar aqui se o nível de precisão for 0 (correspondendo a 1 dB); - adicionar restantes números inteiros múltiplos de 0,5 dB, descendo de 0 dB para minGain; - adicionar restantes números inteiros múltiplos de 0,5 dB, subindo de 0,5 dB para maxGain; - parar aqui se o precisionLevel for 1 (correspondendo a 0,5 dB); - adicionar restantes números inteiros múltiplos de 0,25 dB, descendo de 0 dB para minGain; e - adicionar restantes números inteiros múltiplos de 0,25 dB, subindo de 0,25 dB para maxGain.

[098] Por exemplo, quando maxGain é de 2 dB e minGain é de -6 dB, e o precisionLevel é 0,5 dB, criamos a seguinte lista: 0, -3, -6, -1, -2, -4, -5, 1, 2, - 0,5, -1,5, -2,5, -3,5, -4,5, -5,5, 0,5, 1,5.

[099] Os elementos para a configuração do equalizador, de acordo com os modelos, podem ser tal como ilustrado na tabela 6 seguinte: Tabela 6 - Elementos de EqualizerConfig

[0100] Nos aspectos que se seguem do processo de decodificação de acordo com os modelos serão descritos, começando com a decodificação da matriz de downmix.

[0101] O elemento de sintaxe DownmixMAtrix() contém a informação da matriz de downmix. A decodificação lê primeiro a informação do equalizador representada pelo elemento de sintaxe EqualizerConfig(),, caso permita. Os campos precisionLevel, maxGain, e minGain são então lidos. As configurações de entrada e de saída são convertidas em configurações compactas utilizando a função ConvertToCompactConfig(). Depois, as bandeiras indicadoras de se as propriedades de separação e simétricas são cumpridas para cada grupo de alto-falantes de saída são lidas.

[0102] A matriz de significância compactDownmixMatrix é então lida, seja a) em bruto utilizando um bit por entrada, ou b) utilizando a codificação de Golomb-Rice limitada dos comprimentos, e depois copiando os bits decodificados de flactCompactMatrix para compactDownmixMatrix e aplicando a matriz compactTemplate.

[0103] Finalmente, os ganhos não zero são lidos. Para cada entrada não nula de compactDownmixMatrix, dependendo do campo pairType do grupo de entrada correspondente e do campo pairType do grupo de saída correspondente, uma sub-matriz de dimensões até 2 por 2 de valores ganhos tem de ser reconstruída. Utilizando as propriedades de separação e de simetria associadas, um número de valore de ganho é lido utilizando a função DecodeGainValue(). Um valor de ganho pode ser uniformemente codificado, utilizando a função ReadRange(), ou utilizando a codificação de Golomb-Rice dos índices do ganho na tabela gainTable, que contém todos os possíveis valores de ganho.

[0104] Em seguida, aspectos da decodificação da configuração do equalizador serão descritos. O elemento de sintaxe EqualizerConfig() contém a informação do equalizador que vai ser aplicada aos canais de entrada. Um número de filtros do equalizador numEqualizer é primeiro decodificado e depois selecionado para canais de entrada específicos utilizando eqIndex[i]. Os campos eqPrecisionLevel e eqExtendedRange indicam a precisão de quantização e o alcance disponível dos ganhos de escala e dos ganhos do filtro máximo.

[0105] Cada filtro do equalizador é uma cascata em série constituída por um número de numSections de filtros máximos e um scalingGain. Cada filtro máximo é totalmente definido pelo seu centerFreq, qualityFator e centerGain.

[0106] Os parâmetros centerFreq dos filtros máximos que pertencem a um dado filtro do equalizador deverão ser dados em ordem não decrescente. O parâmetro é limitado a 10 ... 24000 Hz inclusive, e é calculado como

[0107] O parâmetro qualityFator do filtro máximo pode representar valores entre 0,05 e 1,0 inclusive com uma precisão de 0,05 e de 1,1 a 11,3 inclusive com uma precisão de 0,1 e é calculado como

[0108] O vetor eqPrecisions é introduzido dando a precisão em dB correspondente a um dado eqPrecisionLevel, e as matrizes eqMinRanges e eqMaxRanges que dão os valores mínimo e máximo em dB para os ganhos correspondentes a um dado eqExtendedRange e eqPrecisionLevel. eqPrecisions[4] = {1,0, 0,5, 0,25, 0,1}; eqMinRanges[2][4] = {{-8,0, -8,0, -8,0, -6,4}, {-16,0, -16,0, -16,0, - 12,8}}; eqMaxRanges[2][4] = {{7,0, 7,5, 7,75, 6,3}, {15,0, 15,5, 15,75, 12,7}};

[0109] O parâmetro scalingGain utiliza o nível de precisão min(eqPrecisionLevel + 1,3), o próximo melhor nível de precisão se não mesmo o último. Os mapeamentos dos campos centerGainIndex e scalingGainIndex para os parâmetros de ganhos centerGain e scalingGain são calculados como

[0110] Apesar de alguns aspectos terem sido descritos no contexto de um aparelho, é nítido que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica da etapa do método. Do mesmo modo, aspectos descritos no contexto de uma etapa do método representam também uma descrição de um bloco ou item ou característica correspondente do aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizar) um aparelho de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Nalguns modelos, uma ou mais das etapas mais importante do método podem ser executadas por esse tipo de aparelho.

[0111] Dependendo de certos requisitos de implementação, modelos da invenção podem ser implementados em hardware ou software. A implementação pode ser executada utilizando um suporte de memória não transitória tal como um suporte de memória digital, por exemplo, um disquete, um disco rígido, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, dotado de sinais de controle legíveis eletronicamente aí armazenados, cooperando (ou capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja executado. Desse modo, o suporte de memória digital pode ser legível por computador.

[0112] Alguns modelos de acordo com a invenção compreendem um suporte de dados dotado de sinais de controle legíveis eletronicamente, capazes de cooperarem com um sistema de computador programável, de modo que um dos métodos aqui descrito seja executado.

[0113] Regra geral, os modelos desta invenção podem ser implementados como um produto de programa de computador com um código do programa, em que o código do programa é operativo para executar um dos métodos quando o produto do programa de computador funciona em um computador. O código do programa pode ser, por exemplo, armazenado em um suporte automático.

[0114] Outros modelos compreendem o programa do computador para executar um dos métodos aqui descritos, armazenados em um suporte automático.

[0115] Por outras palavras, um modelo do método inovador é, pois, um programa de computador dotado de um código do programa para executar um dos métodos aqui descritos, quando o programa do computador funciona em um computador.

[0116] Um modelo adicional do método inovador é, pois, um suporte de dados (ou um suporte de memória digital, ou um suporte legível por computador) compreendendo, nele registado, o programa do computador para executar um dos métodos aqui descritos. O suporte de dados, o suporte de memória digital ou o meio registado são tipicamente tangíveis e/ou não transitórios.

[0117] Um modelo adicional do método inovador é, pois, um fluxo de dados ou uma sequência de sinais representando o programa do computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma ligação de dados de comunicação, por exemplo, através da internet.

[0118] Um modelo adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou adaptado para executar um dos métodos aqui descritos.

[0119] Um modelo adicional compreende um computador tendo nele instalado o programa de computador para executar um dos métodos aqui descritos.

[0120] Um modelo adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou opcionalmente) um programa de computador para executar um dos métodos aqui descritos a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou idêntico. O aparelho ou sistema pode, por exemplo, compreender um servidor de ficheiros para transferir o programa de computador ao receptor.

[0121] Nalguns modelos, um dispositivo de lógica programável (por exemplo, uma rede de portas lógicas programáveis) pode ser utilizado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Nalguns modelos, uma rede de portas lógicas programáveis pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. Regra geral, os métodos são de preferência executados por qualquer aparelho de hardware.

[0122] Os modelos em cima descritos são meramente ilustrativos para os princípios desta invenção. Entende-se que modificações e variações das disposições e os detalhes aqui descritos irão ser notórios a outros especialistas na área. É, pois, objetivo serem limitados apenas pelo âmbito das reivindicações de patente iminente e não pelos detalhes específicos apresentados como descrição e explicação dos modelos aqui presentes.

[0123] Literatura [1] Information technology - Coding of audio-visual objects - Part 3: Audio, AMENDMENT 4: New levels for AAC profiles, ISO/IEC 14496- 3:2009/DAM 4, 2013. [2] ITU-R BS.775-3, “Multichannel stereophonic sound system with and without accompanying picture,” Rec., International Telecommunications Union, Geneva, Switzerland, 2012. [3] K. Hamasaki, T. Nishiguchi, R. Okumura, Y. Nakayama and A. Ando, "A 22.2 Multichannel Sound System for Ultrahigh-definition TV (UHDTV)," SMPTE Motion Imaging J., pp. 40-49, 2008. [4] ITU-R Report BS.2159-4, “Multichannel sound technology in home and broadcasting applications”, 2012. [5] Enhanced audio support and other improvements, ISO/IEC 14496-12:2012 PDAM 3, 2013. [6] International Standard ISO/IEC 23003-3:2012, Information technology - MPEG audio technologies - Part 3: Unified Speech and Audio Coding, 2012. [7] International Standard ISO/IEC 23001-8:2013, Information technology - MPEG systems technologies - Part 8: Coding-independent code points, 2013.

Claims

1. Método para decodificação de uma matriz de downmix (306) para mapear uma pluralidade de canais de entrada (300) de conteúdo áudio para uma pluralidade de canais de saída (302), estando os canais de entrada e de saída (300, 302) associados aos respectivos alto-falantes em posições pré- determinadas relativamente a uma posição do ouvinte, em que a matriz de downmix (306) ser codificada através de exploração da simetria dos pares de alto-falantes (S1-S9) da pluralidade de canais de entrada (300) e a simetria dos pares de alto-falantes (S10-S11) da pluralidade de canais de saída (302), sendo que o método compreende: recepção de informação codificada representando a matriz de downmix codificada (306) de um decodificador; e decodificação da informação codificada para a obtenção da matriz de downmix decodificada (306), caracterizado por os pares respectivos (S1-S11) de canais de entrada e de saída (300, 302) na matriz de downmix (306) terem associados os respectivos ganhos de mixing para adaptar um nível através do qual um dado canal de entrada (300) contribui para um dado canal de saída (302), e o método compreender ainda: decodificação da informação representando os valores de significância codificados da matriz de downmix (306), em que os respectivos valores de significância são atribuídos aos pares (S1-S11) de grupos de alto- falantes simétricos dos canais de entrada (300) e grupos de alto-falantes simétricos dos canais de saída (302), o valor de significância indicando se um ganho de mixing para um ou mais canais de entrada (300) é ou não zero; e decodificação da informação representando os ganhos de mixing codificados da matriz de downmix (306).

2. Método de acordo com a reivindicação 1, caracterizado por valores de significância compreenderem um primeiro valor indicativo de um ganho de mixing zero e um segundo valor indicativo de um ganho de mixing não zero, e em que a decodificação dos valores de significância compreende a decodificação de um vetor unidimensional de comprimento codificado concatenando os valores de significância em uma ordem pré-definida.

3. Método de acordo com a reivindicação 1, caracterizado por decodificação dos valores de significância ter como base um modelo dotado dos mesmos pares de grupos de alto-falantes dos canais de entrada (300) e grupos de alto-falantes dos canais de saída (302), tendo a eles associados valores modelo de significância.

4. Método de acordo com a reivindicação 3, caracterizado por compreender: decodificar um vetor unidimensional de comprimento codificado que combina logicamente os valores de significância e os valores de significância modelo através de um primeiro valor que um valor de significância e um valor de significância modelo são idênticos, e através de um segundo valor que um valor de significância e valor de significância modelo são diferentes.

5. Método de acordo com a reivindicação 2 ou 4, caracterizado por decodificação do vetor unidimensional de comprimento codificado compreender a conversão de uma lista contendo os comprimentos para o vetor unidimensional, um comprimento sendo o número de primeiros valores consecutivos terminados pelo segundo valor.

6. Método de acordo com a reivindicação 2, 4 ou 5, caracterizado por comprimentos serem codificados utilizando a codificação de Golomb-Rice ou a codificação de Golomb-Rice limitada.

7. Método de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por decodificação da matriz de downmix (306) compreender: decodificação da informação representando a informação da matriz de downmix indicando na matriz de downmix (306) para cada grupo de canais de saída (302) se uma propriedade de simetria e uma propriedade de separação é cumprida, a propriedade de simetria indicando que um grupo de canais de saída (302) é misturado com o mesmo ganho de um único canal de entrada (300) ou que um grupo de canais de saída (302) é misturado de igual modo a partir de um grupo de canais de entrada (300), e uma propriedade de separação indicando que um grupo de canais de saída (302) é misturado a partir de um grupo de canais de entrada (300) enquanto mantém todos os sinais nos respectivos lados esquerdo ou direito.

8. Método de acordo com a reivindicação 7, caracterizado por grupos de canais de saída (302) que cumprem com a propriedade de simetria e a propriedade de separação ser fornecido um único ganho de mixing.

9. Método de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por compreender: fornecimento de uma lista que contém os pares de mixing, estando cada par de mixing associado a um índice da lista; decodificação a partir da informação representando a matriz de downmix (306) os índices na lista; e seleção dos ganhos de mixing a partir da lista de acordo com os índices descodificados na lista.

10. Método de acordo com a reivindicação 9, caracterizado por índices serem codificados utilizando a codificação de Golomb-Rice ou a codificação de Golomb-Rice limitada.

11. Método de acordo com a reivindicação 9 ou 10, caracterizado por fornecimento da lista compreender: decodificar a partir da informação representando a matriz de downmix (306) um valor de ganho mínimo, um valor de ganho máximo e uma precisão desejada; e criar a lista que inclui uma pluralidade de valores de ganho entre o valor de ganho mínimo e o valor de ganho máximo, sendo os valores de ganho fornecidos com a precisão desejada, em que quanto mais frequentes os valores de ganho são tipicamente utilizados, o mais próximo estão no início da lista, sendo que o início da lista possui os índices mais pequenos.

12. Método de acordo com a reivindicação 11, caracterizado por lista de valores de ganho ser criada do seguinte modo: - adicionar números inteiros múltiplos de um primeiro valor de ganho, entre o ganho mínimo, inclusive, e um valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos do primeiro valor de ganho, entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive, em ordem crescente; - adicionar restantes números inteiros múltiplos de um primeiro nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos de um primeiro nível de precisão, entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive, em ordem crescente; - parar aqui se o nível de precisão for o primeiro nível de precisão; - adicionar restantes números inteiros múltiplos de um segundo nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; - adicionar restantes números inteiros múltiplos de um segundo nível de precisão, entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive, em ordem crescente; - parar aqui se o nível de precisão for o segundo nível de precisão; - adicionar restantes números inteiros múltiplos de um terceiro nível de precisão, entre o ganho mínimo, inclusive, e o valor de ganho inicial, inclusive, em ordem decrescente; e - adicionar restantes números inteiros múltiplos de um terceiro nível de precisão, entre o valor de ganho inicial, inclusive, e o ganho máximo, inclusive, em ordem crescente.

13. Método de acordo com a reivindicação 12, caracterizado por valor de ganho inicial = 0dB, o primeiro valor de ganho = 3dB, o primeiro nível de precisão = 1dB, o segundo nível de precisão = 0,5dB, e o terceiro nível de precisão = 0,25dB.

14. Método de acordo com a reivindicação 1, caracterizado por compreender a decodificação de uma matriz compacta na qual os canais de entrada (300) na matriz de downmix (306) associados aos pares de alto- falantes simétricos (S1-S9) e os canais de saída (302) na matriz de downmix (306) associados aos pares de alto-falantes simétricos (S10-S11) são agrupados em colunas ou linhas comuns, em que a decodificação da matriz de downmix (308) compreende: recepção dos valores de significância codificados e dos ganhos de mixing codificados; decodificação dos valores de significância, gerando a matriz de downmix compacta decodificada (308), e a decodificação de ganhos de mixing, atribuição dos ganhos de mixing descodificados aos valores de significância correspondentes indicando que um ganho é não nulo, e desagrupando os canais de entrada (300) e os canais de saída (302) agrupados para obter a matriz de downmix decodificada (306).

15. Método para codificação de uma matriz de downmix (306) para mapear uma pluralidade de canais de entrada (300) de conteúdo áudio para uma pluralidade de canais de saída (302), estando os canais de entrada e de saída (300, 302) associados aos respectivos alto-falantes nas posições pré- determinadas relativamente a uma posição do ouvinte, em que a codificação da matriz de downmix (306) compreender a exploração da simetria dos pares de alto-falantes (S1-S9) da pluralidade de canais de entrada (300) e a simetria dos pares de alto-falantes (S10-S11) da pluralidade de canais de saída (302), caracterizado por os respectivos pares (S1-S11) de canais de entrada e de saída (300, 302) na matriz de downmix (306) terem associados os respectivos ganhos de mixing para adaptar um nível através do qual um dado canal de entrada (300) contribui para um dado canal de saída (302), os respectivos valores de significância serem atribuídos aos pares (S1-S11) de grupos de alto-falantes simétricos dos canais de entrada (300) e grupos de alto-falantes simétricos dos canais de saída (302), o valor de significância indicando se um ganho de mixing para um ou mais canais de entrada (300) é ou não zero, e o método compreende ainda: codificação de valores de significância, e codificação de ganhos de mixing.

16. Método de acordo com a reivindicação 15, caracterizado por valores de significância compreenderem um primeiro valor indicativo de um ganho de mixing de zero e um segundo valor indicativo de um ganho de mixing não zero, e em que a codificação dos valores de significância compreende a formação de um vetor unidimensional através da concatenação dos valores de significância em uma ordem pré-determinada e codificação do vetor unidimensional utilizando um esquema de comprimento.

17. Método de acordo com a reivindicação 15, caracterizado por codificação dos valores de significância ter como base um modelo dotado dos mesmos pares de grupos de alto-falantes dos canais de entrada (300) e grupos de alto-falantes dos canais de saída (302), tendo a eles associados valores modelo de significância.

18. Método de acordo com a reivindicação 17, caracterizado por compreender: combinação lógica dos valores de significância e os valores de significância modelo para gerar um vetor unidimensional indicando através de um primeiro valor que um valor de significância e um valor de significância modelo são idênticos, e através de um segundo valor que um valor de significância e valor de significância modelo são diferentes; e codificação do vetor unidimensional através de um esquema de comprimento.

19. Método de acordo com a reivindicação 16 ou 18, caracterizado por codificação do vetor unidimensional compreender a conversão do vetor unidimensional para uma lista contendo os comprimentos, um comprimento sendo o número de primeiros valores consecutivos terminados pelo segundo valor.

20. Método de acordo com a reivindicação 16, 18 ou 19, caracterizado por comprimentos serem codificados utilizando a codificação de Golomb-Rice ou a codificação de Golomb-Rice limitada.

21. Método de acordo com qualquer uma das reivindicações 15 a 20, caracterizado por codificação da matriz de downmix (306) compreender a conversão da matriz de downmix para uma matriz de downmix compacta (308) agrupando os canais de entrada (300) na matriz de downmix (306) associados aos pares de alto-falantes simétricos (S1-S9) e canais de saída (302) na matriz de downmix (306) associados aos pares de alto-falantes simétricos (S10-S11) em colunas ou linhas comuns, e codificando a matriz de downmix compacta (308).

22. Método de acordo com qualquer uma das reivindicações 1 a 21, caracterizado por uma posição pré-determinada de um alto-falante ser definida dependente de um ângulo azimutal e um ângulo de elevação de uma posição do alto-falante relativamente à posição do ouvinte, e por um par de alto-falantes simétricos (S1-S11) ser formado por alto-falantes dotados do mesmo ângulo de elevação e dotados do mesmo valor absoluto do ângulo azimutal mas com diferentes símbolos.

23. Método de acordo com qualquer uma das reivindicações 1 a 22, caracterizado por canais de entrada e de saída (302) incluírem ainda canais associados a um ou mais alto-falantes centrais e um ou mais alto-falantes assimétricos, um alto-falante assimétrico com falta de outro alto-falante simétrico na configuração definida pelos canais de entrada/saída (302).

24. Método para apresentação de conteúdo áudio dotado de uma pluralidade de canais de entrada (300) a um sistema dotado de uma pluralidade de canais de saída (302) diferentes dos canais de entrada (300), caracterizado por método compreender: fornecimento de conteúdo áudio e uma matriz de downmix (306) para mapear os canais de entrada (300) para os canais de saída (302); codificação de conteúdo áudio; codificação da matriz de downmix (306) de acordo com a reivindicação 15; transmissão do conteúdo áudio codificado e da matriz de downmix codificada (306) ao sistema; decodificação do conteúdo áudio; decodificação da matriz de downmix (306) de acordo com a reivindicação 1; e mapeamento dos canais de entrada (300) do conteúdo áudio para os canais de saída (302) do sistema utilizando a matriz de downmix decodificada (306), em que a matriz de downmix (306) estar codificada/decodificada de acordo com o método de uma das reivindicações anteriores.

25. Método de acordo com a reivindicação 24, caracterizado por matriz de downmix (306) ser especificada por um utilizador.

26. Método de acordo com a reivindicação 24 ou 25, caracterizado por compreender ainda a transmissão de parâmetros do equalizador associados aos canais de entrada (300) ou aos elementos da matriz de downmix (304).

27. Codificador para codificar uma matriz de downmix (306) para mapear uma pluralidade de canais de entrada (300) de conteúdo áudio para uma pluralidade de canais de saída (302), estando os canais de entrada e de saída (302) associados aos respectivos alto-falantes em posições pré- determinadas relativamente a uma posição do ouvinte, caracterizado por codificador compreender: um processador configurado para codificar a matriz de downmix (306) de acordo com a reivindicação 15.

28. Decodificador para decodificar uma matriz de downmix (306) para mapear uma pluralidade de canais de entrada (300) de conteúdo áudio para uma pluralidade de canais de saída (302), estando os canais de entrada e de saída (302) associados aos respectivos alto-falantes em posições pré- determinadas relativamente a uma posição do ouvinte, em que a matriz de downmix (306) é codificada através da exploração da simetria dos pares de alto-falantes (S1-S9) da pluralidade de canais de saída (300) e da simetria dos pares de alto-falantes (S10-S11) da pluralidade de canais de saída (302), caracterizado por decodificador compreender: um processador configurado para funcionar de acordo com a reivindicação 1.

29. Codificador de áudio para codificar um sinal de áudio, caracterizado por compreender um codificador de acordo com a reivindicação 27.

30. Decodificador de áudio para decodificar um sinal de áudio codificado, caracterizado por decodificador de áudio compreender um decodificador de acordo com a reivindicação 28.

31. Decodificador de áudio da reivindicação 30, caracterizado por compreender um conversor de formato ligado ao decodificador para receber a matriz de downmix decodificada (306) e operacional para converter o formato do sinal de áudio descodificado de acordo com a matriz de downmix decodificada recebida (306).