BR112020015570A2

BR112020015570A2 - codificador de cena de áudio, decodificador de cena de áudio e métodos relacionados com uso de análise espacial de codificador/decodificador híbrido

Info

Publication number: BR112020015570A2
Application number: BR112020015570-5A
Authority: BR
Inventors: Guillaume Fuchs; Stefan Bayer; Markus Multrus; Oliver Thiergart; Alexandre BOUTHÉON; Jürgen Herre; Florin GHIDO; Wolfgang Jaegers; Fabian KÜCH
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date: 2018-02-01
Filing date: 2019-01-31
Publication date: 2021-02-02
Also published as: TWI760593B; CA3089550C; JP7261807B2; TW201937482A; AU2019216363A1; US11854560B2; CN118197326A; CA3089550A1; US20200357421A1; US20230317088A1; MX2020007820A; US20220139409A1; KR20200116968A; PL3724876T3; JP2021513108A; CN112074902B; RU2749349C1; ES2922532T3; KR20240101713A; SG11202007182UA

Abstract

  ''CODIFICADOR DE CENA DE ÁUDIO, DECODIFICADOR DE CENA DE ÁUDIO E MÉTODOS RELACIONADOS COM USO DE ANÁLISE ESPACIAL DE CODIFICADOR/DECODIFICADOR HÍBRICO''. Trata-se de um codificador de cena de áudio para codificar uma cena de áudio, a cena de áudio que compreende pelo menos dois sinais de componente, que compreende: um codificador de núcleo (160) para codificar em núcleo os pelo menos dois sinais de componente, em que o codificador de núcleo (160) é configurado para gerar uma primeira representação codificada (310) para uma primeira porção dos pelo menos dois sinais de componente, e para gerar uma segunda representação codificada (320) para uma segunda porção dos pelo menos dois sinais de componente, um analisador espacial (200) para analisar a cena de áudio para derivar um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção; e uma interface de saída (300) para formar o sinal de cena de áudio codificado (340), sendo que o sinal de cena de áudio codificado (340) compreende a primeira representação codificada (310), a segunda representação codificada (320), e os um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção.

Description

“CODIFICADOR DE CENA DE ÁUDIO, DECODIFICADOR DE CENA DE ÁUDIO E MÉTODOS RELACIONADOS COM USO DE ANÁLISE ESPACIAL DE CODIFICADOR/DECODIFICADOR HÍBRIDO” RELATÓRIO DESCRITIVO E MODALIDADES

[0001] A presente invenção é relacionada à codificação e à decodificação de áudio e particularmente à codificação de áudio espacial paramétrica de codificador /decodificador híbrido.

[0002] Transmitir uma cena de áudio em três dimensões necessita o gerenciamento de múltiplos canais que, em geral, geram uma grande quantidade de dados para transmissão. Além disso, som em 3D pode ser representado de diferentes modos: som baseado em canal tradicional em que cada canal de transmissão é associado a uma posição de alto-falante; som conduzido através de objetos de áudio, que pode ser posicionado em três dimensões independentemente de posições de alto-falante; e baseados em cena (ou Ambisonics), em que a cena de áudio é representada por um conjunto de sinais de coeficiente que são os pesos lineares de funções de base harmônica esférica ortogonal espacial. Em contraste à representação baseada em canal, representação baseada em cena é independente de uma configuração de alto-falante específica, e pode ser reproduzida em quaisquer configurações de alto-falante ao custo de um processo de renderização extra no decodificador.

[0003] Para cada um desses formatos, esquemas de codificação dedicados foram desenvolvidos para armazenar ou transmitir de modo eficiente os sinais de áudio em baixas taxas de bits. Por exemplo, MPEG surround é um esquema de codificação paramétrica para som surround baseado em canal, enquanto Codificação de Objeto de Áudio Espacial de MPEG (SAOC) é um método de codificação paramétrica dedicada a áudio baseado em objeto. Uma técnica de codificação paramétrica para maior ordem de Ambisonics foi também fornecido na fase 2 de MPEG-H padrão recente.

[0004] Nesse cenário de transmissão, parâmetros espaciais para o sinal total são sempre parte do sinal codificado e transmitido, isto é, estimado e codificado no codificador com base na cena de som em 3D totalmente em 3D e decodificada e usada para a reconstrução da cena de áudio no decodificador. Restrições de taxas para a transmissão tipicamente limitam o tempo e resolução de frequência dos parâmetros transmitidos que podem ser menores do que a resolução de tempo-frequência dos dados de áudio transmitidos.

[0005] Outra possibilidade para criar uma cena de áudio tridimensional é misturar de modo ascendente uma representação dimensional inferior, por exemplo, uma estéreo de dois canais ou uma representação de Ambisonics de primeira ordem, à dimensionalidade desejada com uso de indicações e parâmetros diretamente estimadas da representação dimensional inferior. Nesse caso, a resolução de tempo-frequência pode ser escolhida como fina conforme desejado. Por outro lado, a representação dimensionada inferior e possivelmente codificada da cena de áudio usada causa estimativa subideal das indicações espaciais e parâmetros. Especialmente se a cena de áudio analisada foi codificada e transmitida com uso de ferramentas de codificação de áudio paramétrica e semiparamétrica, as indicações espaciais do sinal original são interrompidas mais do que somente a representação dimensional inferior causaria.

[0006] Codificação de áudio de baixa taxa que usam ferramentas de codificação paramétrica mostraram avanços recentes. Tais avanços de codificação de sinais de áudio com taxas de bits muito baixas causaram o uso extensivo de denominadas de ferramentas de codificação paramétrica para garantir qualidade satisfatória. Embora uma codificação de preservação de forma de onda, isto é, uma codificação em que somente ruído de quantização seja adicionado ao sinal de áudio decodificado, é preferencial, por exemplo, usar uma codificação baseada em transformada de tempo-frequência e modelagem do ruído de quantização com uso de um modelo perceptivo como AAC de MPEG-2 ou MP3 de MPEG-1l, isso causa ruído de quantização audível particularmente para baixas taxas de bits.

[0007] Para superar esses problemas, ferramentas de codificação paramétrica onde forem desenvolvidas, em que partes do sinal não são codificadas diretamente, mas regeneradas no decodificador com uso de uma descrição paramétrica dos sinais de áudio desejados, em que a descrição paramétrica precisa de menos taxa de transmissão do que a codificação de preservação de forma de onda. Esses métodos não tentam reter a forma de onda do sinal, mas geram um sinal de áudio que é perceptualmente igual ao sinal original. Exemplos para tais ferramentas de codificação paramétrica são extensões de larguras de banda como Replicação de Banda Espectral (SBR), em que partes de alta banda de uma representação espectral do sinal decodificado são gerados copiando-se porções de sinal espectral de baixa banda codificada por forma de onda e adaptação de acordo com os ditos parâmetros. Outro método é Preenchimento de Lacuna Inteligente (IGF), em que algumas bandas na representação espectral são codificadas diretamente, enquanto as bandas quantizadas para zero no codificador são substituídas por outras bandas já decodificadas do espectro que são novamente escolhidos e ajustados de acordo com parâmetros transmitidos. Uma terceira ferramentas de codificação paramétrica usada é preenchimento de filtro, em que partes do sinal ou espectro são quantizadas para zero e são preenchidas com ruído aleatório e ajustadas de acordo com os parâmetros transmitidos.

[0008] Padrões de codificação de áudio recentes usadas para codificação nas taxas de bits médias para baixas usam uma mistura de tais ferramentas paramétricas para obter alta qualidade perceptual para aquelas taxas de bits. Exemplos para tais padrões são xHE-AAC, MPEG4-H e EVS.

[0009] A estimativa espacial de parâmetro DirAC e mistura ascendente cega é um procedimento adicional. DirAC é uma reprodução de som espacial perceptualmente motivada. É presumido que em, um momento no tempo e em uma banda crítica, a resolução espacial do sistema auditivo é limitada a decodificar uma indicação para direção e outra para coerência intra-auricular ou difusão.

[0010] Com base nessas suposições, DirAC representa o som espacial em uma banda de frequência por esmaecimento cruzado dois fluxos: um fluxo de difusão não direcional e um fluxo não difuso direcional. o processamento de DirAC é realizado em duas fases: a análise e a síntese como representado na Figura 5a e 5b.

[0011] No estágio de análise de DirAC mostrado na Figura 5a, um microfone coincidente de primeira ordem em formato B é considerado como entrada e a difusão e direção de chegada do som é analisada em domínio de frequência. No estágio de síntese de DirAC mostrado na Figura 5b, som é dividido em dois fluxos, o fluxo não difuso e o fluxo difuso. O fluxo não difuso é reproduzido como fontes de ponto com o uso de movimento panorâmico de amplitude, que pode ser realizado usando-se movimento panorâmico de amplitude de base de vetor (VBAP) [2]. O fluxo difuso é responsável pela sensação de envelopamento e é produzido transportando-se para os sinais mutuamente descorrelacionados de alto-falantes.

[0012] o estágio de análise na Figura 5a compreende um filtro de banda 1000, um estimador de energia 1001, um estimador de intensidade 1002, elementos de média temporal 999a e 999b, um calculador de difusão 1003 e um calculador de direção 1004. Os parâmetros espaciais calculados são um valor de difusão entre 0 e 1 para cada peça de tempo/frequência e uma direção de parâmetro de chegada para cada peça de tempo/frequência gerada pelo bloco 1004. Na Figura 5a, o parâmetro de direção compreende um ângulo de azimute e um ângulo de elevação que indica a direção de chegada de um som em relação à referência ou posição de escuta e, particularmente, em relação à posição, em que o microfone é localizado, do qual os quatro sinais de componente inseridos no filtro de banda 1000 são coletados. Esses sinais de componente são, na ilustração da Figura 5a, componentes de Ambisonics de primeira ordem que compreendem um componente unidirecional W, um componente X direcional, outro componente Y direcional e um componente Z direcional adicional.

[0013] O estágio de síntese de DirAC ilustrado na Figura 5b compreende um filtro de banda 1005 para gerar uma representação de tempo/frequência dos sinais de microfone de formato B W, X, Y, Z. Os sinais correspondentes para as peças de tempo/frequência individuais são inseridos em um estágio de microfone virtual 1006 que gera, para cada canal, um sinal de microfone virtual. Particularmente, para gerar o sinal de microfone virtual, por exemplo, para o canal central, um microfone virtual é direcionado na direção do canal central e o sinal resultante é o sinal de componente correspondente para o canal central. O sinal é então processado por meio de uma ramificação de sinal direta 1015 e uma ramificação de sinal difusa 1014. Ambas as ramificações compreendem ajustadores de ganho correspondentes ou amplificadores que são controlados por valores de difusão derivados do parâmetro de difusão original em blocos 1007, 1008 e, além disso, processados em blocos 1009, 1010 de modo a obter uma determinada compensação de microfone.

[0014] O sinal de componente na ramificação de sinal direta 1015 é também ajustado por ganho com uso de um parâmetro de ganho derivados do parâmetro de direção que consiste em um ângulo de azimute e um ângulo de elevação. Particularmente, esses ângulos são inseridos em uma tabela de ganho de VBAP (panorâmica de amplitude de base de vetor)

1011. O resultado é inserido em um estágio de média de ganho de alto falante 1012, para cada canal, e um normalizador adicional 1013 e o parâmetro de ganho resultante é então encaminhado ao amplificador ou ajustador de ganho na ramificação de sinal direta 1015. O sinal difuso gerado na saída de um descorrelacionador 1016 e o sinal direto ou fluxo não difuso são combinados em um combinador 1017 e, então, as outras sub-bandas são adicionadas em outro combinador 1018 que podem, por exemplo, ser um banco de filtro de síntese. Desse modo, um sinal de alto-falante para um determinado alto-falante é gerado e o mesmo procedimento é realizado para os outros canais para os outros alto-falantes 1019 em uma determinada configuração de alto-falante.

[0015] A versão de alta qualidade de síntese de

DirAC é ilustrada na Figura 5b, em que o sintetizador recebe todos os sinais de formato B, dos quais um sinal de microfone virtual é computado para cada direção de alto- falante.

O padrão direcional utilizado é tipicamente um dipolo. os sinais de microfone virtual são então modificados de modo linear dependendo dos metadados conforme discutido em relação às ramificações 1016 e 1015. A versão de baixa taxa de bits de DirAC não é mostrada na Figura 5b.

No entanto, nessa versão de baixa taxa de bits, somente um único canal de áudio é transmitido.

A diferença no processamento é que todos os sinais de microfone virtual seriam substituídos por esse único canal de áudio recebido.

Os sinais de microfone virtual são divididos em dois fluxos, os fluxos difuso e não difuso, que são processados separadamente.

O som não difuso é reproduzido como fontes de ponto com uso de panorâmica de amplitude de base de vetor (VBAP). Na panorâmica, um sinal de som monofônico é aplicado a um subconjunto de alto-falantes após multiplicação com fatores de ganho específicos de alto- falante.

Os fatores de ganho são computados com uso das informações de configuração de alto-falantes e direção de panorâmica especificada.

Na versão de baixa taxa de bits, o sinal de entrada é simplesmente girado às direções implicadas pelos metadados.

Na versão de alta qualidade, cada sinal de microfone virtual é multiplicado com o fator de ganho correspondente, que produz o mesmo efeito com panorâmica, no entanto, o mesmo é menos propenso a quaisquer artefatos lineares.

[0016] O objetivo da síntese do som difuso é para criar a percepção de som que circunda o ouvinte. Na versão de baixa taxa de bits, o fluxo difuso é reproduzido descorrelacionando-se o sinal de entrada e reproduzindo-se o mesmo de cada alto-falante. Na versão de alta qualidade, os sinais de microfone virtual das correntes difusas são já incoerentes em algum grau, e os mesmos precisam ser descorrelacionados somente brandamente.

[0017] Os parâmetros de DirAC também chamados metadados espaciais consistem em tuplos de difusão e direção, que em coordenada esférica é representada por dois ângulos, o azimute e a elevação. Se tanto o estágio de análise quanto estágio de síntese forem executados no lado de decodificador, a resolução de tempo-frequência dos parâmetros de DirAC pode ser escolhida para ser a mesma que o banco de filtro usado para a análise de DirAC e síntese, isto é, um conjunto de parâmetro distinto para cada slot de tempo e bin de frequência da representação de banco de filtro do sinal de áudio.

[0018] O problema de realizar a análise em um sistema de codificação de áudio espacial somente no lado de decodificador é que, para as taxas de bits médias para baixas ferramentas paramétricas como as descritas na seção anterior são usadas. Visto que a natureza de preservação de não forma de onda daquelas ferramentas, a análise espacial para porções espectrais em que principalmente codificação paramétrica é usada pode causar valores vastamente diferentes para os parâmetros espaciais do que uma análise do sinal original seria produzida. As Figuras 2a e 2b mostram tal cenário de estimativa errada em que uma análise de DirAC foi realizada em um sinal não codificado (um) e um sinal de formato B codificado e transmitido com uma baixa taxa de bits (b) com um codificador que usa codificação parcialmente de preservação de forma de onda e parcialmente paramétrica. Especialmente, em relação à difusão, grandes diferenças podem ser observadas.

[0019] Recentemente, um método de codificação de áudio espacial com uso de análise de DirAC no codificador e transmitir os parâmetros espaciais codificados no decodificador foi revelado em [3] e [4]. A Figura 3 ilustra uma vista geral de sistema de um codificador e um decodificador que combina processamento de som espacial de DirAC com um codificador de áudio. Um sinal de entrada tal como um sinal de entrada de múltiplos canais, um sinal de Ambisonics de primeira ordem (FOA) ou um sinal de Ambisonics de ordem alta (HOA) ou um sinal codificado por objeto que compreende um ou mais sinais de transporte que compreendem uma mistura descendente de objetos e metadados de objetos correspondentes tal como metadados de energia e/ou dados de correlação são inseridos em um conversor de formato e combinador 900. O conversor de formato e combinador são configurados para converter cada um dos sinais inseridos em um sinal de formato B correspondente e o conversor de formato e combinador 900 adicionalmente combina fluxos recebidos em diferentes representações adicionando-se os componentes de formato B correspondentes entre si ou por outras tecnologias combinantes que consistem em uma adição ponderada ou uma seleção de diferentes informações dos diferentes dados de entrada.

[0020] o sinal de formato B resultante é introduzido em um analisador de DirAC 210 de modo a derivar metadados de DirAC, tal como direção de metadados de chegada e metadados de difusão, e os sinais obtidos são codificados com uso de um codificador de metadados espaciais 220. Além disso, o sinal de formato B é encaminhado a um formador de feixe/seletor de sinal de modo a misturar de modo descendente os sinais de formato B em um canal de transporte ou vários canais de transporte que são então codificados com uso de um codificador de núcleo baseado em EVS 140.

[0021] A saída do bloco 220 por um lado e bloco 140 por outro lado representam uma cena de áudio codificada. A cena de áudio codificada é encaminhada a um decodificador, e no decodificador, um decodificador de metadados espaciais 700 recebe os metadados espaciais codificados e um decodificador de núcleo baseado em EVS 500 recebe os canais de transporte codificados. Os metadados espaciais decodificados obtidos pelo bloco 700 são encaminhados a um estágio de síntese de DirAC 800 e o decodificado ou mais canais de transporte na saída do bloco 500 são submetidos a uma análise de frequência no bloco

860. A decomposição de tempo/frequência resultante é também encaminhada ao sintetizador de DirAC 800 que então gera, por exemplo, como uma cena de áudio decodificada, sinais de alto-falante ou Ambisonics de primeira ordem ou componentes de Ambisonics de ordem mais alta ou qualquer outra representação de uma cena de áudio.

[0022] No procedimento revelado em [3] e [4], os metadados de DirAC, isto é, os parâmetros espaciais, são estimados e codificados em uma baixa taxa de bits e transmitida ao decodificador, em que os mesmos são usados para reconstruir a cena de áudio em 3D em conjunto com uma representação dimensional inferior do sinal de áudio.

[0023] Nesta invenção, os metadados de DirAC, isto é, os parâmetros espaciais são estimados e codificados em uma baixa taxa de bits e transmitidos ao decodificador em que os mesmos são usados para reconstruir a cena de áudio em 3D em conjunto com uma representação dimensional inferior do sinal de áudio.

[0024] Para alcançar a baixa taxa de bits para os metadados, a resolução de tempo-frequência é menor do que a resolução de tempo-frequência do banco de filtro usado em análise e síntese da cena de áudio em 3D. As Figuras 4a e 4b mostram uma comparação entre os parâmetros espaciais não codificados e não agrupados de uma análise de DirAC (a) e os parâmetros espaciais codificados e agrupados do mesmo sinal com uso do sistema de codificação de áudio espacial de DirAC revelado em [3] com metadados de DirAC codificados e transmitidos. Em comparação às Figuras 2a e 2b, pode ser observado que os parâmetros usados no decodificador (b) são mais próximos aos parâmetros estimados do sinal original, mas que a resolução de tempo-frequência é menor do que para a estimativa somente de decodificador.

[0025] É um objetivo da presente invenção fornecer um conceito aprimorado para processamento, tal como codificar ou decodificar uma cena de áudio.

[0026] Esse objetivo é alcançado por um codificador de cena de áudio da reivindicação 1, um decodificador de cena de áudio da reivindicação 15, um método de codificação de uma cena de áudio da reivindicação 35, um método de decodificação de uma cena de áudio da reivindicação 36, um programa de computador da reivindicação 37 ou uma cena de áudio codificada da reivindicação 38.

[0027] A presente invenção é baseada na constatação de que uma qualidade de áudio aprimorada e uma flexibilidade mais alta e, em geral, um desempenho aprimorado é obtido aplicando-se um esquema de codificação/decodificação híbrida, em que os parâmetros espaciais usados para gerar uma cena de áudio bidimensional ou tridimensional decodificada no decodificador são estimados no decodificador com base em uma representação de áudio dimensional tipicamente inferior transmitida codificada e decodificada para algumas partes de uma representação de tempo-frequência do esquema, e são estimados, quantizados e codificados para outras partes dentro do codificador e transmitidos ao decodificador.

[0028] Dependendo da implementação, a divisão entre regiões de lado de codificador estimadas e de lado de decodificador estimadas pode ser divergente para diferentes parâmetros espaciais usados na geração da cena de áudio tridimensional ou bidimensional no decodificador.

[0029] Em modalidades, essa partição em diferentes porções ou preferencialmente regiões de tempo/frequência pode ser arbitrária. Em uma modalidade preferencial, no entanto, é vantajoso estimar os parâmetros no decodificador para partes do espectro que são principalmente codificados de maneira de preservação de forma de onda, enquanto codifica e transmite parâmetros calculados por codificador para partes do espectro em que ferramentas de codificação paramétrica foram principalmente usadas.

[0030] Modalidades da presente invenção visam propor uma solução de codificação de baixa taxa de bits para transmitir uma cena de áudio em 3D empregando-se um sistema de codificação híbrida em que parâmetros espaciais usados para a reconstrução da cena de áudio em 3D são para algumas partes estimadas e codificadas no codificador e transmitidas ao decodificador, e para as partes restantes estimadas diretamente no decodificador.

[0031] A presente invenção revela uma reprodução de áudio em 3D com base em uma abordagem híbrida para uma estimativa de parâmetro somente de decodificador para partes de um sinal em que as indicações espaciais são retidas satisfatoriamente depois de colocar a representação espacial em uma dimensão inferior em um codificador de áudio e codificação da representação de dimensão inferior e estimativa no codificador, codificação no codificador, e transmitir as indicações espaciais e parâmetros do codificador ao decodificador para partes do espectro em que a dimensionalidade inferior em conjunto com a codificação da representação dimensional inferior causaria uma estimativa subideal dos parâmetros espaciais.

[0032] Em uma modalidade, um codificador de cena de áudio é configurado para codificar uma cena de áudio, sendo que a cena de áudio compreende pelo menos dois sinais de componente, e o codificador de cena de áudio compreende um codificador de núcleo configurado para codificar em núcleo os pelo menos dois sinais de componente, em que o codificador de núcleo gera uma primeira representação codificada para uma primeira porção dos pelo menos dois sinais de componente e gera uma segunda representação codificada para uma segunda porção dos pelo menos dois sinais de componente. O analisador espacial analisa a cena de áudio para derivar um ou mais parâmetros espaciais ou um ou mais conjuntos de parâmetros espaciais para a segunda porção e uma interface de saída então forma o sinal de cena de áudio codificado que compreende a primeira representação codificada, a segunda representação codificada e os um ou mais parâmetros espaciais ou um ou mais conjuntos de parâmetros espaciais para a segunda porção. Tipicamente, quaisquer parâmetros espaciais para a primeira porção não são incluídos no sinal de cena de áudio codificado, visto que aqueles parâmetros espaciais são estimados a partir da primeira representação decodificada em um decodificador. Por outro lado, os parâmetros espaciais para a segunda porção são já calculados dentro do codificador de cena de áudio com base na cena de áudio original ou uma cena de áudio já processada que foi reduzido em relação a sua dimensão e, portanto, em relação a sua taxa de bits.

[0033] Desse modo, os parâmetros calculados por codificador pode conduzir informações paramétricas de alta qualidade, visto que esses parâmetros são calculados no codificador a partir de dados que são altamente precisos, não afetados por distorções de codificador de núcleo e potencialmente ainda disponíveis em uma dimensão muito alta tal como um sinal que é derivado de um arranjo de microfone de alta qualidade. Devido ao fato de que tais informações paramétricas de qualidade muito alta são preservadas, é então possível codificar em núcleo a segunda porção com menos precisão ou tipicamente menos resolução. Desse modo, codificando-se em núcleo de forma bastante grosseira a segunda porção, bits podem ser salvos que podem, portanto, ser dados à representação dos metadados espaciais codificados. Bits salvos por uma codificação muito grosseira da segunda porção também podem ser investidos em uma codificação de alta resolução da primeira porção dos pelo menos dois sinais de componente. Uma codificação de alta resolução ou alta qualidade dos pelo menos dois sinais de componente é útil, visto que, no lado de decodificador, quaisquer dados espaciais paramétricos não existem para a primeira porção, mas são derivadas dentro do decodificador por uma análise espacial. Desse modo, não calculando-se todos os metadados espaciais no codificador, mas codificando-se em núcleo pelo menos dois sinais de componente, quaisquer bits que seriam, no caso de comparação, necessários para os metadados codificados podem ser salvos e investidos na qualidade mais alta para codificar em núcleo dos pelo menos dois sinais de componente na primeira porção.

[0034] Desse modo, de acordo com a presente invenção, a separação da cena de áudio na primeira porção e na segunda porção pode ser realizada de maneira altamente flexível, por exemplo, dependendo dos requisitos de taxa de bits, requisitos de qualidade de áudio, requisitos de processamento, isto é, se mais recursos de processamento estão disponíveis no codificador ou no decodificador, e assim por diante. Em uma modalidade preferencial, a separação na primeira e na segunda porção é realizada com base nas funcionalidades de codificador de núcleo. Particularmente, para codificadores de núcleo de alta qualidade e baixa taxa de bits que aplicam operações de codificação paramétrica para determinadas bandas, tais como um processamento de replicação de banda espectral ou processamento de preenchimento de lacuna inteligente ou processamento de preenchimento de ruído, a separação em relação aos parâmetros espaciais é realizada de tal maneira que as porções codificadas de modo não paramétrico do sinal formem a primeira porção e as porções codificadas de modo paramétrico do sinal formem a segunda porção. Desse modo, para a segunda porção codificada de modo paramétrico que é tipicamente a porção codificada de resolução inferior do sinal de áudio, uma representação mais precisa dos parâmetros espaciais é obtida enquanto para a primeira porção melhor codificada, isto é, codificada com alta resolução, os parâmetros de alta qualidade não são tão necessários, visto que parâmetros de qualidade bastante alta podem ser estimados no lado de decodificador com uso da representação decodificada da primeira porção.

[0035] Em uma modalidade adicional, e de modo a reduzir ainda mais a taxa de bits, os parâmetros espaciais para a segunda porção são calculados, dentro do codificador, em uma determinada resolução de tempo/frequência que pode ser uma alta resolução de tempo/frequência ou uma baixa resolução de tempo/frequência. No caso de uma alta resolução de tempo/frequência, os parâmetros calculados são então agrupados de determinada maneira de modo a obter parâmetros espaciais de baixa resolução de tempo/frequência. Esses parâmetros espaciais de baixa resolução de tempo/frequência são, todavia, parâmetros de alta qualidade espaciais que têm somente uma baixa resolução. A baixa resolução, no entanto, é útil pelo fato de que bits são salvos para a transmissão, visto que o número de parâmetros espaciais por uma determinada duração de tempo e uma determinada banda de frequência é reduzido. Essa redução, no entanto, é tipicamente não tão problemática, visto que os dados espaciais, todavia, não mudam demasiadamente ao longo do tempo e, por frequência. Desse modo, uma baixa taxa de bits, mas sem deixar de ser uma representação de boa qualidade dos parâmetros espaciais para a segunda porção,

pode ser obtida.

[0036] Visto que os parâmetros espaciais para a primeira porção são calculados no lado de decodificador e não têm mais de ser transmitidos, quaisquer compromissos em relação à resolução não têm de ser realizados. Portanto, uma estimativa de resolução de alto tempo e alta frequência de parâmetros espaciais pode ser realizada no lado de decodificador e esses dados paramétricos de alta resolução então ajudam a fornecer, todavia, uma boa representação espacial da primeira porção da cena de áudio. Desse modo, a “desvantagem” de calcular os parâmetros espaciais no lado de decodificador com base nos pelo menos dois componentes transmitidos para a primeira porção pode ser reduzida ou ainda eliminada calculando-se parâmetros espaciais de alto tempo e resolução de frequência e com uso desses parâmetros na renderização espacial da cena de áudio. Isso não incorrerá nenhuma penalidade em uma taxa de bits, visto que qualquer processamento realizado no lado de decodificador não tem nenhuma influência negativa na taxa de bits transmitida em um cenário de codificador/decodificador.

[0037] Uma modalidade adicional da presente invenção se baseia em uma situação, em que, para a primeira porção, pelo menos dois componentes são codificados e transmitidos de modo que, com base nos pelo menos dois componentes, uma estimativa de dados paramétricos pode ser realizada no lado de decodificador. Em uma modalidade, no entanto, a segunda porção da cena de áudio pode ser ainda codificada com uma taxa de bits substancialmente inferior,

visto que é preferencial somente codificar um único canal de transporte para a segunda representação. Esse canal de transporte ou mistura descendente é representada por uma taxa de bits muito baixa em comparação à primeira porção, visto que, na segunda porção, somente um único canal ou componente deve ser codificado enquanto, na primeira porção, dois ou mais componentes são necessários a serem codificados de modo que haja dados suficientes dados para um lado de decodificador análise espacial.

[0038] Desse modo, a presente invenção fornece flexibilidade adicional em relação à taxa de bits qualidade de áudio, e requisitos de processamento disponível no codificador ou no lado de decodificador.

[0039] Modalidades preferenciais da presente invenção são descritas de modo subsequente em relação aos desenhos anexos, nos quais: A Figura la é um diagrama de blocos de uma modalidade de um codificador de cena de áudio; A Figura l1b é um diagrama de blocos de uma modalidade de um decodificador de cena de áudio; A Figura 2a é uma análise de DirAC de um sinal não codificado; A Figura 2b é uma análise de DirAC de um sinal dimensional inferior codificado; A Figura 3 é uma vista geral de sistema de um codificador e um decodificador que combina processamento de som espacial de DirAC com um codificador de áudio; A Figura 4a é uma análise de DirAC de um sinal não codificado;

A Figura 4b é uma análise de DirAC de um sinal não codificado com uso de agrupamento de parâmetros no domínio de tempo-frequência e quantização dos parâmetros

A Figura 5a é um estágio de análise de DirAC de técnica anterior;

A Figura 5b é um estágio de síntese de DirAC de técnica anterior;

A Figura 6a ilustra diferentes quadros de tempo sobreprojetantes como exemplo para diferentes porções;

A Figura 6b ilustra diferentes bandas de frequência como exemplo para diferentes porções;

A Figura 7a ilustra uma modalidade adicional de um codificador de cena de áudio;

A Figura 7b ilustra uma modalidade de um decodificador de cena de áudio;

A Figura 8a ilustra uma modalidade adicional de um codificador de cena de áudio;

A Figura 8b ilustra uma modalidade adicional de um decodificador de cena de áudio;

A Figura 9a ilustra uma modalidade adicional de um codificador de cena de áudio com um codificador de núcleo de domínio de frequência;

A Figura 9b ilustra uma modalidade adicional de um codificador de cena de áudio com um codificador de núcleo de domínio de tempo;

A Figura 10a ilustra uma modalidade adicional de um decodificador de cena de áudio com um decodificador de núcleo de domínio de frequência; A Figura 10b ilustra uma modalidade adicional de um domínio de tempo decodificador de núcleo; e A Figura 11 ilustra uma modalidade de um renderizador espacial.

[0040] A Figura la ilustra um codificador de cena de áudio para codificar uma cena de áudio 110 que compreende pelo menos dois sinais de componente. O codificador de cena de áudio compreende um codificador de núcleo 100 para codificar em núcleo os pelo menos dois sinais de componente. Especificamente, o codificador de núcleo 100 é configurado para gerar uma primeira representação codificada 310 para uma primeira porção dos pelo menos dois sinais de componente e para gerar uma segunda representação codificada 320 para uma segunda porção dos pelo menos dois sinais de componente. O codificador de cena de áudio compreende um analisador espacial para analisar a cena de áudio para derivar um ou mais parâmetros espaciais ou um ou mais conjuntos de parâmetros espaciais para a segunda porção. O codificador de cena de áudio compreende uma interface de saída 300 para formar um sinal de cena de áudio codificado 340. O sinal de cena de áudio codificado 340 compreende a primeira representação codificada 310 que representa a primeira porção dos pelo menos dois sinais de componente, a segunda representação de codificador 320 e parâmetros 330 para a segunda porção. O analisador espacial 200 é configurado para aplicar a análise espacial para a primeira porção dos pelo menos dois sinais de componente com uso da cena de áudio original 110. Alternativamente, a análise espacial também pode ser realizada com base em uma representação de dimensão reduzida da cena de áudio. Se, por exemplo, a cena de áudio 110 compreender, por exemplo, um registro de vários microfones dispostos em um arranjo de microfone, então a análise espacial 200 pode, evidentemente, ser realizada com base nesses dados. No entanto, o codificador de núcleo 100 seria então configurado para reduzir a dimensionalidade da cena de áudio para, por exemplo, uma representação de Ambisonics de primeira ordem ou uma representação de Ambisonics de ordem mais alta. Em uma versão básica, o codificador de núcleo 100 reduziria a dimensionalidade a pelo menos dois componentes — que consistem em, por exemplo, um componente unidirecional e pelo menos um componente direcional tal como X, Y, ou Z de uma representação de formato B. No entanto, outras representações tais como representações de ordem mais alta ou uma representação de formato A também são úteis. A primeira representação de codificador para a primeira porção consistiria então em pelo menos dois componentes diferentes que são decodificáveis e tipicamente, consistirão em um sinal de áudio codificado para cada componente.

[0041] A segunda representação de codificador para a segunda porção pode consistir no mesmo número de componentes ou pode, alternativamente, ter um número menor, tal como somente um único componente unidirecional que foi codificado pelo codificador de núcleo em uma segunda porção. No caso da implementação em que o codificador de núcleo 100 reduz a dimensionalidade da cena de áudio original 110, a cena de áudio de dimensionalidade reduzida pode ser opcionalmente encaminhada ao analisador espacial por meio da linha 120 em vez da cena de áudio original.

[0042] A Figura lb ilustra um decodificador de cena de áudio que compreende uma interface de entrada 400 para receber um sinal de cena de áudio codificado 340. Esse sinal de cena de áudio codificado compreende a primeira representação codificada 410, a segunda representação codificada 420 e um ou mais parâmetros espaciais para a segunda porção dos pelo menos dois sinais de componente ilustrados em 430. A representação codificada da segunda porção pode, mais uma vez, ser um único canal de áudio codificado ou pode compreender dois ou mais canais de áudio codificados, enquanto a primeira representação codificada da primeira porção compreende pelo menos dois sinais de áudio codificados diferentes. Os diferentes sinais de áudio codificados na primeira representação codificada ou, se disponível, na segunda representação codificada podem ser sinais codificados em conjunto, tais como um sinal estéreo codificado em conjunto ou são, alternativa e ainda preferencialmente, sinais de áudio mono individualmente codificados.

[0043] A representação codificada que compreende a primeira representação codificada 410 para a primeira porção e a segunda representação codificada 420 para a segunda porção é colocada em um decodificador de núcleo para decodificar a primeira representação codificada e a segunda representação codificada para obter uma representação decodificada dos pelo menos dois sinais de componente “que representam uma cena de áudio.

A representação decodificada compreende uma primeira representação decodificada para a primeira porção indicada em 810 e uma segunda representação decodificada para uma segunda porção indicada em 820. A primeira representação decodificada é encaminhada a um analisador espacial 600 para analisar uma porção da representação decodificada correspondente à primeira porção dos pelo menos dois sinais de componente para obter um ou mais parâmetros espaciais 840 para a primeira porção dos pelo menos dois sinais de componente.

O decodificador de cena de áudio também compreende um renderizado espacial 800 para renderizar espacialmente a representação decodificada que compreende, na modalidade de Figura lb, a primeira representação decodificada para a primeira porção 810 e a segunda representação decodificada para a segunda porção 820. O renderizador espacial 800 é configurado para usar, para o propósito de renderização de áudio, os parâmetros 840 derivados do analisador espacial para a primeira porção e, para a segunda porção, parâmetros 830 que são derivados dos parâmetros codificados por meio de um decodificador de parâmetro/metadados 700. No caso de uma representação dos parâmetros no sinal codificado em uma forma não codificada, o decodificador de parâmetro/metadados 700 não é necessário e os um ou mais parâmetros espaciais para a segunda porção dos pelo menos dois sinais de componente são diretamente encaminhados a partir da interface de entrada 400 subsequente a um demultiplex ou uma determinada operação de processamento, ao renderizador espacial 800 como dados 830.

[0044] A Figura 6a ilustra uma representação esquemática de diferentes quadros de tempo tipicamente sobreprojetantes F, a Fa. O codificador de núcleo 100 da Figura la pode ser configurado para formar tais quadros de tempo subsequentes dos pelo menos dois sinais de componente. Em tal situação, um primeiro quadro de tempo poderia ser a primeira porção e o segundo quadro de tempo poderia ser a segunda porção. Desse modo, de acordo com uma modalidade da invenção, a primeira porção poderia ser o primeiro quadro de tempo e a segunda porção poderia ser outro quadro de tempo, e comutação entre a primeira e a segunda porção poderia ser realizada ao longo do tempo. Embora a Figura 6a ilustre quadros de tempo sobreprojetantes, quadros de tempo não sobreprojetantes também são úteis. Embora a Figura 6a ilustre quadros de tempo que têm comprimentos iguais, a comutação poderia ser realizada com quadros de tempo que têm diferentes comprimentos. Desse modo, quando o quadro de tempo F,? é, por exemplo, menor do que o quadro de tempo F1, então isso resultaria em uma resolução de tempo aumentada para o segundo quadro de tempo F, em relação ao primeiro quadro de tempo F,. Então, o segundo quadro de tempo F7; com a resolução aumentada corresponderia preferencialmente à primeira porção que é codificada em relação aos seus componentes, enquanto a primeira porção de tempo, isto é, os dados de baixa resolução corresponderiam à segunda porção que é codificada com uma resolução inferior, mas os parâmetros espaciais para a segunda porção seriam calculados com qualquer resolução necessária, visto que a cena de áudio total é disponível no codificador.

[0045] A Figura 6b ilustra uma implementação alternativa em que o espectro dos pelo menos dois sinais de componente é ilustrado como tendo um determinado número de bandas Bl, B2, .., B6, ... Preferencialmente, as bandas são separadas em bandas com diferentes larguras de banda que aumentam das menores frequências centrais às maiores frequências centrais de modo a ter uma divisão de banda perceptualmente motivada do espectro. A primeira porção dos pelo menos dois sinais de componente poderia consistir, por exemplo, nas primeiras quatro bandas, por exemplo, a segunda porção poderia consistir em bandas B5 e bandas B6. Isso corresponderia com uma situação, em que o codificador de núcleo realiza uma replicação de banda espectral e em que a frequência de cruzamento entre a porção de baixa frequência codificada de modo não paramétrico e a porção de alta frequência codificada de modo paramétrico seria a borda entre a banda B4 e a banda B5.

[0046] Alternativamente, no caso de preenchimento de lacuna inteligente (IGF) ou preenchimento de ruído (NF),

as bandas são arbitrariamente selecionadas em linha com uma análise de sinal e, portanto, a primeira porção poderia, por exemplo, consistir em bandas Bl, B2, B4, B6 e a segunda porção poderia ser B3, B5 e provavelmente outra banda de frequência mais alta. Desse modo, uma separação muito flexível do sinal de áudio em bandas pode ser realizada, independentemente de se as bandas são, conforme preferido e ilustrado na Figura 6b, típicas bandas de fator de escala que têm uma largura de banda crescente, mas menores frequências às maiores frequências, ou se as bandas são bandas igualmente dimensionadas. As bordas entre a primeira porção e a segunda porção não têm necessariamente de coincidir com bandas de fator de escala que são tipicamente usadas por um codificador de núcleo, mas é preferencial ter a coincidência entre uma borda entre a primeira porção e a segunda porção e uma borda entre uma banda de fator de escala e uma banda de fator de escala adjacente.

[0047] A Figura 7a ilustra uma implementação preferencial de um codificador de cena de áudio. Particularmente, a cena de áudio é inserida em um separador de sinal 140 que é preferencialmente a porção do codificador de núcleo 100 da Figura la. O codificador de núcleo 100 da Figura la compreende um redutor de dimensão 150a e 150b para ambas as porções, isto é, a primeira porção da cena de áudio e a segunda porção da cena de áudio. Na saída do redutor de dimensão 150a, existe pelo menos dois sinais de componente que são então codificados em um codificador de áudio l60a para a primeira porção. O redutor de dimensão 150b para a segunda porção da cena de áudio pode compreender a mesma constelação que o redutor de dimensão 150a. Alternativamente, no entanto, a dimensão reduzida obtida pelo redutor de dimensão 150b pode ser um único canal de transporte que é então codificado pelo codificador de áudio 160b de modo a obter a segunda representação codificada 320 de pelo menos um sinal de transporte/componente.

[0048] O codificador de áudio 160a para a primeira representação codificada pode compreender uma preservação de forma de onda ou codificador não paramétrico de resolução de alto tempo ou alta frequência enquanto o codificador de áudio 160b pode ser um codificador paramétrico, tal como um codificador de SBR, um codificador de IGF, um preenchimento de ruído codificador, ou qualquer resolução de baixo tempo ou frequência ou assim por diante. Desse modo, o codificador de áudio 160b tipicamente resultará em uma representação de saída de qualidade inferior em comparação ao codificador de áudio 160a. Essa “desvantagem” é abordada realizando-se uma análise espacial por meio do analisador de dados espaciais 210 da cena de áudio original ou, alternativamente, uma cena de áudio de dimensão reduzida quando a cena de áudio de dimensão reduzida ainda compreende pelo menos dois sinais de componente. Os dados espaciais obtidos pelo analisador de dados espaciais 210 são então encaminhados a um codificador de metadados 220 que emite dados espaciais de baixa resolução codificados. Ambos os blocos 210, 220 são preferencialmente incluídos no bloco de analisador espacial 200 da Figura la.

[0049] Preferencialmente, o analisador de dados espaciais realiza uma análise de dados espaciais com uma alta resolução tal como uma alta resolução de frequência ou uma alta resolução de tempo e, de modo a manter a taxa de bits necessária para os metadados codificados em uma faixa razoável, os dados espaciais de alta resolução são preferencialmente agrupados e codificados por entropia pelo codificador de metadados de modo a ter dados espaciais de baixa resolução codificados. Quando, por exemplo, uma análise de dados espaciais é realizada para, por exemplo, oito slots de tempo per quadro e dez bandas por slot de tempo, poder-se-ia agrupar os dados espaciais em um único parâmetro espacial por quadro e, por exemplo, cinco bandas por parâmetro.

[0050] É preferencial calcular dados direcionais por um lado e dados de difusão por outro lado. O codificador de metadados 220 poderia ser então configurado para emitir os dados codificados com diferentes resoluções de tempo/frequência para os dados direcionais e de difusão. Tipicamente, dados direcionais são necessários com uma resolução mais alta do que dados de difusão. Uma maneira preferencial de modo a calcular os dados paramétricos com diferentes resoluções é realizar a análise espacial com uma alta resolução para e tipicamente uma resolução igual para ambos os tipos paramétricos e então realizar um agrupamento em tempo e/ou frequência com as diferentes informações paramétricas para os diferentes tipos de parâmetro em diferentes maneiras de modo a então ter saída de dados espaciais de baixa resolução codificados 330 que tem, por exemplo, uma resolução média com tempo e/ou frequência para os dados direcionais e uma baixa resolução para os dados de difusão.

[0051] A Figura 7b ilustra uma implementação de lado de decodificador correspondente do decodificador de cena de áudio.

[0052] O decodificador de núcleo 500 da Figura lb compreende, na modalidade da Figura 7b, uma primeira instância de áudio decodificador 510a e uma segunda instância de áudio decodificador 510b. Preferencialmente, a primeira instância de áudio decodificador 510a é um codificador não paramétrico ou de preservação ou de forma de onda ou alta resolução (em tempo e/ou frequência) que gera, na saída, uma primeira porção decodificada dos pelo menos dois sinais de componente. Esses dados 810 são, por um lado, encaminhados ao renderizador espacial 800 da Figura lb e são, adicionalmente inseridos em um analisador espacial 600. Preferencialmente, o analisador espacial 600 é uma resolução analisador espacial de alta resolução que calcula parâmetros espaciais preferencialmente de alta resolução para a primeira porção. Tipicamente, a resolução dos parâmetros espaciais para a primeira porção é maior do que a resolução que é associada aos parâmetros codificados que são inseridos no decodificador de parâmetro/metadados

700. No entanto, os parâmetros espaciais de resolução de baixo tempo ou frequência codificados por entropia emitidos pelo bloco 700 são inseridos em um desagrupador de parâmetro para intensificação de resolução 710. Tal desagrupamento de parâmetro pode ser realizado copiando-se um parâmetro transmitido a determinadas peças de tempo/frequência, em que o desagrupamento é realizado em linha com o agrupamento correspondente realizado no codificador de metadados de lado de codificador 220 da Figura 7a. Naturalmente, em conjunto com desagrupamento, operações de processamento ou suavização adicionais podem ser realizadas conforme necessário.

[0053] O resultado do bloco 710 é então uma coleção de parâmetros preferencialmente de alta resolução decodificados para a segunda porção que têm tipicamente a mesma resolução do que os parâmetros 840 para a primeira porção. Além disso, a representação codificada da segunda porção é decodificada pelo decodificador de áudio 510b para obter a segunda porção decodificada 820 de tipicamente pelo menos um ou de um sinal que tem pelo menos dois componentes.

[0054] A Figura 8a ilustra uma implementação preferencial de um codificador que se baseia nas funcionalidades discutidas em relação à Figura 3. Particularmente, dados de entrada de múltiplos canais ou dados de entrada de Ambisonics de primeira ordem ou Ambisonics de ordem alta ou dados de objeto são inseridos em um conversor de formato B que converte e combina dados de entrada individuais de modo a gerar, por exemplo,

tipicamente quatro componentes de formato B, tais como um sinal de áudio unidirecional e três sinais de áudio direcionais tais como X, Y e Z.

[0055] Alternativamente, o sinal inserido no conversor de formato ou no codificador de núcleo poderia ser um sinal capturado por um microfone unidirecional posicionado na primeira porção e outro sinal capturado por um microfone unidirecional posicionado na segunda porção diferente da primeira porção. Novamente, alternativamente, a cena de áudio compreende, como um primeiro sinal de componente, um sinal capturado por um microfone direcional direcionado a uma primeira direção e, como um segundo componente, pelo menos um sinal capturado por outro microfone direcional direcionado a uma segunda direção diferente da primeira direção. Esses “microfones direcionais” não têm necessariamente de ter microfones reais, mas também podem ser microfones virtuais.

[0056] O áudio inserido no bloco 900 ou emitido pelo bloco 900 ou geralmente usado como a cena de áudio pode compreender sinais de componente de formato A, sinais de componente de formato B, sinais de componente de Ambisonics de primeira ordem, sinais de componente de Ambisonics de ordem mais alta ou sinais de componente capturados por um arranjo de microfone com pelo menos duas cápsulas de microfone ou sinais de componente calculados de um processamento de microfone virtual.

[0057] A interface de saída 300 da Figura la é configurada para não incluir nenhum parâmetro espacial do mesmo tipo de parâmetro que os um ou mais parâmetros espaciais gerados pelo analisador espacial para a segunda porção ao sinal de cena de áudio codificado.

[0058] Desse modo, quando os parâmetros 330 para a segunda porção são direção de dados de chegada e dados de difusão, a primeira representação codificada para a primeira porção não compreenderá direcional de dados de chegada e dados de difusão, mas pode, evidentemente, compreender quaisquer outros parâmetros que foram calculados pelo codificador de núcleo tal como fatores de escala, coeficientes de LPC, etc.

[0059] Além disso, a separação de banda realizada pelo separador de sinal 140, quando as diferentes porções são diferentes bandas, pode ser implementada de tal maneira que uma banda inicial para a segunda porção seja menor do que a banda inicial de extensão de largura de banda e, adicionalmente, o preenchimento de ruído de núcleo não necessariamente tem de aplicar nenhuma banda de cruzamento fixo, mas pode ser usado gradualmente para mais partes dos espectros principais à medida que a frequência aumenta.

[0060] Além disso, o processamento paramétrico ou amplamente "“paramétrico para a segunda sub-banda de frequência de um quadro de tempo compreende calcular um parâmetro relacionado à amplitude para a segunda banda de frequência e a quantização e codificação por entropia desse parâmetro relacionado à amplitude em vez de linhas espectrais individuais na segunda sub-banda de frequência. Tal parâmetro relacionado à amplitude que forma uma representação de baixa resolução da segunda porção é, por exemplo, dada por uma representação de envelope espectral que têm somente, por exemplo, um fator de escala ou valor de energia para cada banda de fator de escala, enquanto a alta resolução primeira porção se baseia em MDCT ou FFT individual ou geral, linhas espectrais individuais.

[0061] Desse modo, uma primeira porção dos pelo menos dois sinais de componente é dada por uma determinada banda de frequência para cada sinal de componente, e a determinada banda de frequência para cada sinal de componente é codificada com um número de linhas espectrais para obter a representação codificada da primeira porção. No entanto, em relação à segunda porção, uma medida relacionada à amplitude tal como a soma das linhas espectrais individuais para a segunda porção ou uma soma de linhas espectrais quadradas que representam uma energia na segunda porção ou a soma de linhas espectrais elevadas à potência de três que representa uma medida de altura para a porção espectral também pode ser usada para a representação codificada paramétrica da segunda porção.

[0062] Novamente em referência à Figura 8a, o codificador de núcleo 160 que compreende as ramificações de codificador de núcleo individuais 160a, 160b pode compreender um procedimento de formação de feixe/seleção de sinal para a segunda porção. Desse modo, o codificador de núcleo indicado em 160a, 160b na Figura 8b emite, por um lado, uma primeira porção codificada de todos os quatro componentes de formato B e uma segunda porção codificada de um único canal de transporte e metadados espaciais para a segunda porção que foram gerados por uma análise de DirAC 210 que se baseia na segunda porção e um codificador de metadados espaciais 220 subsequentemente conectado.

[0063] No lado de decodificador, os metadados espaciais codificados são inseridos no decodificador de metadados espaciais 700 para gerar os parâmetros para a segunda porção ilustrada em 830. O decodificador de núcleo que é uma modalidade preferencial tipicamente implementada como um decodificador de núcleo baseado em EVS que consiste em elementos 510a, 510b emite a representação decodificada que consiste em ambas as porções em que, no entanto, ambas as porções não são ainda separadas. A representação decodificada é inserida em um bloco de análise de frequência 860 e o analisador de frequência 860 gera os sinais de componente para a primeira porção e encaminha os mesmos a um analisador de DirAC 600 para gerar os parâmetros 840 para a primeira porção. Os sinais de canal de transporte/componente para a primeira e a segunda porções são encaminhadas do analisador de frequência 860 ao sintetizador de DirAC 800. Desse modo, o sintetizador de DirAC opera, em uma modalidade, conforme usual, visto que o sintetizador de DirAC não tem nenhum conhecimento e de fato, não exige nenhum conhecimento específico, se os parâmetros para a primeira porção e a segunda porção foram derivados no lado de codificador ou no lado de decodificador. Em vez disso, ambos os parâmetros “fazem o mesmo” para o sintetizador de DirAC 800 e o sintetizador de

DirAC pode então gerar, com base na representação de frequência da representação decodificada dos pelo menos dois sinais de componente que representam a cena de áudio indicada em 862 e os parâmetros para ambas as porções, uma saída de alto-falante, um Ambisonics de primeira ordem (FOA), um Ambisonics de ordem alta (HOA) ou uma saída binaural.

[0064] A Figura 9a ilustra outra modalidade preferencial de um codificador de cena de áudio, em que o codificador de núcleo 100 da Figura la é implementado como um codificador de domínio de frequência. Nessa implementação, o sinal a ser codificado pelo codificador de núcleo é inserido em um banco de filtro de análise 164 que aplica preferencialmente uma conversão espectral de tempo ou decomposição com quadros de tempo tipicamente sobreprojetantes. O codificador de núcleo compreende uma preservação de forma de onda codificador processador 160a e um codificador paramétrico processador 160b. A distribuição das porções espectrais à primeira porção e a segunda porção é controlada por um controlador de modo 166. O controlador de modo 166 pode se basear em uma análise de sinal, um controle de taxa de bits ou pode aplicar uma configuração fixada. Tipicamente, o codificador de cena de áudio pode ser configurado para operar em taxas de bits diferentes, em que uma frequência de borda predeterminada entre a primeira porção e a segunda porção depende de uma taxa de bits selecionada, e em que uma frequência de borda predeterminada é menor para uma taxa de bits inferior ou maior para uma taxa de bits maior.

[0065] Alternativamente, o controlador de modo pode compreender um processamento de máscara de tonalidade conforme conhecido do preenchimento de lacuna inteligente que analisa o espectro do sinal de entrada de modo a determinar bandas que têm de ser codificadas com uma alta resolução espectral que termina na primeira porção codificada e determinar bandas que podem ser codificadas de modo paramétrico que terminará então na segunda porção. O controlador de modo 166 é configurado para também controlar o analisador espacial 200 no lado de codificador e preferencialmente para controlar um separador de banda 230 do analisador espacial ou um separador de parâmetro 240 do analisador espacial. Isso garante que, no final, somente parâmetros espaciais para a segunda porção, mas não para a primeira porção são geradas e emitidas no sinal de cena codificado.

[0066] Particularmente, quando o analisador espacial 200 diretamente recebe a sinal de cena de áudio tanto antes de ser inserido no banco de filtro de análise como subsequente a ser inserido no banco de filtro, o analisador espacial 200 calcula uma análise total sobre a primeira e a segunda porção e, o separador de parâmetro 240 então somente seleciona a emissão ao sinal de cena codificado os parâmetros para a segunda porção. Alternativamente, quando o analisador espacial 200 recebe dados de entrada de um separador de banda, então o separador de banda 230 já encaminha somente a segunda porção e, então, um separador de parâmetro 240 não é mais necessário, visto que o analisador espacial 200, de qualquer modo, somente recebe a segunda porção e, portanto, somente emite os dados espaciais para a segunda porção.

[0067] Desse modo, uma seleção da segunda porção pode ser realizada antes ou após a análise espacial e é preferencialmente controlada pelo controlador de modo 166 ou também pode ser implementado de maneira fixa. O analisador espacial 200 se baseia em um banco de filtro de análise do codificador ou usa seu próprio banco de filtro separado que não é ilustrado na Figura 9a, mas que é ilustrado, por exemplo, na Figura 5a para a implementação de estágio de análise de DirAC indicada em 1000.

[0068] A Figura 9b ilustra, em contraste ao codificador de domínio de frequência da Figura 9a, um codificador de domínio de tempo. Em vez do banco de filtro de análise 164, é fornecido um separador de banda 168 que tanto é controlado por um controlador de modo 166 da Figura 9a (não ilustrado na Figura 9b) como é fixado. No caso de um controle, o controle pode ser realizado com base em uma taxa de bits, uma análise de sinal, ou qualquer outro procedimento útil proposto para isso. Os tipicamente M componentes que são inseridos no separador de banda 168 são processados, por um lado, por um codificador de domínio de tempo de baixa banda 160a e, por outro lado, por um calculador de parâmetro de extensão de largura de banda de domínio de tempo 160b. Preferencialmente, o codificador de domínio de tempo de baixa banda 160a emite a primeira representação codificada com os M componentes individuais que estão em forma codificada. Ao contrário disso, a segunda representação codificada gerada pelo calculador de parâmetro de extensão de largura de banda de domínio de tempo 160b somente tem N componentes/sinais de transporte, em que o número N é menor do que o número M, e em que N é maior ou igual a 1.

[0069] Dependendo de se o analisador espacial 200 se baseia no separador de banda 168 do codificador de núcleo, um separador de banda 230 separado não é necessário. Quando, no entanto, o analisador espacial 200 se baseia no separador de banda 230, então a conexão entre o bloco 168 e o bloco 200 da Figura 9b não é necessário. No caso em que nenhum dos separadores de banda 168 ou 230 está na entrada do analisador espacial 200, o analisador espacial realiza uma análise de banda completa e o separador de parâmetro 240 então separa somente os parâmetros espaciais para a segunda porção que são então encaminhadas à interface de saída ou a cena de áudio codificada.

[0070] Desse modo, embora a Figura 9a ilustre uma preservação de forma de onda codificador processador 160a ou um codificador espectral para quantização um codificação por entropia, o bloco correspondente 160a na Figura 9b é qualquer codificador de domínio de tempo tal como um EVS codificador, um codificador de ACELP, um codificador de AMR ou um codificador similar. Embora o bloco 160b ilustre um codificador de domínio de frequência paramétrico ou codificador paramétrico geral, o bloco 160b na Figura 9b é um calculador de parâmetro de extensão de largura de banda de domínio de tempo que pode, basicamente, calcular os mesmos parâmetros que o bloco 160 ou parâmetros diferentes conforme pode ser o caso.

[0071] A Figura l10a ilustra um decodificador de domínio de frequência tipicamente correspondente ao codificador de domínio de frequência da Figura 9a. O decodificador espectral que recebe a primeira porção codificada compreende, conforme ilustrado em 160a, um decodificador de entropia, um desquantizador e quaisquer outros elementos que são, por exemplo, conhecidos a partir de codificação de AAC ou qualquer outra codificação de domínio espectral. O decodificador paramétrico 160b que recebe os dados paramétricos tal como energia por banda como a segunda representação codificada para a segunda porção opera, tipicamente, como um decodificador de SBR, um decodificador de IGF, um decodificador de preenchimento de ruído ou outros decodificadores paramétricos. Ambas as porções, isto é, os valores espectrais da primeira porção e os valores espectrais da segunda porção são inseridos em um banco de filtro de síntese 169 de modo a ter a representação decodificada que é, tipicamente, encaminhada ao renderizador espacial para o propósito de renderizar espacialmente a representação decodificada.

[0072] A primeira porção pode ser diretamente encaminhada ao analisador espacial 600 ou a primeira porção pode ser derivada da representação decodificada na saída do banco de filtro de síntese 169 por meio de um separador de banda 630. Dependendo de como é a situação, o separador de parâmetro 640 é necessário ou não. No caso do analisador espacial 600 que recebe a primeira porção somente, então o separador de banda 630 e o separador de parâmetro 640 não são necessários. No caso de o analisador espacial 600 que recebe a representação decodificada e o separador de banda não estarem presentes, então o separador de parâmetro 640 é necessário. No caso da representação decodificada é inserido no separador de banda 630, então o analisador espacial não precisa ter o separador de parâmetro 640, visto que o analisador espacial 600 então somente emite os parâmetros espaciais para a primeira porção.

[0073] A Figura 10b ilustra um domínio de tempo decodificador que é compatível com o codificador de domínio de tempo da Figura 9b. Particularmente, a primeira representação codificada 410 é inserida em um decodificador de domínio de tempo de baixa banda 160a e a primeira porção decodificada é inserida em um combinador 167. Os parâmetros de extensão de largura de banda 420 são inseridos em um processador de extensão de largura de banda de domínio de tempo que emite a segunda porção. A segunda porção é também inserida no combinador 167. Dependendo da implementação, O combinador pode ser implementado para combinar valores espectrais, quando a primeira e a segunda porção são valores espectrais ou pode combinar amostras de domínio de tempo quando a primeira e a segunda porção são já disponíveis como amostras de domínio de tempo. A emissão do combinador 167 é a representação decodificada que pode ser processada, similar ao que foi discutido anteriormente em relação à Figura l0a, pelo analisador espacial 600 tanto com como sem o separador de banda 630 ou com ou sem o separador de parâmetro 640 conforme pode ser o caso.

[0074] A Figura 11 ilustra uma implementação preferencial do renderizador espacial embora outras implementações de um renderizado espacial que se baseia em parâmetros de DirAC ou em outros parâmetros diferentes de parâmetros de DirAC, ou produzir uma representação diferente do sinal renderizado diferente da representação de alto-falante direta, como uma representação de HOA, também pode ser aplicada. Tipicamente, os dados 862 inseridos no sintetizador de DirAC 800 podem consistir em vários componentes tais como o formato B para a primeira e a segunda porção conforme indicado no canto esquerdo superior da Figura 11. Alternativamente, a segunda porção não está disponível em vários componentes, mas tem somente tem um único componente. Então, a situação é conforme ilustrado na porção inferior na esquerda da Figura 11. Particularmente, no caso de ter a primeira e a segunda porção com todos os componentes, isto é, quando o sinal 862 da Figura 8b tem todos os componentes do formato B, por exemplo, um espectro completo de todos os componentes está disponível e a decomposição de tempo-frequência permite realizar um processamento para cada peça individual de tempo/frequência. Esse processamento é realizado por um processador de microfone virtual 870a para calcular, para cada alto-falante de uma configuração de alto-falante, um alto-falante componente da representação decodificada.

[0075] Alternativamente, quando a segunda porção é somente disponível em um único componente, então as peças de tempo/frequência para a primeira porção são inseridas no processador de microfone virtual 870a, enquanto a porção de tempo/frequência para o único componente ou número inferior de componentes segunda porção é inserida no processador 870b. O processador 870b, por exemplo, tem somente de realizar uma operação de cópia, isto é, copiar o único canal de transporte em um sinal de saída para cada sinal de alto-falante. Desse modo, o processamento de microfone virtual 870a da primeira alternativa é substituída por uma operação simplesmente de cópia.

[0076] Então, a emissão de blocos 870a na primeira modalidade ou 870a para a primeira porção e 870b para a segunda porção é inserida em um processador de ganho 872 para modificar o sinal de componente de saída com uso dos um ou mais parâmetros espaciais. Os dados são também inseridos em um ponderador/processador descorrelacionador 874 para gerar um sinal de componente de saída descorrelacionado com uso dos um ou mais parâmetros espaciais. A emissão do bloco 872 e a emissão do bloco 874 são combinadas dentro de um combinador 876 que opera para cada componente de modo que, na saída do bloco 876, seja obtida uma representação de domínio de frequência de cada sinal de alto-falante.

[0077] Então, por meio de um banco de filtro de síntese 878, todos os sinais de alto-falante de domínio de frequência podem ser convertidos em um domínio de tempo representação e os sinais de alto-falante de domínio de tempo gerados podem ser convertidos de análogo para digital e usados para acionar alto-falantes correspondentes colocados nas posições de alto-falante definidas.

[0078] Tipicamente, o processador de ganho 872 opera com base em parâmetros espaciais e preferencialmente, parâmetros direcionais tais como a direção de dados de chegada e, opcionalmente, com base em parâmetros de difusão. Adicionalmente, o ponderador /processador descorrelacionador também opera com base em parâmetros espaciais, e, preferencialmente, com base nos parâmetros de difusão.

[0079] Desse modo, em uma implementação, o processador de ganho 872 representa a geração do fluxo não difuso na Figura 5b ilustrado em 1015, e o ponderador /processador descorrelacionador 874 representa a geração do fluxo difuso conforme indicado pela ramificação superior 1014 da Figura 5b, por exemplo. No entanto, outras implementações que se baseiam em diferentes procedimentos, diferentes parâmetros e diferentes modos de gerar sinais diretos e difusos também podem ser implementados.

[0080] Benefícios exemplificadores e vantagens de modalidades preferenciais sobre o estado da técnica são: * Modalidades da presente invenção fornecem uma melhor resolução de tempo-frequência para as partes do sinal escolhido para ter parâmetros espaciais estimados por lado de decodificador através de um sistema com uso de parâmetros lado de estimados com codificador e codificados para o sinal inteiro.

* Modalidades da presente invenção fornecem melhores valores de parâmetro espacial para partes do sinal reconstruído com uso de análise de lado de codificador de parâmetros e codificar e transmitir os ditos parâmetros ao decodificador através de um sistema em que parâmetros espaciais são estimados no decodificador com uso do sinal de áudio de dimensão inferior decodificado.

* Modalidades da presente invenção permitem uma troca mais flexível entre resolução de tempo- frequência, taxa de transmissão, e precisão de parâmetro do que tanto um sistema que usa parâmetros codificados para o sinal inteiro ou um sistema que usa parâmetros estimados por lado de decodificador para o sinal inteiro pode fornecer.

* Modalidades da presente invenção fornecem uma melhor precisão de parâmetro para porções de sinal principalmente codificadas com uso de ferramentas de codificação paramétrica escolhendo-se a estimativa de lado de codificador e codificação de alguns ou todos os parâmetros espaciais para aquelas porções e uma melhor resolução de tempo-frequência para porções de sinal principalmente codificadas com uso de ferramentas de codificação de preservação de forma de onda e que se baseia em uma estimativa de lado de decodificador dos parâmetros espaciais para aquelas porções de sinal.

REFERÊNCIAS:

[1] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, e T. Pihlajamáãki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japão.

[2] Ville Pulkki. “Virtual source positioning using vector base amplitude panning”. J. Audio Eng. Soc., 45(6) : 4561466, junho de 1997.

[3] Pedido de Patente Europeia nº EP17202393.9, “EFFICIENT CODING SCHEMES OF DIRAC METADATA”.

[4] Pedido de Patente Europeia nº EP17194816.9 “Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding”.

[0081] Um sinal de áudio codificado inventivo pode ser armazenado em uma mídia de armazenamento digital ou uma mídia de armazenamento não transitória ou pode ser transmitida em uma mídia de transmissão, como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio, como a Internet.

[0082] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De modo análogo, aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco correspondente ou item ou recurso de um aparelho correspondente.

[0083] Dependendo de certas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm capacidade para cooperar com um sistema de computador programável, de modo que o respectivo método seja realizado.

[0084] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.

[0085] Em geral, modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.

[0086] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina ou uma mídia de armazenamento não transitória.

[0087] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador for executado em um computador.

[0088] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dos métodos descritos no presente documento.

[0089] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.

[0090] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.

[0091] Uma modalidade adicional compreende — um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.

[0092] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável de campo) pode ser usado para realizar parte ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável de campo pode cooperar com um microprocessador de modo a realizar um dos métodos descritos no presente documento. Em geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.

[0093] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes a outros elementos versados na técnica. Portando, há a intenção de se limitar somente pelo escopo das reivindicações de patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento.

Claims

REIVINDICAÇÕES

1. Codificador de cena de áudio para codificar uma cena de áudio (110), sendo que a cena de áudio (110) compreende pelo menos dois sinais de componente, sendo que o codificador de cena de áudio é caracterizado por compreender: um codificador de núcleo (160) para codificar em núcleo os pelo menos dois sinais de componente, em que o codificador de núcleo (160) é configurado para gerar uma primeira representação codificada (310) para uma primeira porção dos pelo menos dois sinais de componente, e para gerar uma segunda representação codificada (320) para uma segunda porção dos pelo menos dois sinais de componente; um analisador espacial (200) para analisar a cena de áudio (110) para derivar um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção; e uma interface de saída (300) para formar um sinal de cena de áudio codificado (340), sendo que o sinal de cena de áudio codificado (340) compreende a primeira representação codificada, a segunda representação codificada (320), e os um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção.

2. Codificador de cena de áudio, de acordo com a reivindicação 1, caracterizado pelo codificador de núcleo

(160) ser configurado para formar quadros de tempo subsequentes dos pelo menos dois sinais de componente, em que um primeiro quadro de tempo dos pelo menos dois sinais de componente é a primeira porção e um segundo quadro de tempo dos pelo menos dois sinais de componente é a segunda porção, ou em que uma primeira sub-banda de frequência de um quadro de tempo dos pelo menos dois sinais de componente é a primeira porção dos pelo menos dois sinais de componente e uma segunda sub-banda de frequência do quadro de tempo é a segunda porção dos pelo menos dois sinais de componente.

3. Codificador de cena de áudio, de acordo com a reivindicação 1 ou 2, caracterizado pela cena de áudio (110) compreender, como um primeiro sinal de componente, um sinal de áudio unidirecional, e, como um segundo sinal de componente, pelo menos um sinal de áudio direcional, ou em que a cena de áudio (110) compreende, como um primeiro sinal de componente, um sinal capturado por um microfone unidirecional posicionado em uma primeira posição, e, como um segundo sinal de componente, pelo menos um sinal capturado por um microfone unidirecional posicionado em uma segunda posição diferente da primeira posição, ou em que a cena de áudio (110) compreende, como um primeiro sinal de componente, pelo menos um sinal capturado por um microfone direcional direcionado a uma primeira direção, e, como um segundo sinal de componente, pelo menos um sinal capturado por um microfone direcional direcionado a uma segunda direção, a segunda direção é diferente da primeira direção.

4. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pela cena de áudio (110) compreender sinais de componente de formato A, sinais de componente de formato B, sinais de componente Ambisonics de Primeira Ordem, sinais de componente Ambisonics de Ordem mais Alta, ou sinais de componente capturados por um arranjo de microfone com pelo menos duas cápsulas de microfone ou conforme determinado por um cálculo de microfone virtual de uma cena sonora registrada Ou sintetizada anteriormente.

5. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pela interface de saída (300) ser configurada para não incluir nenhum parâmetro espacial do mesmo tipo de parâmetro que os um ou mais parâmetros espaciais (330) gerados pelo analisador espacial (200) para a segunda porção no sinal de cena de áudio codificado (340), de modo que somente a segunda porção tenha o tipo de parâmetro e quaisquer parâmetros do tipo de parâmetro não sejam incluídos para a primeira porção no sinal de cena de áudio codificado (340).

6. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes,

caracterizado pelo codificador de núcleo (160) ser configurado para realizar uma operação de codificação paramétrica ou amplamente paramétrica (160b) para a segunda porção, e para realizar uma preservação de forma de onda ou principalmente operação de codificação de preservação de forma de onda (160a) para a primeira porção, ou em que uma banda inicial para a segunda porção é menor do que uma banda inicial de extensão de largura de banda, e em que uma operação de preenchimento de ruído principal realizada pelo codificador de núcleo (100) não tem nenhuma banda de cruzamento fixo e é gradualmente usada para mais partes de espectros principal à medida que uma frequência aumenta.

7. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo codificador de núcleo (160) ser configurado para realizar um processamento paramétrico ou amplamente paramétrico (160b) para uma segunda sub-banda de frequência de um quadro de tempo correspondente à segunda porção dos pelo menos dois sinais de componente, em que o processamento paramétrico ou processamento amplamente paramétrico (160b) compreende calcular um parâmetro relacionado à amplitude para a segunda sub-banda de frequência e quantizar e codificar por entropia o parâmetro relacionado à amplitude em vez de linhas espectrais individuais na segunda sub-banda de frequência, e em que o codificador de núcleo (160) é configurado para quantizar e codificar por entropia (160a) linhas espectrais individuais em uma primeira sub-banda do quadro de tempo correspondente à primeira porção dos pelo menos dois sinais de componente, ou em que o codificador de núcleo (160) é configurado para realizar um processamento paramétrico ou amplamente paramétrico (160b) para uma sub-banda de alta frequência de um quadro de tempo correspondente à segunda porção dos pelo menos dois sinais de componente, sendo que o processamento paramétrico ou processamento amplamente paramétrico compreende calcular um parâmetro relacionado à amplitude para a sub-banda de alta frequência e quantizar e codificar por entropia o parâmetro relacionado à amplitude em vez de um sinal de domínio de tempo na sub-banda de alta frequência, e em que o codificador de núcleo (160) é configurado para quantizar e codificar por entropia (160b) o sinal de áudio de domínio de tempo em uma sub-banda de baixa frequência do quadro de tempo correspondente à primeira porção dos pelo menos dois sinais de componente, por uma operação de codificação de domínio de tempo tal como codificação de LPC, codificação de LPC/TCX, ou codificação de EVS ou codificação de Largura de Banda de AMR ou Largura de banda de AMR + codificação.

8. Codificador de cena de áudio, de acordo com a reivindicação 7, caracterizado pelo processamento paramétrico (160b) compreender um processamento de replicação de banda espectral (SBR), e processamento de preenchimento de lacuna inteligente (IGF) ou um processamento de preenchimento de ruído.

9. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pela primeira porção ser uma primeira sub-banda de um quadro de tempo e a segunda porção ser uma segunda sub-banda do quadro de tempo, e em que o codificador de núcleo (160) é configurado para usar uma frequência de borda predeterminada entre a primeira sub- banda e a segunda sub-banda, ou em que o codificador de núcleo (160) compreende um redutor de dimensão (150a) para reduzir uma dimensão da cena de áudio (110) para obter uma cena de áudio de dimensão inferior, em que o codificador de núcleo (160) é configurado para calcular a primeira representação codificada (310) para uma primeira porção dos pelo menos dois sinais de componente da cena de áudio de dimensão inferior, e em que o analisador espacial (200) é configurado para derivar os parâmetros espaciais (330) da cena de áudio (110) que tem uma dimensão que é maior do que a dimensão da cena de áudio de dimensão inferior, ou em que o codificador de núcleo (160) se configurado para gerar a primeira representação codificada (310) para a primeira porção que compreende M sinais de componente, e para gerar a segunda representação codificada (320) para a segunda porção que compreende N sinais de componente, e em que M é maior do que N e N é maior ou igual a 1.

10. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes caracterizado por ser configurado para operar em taxas de bits diferentes, em que uma frequência de borda predeterminada entre a primeira porção e a segunda porção depende de uma taxa de bits selecionada, e em que a frequência de borda predeterminada ser menor para uma taxa de bits inferiory ou em que a frequência de borda predeterminada ser maior para uma taxa de bits maior.

11. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pela primeira porção ser uma primeira sub-banda dos pelo menos dois sinais de componente, e em que a segunda porção é uma segunda sub- banda dos pelo menos dois sinais de componente, e em que o analisador espacial (200) é configurado para calcular, para a segunda sub-banda, as os um ou mais parâmetros espaciais (330), pelo menos um de um parâmetro de direção e um parâmetro não direcional, tal como um parâmetro de difusão.

12. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes caracterizado pelo codificador de núcleo (160) compreender: um conversor de tempo-frequência (164) para converter sequências de quadros de tempo dos pelo menos dois sinais de componente em sequências de quadros espaciais para os pelo menos dois sinais de componente, um codificador espectral (160a) para quantizar e codificar por entropia valores espectrais de um quadro das sequências de quadros espectrais dentro de uma primeira sub-banda do quadro espectral; e um codificador paramétrico (160b) para codificar de modo paramétrico valores espectrais do quadro espectral dentro de uma segunda sub-banda do quadro espectral, ou em que o codificador de núcleo (160) compreende um domínio de tempo ou codificador de núcleo de domínio de tempo e domínio de frequência misturados (160) para realizar um domínio de tempo ou operação de codificação de domínio de tempo e domínio de frequência misturados de uma porção de banda baixa de um quadro de tempo, ou em que o analisador espacial (200) é configurado para subdividir a segunda porção em bandas de análise, em que uma largura de banda de uma banda de análise é maior ou igual a uma largura de banda associada a dois valores espectrais adjacentes processados pelo codificador espectral dentro da primeira porção, ou é menor do que uma largura de banda de uma porção de banda baixa que representa a primeira porção, e em que o analisador espacial (200) é configurado para calcular pelo menos um de um parâmetro de direção e um parâmetro de difusão para cada banda de análise da segunda porção, ou em que o codificador de núcleo (160) e o analisador espacial (200) são configurados para usar um banco de filtros comum (164) ou bancos de filtros diferentes (164, 1000) que têm diferentes características.

13. Codificador de cena de áudio, de acordo com a reivindicação 12, caracterizado pelo analisador espacial (200) ser configurado para usar, para calcular o parâmetro de direção, uma banda de análise que é menor do que uma banda de análise usada para calcular o parâmetro de difusão.

14. Codificador de cena de áudio, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo codificador de núcleo (160) compreende um codificador de múltiplos canais para gerar um sinal de múltiplos canais codificado para os pelo menos dois sinais de componente, ou em que o codificador de núcleo (160) compreende um codificador de múltiplos canais para gerar dois ou mais sinais de múltiplos canais codificado, quando um número de sinais de componente dos pelo menos dois sinais de componente é três ou mais, ou em que o codificador de núcleo (160) é configurado para gerar a primeira representação codificada (310) com uma primeira resolução e para gerar a segunda representação codificada (320) com uma segunda resolução, em que a segunda resolução é menor do que a primeira resolução, ou em que o codificador de núcleo (160) é configurado para gerar a primeira representação codificada (310) com um primeiro tempo ou primeira resolução de frequência e para gerar a segunda representação codificada (320) com um segundo tempo ou segunda resolução de frequência, sendo que o segundo tempo ou resolução de frequência é menor do que o primeiro tempo ou resolução de frequência, ou em que a interface de saída (300) é configurada para não incluir nenhum parâmetro espacial (330) para a primeira porção ao sinal de cena de áudio codificado (340), ou para incluir um número menor de parâmetros espaciais para a primeira porção ao sinal de cena de áudio codificado (340) em comparação a um número dos parâmetros espaciais (330) para a segunda porção.

15. Decodificador de cena de áudio caracterizado por compreender: uma interface de entrada (400) para receber um sinal de cena de áudio codificado (340) que compreende uma primeira representação codificada (410) de uma primeira porção de pelo menos dois sinais de componente, uma segunda representação codificada (420) de uma segunda porção dos pelo menos dois sinais de componente, e um ou mais parâmetros espaciais (430) para a segunda porção dos pelo menos dois sinais de componente; um decodificador de núcleo (500) para decodificar a primeira representação codificada (410) e a segunda representação codificada (420) para obter uma representação decodificada (810, 820) dos pelo menos dois sinais de componente que representam uma cena de áudio; um analisador espacial (600) para analisar uma porção (810) da representação decodificada correspondente à primeira porção dos pelo menos dois sinais de componente para derivar um ou mais parâmetros espaciais (840) para a primeira porção dos pelo menos dois sinais de componente; e um renderizador espacial (800) para renderizar espacialmente a representação decodificada (810, 820) com uso dos um ou mais parâmetros espaciais (840) para a primeira porção e os um ou mais parâmetros espaciais (830) para a segunda porção conforme incluído no sinal de cena de áudio codificado (340).

16. Decodificador de cena de áudio, de acordo com a reivindicação 15, caracterizado por compreender adicionalmente: um decodificador de parâmetro espacial (700) para decodificar os um ou mais parâmetros espaciais (430) para a segunda porção incluída no sinal de cena de áudio codificado (340), e em que o renderizador espacial (800) é configurado para usar uma representação decodificada dos um ou mais parâmetros espaciais (830) para renderizar a segunda porção da representação decodificada dos pelo menos dois sinais de componente.

17. Decodificador de cena de áudio, de acordo com a reivindicação 15 ou 16, no qual fo) decodificador de núcleo (500) é configurado para fornecer uma sequência de quadros decodificados, caracterizado pela primeira porção ser um primeiro quadro da sequência de quadros decodificados e a segunda porção ser um segundo quadro da sequência de quadros decodificados, e em que o decodificador de núcleo (500) compreende adicionalmente um adicionador por sobreposição para adicionar por sobreposição quadros de tempo decodificados subsequentes para obter a representação decodificada, ou em que o decodificador de núcleo (500) compreende um sistema baseado em ACELP que opera sem uma operação de adição por sobreposição.

18. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo decodificador de núcleo (500) ser configurado para fornecer uma sequência de quadros de tempo decodificados, em que a primeira porção é uma primeira sub-banda de um quadro de tempo da sequência de quadros de tempo decodificados, e em que a segunda porção é uma segunda sub-banda do quadro de tempo da sequência de quadros de tempo decodificados, em que o analisador espacial (600) é configurado para fornecer um ou mais parâmetros espaciais (840) para a primeira sub-banda, em que o renderizador espacial (800) é configurado: para renderizar a primeira sub-banda com uso da primeira sub-banda do quadro de tempo e os um ou mais parâmetros espaciais (840) para a primeira sub-banda, e para renderizar a segunda sub-banda com uso da segunda sub-banda do quadro de tempo e dos um ou mais parâmetros espaciais (830) para a segunda sub-banda.

19. Decodificador de cena de áudio, de acordo com a reivindicação 18, caracterizado pelo renderizador espacial (800) compreender um combinador para combinar uma primeira sub-banda de renderizador e uma segunda sub-banda renderizada para obter um quadro de tempo de um sinal renderizado.

20. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 19, caracterizado pelo renderizador espacial (800) é configurado para fornecer um sinal renderizado para cada alto-falante de uma configuração de alto-falante ou para cada componente de um formato de Ambisonics de Primeira Ordem ou Ordem mais Alta ou para cada componente de um formato binaural.

21. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 20, caracterizado pelo renderizador espacial (800) compreender: um processador (870b) para gerar, para cada output componente, um sinal de componente de saída da representação decodificada; um processador de ganho (872) para modificar o sinal de componente de saída com uso dos um ou mais parâmetros espaciais (830, 840); ou um ponderador/processador descorrelacionador (874) para gerar um sinal de componente de saída descorrelacionado com uso dos um ou mais parâmetros espaciais (830, 840), e um combinador (876) para combinar o sinal de componente de saída descorrelacionado e o sinal de componente de saída para obter um sinal de alto-falante renderizado, ou em que o renderizador espacial (800) compreende: um processador de microfone virtual (870a) para calcular, para cada alto-falante de uma configuração de alto-falante, um sinal de componente de alto-falante da representação decodificada; um processador de ganho (872) para modificar o sinal de componente de alto-falante com uso dos um ou mais parâmetros espaciais (830, 840); ou um ponderador /processador descorrelacionador (874) para gerar um sinal de componente de alto-falante descorrelacionado com uso dos um ou mais parâmetros espaciais (830, 840), e um combinador (876) para combinar o sinal de componente de alto-falante descorrelacionado e o sinal de componente de alto-falante para obter um sinal de alto- falante renderizado.

22. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 21, caracterizado pelo renderizador espacial (800) ser configurado para operar de maneira em bandas, em que a primeira porção é uma primeira sub-banda, sendo que a primeira sub-banda é subdividida em uma pluralidade de primeiras bandas, em que a segunda porção é uma segunda sub-banda, sendo que a segunda sub-banda é subdividida em uma pluralidade de segundas bandas, em que o renderizador espacial (800) é configurado para render um sinal de componente de saída para cada primeira banda com uso de um parâmetro espacial correspondente derivado pelo analisador, e em que o renderizador espacial (800) é configurado para render um sinal de componente de saída para cada segunda banda com uso de um parâmetro espacial correspondente incluído no sinal de cena de áudio codificado (340), em que uma segunda banda da pluralidade de segundas bandas é maior do que uma primeira banda da pluralidade de primeiras bandas, e em que o renderizador espacial (800) é configurado para combinar (878) os sinais de componente de saída para as primeiras bandas e as segundas bandas para obter um sinal de saída renderizado, sendo que o sinal de saída renderizado é um sinal de alto-falante, um sinal de formato A, um sinal de formato B, um sinal de Ambisonics de Primeira Ordem, um sinal de Ambisonics de Ordem mais Alta ou um sinal binaural.

23. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 22, caracterizado pelo decodificador de núcleo (500) ser configurado para gerar, como a representação decodificada que representa a cena de áudio, como um primeiro sinal de componente, um sinal de áudio unidirecional, e, como um segundo sinal de componente, pelo menos um sinal de áudio direcional, ou em que a representação decodificada que representa a cena de áudio compreende sinais de componente de formato B ou sinais de componente Ambisonics de Primeira Ordem ou sinais de componente Ambisonics de Ordem mais Alta.

24. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 23, caracterizado pelo sinal de cena de áudio codificado (340) não incluir nenhum parâmetro espacial para a primeira porção dos pelo menos dois sinais de componente que são do mesmo tipo que os parâmetros espaciais (430) para a segunda porção incluída no sinal de cena de áudio codificado (340).

25. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 24, caracterizado pelo decodificador de núcleo (500) ser configurado para realizar uma operação de decodificação paramétrica (510b) para a segunda porção e para realizar uma operação de decodificação de preservação de forma de onda (510a) para a primeira porção.

26. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 25, caracterizado pelo decodificador de núcleo (500) ser configurado para realizar um processamento paramétrico (510b) com uso de um parâmetro relacionado à amplitude para ajustar com envelope a segunda sub-banda subsequente à codificação por entropia do parâmetro relacionado à amplitude, e em que o decodificador de núcleo (500) é configurado para decodificar por entropia (510a) linhas espectrais individuais na primeira sub-banda.

27. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 26, caracterizado pelo decodificador de núcleo (500) compreender, para decodificar (510b) a segunda representação codificada (420), um processamento de replicação de banda espectral (SBR), um processamento de preenchimento de lacuna inteligente (IGF) ou um processamento de preenchimento de ruído.

28. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 27, caracterizado pela primeira porção ser uma primeira sub- banda de um quadro de tempo e a segunda porção ser uma segunda sub-banda do quadro de tempo, e em que o decodificador de núcleo (500) é configurado para usar uma frequência de borda predeterminada entre a primeira sub- banda e a segunda sub-banda.

29. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 28, caracterizado pelo decodificador de cena de áudio ser configurado para operar em taxas de bits diferentes, em que uma frequência de borda predeterminada entre a primeira porção e a segunda porção depende de uma taxa de bits selecionada, e em que a frequência de borda predeterminada é menor para uma taxa de bits inferior, ou em que a frequência de borda predeterminada é maior para uma taxa de bits maior.

30. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 29, caracterizado pela primeira porção ser uma primeira sub- banda de uma porção de tempo, e em que a segunda porção é uma segunda sub-banda de uma porção de tempo, e em que o analisador espacial (600) é configurado para calcular, para a primeira sub-banda, como os um ou mais parâmetros espaciais (840), pelo menos um de um parâmetro de direção e um parâmetro de difusão.

31. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 30, caracterizado pela primeira porção ser uma primeira sub-banda de um quadro de tempo, e em que a segunda porção é uma segunda sub-banda de um quadro de tempo, em que o analisador espacial (600) é configurado para subdividir a primeira sub-banda em bandas de análise, em que uma largura de banda de uma banda de análise é maior ou igual a uma largura de banda associada a dois valores espectrais adjacentes geradas pelo decodificador de núcleo (500) para a primeira sub-banda, e em que o analisador espacial (600) é configurado para calcular pelo menos um do parâmetro de direção e o parâmetro de difusão para cada banda de análise.

32. Decodificador de cena de áudio, de acordo com a reivindicação 31, caracterizado pelo analisador espacial (600) ser configurado para usar, para calcular o parâmetro de direção, uma banda de análise que é menor do que uma banda de análise usada para calcular o parâmetro de difusão.

33. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 32, caracterizado pelo analisador espacial (600) ser configurado para usar, para calcular o parâmetro de direção, uma banda de análise que tem uma primeira largura de banda, e em que o renderizador espacial (800) é configurado para usar um parâmetro espacial dos um ou mais parâmetros espaciais (840) para a segunda porção dos pelo menos dois sinais de componente incluídos no sinal de cena de áudio codificado (340) para renderizar uma banda de renderização da representação decodificada, sendo que a banda de renderização tem uma segunda largura de banda, e em que a segunda largura de banda é maior do que a primeira largura de banda.

34. Decodificador de cena de áudio, de acordo com qualquer uma das reivindicações 15 a 33, caracterizado pelo sinal de cena de áudio codificado (340) compreender um sinal de múltiplos canais codificado para os pelo menos dois sinais de componente ou em que o sinal de cena de áudio codificado (340) compreende pelo menos dois sinais de múltiplos canais codificado para um número de sinais de componente que é maior do que 2, e em que o decodificador de núcleo (500) compreende um decodificador de múltiplos canais para decodificar em núcleo o sinal de múltiplos canais codificado ou os pelo menos dois sinais de múltiplos canais codificado.

35. Método de codificação de uma cena de áudio (110), em que a cena de áudio (110) compreende pelo menos dois sinais de componente, sendo que o método é caracterizado por compreender: codificar em núcleo os pelo menos dois sinais de componente, em que a codificação em núcleo em núcleo compreende gerar uma primeira representação codificada (310) para uma primeira porção dos pelo menos dois sinais de componente, e gerar uma segunda representação codificada (320) para uma segunda porção dos pelo menos dois sinais de componente; analisar a cena de áudio (110) para derivar um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção; E formar o sinal de cena de áudio codificado, sendo que o sinal de cena de áudio codificado (340) compreende a primeira representação codificada, a segunda representação codificada (320), e os um ou mais parâmetros espaciais (330) ou os um ou mais conjuntos de parâmetros espaciais para a segunda porção.

36. Método de decodificação de uma cena de áudio caracterizado por compreender: receber um sinal de cena de áudio codificado (340) que compreende uma primeira representação codificada (410) de uma primeira porção de pelo menos dois sinais de componente, uma segunda representação codificada (420) de uma segunda porção dos pelo menos dois sinais de componente, e um ou mais parâmetros espaciais (430) para a segunda porção dos pelo menos dois sinais de componente; decodificar a primeira representação codificada (410) e a segunda representação codificada (420) para obter uma representação decodificada dos pelo menos dois sinais de componente que representam a cena de áudio; analisar uma porção da representação decodificada correspondente à primeira porção dos pelo menos dois sinais de componente para derivar um ou mais parâmetros espaciais (840) para a primeira porção dos pelo menos dois sinais de componente; e renderizar espacialmente a representação decodificada com uso dos um ou mais parâmetros espaciais (840) para a primeira porção e os um ou mais parâmetros espaciais (430) para a segunda porção conforme incluído no sinal de cena de áudio codificado (340).

37. Programa de computador caracterizado por realizar, quando executado em um computador ou em um processador, o método, de acordo com a reivindicação 35, ou o método, de acordo com a reivindicação 36.

38. Sinal de cena de áudio (340) codificado caracterizado por compreender:

uma primeira representação codificada para uma primeira porção de um pelo menos dois sinais de componente de uma cena de áudio (110);

uma segunda representação codificada (320) para uma segunda porção dos pelo menos dois sinais de componente; e um ou mais parâmetros espaciais (330) ou um ou mais conjuntos de parâmetros espaciais para a segunda porção.