BR112015010995A2

BR112015010995A2 - Ajuste por segmento do sinal de áudio espacial para configuração diferente do auto-falante de reprodução

Info

Publication number: BR112015010995A2
Application number: BR112015010995A
Authority: BR
Inventors: Kuntz Achim; adami Alexander; Küch Fabian; Del Galdo Giovanni; Herre Jurgen
Original assignee: Fraunhofer Ges Forschung; Techniche Univ Ilmenau
Priority date: 2012-11-15
Filing date: 2013-11-11
Publication date: 2019-12-17
Also published as: JP6047240B2; US20170069330A9; US9805726B2; CN104919822A; ES2659179T3; CN104919822B; CA2891739C; EP2920982A1; JP2016501472A; WO2014076030A1; MX2015006125A; RU2625953C2; EP2920982B1; RU2015122676A; CA2891739A1; MX346013B; EP2733964A1; US20150248891A1; KR20150100656A; KR101828138B1

Abstract

ajuste por segmento do sinal de áudio espacial para configuração diferente do alto-falante de reprodução aparelho (100) para adaptar um sinal de áudio espacial (2) para uma configuração de al to-falante original em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. o aparelho compreende um decomposi tor de ambiência direto (130) que é configurado para decompor os sinais do canal em um segmento da configuração de alto-falante original em som direto (d) e componentes de ambiência (a) e para determinar uma direção de chegada dos componentes de som direto. um renderizador de som direto (150) recebe uma informação da configuração de al tofalante de reprodução e ajusta os componentes de som direto (d), utilizando a informação da configuração de alto-falante de reprodução, de modo que uma direção de chegada percebida dos componentes de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada dos componentes de som direto. um combinador (180) combina os componentes de som direto ajustados e, possivelmente, os componentes de ambiência modificados para obter os sinais do alto-falante para alto-falantes da configuração de alto-falante de reprodução.

Description

«AJUSTE POR SEGMENTO DO SINAL DE AUDIO ESPACIAL PARA CONFIGURAÇÃO DIFERENTE DO ALTO-FALANTE DE REPRODUÇÃO.

DESCRIÇÃO

................. * .

CAMFQ TÉCNICO [00011 A presente invenção refere-se gera.lm.ente ao processamento do sinal de áudio espacial e, e.m particular, a u® aparelho a um método para adaptar um sinal de áudio espacial direcionado a uma configuração de alto-f'alante original a uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. Outras aplicações da presente invenção referem-se ã conversão de cena de som multicanal de alta qualidade flexível.

HISTÔRICa DA INVENÇÃO [0002] As exigências de cm sistema de reprodução de áudio moderno mudaram ac longo dos «nos. Do canal único (mono) ao canal duplo (estéreo) até sistemas multicanais, como Surround 5.1 e 7.1 ou síntese de campo de onda uniforme? o número de canais de alto-falante util.irado tem aumentado. Sistemas uniformes com alto-falantes elevados devem ser vistos em ciuexnas modernos. Isso tem o objetivo de fornecer ao ouvinte uma experiência. de áudio de uma cena de áudio cravada ou artificialmante criada, com relação ac sentido da realidade, Imersão e envelope que se aproxima ao máximo a cena do áudio real ou? de modo alternativo, que melhor reflete as intenções do engenheiro de som (veja, por exemplo? M. Morimoto, The Role of Rear Loudspeakers in Spatial Impression, na 1Ú3* Convenção da AES, 1997 ; D. Griesinger?

Spaciousness and Envelope in Musical Acoustics, na 3Ó1* Coavengio da And, 1996 ; K> Hamasaki, K> Hiyarns e R. Okumura, Ths 22.2 Multicanal Sound System and Its Application, na ΠΡ* Convenção da AES, 2005). Entretanto, há pelo menos duas desvantagens: devido á pluralidade de sistemas de soe disponíveis, coe relação ac número de alto-falantes utilizados e seu posicionamento recomendado, não há compatibiiidada geral entre todos esses sistemas. Além disso, qualquer desvio do posicionamento recomendado do alto-falante resultará em uma cena de áudio comprometida e, portanto, rsdvzirá a experiência, de áudio espacial do ouvinte e, assim, a qualidade espacial.

[0003] Em uma aplicação do mundo real, os- sistemas de reprodução multicanal geralmente não são configurados corretamente com relação ao posicionamento do alto-falante. A fim de não distorcer a imagem, espacial original de uma cena de áudio que resultaria de um posicionamento com falha, um sistema de alta qualidade flexível é necessário, o qual pode compensar essas incompatibilidades de configuração. As abordagens do estado da técnica geralmente não possuem capacidade de descrever uma cena de som complexa e talves artificialmente gerada em que, por exemplo, mais do que uma fonte direta' por faixa de frequência e instante de tempo aparece.

(0004) Portanto, é nm objete da presente invenção fornecer um conceito melhorado para adaptar um sinal de áudio espacial, de .modo que a imagem espacial de uma cena de áudio seja mantida substancialmente a mesma se a configuração de alto-falante de reprodução desviar da configuração de altofalante original, ou seja, se a configuração de alto-falante cujo conteúdo de áudio do sinal de áudio espacial for originaimente produzida para isso.

SUMÁRIO DÃ INVENÇÃO [0005] Este objeto é obtido por um aparelho, de acordo com a reivindicação 1, um método, de acordo com a reivindicação 14, ou um programa de computador, de acordo com a reivindicação 15 <

[0006] De acordo com uma aplicação da presente invenção, um aparelho é fornecido para adaptar um sinal de áudio espacial para uma configuração de alto-falante original a uma configuração de alto-falante da reprodução que difere da configuração de alto-falante original» 0 sinal de áudio espacial compreende uma pluralidade de sinais do canal» 0 aparelho compreende um. agrupa.dor configurado para agrupar, pelo menos, dois sinais do canal em um segmento. C aparelho também compreende um deoompc si tor de ambiência. direto configurado para decompor, pelo menos, dois sinais do canal no segmento em, polo monos, um componente de som direto e, pelo menos, um componente de ambiância» O decompositor de ambiência direto pode, ainda, ser configurado para determinar uma direção de chegada de, pelo menos, um componente de som direto.. O aparelho também, compreende um renderizador de som direto configurada para receber uma informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução associado com o segmento, e para ajustar, pelo menos, um componente de aom direto utilizando a informação da configuração de alto-falante da reprodução para o segmento, de modo que uma diração da chegada percebida de, pelo menos, um componente de som direto ria configuração de alto-falante de reprodução seja idêntica à direção de chegada do segmento ou mais próximo ã direção de chegada de, pelo menos, um componente de som direto comparado a uma situação na qual nenhum ajuste tenha ocorrido. Além disso, c aparelho compreende um combinador configurado para combinar componentes de som direto ajustados e componentes de ambiênoia ou componentes de ambíência modificados para obter sinais do alto~.falan.te para, pelo manos, dois alto-falantes da configuração de alto-falante de reprodução.

[0007] A ideía básica subjacente da presente invenção é agrupar canais de alto-falante vizinhos em segmentos (per exemplo, setores circulares, setores cilíndricos ou setores esféricos) e decompor cada sinal do segmente· em partes dos sinais ambiente a direto correspondentes. Os sinais diretos levam a uma posição da fonte de plataforma (ou várias posições da fonte de plataforma) dentro de cada segmento, enquanto os sinais ambientes correspondem ao sc-m difuso e são responsáveis pelo envelope do ouvinte. Durante o processo de renderização, os componentes diretos são remapeados., ponderados e ajustados por meio das posições da tonta de plataforma para se adaptar à configuração real du alto-falante de reprodução e preservar a localiração original das fontes. Os componentes ambientes são mapeados e ponderados para produzir a mesma quantidade de envelope na configuração de audição modificada. Pelo menos parte do processamento pede ser realizada em uma base de posição de tempo-frequência. Com. essa metodologia, mesmo um número reduzido ou aumentado de alto—falantes na configuração de saída pode ser gerenciado.

[0008] Um segmente· da configuração de alto-falante original também pode ser chamado de segmento original*, para referência mais fácil na seguinte descrição. De forma semelhante, um segmento na configuração de alto-falante de reprodução também pode ser chamado de segmento de reprodução*. Um segmento ê tipicamente calibrado ou delimitado por dois ou mais alto-falantes e uma posição de um ouvinte, isto é, um segmento tipicamente corresponde ao espaço que é delimitado por dois ou mais alto-falantes e um ouvinte. Um dado alto-falante pode ser atribuído a dois ou mais segmentos. Em uma configuração de alto-falante bidimensional, um alto-falante particular é tipicamente atribuído a um segmento esquerdo e um segmento direito, isto é, o alto-falante emite som principalmente aos segmentos esquerdo e direito. 0 agrupador (ou elemento de agrupamento) ê configurado para coletar esses sinais do canal, que são associados com um dado segmento. Uma ves que cada sinal do canal pode ssr atribuido a dois ou maio canais, ele pode ser distribuído a esses dois ou mais segmentos pelo agrupador ou por vários agrupadores.

[0008] 0 decosTpositor de ambiência direto pode ser configurado para determinar os componentes de som direto e es componentes de ambiência para cada canal. De modo alternativo, o deoompositor de ambíéncia direto pode ser configurado para determinar um único componente de som direto s um único componente de ambiência por segmento. A(s) direção (ões) de chegada. pode(m) ser determinada (s) pela análise (por exemplo, correlação cruzada) de, paio menos, dois sinais do canal. Como uma alternativa, a(s) direção(des) de chegada poda(m) ser determinada<s) com base nas informações fornecidas ao deccmpositor de ambiência direto de outro componente do aparelho ou de outra entidade externa.

[00101 G renderizador de som direto pode tipicamente considerar como uma diferença entre a configuração de altofalante original e a configuração de alto-falante de reproduçãcs afeta um segmento da configuração de alto-falante original atualmente contemplado, e guais medidas devem ser consideradas, a fim de manter a percepção dos componentes de som direto dentro do referido segmento. Essas medições podem compreender (lista não exaustiva):

» modificação de unia ponderação de amplitude do componente de som direto entre cs alto-falantes do referido segmento?

modificação de uma ralação de fase e/ou uma relação de atraso entre os componentes de som direto específicos per alto-falante para os alto-falantes de tal segmento;

- remoção do componente de som. direto para tal. segmento de um alto-falante particular, devido à disponibilidade de um alto-falante mais bem adequado na configuração de alto-falante de reprodução;

umbiência modificados podem ser determi nados cosí ha.se sos componentes de ambiência determinadas pelo decompasitor de ambiente direto, considerando uma diferença entra o segmento original e o segmento de reprodução, [0013] Oe acordo com outra aplicação, a configuração de alto-falante de reprodução pode compreender um altofalante adicional dentro do segmento. Assim, o segmento da configuração de alto-falante original cor.responde a dois ou mais segmentos do segmento do alto-falante de reprodução, ou seja, o segmento original na configuração de alto-falante original foi dividido em dois ou mais segmentos de reprodução na configuração de alto-falante de reprodução. O renderizador de som direto pode ser configurado para gerar os componentes de soe direto ajustados para, pelo menos, deis alto-falantes e o alto-falante adicional, da configuração de alto-falante de reprodução.

[ÔQ14] 0 caso oposta também é possível; de acordo com outra aplicação, a configuração de alto-falante de reprodução pode não possuir um alto-falante comparado à configuração de alto-falante original de modo que o segmenta e um segmento vizinho da configuração de alto-falante original sujem unidos a um segmento unido dá configuração de alto-falante de reprodução. 0 renderizador de som direto poda, então, ser configurado para distribuir componentes de som direto ajustados de um sinal do canal, correspondente aa alto-falante ausente na configuração de alto-falante de reprodução em, pela menos, dois alto-falantes rer.iuuscentes do segmenta unido da configuração de alto-falante de reprodução. 0 alto-falante que está presente na configuração da alto-falante original, mas não na configuração de altofalante de reprodução, também pode ser referido como altofalante ausente.

[0015} De acordo com outras aplicações, o renderisador de som direto pode ser configurado para realocar um componente de som direto tendo uma direção de chegada determinada do segmento na configuração de alto-falante original em um segmento visinhn na configuração de altofalante de reprodução, se um limite entra o segmento e o segmento vísinho transgredir ou cruzar a direção de chegada determinada ao passar da configuração de alto-falante original para a configuração de alto-falante de reprodução.

[0016] De acordo cem outras aplicações, o renderizador de som direto pode, ainda, ser configurado para realocar o componente de som direto tendo a direção de chegada determinada de, pelo menos, um primeiro alto-falante em, pelo menos, um segundo alto-falante, pelo menos um primeiro alto-falante sends atribuído ao segmento na configuração de alto-falante originai, mas não ao segmento vizinho na configuração de alto-falante de reprodução, e, pelo manos, um. segundo alto-falante sendo atribuído ao segmento vizinho na configuração de alto-falante de reprodução.

[0017] De acordo com outras aplícagôes, o randerizador de som direto pode ser configurada para gerar componentes de som direto específicos por segmento do altofalante para, pelo menos, dois pares do segmento por alto falante válidos da configuração de alto-falante de reprodução, pole menos dois pares do segmento por altofalante válidos referentes a um mesmo alto-falante e dois segmentos visinhos na configuração de alto-falante de reprodução. O combinador pede ser configurado para combinar os componentes de som direto específicos por segmento do alto-falante para, pelo menos, dois pares do segmento por alto-falante válidos referentes ao mesmo alto-falante para obter um dos sinais do alto-falante para, pelo menos, dois alto-falant.es da configuração de alto-falante de reprodução, Um par do segmento do alto-falante válido refere-se a um alto-falante e um dos segmentos ao qual asse alto-falante ê atribuído, o alto-falante pode ser parte da outras pares do segmenta por alto-falante válidos se o alto-falante far atribuído a outras segmentes (como ê tipicamente o caso) > De forma semelhante,· o segmento pode ser (e tipicamente é) parte de outros pares do segmento por alto-falante válidos. 0 render!zador de som direto pode ser configurado para considerar assa ambivalência do cada alto-falante e fornecer os componentes de som direta especificas por segmento para o alto-falante» 0 combinador pode ser configurado para reunir os diferentes componentes de som direto específicos por segmento (e possivelmente, como o caso pode- ser, também, componentes do ambiente especifico por segmento) direcionados para um alto-falante particular da configuração de altofalante de reprodução des vários segmentos ao qual esse altofalante particular é atribuído. Observe que a adição ou a remoção de um alto-falante na configuração de alto-falante de reprodução pode ter um impacto nos pares do segmento por alto-falante válidos: a adição de nm alto-falante tipicamente divide um segmento original era, pelo menos, dois segmentos de reprodução, de modo que os alto-falantes afetados são atribuídos aos novos segmentos na configuração de altofalante de reprodução. A remoção de um alto-falante pode resultar em dois ou mais segmentos originais sendo' unidos a um segmento de reprodução e uma influência correspondente nos pares do segmento por alto-falante válidos.

[0G18] Outras aplicações da presente invenção fornecem um método para adaptar um sinal de áudio espacial direcionado para uma configuração de alto-falante original a uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. O sinal de áudio espacial compreende uma pluralidade de canais. 0 método compreende o agrupamento da, pelo menos, dois sinais do canal em um segmento, e a decomposição de, pelo menus, dois sinais do canal no segmento em, pelo menos, um componente de som direto e, pelo menos, um componente de ambíência. 0 método compreende, ainda, a determinação de uma direção de chegada de, pelo menos, nm. componente de som direto. G método compreenda, ainda, o ajuste de, pelo menos, um componente de som direto ut.iliz.ando uma informação ua configuração de altofalante de reprodução para o segmento^ de modo que uma direção de chegada percebida do componente de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada de um segmento. Pelo menos, a direção de chegada percebida de, pelo menos, um componente de som direto está mais próxima à direção de chegada do segmento em comparação a uma situação na qual nenhum ajuste tenha ocorrido. 0 método compreende,, ainda, combinar os componentes de som direto ajustados é cs componentes de ambiêncía ou os componentes de ambiència modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.

BREVE DESCRIÇÃO DÃS FIGURAS [0019] A seguir, as aplicações da presente invenção serão explicadas com referência aos desenhos anexos, nos quals:

[0020] A figura 1 mostra um diagrama em blocos esquemático d® um possível cenário de aplicação;

[0021] A figura 2 mostra um diagrama, em blocos esquemático de uma visão geral do sistema de um. aparelho e um método para ajustar um sinal de áudio espacial;

[0022] ã figura 3 mostra uma ilustração esquemática de um exemplo para uma configuração modificada do altofalante oom um alto-falante que foi movido/deslocado;

[0023] A figura 4 mostra uma. ilustração esquemática de um exemplo para outra configuração modificada do altofalante som um número elevado de alto-falantes;

[0024] A figura 5 mostra uma ilustração esquemática de um exemplo para outra oonfiguração modificada do altofalante com um número reduzido de alto-falantes;

[0025] As figuras 6Ã e 6B mostram as ilustrações esquemátioas de exemplos para outras configurações modificadas do alto-falante com alto-falantes deslocados;

( 0026] A figura 7 mostra um diagrama em blocos esquemático de um aparelho para ajustar um sinal de áudio espacial; e [0027) A figura 8 mostra um fluxograma esquemático de um método para ajustar um sinal de áudio espacial.

DESCRIÇÃO DETALHADA DAS APLICAÇÕES (0Q28) Antes de discutir a presente invenção em mais detalhes utilizando os desenhos, indica-se que os elementos idênticos das figuras, os elementos tendo a mesma função ou o mesmo efeito são fornecidos com os mesmos números de referência, ou semelhantes, de modo que a descrição e a funcionalidade desses elementos ilustradas nas diferentes aplicações seja mutuamente permutável ou possam ser aplicadas em outra nas diferentes aplicações.

[0029] Alguns métodos para ajustar um sinal de áudio espacial não são flexíveis o suficiente para gerenciar uma cena de som complexa, especialmente aqueles que são baseados nas suposições físicas globais (veja, por exemplo, V. Pulkki, Spatial Sound Reproduction with Directional Audio Coding, J. Audio .Eng. Soo, vol. 5n, n^s 6, pp. 553-51.5, 2007 e V. Pulkki n J. Herre, Method and Apparatus for Conversion Between Multi-Channel Audio Formats, Publicação do Fedido da Patente dor to-Americano 1° DS F0ÔE/0232E1F Al) ou que sáo restritos a um componente localitãvel (direto) per faixa de frequência em toda a cena de áudio (veja, por exemplo, M» Goodwin e J<-M. Got, Spatial Audio Scene Coding, na 725* Convenção da AEG, 2DQ8 e J. Thompson, B. Smith, A. Warner e

J.-M .Jot, Direct-Dif f use Decomposition of Multichannel Signals Using a System of Pairwise Correlations, na 133* Convenção de And Cv.12, Outubro 2012?. A suposição de onda plana ou componente direto pode ser suficiente em alguns cenários especiais, mas, no geral, não pode capturar uma cena de áudio complexa com várias fontes ativas em um. periodo. .Isso resulta em distorção espacial e em fontes instáveis ou mesmo puladas durante a reprodução.

[0030) Há sistemas que modelam os alto-falantes de configuração de entrada que não correspondem a configuração de saída como alto-falantes virtuais {todo o sinal, de altofalante é deslocado pelos altc—faiantes vizinhos na posição direcionada do alto-falante) (A. Ando, Conversion of Multicanal Sound Signal Maintaining Physical Properties of Sound in. Reproduced Sound Field, I.S.SP Transapdas no .Processamento de Audio, Fa la a Linguagem, vol. 19, n° S, pp. 14C7-1475, 2011) > Isso também pode resultar na distorção espacial de fontes fantasmas, para as quais esses canais de alto-falante contribuem. A abordagem mencionada por A. Laborie, R. Bruno e S. Montoya em Reproducing .Multicanal Sound on any Speaker Layout, HS* Convenção da ACS, 2005 precisa que o usuário primeiro calibre seus alto-falantes e depois render.! ze cs sinais para essa configuração de uma transformação do sinal intensivo computacional.

[0031] Além disse, um. sistema de alta qualidade deveria sár conservador de forma de onda. Quando os canais de entrada são renderizados a ume configuração de alto-falante que íouala a configuração inicial, a forma de onda não deve mudar si gnif icantemente; caso contrário, a informação so perde, podendo resultar em perturbações .sonoras ο qualidad.ee da áudio e espacial reduzidas. Métodos com base no objeto podem. apresentar aqui diafonía adicional, que é introduzida durante a extração do objeto (F.Melchior, Vorrichtung zu®. Verãndern einar Audio-Szene und. Vorríchtung zum Erzeugen eínar Richtungsfunktion, Fedido de Fatente Alemão M* bú 201 d d30 o,34 Al, 2011) . As suposições físicas globais também resultar, em diferentes formas de onda (.veja, por exemplo M. Goodwin e J.-M. Jot, 'Spatial Audio Scene Coding, na 125* Convenção da AFS, 2008 ; V. Pulkki, Spatial Sound

Reproduction with Directional Audio Coding, J. Audio Eng. Soo, vol. 55, n⁸ 6, pp. 57 3-57.9, 2007; a V. Pulkki e J. Herre, 'Method and Apparatus for Conversion Between Multichannel Audio Formats, Fuidioaqdo du Pedido de Fa tente durte-Aitericano A^s CO 2dvf/9232&lf Al).

[0032] Um. deslocador muitioanal pode ser utilizado para colocar uma fonte fantasma em algum lugar na cena de áudio. Os algoritmos mencionados por Eppolito, Puikki e Blauert têm como bass as suposições .relativamente simples que podem causar graves imprecisões na localização espacial onde uma fonte foi deslocada e onde a fonte é percebida em (A. Eppolito, Multi-Channel Sound Fanner, Pub .Li cação do .Pedido da Patente Norte-Americano AN PS 2012/P17C75P AI; V. Pulkki, 'Virtual Sound Source Positioning Using vector Face Amplitude Panning, J. Audio Eng. Eoc# vol. 45, n 6,- pp. 45C-46S, 1997 a v< Blauert, .Spatial hearing: 'The psychophysics of human sound localization, 3* ed. Cambridge e Mass; MIT Presa,

2001, seção 2.2.2}.

[0033] Os métodos de upmix de extração de ambiêucia são designados para, extrair as partes do sinal ambiente e distribuí-las entre os alto-falantes adicionais para gerar u®a certa quantidade de envelope (J. S. Usher e 0. Benesty, Enhancement of Spatial Sound Quality: A Dew ReverberationExtraction Audio l/pmlxer, IEEE I’ransagde® no Processamento de Audio, Fala e Linguagem, vol. 15, n® 7, pp. 2141-2150, 200'7; C. Faller, Muitipie-toudspeaker Playback of Stereo Signals, J. Audio Eng. Sue, vol. 54, n° 11, pp« 1051-1064, 2006; C. Avendano e J.-M. Jot, Ambience extraction and synthesis from stereo signals for multi-channel audio upmix, no Processamento de Acústica, Fala a Sina.1 fSCASSP}, 2002 IEEE Conferência Internacional, vol. 2, 2002, ρρ. II1957 - 11-1960; e A. Irwan e R. M. Aarts, Two-to-Five Channel Sound Processing, J. Audio Eng< Soo, vol< 50, n° 11, pp. 514-926, 2002) . A extração tem como base apenas um ou dois canais, que é a razão pela qual a cena de áudio resultante não é mais uma imagem precisa da cena original, e a razão pela qual estas não são abordagens úteis para as nossas finalidades. Isso também e verdadeiro para abordagens de matriz, conforme descrito por Dressier em Dolby Surround Pro Logic II Decoder Principles of Operation (disponível online, o endereço está indicado abaixo). A abordagem de uprdx dois-pora-três mencionada por Vickers na Publicação do Pedido de Eatunte Norte-Americano 9* CS 2010/0236672 Al Twoto-Three Channel Fpmix for Center Channel Derivation utiliza algum conhecimento prévio sobre a posição do terceiro alto falante e a distribuição do sinal resultante entre os outros dois alto-falantes, e, portanto, não possui a capacidade de gerar sinais precisos para uma posição arbitrária do altofalante inserida.

[00341 Aplicações da presente invenção têm o objetivo de fornecer um sistema que seja capaz de preservar a cena de áudio original em. um ambiente de reprodução, onde a configuração de alto-falante desvie da original agrupando os alto-falantes adequados em segmentos e aplicando um upmfx, domnm.lv e/ou processamento de ajuste de deslocamento, üm estágio de pds-processamento em um codec de áudio regular podería ser um possível cenário de aplicação. .Esse caso é descrito na figura 1, em que N, p_s> (3_S, e M> p_s >:./ _f φ₅são os números de alto-falantes e suas posições correspondentes nas coordenadas polares na configuração de alto-falante original e modificada/deslocada, respectivamente« No geral, entretanto, o método proposto é aplicável a qualquer cadeia do sinal de áudio como uma ferramenta de pês-procsssamento. Nas aplicações, os segmentos da configuração de alto-falante (configuração de alto-falante de original e/ou reprodução) representam, um subconjunto de direções dentro de um plane bidimensional (2D) ou dentro de um espaço tridimensional (3D;. be acordo com as aplicações# para uma configuração de alto-falante plana bidimensional (2b), toda a faixa de interesse do ângulo azimute pode ser dividida em vários segmentos {setores) que cobrem, uma faixa reduzida de ângulos azimute. Da forma análoga, no caso 3D, toda a faixa do ângulo sólido (azimute e elevação) pode ser

a, ent particular, descomprimir q sinal de áudio espacial codificado. 0 decodifleader 20 produs um sinal de áudio espacial decodificado 2 que é altamente semelhante ou até mesmo Idêntico ao sinal de áudio espacial do lado do codificador 1. A assa altura, no processamento dc sinal de áudio especial, pode ser empregado um método ou um aparelho 100 para ajustar um sinal de áudio espacial. A finalidade do método ou do aparelho 100 ê ajustar c sinal de áudio espacial 2 em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. 0 método ou o aparelho fornece ® sinal de áudio espacial 3 ou 4 ajustado, que é exigido na configuração da alto-falante de reprodução esa mãos.

[0037] Orna visão geral do sistema dc método proposto é descrita na figura 2. A representação de domínio de frequência da curta duração dos canais de entrada sàc agrupados em segmentes X por um agrupador 110 (elemento de agrupamento] e inseridos em uma Decomposição uireta/de Ambiência 130 e um estágio de Estimativa por DOA 140, em que A é a ambiência e D são os sinais diretos por alto-falante, e o segmente e 3], O são as DOAs estimadas por segmento. Esses sinais são inseridos em um renderizador de ambiência 170 ou um renderleader de som direto 150, respectivamente, resultando nc-s sinais diretos a de ambiênoía recentemente renderirados A e D por alto-falante e segmento para a configuração de saída. Os sinais do segmento são combinados por um combinador 180 em. sinais de saida angulares corrigidos. Para compensar os deslocamentos na configuração de saíde com relação á distância, os canais são escalados e atrasados em um. estágio de ajuste de distância 190 para finalmente resultar nos canais do alta~.fal.ante da configuração de reprodução. O referida método também pode ser estendido para gerenciar as configurações de reprodução com um número aumentado/· bem coma reduzida, de alto-falantes, e é descrito abaixo, [00381 Em uma primeira etapa, o método os e aparelho agrupa os sinais do alto-falante vizinhos adequados em segmentos K, enquanto cada sinal de alto-falante pode contribuir com os vários segmentos e cada segmenta consiste em, pela menos, dois sinais de alto-falante. Em uma configuração de alto-falante coma a descrita na figura 3, os segmentos iniciais da configuração/ por exemplo, seriam formados pelos pares de alto-falante See^ ~ fL₂,I>₃}, (Ls/LU, (LoLsl, íls/L-i}) a ©s segmentos de saída seriam Seg_o«_fc- UWhí, ILG/Ieh (Ls/LG, {Wsb ílo/Ub O altofalante Ls na configuração de alto-falante original (altofalante desenhado na linha tracejada) foi modificado para um alta-falante movido ou deslocada 1½ na configuração de altofalante de reprodução.

[0039] Durante a análise, uma Decomposição Direta/de Ambíênaía por segmento co® base na correlação cruzada normalizada é realizada, resultando nos componentes do sinal direto D e no componente do sinal de ambíéncia A para, cada alto-falante (para cada canal) com. relação a cada segmenta considerado. Isto é, o método proposto/aparelho pode estimar os sinais diretos e ambientes para uma diferente fonte dentro de cada segmento. A Dééomposição Direta/da Ambiência nãc ê restrita â abordagem mencioriada, com base na correlação cruzada normalizada, mas, pede ser realizada com qualquer algoritmo de decomposição adequado. 0 número de sinais diretos e de ambiência gerados por segmento va.i de, pelo menos, um até o número de alto-falantes de contribuição ao segmento considerado. Por exemplo, para a configuração inicial dada na figura 3, há pelo menos um sinal direto ou ambiente ou no máximo dois sinais diretos e dois ambientes por segmento.

[0040] Além disso, visto que um sinal de altofalante particular está contribuindo para os vários segmentos durante a Decomposição Direta/de Ambiência,· os sinais podem ser reduzidos ou divididos antes de entrar na Decomposição Direta/de Ambiência. A .forma mais fácil, de fazer isso seria uma redução de cada sinal de alto-falante dentro de cada segmento pelo número de segmentos para o qual esse altofalante particular contribui. Por exemplo, para c· osso na figura 3, cada canal de alto-falante contribui para dois segmentos, então, o fator de redução seria 1./2 para cada canal de alto-falante. Has, no geral., uma divisão mais sofisticada e desequilibrada também é possível.

[0041] Um. estágio da estimativa da direção-dechegada (estágio de estimativa da DOA) 140 poda ser fixado na Decomposição Direta/de Ambiência 130. As DQA.s, que consistem em um ângulo azimute □ e possivelmente em um. ângulo de elevação □, são estimadas por segmento e faixa de frequência e de acordo com. o método escolhioc de Decomposição Direta/de

Ambíência. For exemplo, se o método de decomposição de correlação cruzada normalizada é utilizado, a Estimativa por DOA utiliza considerações de energia da entrada e dos sinais de som. direto extraídos pata a estimativa, ^o geral, entretanto, ele pode ser escolhido entre várias Decomposições Diretas/de Ambiência e algoritmos de detecção de posição.

[004 2] No estágio de renderi cação 170, 150 (Penderirador de .Ambiência e de Som Direto), ocorre a conversão real entre configuração de alto-falante de entrada e saída, com sinais diretos e de ambiencia sendo tratados separada e diferentemente. Qualquer modificação na configuração inicial pode ser descrita como uma combinação de três casos básicos: inserção, remoção, e deslocamento de alto-falantes. Por razões de simplicidade, esses casos são descritos individualmente, mas em. um cenário do mundo real eles ocorrem simultaneamente e, assim, também são tratados simultaneamente. Xsso é realizado pela superimposiçãc dos casos básicos. A inserção e a remoção de alto-falantes afetam apenas os segmentos considerados e devem ser vistas como uma técnica de upmíx a dcwnmix com base no segmento. Durante a renderização, os sinais diretos podem ser inseridos em uma função de deslocamento, que garanta uma localização correta das fontes fantasmas na configuração de salda. Para isso, os sinais podem ser deslocados inversamente, com relação a configuração inicial, e desiocad.es novamente, com relação à configuração de saida. isso pode ser obtido, aplicando-se os coeficientes de realocação aos sinais diretos dentro de um segmente. Orna possível implementação, por exemplo, para o caso de deslocamento, da coeficiente de deslocamento podería .ser como segue:

...... M +« [0043] em que g_k, são os ganhos de deslocamento na configuração inicial (derivados das DOAs estimadas} e são os ganhos de deslocamento para a configuração de salda, k « 1...K indica o segmento considerado e s 1...S indica o alto-falante considerado dent.ro do segmenta, ή ê uma pequena constants dá regularização. Isso produz os sinais diretos deslocadas:

= ₍₂,

10044] Em qualquer segmento no qual os alto-falantes de contribuição combinam, nas configurações de entrada e de saída, isso resulta em uma multiplicação por 1 e deixa os componentes diretos extraídos inalterados.

(004S] Üm. coeficiente de correção também é aplicado aos sinais ambientes que, no gerai., dependem de quanto os tamanhos do segmento mudaram.

coeficiente de correção podería ser implementada como sagus:

LU finai l te (3) (0046] em que denotam o ângulo entre as posições do alto-falante dentro do segmento 1 na configuração inicial (configuração de alto-falante original) ou na configuração de saída (configuração de alto-falante de reprodução), respectivamente. Isso produz os sinais de ambiència corrigidos:

rlç -- Cup;4) [00471 Come os sinais diretos, em qualquer segmento nu qual os alto-falantes de contribuição combinam nau configurações de entrada e de salda, os sinais ambientes são multiplicados por um e deixados inalterados. Bsse comportamento de renderização direta e de ambiéncia garante uma forma de processamento de preservação da onda de um canal de alto-falante particular se nenhum dos segmentos para o qual c canal de alto-falante contribui apresentar mudanças, Além disso, o processamento converge levemente para a solução de preservação da forma de onda, se as posições do altofalante dos segmentos forem progressivamente movidas em direção às posições da configuração inicial.

[0048] A figura. 4 visualiza um cenário em que um alto-falante (L») foi adicionado a uma configuração de altofalante padrão 5.1, ou seja, um número elevado de altofalantes. Adicionar um alto-falante pode resultar em um ou mais dos seguintes efeitos: a estabilidade .fora do ponto ideal da cena de áudio pode ser melhorada, ou seja, uma estabilidade melhorada da osna de áudio espacial percebida se um ouvinte ss mover para fora do ponto de audição ideal (chamado ponto ideal), 0 envelope do ouvinte pode ser melhorado e/ou a localiração espacial pode ser melhorada, por exemplo, se uma fonte fantasma for substituída por um altofalante real, ba figura 4# S denota uma posição da fonte de plataforma estimada no segmento formado pelos alto-falantes

A 8 Ls. A posição da fonte de plataforma estimada pode ser determinada com base na decomposição direta/de ambiênçia realizada pelo decompositor direto/de ambiência 130 e na estimativa da direçãc-de-chegada para uma ou mais fontes fantasmas dentro do segmento, Para o alto-falante adicionado.

um sinal apropriado direto e de ambiência deve ser criado e os sinais diretos e ambientes dos alto-falantes vizinhos devem ser aplicados. Isso resulta efetivamente em um upmix para o segmento atual com um gerenciamento do sinal como segue;

[004 9] Sinais diretos: l?a configuração de altofalante de reprodução (configuração de saída) com c altofalante adicional. L§, a fonte fantasma S é atribuída a.o segmento (Lg, L§) na configuração de alto-falante de reprodução. Assim, as partes do sinal direto correspondentes a S no alto-falante ou no canal original Lj devem ser retribuídas e realocadas ac alto-falante adicional L«, e processadas por uma função de realização, o que garante que a posição percebida de S permanece a mesma na configuração de alto-falante de reprodução. A realocação inclui remover os sinais realocados de 1·₅. Partes diretas de 5 em. I<s também devem ser processadas pela realocação.

(•0050] Sinais ambientes: 0 sinal ambiente para t_ô è gerado fera das partes do sinal ambiente em Lj e Io e passado para um decorrelacíonador, para garantir uma percepção ambiente doa sinais gerados. As energias dos sinais ambientes em !,;> L_ô e L··.·. [cada alto-falante dos segmentos de configuração de salda recentemente formados fLg, W e {L_s,

L₃} ; é ajustado de acordo corn um Esquema de Remapeamento de Energia da Ambiênuia salecionável, que a seguir é referido como A.ERS. Farto desses esquemas é um esquema de Energia da Ambiância Constante (CAE í Constant Ambience Energy), um que toda a energia da ambiência é mantida constante, e um esquema de Densidade de Ambiênoia Constante (CAD ; Constant Ambience Density),· em que a densidade da energia, da ambiência dentre de um segmento ê .mantida constante (por exemplo, a densidade da energia da ambiênoia dentro dos novos segmentos {Lj, e {L_s, l₃.| deve ser a mesma que no segmento original (Ls, ♦ Esses esquemas são a seguir abreviados como CAE e CAD, respectivamente<

[OOfsl.j S® S é posicionado n.® segmento d® reprodução [I<e, Xç) o processamento de sinais diretos e ambientes segue as mesmas regras e é reaüsadc de forma análoga.

[0G52] Conforme ilustrado na figura 4, a configuração de alto-falante de reprodução compreende um alto-falante adicional fu dentro do segmento originai {Ls, I<₅), de modo que o segmento original da configuração de altofalante original corresponda á dois segmentos bfo, fo) o de, Ifo da configuração de alto-falante de reprodução. Ko geral, o segmento original pode corresponder a dois ou mais' segmentos dos segmentos de reprodução, ou sega, o altofalante adicional subdivide o segmento original cm dels ca mais segmentos. 0 renderizador de som direto 150 é configurado nesse cenário para gerar os componentes d® som direto ajustados para, pelo menos, dois alto-falantes L_ví, 1₃a para o alto-falante adicional 1® da configuração de alto falante de reprodução.

(0053] A figure 5 ilustra esquematicamente uma situação de um número reduzido de alto-falantes na configuração de alto-falante de reprodução em comparação a configuração de alto-falante original, ha figura 5, é descrito um cenário onde um alto-falante (fo) foi removido de uma configuração de alto-falante padrão 5.1. e fo representam as posições estimadas da fonte de plataforma por faixa de frequência nos segmentos iniciais da configuração (Lí, fo} e (fo, fo}, respect ivamente < 0 gerenciamento de sinal, descrito abaixo, resulta eíetivamente em um dbsmmix dos dois segmentos (fo., fo] e {fo, foi em um novo segmento ifo, fofo [005«] Sinais diretos: Partes do sinal direto de fo devam ser realocadas para fo e fo e unidas, de modo que as posições percebidas da fonte de plataforma Sj e fo não mudem. Isso é realizado pela realocaçào das partes diretas de fo em fo a fo e das partes diretas de fo em fo a fo.< Sinais correspondentes de Sj e fo em fo. e fo são processados por uma função de realização, que garante a percepção correta das posições da fonte de plataforma na configuração de altofalante de reprodução. A união e realizada por uma sobreposição dos sinais correspondentes.

[0055] Sinais ambientes: Os sinais ambientes correspondentes aos segmentos i'fo, fo} e (fo, fo}, ambos localizados em fo, são realocados em fo. e fo, respectivamsnte. duvamente, os tinais realocados são realocadcs de acordo com um dos Esquemas de Aemapéamento de Energia de Amblèncla (AERSs [ Ambience Energy Remapping Schemes) introduzidos e unidos com os sinais ambientes originais em L· e L^.

[0056] Conforme ilustrado na figura S, a configuração de alto-falante de reprodução não possui o altofalante L- em comparação oom a configuração de alto-falante original, de modo que o segmento (Ε>., Éa) o um segmento vizinho fL^, L$] são unidos em um segmento unido da configuração de alto-falante de reprodução. No geral e, particularmente, em uma configuração tridimensional do altofalante, a remoção de um alto-falante pode resultar em vários segmentos originais sendo unidos a nm segmento de reprodução. [0057] As figuras EA e 6B ilustram esquematicamente duas situações de alto-falantes deslocados. Em particular, o alto-falante In na configuração de alto-falante original foi movido para uma nova posição e é referido como alto-falante 1'2 na configuração de alto-falante de reprodução. Um processamento proposto para o caso de um alto-falante deslocado e como segue.

[0D58] Dois exemplos para possíveis cenários de deslocamento do alto-falante são descritos nas figuras EA e 6B_f em que, na figura EA, apenas um redimensionamento do segmento ocorre e nenhuma realocação de uma fonte fantasma ee torna necessária, visto que na figura EB o alto-falante deslocado é movido além da posição (direção) estimada da fonte fantasma Sa e, assim, a fonts precisa ser realoeada e un i da a o s e gm e n c o de e a i da (L, L ·* ₂ . ó a 11 o - f a 1 a nt e o r i g i na 1

1<> e a sua direção da perspectiva do ouvinte são desenhados em linhas tracejadas nas figuras EA e €fi.

[0059] Να casa ilustrado esquematicamente na figura BA, os sinais diretos são processadas como segue. Conforme estabelecido antes, uma realocação não ê necessária. Assim, o processamento é confinado para passar α componente do sinal direto de 51 e 62 nas alto-falantes Ι,χ, !> e Ls, respectivamente, à função de realização, que ajusta os sinais de modo que as fontes fantasmas sejam percebidas na sua posição original com. o alto-falante deslocado L’z<

[0060] Os sinais ambientes no casa mostrado na figura 6A são processados como segue. Visto que ainda não há necessidade de realocaçdes do sinal, os sinais ambientes nos segmentos e alto-falantes correspondentes são simplesmente ajustados de acordo com um dos A&RSs.

[0061] Cam relação à figura BB, o processamento dos sinais diretos é descrito agora. Se um alto-falante é movido além de uma posição da fante de plataforma, ele se torna, necessário para realocar essa fonte em um diferente segmenta de saída< Aqui, α sinal de origem de deve ser realocado aa segmento de salda L'd} e processada pela função de realização para garantir uma percepção da posição da fonte igual. Adicionalmente, os sinais de origem correspondentes de .¾ em devem ser deslocados ncvamente para combinar com o novo segmente de saída L’_;>} e ambas as partes do novo sinal de erigem em cada alto-falante Li e 1’1 devem ser unidas <

[0062] Assim, o renderleader de som direto é configurado para realocar um. componente de som. direta tendo uma direção de chegada determinada Sg do segmento- {Lg, na configuração de alto-falante original em um segmento vizinho Ibx, na configuração de alto-falante de reprodução se um limite entre o segmento e o segmento vizinho transgredir a direção de chegada determinada ac passar da configuração de alto-falante original à configuração de alto-falante de reprodução» Além. disso, o render!zador de som direto pode ser configurado para realocar o componente de som direto tendo a direção de chegada determinada de, pelo menos, um altofalante do segmento original {La, L3.) em, pelo manca, um alto-falante na segmento vizinho na configuração do saída (Li, 1'j}. Particularmente, o renderizador direto pode ser configurado para realocar o componente direto de em I3 atribuído ao segmento {1₂, bs) na configuração inicial ao alto-falante deslocado V 2 atribuído ao segmento {L_iz Vaf na configuração de reprodução e para realocar o componente direto da ft em b₂ atribuído ao segmento ÍIu, loi na configuração inicial ao atribuído ao segmento {Lj, l/₂i na configuração de reprodução. Observe que a ação de realocar também pode envolver um ajuste do componente de so.m direto, por exemplo, realizando uma realocaçãc com relação a uma amplitude relativa e/ou a um atraso relativo dos sinais do alto-falante.

[00631 Para cs sinais ambientes na figura 58, um processamento semelhante pode ser realizado: os sinais ambientes no segmento {b₂, Lj) são ajustados utilizando um dos AERSs» Para grandes deslocamentos, adicionalmente, uma parte desses sinais ambientes pode ser adicionada ao segmento fLi, LG1 e ajustada por um A.ERS.

(00641 Dentro do estágio de combinação 180 (figura 2}, es sinais de alto-falante reais para a configuração de alto-falante de reprodução (configuração de saída} são formados. Isso é feito adicionando-se os sinais diretos e ambientes remapeados e renderizados correspondentes dos respectivos segmentos esquerdo e direito, com relação ao alto-falante no meio (os termos alto-falante esquerdo e direito significam o caso bidimensional, ou seja, todos os alto-falantes estão no mesmo plano, tipicamente um plano horizontal}< Ns salda do estágio de combinação 130, os sinais para a cena de áudio original, agora renderizados para a nova configuração de alto-falante (a configuração de alto-falante de reprodução} com alto-falantes M nas posições »9, e são emitidos.

[0065] Peste ponto, ou seja, na saida do combinador c-u estágio de combinação 180, e novo sistema fornece sinais do alto-falante, em que tcdas as modificações com relação ao ângulo azimute e de elevação dos alto-falantes na configuração de saída foram corrigidos. Se um alto-falante na configuração de saida foi movido, de medo que sua distância ao ponto de audição téúha mudado para uma nova distância /i>_s, o estágio de ajusta de distância opcional 190 pode aplicar um fator de correção e um atraso ne-s-se canal para compensar a mudança de distância. A saida 4 desse estágio resulta nos canais de alto-falante da configuração de reprodução real.

[0066] Outra aplicação pode utilizar a invenção para implementar um ponto ideal móvel da configuração de altofalante de reprodução. Para isso, em ume primeira etapa, o algoritmo ou o aparelho deve determinar a posição do ouvinte. Isso pode ser feito facilmente utilirando-se uma técnica/dispositivo de rastreamento para determinar- a posição atual do ouvinte. .Então, o aparelho calcula novamente as posiçóes dos alto-falantes com relação à posição do ouvinte, que significa um novo sistema de coordenada com. o ouvinte na origem. Isso é equivalente a ter um ouvinte fixo e altofalantes móveis. O algoritmo, então, calcula os sinais ótimos para esta nova configuração.

[00€7] a figura 7 mostra um diagrama em blocos esquemática de um aparelho 100 para ajustar um sinal de áudio espacial 2 em uma configuração de alto-falante de reprodução d.e acordo com pelo menos uma aplicação. Q aparelho 100 compreende um agrupador 110 configurado para agrupar, pelo menos, dois sinais do canal 702 em um segmento. O aparelho 100 compreende, ainda, um decompcsitor de ambiónoia direto 130 configurado para decompor, pelo menos, dois sinais do canal 702 no segmento em, pelo menu®, um componente de som direto 732 e, pelo menos, um componente de ambiãncia 734. 0 docosipcsitor de ambrênoia direto 130 pode opcionalmente compreender um estimador de direção-de-nhegada 140 configurado para estimar a(s) OOA(s} de, pelo menos, um componente de som direto 732. Como uma alternativa, a(s) uOAÇsè pode(m) ser fornecida(ai de uma estimativa de DOA externa on come meta informaçãa/informação adicional acompanhando o sinal de áudio espacial 2.

[0082í Um renderizador de som direto 150 é configurado para receber uma informação da configuração de alto-falante de reprodução para, pelo manos, um segmento de reprodução associado com o segmento e para ajustar, pelo menos, um componente de som direto 732 utilizando a informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida de, pelo menos, um componente de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada do segmento. Pelo menus, a renderização realizada pelo renderizador de som direto 150 resulta na direção de chegada percebida estando mais próxima à direção de chegada de, pelo menos, um componente de som direto wm comparação a uma situação na qual nenhum ajuste tenha ocorrido, Em. uma inserção na figura 7, um segmento original da configuração de alto-falante original e um segmento de reprodução da configuração da alto-falante de reprodução correspondente ê ilustrado esquemsticamente. Tipicamente, a configuração de alto-falante original ê conhecida ou padronizada da modo que a informação sobre a configuração de alto-falante original não deva necessariamente ser fornecida ao renderiaador de sem. direto 150, mas essa informação já está disponível para o renderiaador de som direto. Contudo, o render!ruder de som direto pode ser configurado para receber a informação da configuração da alto-falante original. Dessa forma, o renderizador de som direto 150 pode ser configurado para suportar os sinais de áudio espaciais como entrada que foram, gravadas ou criadas para diferentes configurações do alto-falante original, como 5.1, 7.1, 10.2, ou, ainda, configu r açces >2.2.

[0069] 0 aparelho 100 compreende, ainda, um combinador .180 configurado para combinar os componentes de som direto ajustados 752, e cs componentes de ambiência 734 ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução. Qs sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução são parte do sinal de áudio espacial ajustado 3, que pode ser emitido pele aparelho 100. Conforme mencionado acima, um ajuste de distância pode ser. realirado no sinal de áudio espacial ajustado por DOA para obter o sinal de áudio espacial ajustado por distância e DOA 4 (veja figura 2). O combinader 180 também pode ser configurado para combinar o componente de som direto ajustado 752 e o componente de ambiência 734 com som direto e/ou componentes de ambiência de um qu mais segmento(s; visinhoCs} que compartilham o alto-falante com o segmento contemplado.

[G07Q1 A figura 8 mostra um fluxograma esguemátioo de um método para ajustar um sinal, de áudio espacial em uma configuração de alto-falante de reprodução que difere de uma configuração de alto-falante original direcionada para apresentar o conteúdo de áudio cunduridc pelo sinal de áudio espacial. 0 método compreende uma etapa 802 de agrupamento de, pelo manos, dois sinais do canal em um. segmento. O segmento é tipicamente um dos segmentos da configuração de alto-falante original. Pelo menos dois sinais do canal no segmento são decompostos em componentes de som direto e componentes de ambiênoia durante a etapa 304> O método ainda compreende a etapa 806 para determinar uma a direção de chegada dos componentes de som direto. Os componentes de som direto são ajustados em uma etapa 808 utilizando uma informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida dos componentes de som direto na configuração de alto-falante de reprodução seja idêntica ã direção de chagada da segmento ou mais próxima è direção de chegada do segmento em. comparação com uma situação na qual nenhum ajuste tenha ocorrido. O método também compreende uma etapa 809 para combinar componentes de som direto ajustados e os componentes de ambiãncia ou componentes de ambiéncia modificados pára obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.

[0071] Q ajuste proposto de um sinal de áudio espacial em uma configuração de alto-falante de reprodução encontrada pode se referir a um ou mais dos seguintes aspectos:

- Agrupar canais de alto-falante vizinhos da configuração original, em segmentos

- Decomposição üireta/de Ambiãncía com base no segmento

Vários algoritmos diferentes de Decomposição Direta/de Ambiência e da extração de posição selecionáveis

- Remapsarnento dos componentes diretos de modo que a direção percebida substancialmente permaneça a mesma

- Remapeamento dos componentes de ambiência de modo que o envelope percebido substancialmente permaneça o mesmo

Correção de distância do alto-falante aplicando um fator de escala e/ou um atraso

Vários algoritmos de deslocamento selecionáveis

- Rem.apeamen.tc independente dos componentes diretos e de ambiència

Processamento seletivo de tempo e frequência

- Processamento de preservação da onda geral para todos os canais de alto-falante se a configuração de salda corresponder à configuração inicial

- Preservação da forma de onda por canal para cada alto-falante onde oú segmentos para os quais o altofalante contribui são inalterados com relação às configurações de entrada e de saída * Casos especiais:

- Deslocamento inverso e deslocamento de urna dada cena de entrada com. um diferente algoritmo de deslocamento

- Por segmento, pelo menos um sinal direto e de ambiência.

Nos segmentos que consistem em deis altofalantes: máximo de dois sinais diretos e dois sinais ambientes. O número de sinais diretos e de ambiência utilizados é independente de cada um, mas depende da qualidade alvo espacial direcionada dos sinais diretos e de ambíêncía render!zados,

-Dov.nsu x/Qpmix oom base no segmento

- Remapeamento de Ambiência é realizado de aoordo com Esquemas de Remapeamento de Energia de Ambiência {AERSs}, compreendendo:

* Energia da ambiência constante ° Densidade de ambiência. (angular) constante (0072,1 Pelo menos algumas aplicações da presente invenção são configuradas para realizar uma conversão da cena sonora flexível com base no canal, que compreende uma decomposição dos canais originais do alto-falante em partes do sinal direto e partes do sinal ambiente de uma fonte (fantasma) de acordo com nada segmenta construído previamente. As direções-de-chegada (DOAs) de cada fonte direta são estimadas e inseridas, juntamente com os sinais diretos e ambientes, em um renderisador e regulador de distância, em que, de acordo com. a configuração de altofalante de reprodução e as EGAs, os sinais de alto-falante originais são modificados para preservar a cena de áudio real, 0 método e o aparelho propostos funcionam preservando a forma de onda e podem, ainda, gerenciar as configurações de saída com. um número redusido ou aumentado de canais de altofalante em relação aos dragoniveia na configuração inicial.

(0073j Embora a. presente invenção tenha sido descrita no contexto de diagramas em bloco, am que os blocos representam os componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. No último caso, os blocos representam as etapas do método correspondente, em que essas etapas suportam as funcionalidades realizadas pelos blocos de hardware físicos ou lógicos correspondentes.

[0074] As aplicações descritas são meramente ilustrativas para os princípios da p.resente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos neste documento serão evidentes a

outros ^;	técnicos	no assunte.	É .	a intensão,	portanto,	ser
limitada	apenas	pelo escopo	das	reivindicações anexas	da
patente	e não	pelos detalhes	especificos	em forma	de

descrição e explicação das aplicações neste documento.

[0075] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou uma a característica de uma etapa do método. De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais etapas do método mais importantes podem ser executadas por esse aparelho.

[0076] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, no. DVD, am Blu-Ray, um CD, uma ROM, uma EEROM, uma EERRQM ou uma memória FLASH, tendo sinal de controle eletronicamente legível armazenado nele, que cooperam, (ou podem cooperar) com um sistema de computador programavel, de modo que o respective método seja realizado. Assim, o maio de armazenamento digital pode ser legível por computador.

[0077] Algumas aplicações, de acordo com a invenção, compreendem um carregador d.e dados tendo sinais- de controle legíveis eletronicamente, que podem cooperar com um sistema de computador programâve.1, de modo que um dos métodos descritos neste documento seja realirado.

[0073] De forma geral, as aplicações da presente invenção podem ser implementadas cerno um produto do programa, de computador com um código da programa, o código do programa sendo operativo para realizar um doe métodos quando o produto do programa de computador é executado em um computador. 0 código do programa pode, por exempla, ser ama senado em um carregador legível por máquina.

[0079] Outras aplicações compreendam o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um carregador legível por máquina.

(0080] Em outras palavras, uma aplicação do método inventivo ê, portanto, um programa de computador tendo u® código do programa para realizar um dos métodos descritos neste docwnento, quando o programa de computador é executado em um computador.

[0081} Outra aplicação dc método inventivo é, portanto, um carregador de dados (ou um meie de armazenamento digitai, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um des métodos descritos neste documento. O carregador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

[0082] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um. dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, aer configurada para ser transferida por meio de uma conexão de comunicação de dados, por enemplo, via Internet.

[00831 Outra aplicação compreende u.m meio de processamento, por exemplo, um. computador ou um dispositive lógico prcgramavel, configurado cu adaptado para realizar u.m dos métodos descrito neste documento.

[0084] Outra aplicação compreende um computador tendo nele instalado o programa de computador para realizar um doa métodos descritos neste documento.

I.0G85] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos neste documento a um. receptor. 0 receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositiva de memória ou semelhante. 0 aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.

[QG86} Em algumas aplicações, um dispositivo lógico programável (por exemplo, uma matriz de portas de campo programáveisj pode ser utilizado para realizai' algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, uma matriz de partas de campa programavais pede operar com um microprocessador, a fim de realizar um dos métodos descritas neste documento. Geralmente, os métodos são preferivelmente realizados por qualquer aparelha de hardware.

[0067} As aplicações da presente invenção podem ter como base as técnicas para Decomposição Direta e de ãmbiénoia. A. decomposição direta a de ambiéncia pode ser realizada tanto com base em um modelo do sinal quanto em um modelo físico.

[0088] A ideia por trás de uma decomposição direta e de ambiéncia com base cm um modelo de sinal é a suposição de que um aam lacalizâval a percebido direto consiste tanto nm um único sinal quanta em sinais mais coerentes ou correlacionados. Visto que o ambiente, logo, som não localixável, corresponde às partes do sinal não correlacionadas. A transição entre direto a ambiéncia é transparente e depende da correlação entre cs sinais., Mais informações sobre a decomposição direta e de ambiéncia podem ser encontradas: em C. Faller, Multiple-Loudspeaker Playback of Stereo Signals, J. Audio Eng. Soo, vol. 54, n° 11, pp. 1051-1064, 2006; em J. s. Daher e 0. Beuesty, Enhancement of Spatial Sound Quality: A Mew Reverberation-Extraction Audio D^mixer, * IEEE Transapõem no Processamento de Audio, Paia e Linguagem, vol. 15, n° 7, pp. 2141-2150, 2007; e um M. Goodwin e J.-M. Jot, Primary-Ambient Signal Decomposition and Vector-Based Localization for Spatial Audio Coding and Enhancement, IEEE Conferência Internacional no Processamento de A.cdstica, Pela e Sinal (ICASSFi , vol. 1, 2007, pp. I-9-112.

(0089] A Codificação de Audio Direcional (DirAC | Qlreotional Audio Coding) é um possível método para decompor os sinais em energias do sinal direto e difuso com base em um modelo físico. Aqui, as propriedades do campo de som para a pressão do som e velocidade do som (partícula} no ponto de audição são capturadas tanto por uma gravação do formato B real quanto virtual. Depois, cam a suposição que o campo de som apenas consiste em uma única onda plana e o resto sendo energia difusa, o sinal pode ser decomposto nas partes do sinal direto e difuso. A partir das partes diretas, as chamadas Direções de chegada (DGAs) podem, ser calcu.la.das. Com o conhecimento das posições reais do alto-falante, as partes do siúál direto podem ser deslocadas novamente utilizando as léis de deslocamento dedicado (veja, por exemplo, V. Pulkkí, Virtual Bound Source Positioning Using Vector Base Amplitude Panning, J. Audio Eng. Soo, vol. 45, no. 6, pp. 456-466, 1997.) para preservar sua posição global no estágio de rendsrização. Fínalmente, o ambiente descorrelacionado e as •partes do sinal direto deslocadas são combinadas novamente, resultando nos sinais do alto-falante (conforme descrito em, por exemplo, V» Pulkki, Spatial Sound Reproduction with Directional Audio Coding, J. Audio rag. Soo, vol. 55, no. 6, pp. 503-516, 2007 ; ou V. Pulkki e J> Herre, Method and Apparatus for Conversion Between Multi-Channel Audio Formats, Publicação do Pedido de Patente Norte~Azter.ica.no bo. 03 2022/2222612 Al, 2008).

[0000] Outra abordagem é descrita pot J. Thompson, B, Smith, A, Warner, e u<-M. Jot. in Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations (apresentado na 1.33 ^s Convenção da ASS 2013, Outubro 2010}, onde energias diretas e difusas de um sinal multicanal são estimadas por um sistema de correlações em pares. O modelo de sinal utilizado aqui permite detectar um sinal difuso e direto dentro de cada canal incluindo a mudança de fase do sinal direto pelos canais. Uma suposição desta abordagem é que os sinais diretos por todos os canais são correlacionados, ou seja, eles estão todos representando o mesmo sinal de origem. G processamento é realizado ue domínio de frequência e para cada faixa de frequência.

[00511 Uma possível implementação da decomposição direta-difusa (ou decomposição direta-de ambiência) é agora desorita em conexão oom. os sinais estéreos como um example. Outras técnicas para decomposição direta-difusa ainda sâu possíveis, e outros sinais que não sejam os sinais estéreos podam ser submetidos à decomposição direta-difusa. Tipicamente, sinais estéreos são gravados ou misturados de modo quo para cada fonte o sinal passa ooerentemente do canal do sinal esquerdo e direito com identificações direcionais específicas (diferença de nível, diferença de tempo) e sinais independentes refletidos/reverberados nos canais determinando a largura do objeto auditivo e indicações do envelope do ouvinte, únicos sinais estéreos de origem, podem, ser modelados por um. sinal s que imita o som direto de uma direção determinada por um fator a, e por sinais independentes n* e na correspondentes ás reflexões laterais. 0 par de sinal estéreo X;., 5Q é relacionado a estes sinais s, n., e rp pelas seguintes equações:

Xí NU ··* s r n.$ ÍÂri xv fk; “ a' s f x? ·/ n.? fáv , [0092] em. que x é um índice de tempo. Certamente, o sinal do som. direto s aparece em ambos os sinais estéreos x? e x_á<, entretanto, tipicamente com diferente amplitude. A decomposição descrita pede ser realizada em várias faixas de frequência e de forma adaptativa no tempo a fim de obter uma decomposição que não e apenas válida em um cenário de objeto auditivo, mas ainda para cenas de som não estacionárias com várias fontes -atualmente ativas. Certamente, as equações acima podem, ser escritas para um indico de tempo x particular e uma sub-banda de frequência m particular como:

xo,fk; ~ pbín X tv.,® 00/ , [0093] cede v é c Índice da sub-banda, k é o índice de tempo, A>, o fator de amplitude para sinal s» para uma determinada banda do parâmetro b que pode compreender uma ou mais sub-bandas dos sinais de sub-banda. Em. cada porção de tempo-frequênois com Índices m e k cs sinais s_;ii, _z ;p_{z;!! e}fator .¾ são estimados indopendentemente. Uma decomposição da sub-banda motivada perceptualmente pode ser utilizada. Esta decomposição pode ser baseada na rápida transformada de Fourier, banco de filtro de espelho em quadratura, ou outro banco do filtro. Para cada banda do parâmetro b, os sinais a», n.í,*, , n?_z» e A* são estimados com base nos segmentos com um certo comprimento temporal (por exemplo, aproximadamente 20ms[ . bado o par do sinal da sub-banda estéreo Aq,® e x_5fíS, o objetivo é estimar s®, n.?_z« _z e A* em cada banda do parâmetro. Uma analise das potências e correlação cruzada do par de sinal estéreo pode ser realizada para esta finalidade. A variável Px.ms denota uma estimativa de curta, duração da potência de na banda do parâmetro b. As potências de n_í/jae n^a podem ser assumidas para serem, as mesmas, ou seja, é assumido que a quantidade do som independente lateral é o mesmo para os sinais esquerdo e direito: Au,a - Ao “ (0094) A potência _z Ρχ,χ.Ρ e a correlação cruzada normal irada p_x; para a banda do parâmetro b pode ser calculada utilizando a representação da sub-banda do sinal estéreo. As variáveis A*, p_s?& , e p_?;zí? são subsequentemente estimadas como uma função de , P>c,s j c px.; .o estimado. Três equações referentes às variáveis conhecidas e desconhecidas sãc:

Act - Am ί Pu ™ 4¾ Λ.

; Λ > . A s'ssss'J's's'sss'· ν' ίΰί.ήύη,ή [0095] Estas equações solucionadas para A*., p_5z*, e p_;>,& resultam:

>';> ^:'~ px_s,P ......P [0096] cor?

di. &.?,& ZUiS '*' ç dum d Í. J; /U; S: jP! ν’/A;.U?ΡλJ,í>

(0097] Depois, as estimativas do método de quadrados mínimos de s_;s, e rç,._S! são calculadas como uma função de As, Ps,.&, o Pm* Para cada banda do parâmetro b e cada estrutura do sinal independente, o sinal s® é estimado como

JUU) ** uqmxçjpU) -F wpa-ri_sm(É7 s=5 uq^C-WA) d-n!,,«<&)) 4 R^;pá(Aí>5p(Ã} ϊ· (GOãSj onde e w>,?> são ponderações em valor real.

As ponderações e são ótimas em um sentido do quadrado médio mínimo quando um sinal de erro E é ortogonal a Xt,« e x.3,« na banda do parâmetro b. Os sinais nj_?!%. e n?,₈ podem ser estimados em uma forma semelhante, for exemplo, pode ser sai.imaue como «MíW ™ m._M,A:_L;íia} 4.

™ ÀPç^G)) 4· W4Ç(.4./,¾(i) exç_t>í(i}) (0099) A pós-escala pode então ser realizada nas estimativas no método de quadrado mínimo iniciais >ζ,# a â_Jflf a fim de combinar a potência das estimativas em cada banda do parâmetro a p_s.,& e Aur- Uma descrição mais detalhada do método de quadrado médio mínimo pode ser encontrada no capítulo 10.3 do livro Spatial Audio Processing por J. B.reebart e C. Faller# que está incorporado neste documento por referência. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.

ÍQiOOl As aplicações da presente invenção podem se referir ou empregar um ou mais Deslocadores Multicanal. Deslocadores Multicanal são ferramentas que permitem que o engenheiro de som coloque uma fonte virtual ou fantasma dentro de uma cena de áudio artificial. Isso pode ser obtido de várias formas. Seguindo uma função de ganho dedicado ou lei de deslocamento# uma fonte fantasma pode ser colocada dentro de uma cena de áudio aplicando uma ponderação de amplitude ou atraso ou ambos ao sinal de origem. Mais informações sobre Deslocadorea Multicanal podem ser encontradas na Publicação do Pedido de Patente AOrteAmer.roano Uo. Ui 2U12/Ú17U75Ú Al Multi-Channel Sound Panner per A. Eppolito# em V. Pulkki# Virtual Sound Source Positioning Using Vector Base Amplitude Panning, J. Audio Aug. Soo# vol. 45, no. 8# pp. 456-485# 1.937 ; e em J. Blauert, Spatial hearing: The psychophysics of human sound localization# eeçào 2.2.2# ,3^s ed. Cambridge e Mass: PUT Press# 2001. Por exemplo# um deslocador pode ser empregado podendo um número arbitrário de canais de entrada e mudanças nas configurações nu espaço do som de salda. Por exemplo, o deslecador pode continuamente gerenciar as mudanças no número de canais de entrada. Ainda, o deslocader pode suportar mudanças ao número e posições de alto-falantes no espaço de saída. 0 desXo-cador pode permitir o controle continuo de atenuação e colapso. Q desiccador pode manter canais originais na periferia do espaço do som ao compactar os canais. 0 desiocador pode permitir o controle sobre a passagem pela qual as fontes compactam. Estes aspectos podem ser obtidos por um método que compreende receber a entrada que solicita o reeguilibrio de uma pluralidade- de canais de áudio original em um espaço do som tendo uma pluralidade de al to~f alentes, em qua a pluralidade de canais de áudic· original e inicialmente descrita por uma posição inicial no espaço do som e ama amplitude inicial, e em que as posições e as amplitudes dos canais definem um equilíbrio dos canais no espaço do som. Com base na entrada, uma nova posição no espaço do sem ê determinada para, pelo menos, u.m dos canais originais. Com base na entrada, unia modificação à amplitude de, pelo menos, um dos canais originais é determinada, em que a nova posição e a modificação à amplitude atinge o reeguilibrio. Em resposta à determinação qua a entrada indica, que cm alto-falante particular da pluralidade de altofalantes deve ser desabilitado, o som que foi a origem do alto-falante particular pode ser automaticamente transferido a outros alto-falantes adjacentes ac alto-falante particular. 0 método é realizado por um ou mais dispositivos de cálculo computacional. Um ou. mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial, [0101] Algumas aplicações da presente invenção podem se referir ou empregar conceitos para mudar a.s cenas de áudio existentes. Um sistema para, compor ou ainda mudar uma cena de áudio existente foi introduzido por XOSONÔ (conforme descrito no Pedida de Patente Alemão No. DE 10 2010 030 534 A.l, Vorrichtung rum Verãndern einer Âudia-Szene und Vorrichtung zum Erzsugen einer Riahtungsfunktion). Die utiliza uma representação original com base no objeto mais metadados adicionais, combinados com uma função direcional para posicionar fonte dentro da cena da áudio, Se uma cena de áudio já existente, sem objeto de áudio e metadados, e inserida neste sistema, os abjetos de áudio, direções e funções direcionais devem primeiro ser determinados desta cena de áudio. Um ou mais destes aspectos podem ser empregados em conexão ou. no contexto da ajuste proposto de um sinal da áudio espacial.

[0102] Algumas aplicações da. presente invenção podem se referir ou empregar uma Conversão do Canal e Correção de Posicionamento. A maioria dos sistemas que têm. o objetiva de corrigir um posicionamento com falha do alto-falante ou desvio nos canais de reprodução tentam preservar as propriedades físicas do campo de som., Para um cenário de dawnmix, uma possível abordagem poderia ser modelar as altofalantes omitidos como alto-falantes virtuais pelo deslocamento e por este meia preservar a pressão do som. e a velocidade da partícula no ponto de audição (conforme descrito em. Ando, Conversion, of Multichannel Sound Signal Maintaining .Physical Properties of Sound in Reproduced Sound Field, ZKFE Transações no Proses samen io de Audio, Fa 2a e Linguagem, vol. .19, no. 6, pp. 1467-1475, 2011) . Outro método serie calcular os sinais do alto-falante na configuração alvo para recuperar o oampo de sum original. Isso é feito pela transição dos sinais do alto-falante originais em. uma representação do campo de som. e renderização dos novos sinais do alto-falante desta representação (conforme descrito na. Laborie, R. Bruno, e S. Montoya, Reproducing Multichannel Sound on any Speaker Layout, in 22.8* Convenção da AES, 2005}.

[0103] De acordo oom Ando, uma conversão de cm sinal de som multicanal é possível pela conversão do sinal do sistema de som multicanal original neste de um sistema alternativo com m diferente número de canais enquanto mantém, as propriedades físicas do som no ponto de audição no campo de som reproduzido. Este problema de conversão pode ser descrito pela equação linear indeterminada. Para obter uma solução analítica ã equação, o método divide o campo de som do sistema alternativo com base nas posições de três altofalantes e soluciona a solução local em cada subcampo. Como um resultado, o sistema alternativo localiza cada sinal do canal dc sistema de som original na posição de alto-falante correspondente como uma fonte fantasma. A composição das soluções locais introduz a solução global, isso é, a solução analítica ao problema de conversão. Os experimentos foram realizados com. 22-sinais do canal de um sistema de som multicanal. 22 <2 sem cs dois canais de efeito de baixa frequência convertidos em 10-, ã-, e 6-sinais do canal pelo método. As avaliações subjetivas mostraram que o método proposto poderia reproduzir a impressão espacial do som do canal 22 original com oito alto-falantes. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.

[0104] A Codificação da Cana de Áudio Espacial (SASC I Spatial Audio Scene Coding) é um exemplo para um sistema motivado não fisico (H< Goodwin e J.-M. Cot, Spatial Audio Scene Coding, na Convenção da AEC, 2000). Esta realiza uma Análise de Componente Principal {PCA í Principal Component Analysis) para decompor os sinais de entrada multicanai em seus componentes de ambiência e primários sob algumas restrições de correlação entre canais (M. Goodwin e J.-M. Jot, Primary-Ambient. Signal Decomposition and VectorBased Localization for Spatial Audio Coding and Enhancement, na IÉEE Conferência In terns ci oral no .Processamento da Acdatica, Feia a Sinai flCASSPj _f vol. 1, 2007, ρρ. 1-9 - I12.). 0 componente primário ê identif içado aqui como o aucovetcr da matriz de correlação do canal de entrada aom o maior autovalor. Depois disso, uma análise da localização

primária ou	de	ambiência	é realizada,	onde um vetor	de
localização	dir	et a on	ambiente são	det erm1nadas.	A
renderização	dos	sinais de	salda á feita	pela geração de	uma

matrix de formato qua contém os vetores de unidade indicando para a direção espacial dos canais de saída. Com base nesta matriz de formato, um conjunto de ponderações nulas é derivado, de modo que o vetor de ponderação esteja, no espaço vazio da matriz de formato. Qs componentes direcionais são gerados peio deslocamento em pares entre estes vetores e componentes não direcionais são gerados utilizando todo o conjunto de vetores na matriz de formato. Os sinais de saída finais são gerados pela interpolate entre as partes do sinal deslocado direcional ou não direcional. Desta estrutura da Codificação da Cena de Áudio Espacial (SASC), a ideia central é para representar uma cena de áudio de. entrada em uma forma que é independente de qualquer formato de reprodução assumido ou direcionado. Esta parametrização agnóstica por formato permite a ótima reprodução sobre qualquer dado sistema de reprodução bem como modificação da cena, flexível. As ferramentas de análise e síntese do sinal necessárias para SASC são descritas, incluindo uma apresentação de novas abordagens para decomposição ambiente primária multicanal» As aplicações de SASC na codificação de áudio espacial, upmix, decodificação da matriz de- amplitude por fase, conversão de formato multicanal, e reprodução binaural podem ser empregados em conexão ou rv contexto do ajuste proposto de um sinal de áudio espacial. Um nu mais destes aspectos podem ser empregados em conexão eu nu contexto do ajuste proposto de um sinal de áudio espacial.

[0105] Algumas aplicações da presente invenção podem se referir nu empregar técnicas de upmix. No geral, as técnicas de upmiz podé.riam ser classificadas um duas categorias principais: o tipo dá métodos que alimentam cs canais surround com. ambiência sintetizada ou extraída dos canais de entrada existentes (veja, por exemplo J. S. Usher e J. Eenesty, Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Dpmixer, IEEE Transações ns Processamento de Xudio, fala e linguagem, vol» 15, no. 7, pp, 2141-2150, 2007 : C. Faller, Multiple.Altc~falante Playback of Sinal estéreos, J. Audio Eng» See, vol. 54, no. 11, pp» 1051-1054, 2006 ; C. .Avendano e J.-M. Jot, 'WltipleLoudspeakex' Playback of Stereo Signals, no Processamento de

Acústica, Fala e	Final flCASS.pj, 2002	I FAN	Conferência
Interned on a.2, vol.	2, 2002, pp. 11-1957	- II-	19 6 0 ; e R.
lrwan e R. M. Parts	, Two-to-Five Channel	Sound	Processing,
J. Audio Eng. Soc,	vol. SO, no. 11, ρρ.	91 4 d	26, 2002}, e

aqueles qua criam os sinais de acionamento para os canais adicionais pela matriz dos existentes (veja, por exemplo R. Dressier. (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. [Online]. Oezposnivel em: http:/Z do 1 ’és/oadedEilep/As s eta/U5/Doc/Professi on a 2 /209 Dolby Surround Pro logic d Ãeooder Frinciplgs of jÃoerat ion, pdf; . Um. caso especial é o método proposto na Publicação do Pedido de Patente Norte-Americano No. 032010/0296672 Al Two-to-Three Channel Ópmix For Center Channel Derivation pot £. Vickers, onde ao- invés de uma extração de ambiência uma decomposição espacial é realizada. Entre nutras, os métodos de geração de ambiência podem compreender a. aplicação de reverberação artificial, calculando a diferença das sinais esquerdo e direito, aplicando pequenos atrasos para os canais surround, e análises do sinal com base na correlaç-ão. Exemplos para técnicas de matriz são conversores da matriz linear e métodos de direção da matriz. Uma breve visão geral destes métodos e dada pox U. Avendano e d.-Έ. dot em '’Frequency Domain Techniques for Stereo to Multichannel Upmix, na 2u?^aConfarenols Enternacional de AES sobra Audio Virtual, Si.ntdiido e da Entretenimento, 2002 e paios mesmos autores cm Ambience extraction and synthesis from stereo signals for mu.lt i -channel audio up-mix'¹' no Pro cessa.men to de Acústica, Fala e Sinai fitliSSF), 2002 IEEE Conferência Internacional, vol. 2, 2002, pp. 11-1957 -11-1960. Um ou mais destes aspectos podem ser empregados cm conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.

[0106] A extração de ambiéncia e síntese dos sinais estéreos para npmix do áudio multicanal pode ser obtida por uma técnica de domínio de frequência para identificar e extrair a informação de embiênoie nos sinais de áudio estéreo. O método a baseado no cálculo computacional de um índice de coerência entre danais e uma função de mapeamento não-,línear que nos permite determinar as regiões de tempofrequência que consistem, na maior parte em componentes de ambiência no sinal do dois canais. Os sinais de ambiência são então sintetizados e utilizados para inserir os canais surround de um sistema de reprodução multicanai. Os resultados da simulação demonstram a eficiência da técnica ao extrair informação de ambiênoia e tostas de upmi.x no áudio real revelam as várias vantagens e desvantagens do sistema comparado ãe estratégias prévias de upmix. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto- do ajuste proposto de um sinal de áudio espacial.

ί0107 J

As técnicas de domínio de frequência para upmix estéreo em multícanal podem ainda ser empregadas em conexão ou no contexto do ajuste de um sinal de áudio espacial em uma configuração de alto-falante de reprodução. Varias técnicas d.e upmíx para gerar o áudio multicanal das gravações estéreo estão disponíveis. As técnicas utilizam uma estrutura de análise comum com base na comparação entre aa Transformadas de Fourier de Curta Duração dos sinais estéreos esquerdo e direito. Uma medição de coerência entre canais ê utilizada para identificar as regiões de tempo-frequência que consistem a maioria das vares em componentes de ambiêncía, que podem então ser ponderados através da uma função de mapeamento não-linear, e extraidos para sintetizar os sinais de ambiência, Uma medição de similaridade é utilizada para identificar os coeficientes de deslocamento das várias fontes na mistura no plano de tempc-frequência, e diferentes funções de mapeamento são aplicadas para desfazer a mistura (extrair) uma ou mais fontes, e/ou compactar novamente os sinais em um nümero arbitrário de canais. Uma possível aplicação das várias técnicas refere-se ao desenho de um sistema dé upmlx da dois a cinco canais. Um ou mais dastes aspectos podem ser empregados em conexão ou .no contexto do ajuste proposto de um sinal de áudio espacial.

(0108) Um decodifloader surround pode ser adepto a salientar as Indíoaçôes espaciais ocultas nas gravações musicais convencionais eu uma forma natural e convicta. 0 ouvinte é desenhado em um espaço tridimensional ac invés de ouvir uma apresentação plana bidimensional> Isso não ajuda apenas a dasonvoivcr um campo de sam mais envolvente, mas ainda soluciona o problema do ponto ideal’'' estreito da reprodução estéreo convencional. Em alguns decodificadores? lógicos o circuito de controle está visando o nível relativo e a fase entre as sinais de entrada. Esta informação é enviada ao estágio da matriz de saída variável para ajustar VCãa que controlam o nivel dos sinais antifase. Os sinais antifase cancelam os sinais de díafonia indesejadcs, resultando na separação do canal melhorada. Isso ê chamado de desenhe direto. Este conceito pode ser estendida visando as mesmos sinais de entrada e realizando o controle de loop fechado de modo que eles combinem seus níveis. Estes sinais, de áudio combinados são enviados diretamente aos estágios da matriz para derivar os vários canais de áaida. Por causa dos mesmas sinais de áudio que alimentam a matriz de saída serem, utilizados para cantrolar o sorvo loop, é chamado de desenho lógico de retrocesso. 0 conceito do controle de retrocesso pode melhorar a precisão e otimizar as características dinâmicas. Incorporar o retrocesso global ao redor do processo de direção lógica traz beneficias semelhantes na direção do comgorremonto preciso e dinâmico. Um ou mais destes aspectos podem, ser empregados em conexão ou no contexto do ajusta proposta de um sinal do áudio espacial.

[01Q9] Em conexão com reprodução de alto-falante múltipla, uma decomposição espacial perceptaa.lm.ente motivada para dois-oanal sinais de áudio estéreo, capturando a informação sobra o estágio de aoo virtual pode ser utilizada. A decomposição espacial permite resintetizar os sinais de áudio para reprodução sobre os sistemas de som que não seja o estéreo de dois canais. Com. o uso de mais alto-falantes frontais a largura do estágio da som virtual pode ser elevada além, de ±30 e a regido do ponto é estendida. Opcionalmente, os componentes laterais do som independente podem ser reproduzidos separadamente sobre os alto-falantes aos lados de um ouvinte para aumentar o envelope do ouvinte. A decomposição espacial pede ser utilizada com som surround e sistemas de áudio com base na síntese do campo de onda, Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.

(0110] A decomposição do sinal ambiente primário e a localização com base no vetor para a codificação de áudio espacial e endereço de melhoria o comercial crescente precisa armazenar e distribuir o áudio multicanal e para renderizar o conteúdo de forma ótima nos sistemas de reprodução arbitrária» Um esquema de anâlise-sintese pode aplicar a análise do componente principal em uma representação de domínio por ST ET (domínio de transformação da frequência de curta duração i short time frequency transformation domain) do áudio original para separar em componentes primários e ambientes, que são então respectivamente analisados quanto ás indicações qua descrevem a percepção espacial da cana de áudio em. uma base por porção; estas indicações podam ser utilizadas pela síntese para renderizar o áudio apropriadamente no sistema de reprodução disponível. Esta estrutura poda ser adaptada para, codificação de áudio espacial robusta, on pode ser aplicada diretamente aos cenários de melhoria onde não hâ restrições nos dados espaciais intermediários e representação de áudio.

[0.111] Com relação a amplitude e envelope em acústica musical, a sabedoria convencional defende que a amplitude e envelope são causados pela energia do som lateral em salas, e principalmente a energia lateral de chegada previa que ê mais responsável. Entretanto, pela definição as pequenas salas não são espaçosas, elas ainda pedem ser carregadas com reflexões previamente laterais» Assim, ca mecanismos perceptuais para amplitude e envelope podem ter uma influência sobre o ajuste de um sinal de áudio espacial. As percepções são encontradas para ser relacionadas da forma mais comum ã energia lateral (difusa) em salas nas extremidades das notas (a reverberação de fundo) e menos frequente, mas de forma importante, às propriedades do campe de som acme as notas são mantidas. Uma medição para amplitude, chamada tempo de atraso precoce lateral (LãüT | lateral early decay time), é sugerida. Um ou mais destes aspsícv.es podem ser emp rasados em conexão ou no on rd', az to do ajuste proposto de um sinal de áudio espacial.

Claims

REIVINDICAÇÕES

1. Aparelho (.100} para adaptar um sinal de áudio espacial (2) para uma configuração de alto-falante original em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante originai, caracterizado pelo sinal de áudio espacial (2) compreender uma pluralidade de sinais do canal, o aparelho compreendendo: um agrupador (110} configurado para agrupar, pelo menos, dois sinais do canal em. um segmento;

um decompositor de ambiência direto {130) configurado para decompor, pelo menos, os dois sinais do canal no segmenta em, pelo menos, um componente de som direto (D; 732) e, pelo menos, um componente de ambiên-cia (A; 734}, e para determinar uma direção de chegada de, pelo menos, um componente de som direto (S, S;., Sp ;

um render!zador de som direto (150) configurado para receber uma informação da configuração de alto-falante de reprodução para, pelo menos, um segmenta de reprodução associado com o segmento e para ajustar, pelo menos, um componente de som direto (D; 732) utilizando a informação da configuração de alto-falante de reprodução- para o segmento, de modo que uma direção de chegada percebida de, pólo menos, um componente de som direto (S, 8?, S_s) na configuração de alto-falante de reprodução seja idêntica ã direção de chegada do segmento ou mais próximo à direção de chegada de, pelo menos, um componente de som direto, comparado a uma situação na qual nenhum ajuste tenha ocorrido; e um combinador (188) configurado para combinar componentes de som direto ajustados (752) e componentes de ambiéncia {734) ou .componentes de ambiéncia modificados para obter sinais do alto-falante paxa, pelo menos, dois altofalantes da configuração de alto-falante de reprodução.
2. Aparelho (100) de acordo com a reivindicação 1, caracterizado pela configuração de altofalante de reprodução compreender um alto-falante adicional. (Líà dentro do segmento, de modo que o segmento da configuração de alto-falante original corresponda a dois ou mais segmentos do segmento do alto-falante de reprodução;

em que o render!rador de som direta (158) é configurado para gerar os componentes de som direto ajustadas (752) para, pelo manos, dois alto-falantes e o alto-falante adicional da configuração de alto-falante de reprodução.
3. Aparelho (.180) de acordo com a reivindicação 1 ou 2, caracterizado pola configuração de alto-falante de reprodução não possuir um alto-falante comparado ã configuração de alto-falante original, de modo que o segmente e um segmento vizinho da configuração de altofalante original são unidos em um segmento unido da configuração da alto-falante de reprodução;

em que o rende rí redor de sum direto (138) è configurado para distribuir componentes, de som direto ajustados (732) de um canal correspondente ao alto-falante qua não possui na configuração de alto-falante de reprodução a paio menos dois alto-falantes remanescentes (Lj, LÁ do segmento unido da configuração de alto-falante de reprodução.
4. Aparelhe {100) de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado pelo renderizader de som direto (150) ser configurado para realooar um componente de som direto (Ss) tendo uma direção de chegada determinada do segmento HIo> T-u)) da configuração de altofalante original a. um segmento vizinho (ÍXn, LfgM da configuração de alto-falante de reprodução, se um limite entre o segmento í{L>, IsH e o segmento vizinho (OU, L'ú) transgredir a direção de chegada determinada ao passar* da configuração de alto-falante original para a configuração de alto-falante de reprodução.
5» Aparelho (100) de acordo com a reivindicação 4, caracterizado pelo renderizador de som direto (150) ser, ainda, configurado para realooar o componente de som direto (Sj), tendo a direção de chegada determinada de, pelo menos, um primeiro alto-falante (X»3) a., pelo menos, um segundo alto-falante (L'x), pelo menos, um primeiro alto-falante (L3) sendo atribuído ao segmento ({I»2, i»s)) na configuração de alto-falante original, mas não ao segmento vizinho ({Lx, 1½)) na configuração de alto-falante de reprodução e, pelo menos, um segunde alto-falante (Lh) sendo atribuído ac segmente vizinho (íl»j., LUH na configuração de alto-falante da reprodução.
6. Aparelhe {1..Ô0] da acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo renderizador de som direto (150) ser configurado para realizar uma realooação de, pelo menus, um componente de som direto (S, Sx, Sb utilizando a informação da configuração de alto falante de reprodução e a direção de chegada percebida de, pelo manos, ® componente de som direto.
7. Aparelho (1Q0) de acordo com a reivindicação 6, caracterizado pele render!zador de som direto (.150) ser, ainda, configurado para realizar a realocação de, paio menos, um componente de som direto {Si) tendo a direção de chegada determinada pelo ajuste de sinais do alto-falante para os alto-falantes (Lx, Lg) no segmento ({Lu kl) da configuração de alto-falante original para obter os sinais do alto-falante ajustadas para os altafalantes (L<, L’z) em um. segmento modificado correspondente {Li, ih) da configuração de alto-falante de reprodução, se, pelo menos, um dos alto-falantes (Lx, Lj) no segmento ((L·, Lg)) da configuração de alto-falante original for deslocado no segmento modificado correspondente {Ι»χ, L'j} da configuração de alto-falante de reprodução sem transgredir a direção de chegada determinada.
8. Aparelha (100) de acardo com qualquer uma das reivindicações de 1 a caracterizado pelo render!coder de som direto (ISO; ser configurado para gorar componentes de som direto específicos do segmento do alto-falante para, polo manos, dois paras do segmento do alto-falante válidos da configuração de alto-falante de reprodução, pelo menos, dois pares do segmento da alto-falante válidos referentes a um mesmo alto-falante o dois segmentos vizinhos na configuração de alto-falante de reprodução; e em que o cambinador (ISO) é configurado para combinar os componentes de som direto especificas do segmento do alto-falante para, pelo menos, dois pares do segmento do alto-falante válidos referentes ao mesmo alto-falante para obter um dos sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
9. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 8, caracterizado pelo renderizador de som direto (150) ser, ainda, configurado pára processar, pelo menos, um componente de som direto (D; 732) para um dado segmento da configuração de alto-falante de reprodução e para, assim, gerar componentes de sem direto ajustados para cada alto-falante atribuído ao dado segmento.
10. Aparelha (100) de acordo com qualquer uma das reivindicações de 1 a 9, caracterizado por compreender, ainda, um renderizador de ambiênoia (170), configurado para receber a informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução e para ajustar, pelo menos, um componente de ambióncia utilizando a informação da configuração de alto-falante de reprodução para o segmento, de modo que um envelope percebido de, pelo menos, um componente de ambiãncia na configuração de alta-falante de reprodução seja idêntico ao envelope do segmento ou mais próximo ao envelope de, pelo menos, um componente de ambiênoia comparado a uma situagào na qual nenhum ajuste ocorreu>
11. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo agrupador (110) ser, ainda, configuradó para escalar, pelo menos, dois canais como uma função de quantos segmentas da configuração de alto-falante original u® canal de, pelo ®encs, dois canais é atribuído.
12x Aparelho (100) de .acordo com qualquer uma das reivindicações de 1 a 11, caracterizado por compreender, ainda, um regulador de distância (190) configurado para ajustar, pelo menos, um de uma amplitude e um atraso de, pele menos, um dos sinais do alto-falante para, pele menos, dois alto-falantes da configuração de alto-falante de reprodução utilizando uma informação de distância relativa a uma distância entre um ouvinte e um alto-falante de interesse na configuração de alto-falante de reprodução>
13. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 12, caracterizado por compreender, ainda, um restreader do ouvinte configurado para determinar uma posição atual de um ouvinte com relação à configuração de alto-falante de reprodução, e para determinar a informação da configuração de alto-falante de reprodução utilizando a posição atual dc ouvinte,
14. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 13, caracterizado por compreender, ainda, uns transformador de tempo-frequência configurado para transformar o sinal de áudio espacial de uma. representação de domínio de tempo em uma representação- d.e domínio de frequência ou em -.m-a representação de dominie de tempofrequência, em que o decompositcr da ambiência direto e o rsnderizador de som direto são canfigurados para processar a representação de domínio da frequência ou a representação de domínio de tempo-frequência.
15. Método para adaptar um sinal de áudio espacial (2) para uma configuração de a its™ falante original, am uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original, caracterizado pelo sinal de áudio espacial (2) compreender uma pluralidade de canais, o método compreendendo:

agrupamento (802) de, pelo menos, dois sinais do canal em um segmento;

decomposição (804) de, pelo menos, dois sinais do canal no segmento em componentes de som direto (D; 7 32; e componentes de ambiéncia (A; 7 34) ;

determinação (806) de uma direção de chegada dos componentes de som direto;

ajuste (008) dos componentes de som direto utilizando uma informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de. chegada percebida doe componentes da som direto na configuração de alto-falante de reprodução seja idêntica á direção de chegada do segmento ou mais próxima ã direção de chegada da segmento comparado a uma situação na qual nenhum ajuste tenha ocorrido; e combinação (888) de componentes de som. direto ajustados (732) e doa componentes de ambiéncia (A? 734) ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
16. Um programa de computador tendo um código do programa para realizar um método, de acorde com a reivindicação 14, quando o programa d® computador caracterizado por ser executado em ® computador.