BR122021021506B1

BR122021021506B1 - Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d

Info

Publication number: BR122021021506B1
Application number: BR122021021506-5A
Authority: BR
Inventors: Arne Borsum; Stephan Schreiner; Harald Fuchs; Michael KRATZ; Bernhard Grill; Sebastian Scharrer
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2012-09-12
Filing date: 2013-09-12
Publication date: 2023-01-31
Also published as: EP2896221B1; SG11201501876VA; ZA201502353B; MX2015003195A; PT2896221T; AU2013314299A1; WO2014041067A1; BR122021021503B1; AU2013314299B2; TWI545562B; RU2635884C2; BR112015005456A2; BR122021021494B1; US20170249946A1; KR101685408B1; US20210134304A1; JP2015532062A; BR112015005456B1; CA2884525C; US9653084B2

Abstract

Um aparelho (100) para reduzir três ou mais canais de entrada de áudio para obter dois ou mais canais de saída de áudio é fornecido. O aparelho (100) compreende uma interface de recepção (110) para receber os três ou mais canais de entrada de áudio e para receber informação adicional. Além disso, o aparelho (100) compreende um downmixer (120) para reduzir os três ou mais canais de entrada de áudio, dependendo da informação adicional, para obter os dois ou mais canais de saída de áudio. O número de canais de saída de áudio é menor do que o número de canais de entrada de áudio. A informação adicional indica uma característica de, pelo menos, um de três ou mais canais de entrada de áudio ou uma característica de uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio, ou uma característica de uma ou mais fonte(s) sonora(s) que emitiu(ram) uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio.

Description

DESCRIÇÃO

[0001] A presente invenção refere-se ao processamento do sinal de áudio e, em particular, a um aparelho e um método para realizar um downmix melhorado, em particular, para realizar as capacidades melhoradas de downmix guiado para áudio 3D.

[0002] Um número crescente de alto-falantes é utilizado para a reprodução espacial de som. Enquanto a reprodução do som surround legado (por exemplo, 5.1) foi limitada a um plano único, novos formatos do canal com alto- falantes elevados foram introduzidos no contexto de reprodução de áudio 3D.

[0003] Os sinais são reproduzidos sobre os alto- falantes utilizados para serem diretamente relacionados aos alto-falantes particulares e foram armazenados e transmitidos discreta ou parametricamente. Pode ser referido para estes tipos de formatos, eles estão relacionados a um número claramente definido e à posição de alto-falantes do sistema de reprodução de som. Certamente, é necessário considerar um formato de reprodução particular antes da transmissão ou armazenamento de um sinal de áudio.

[0004] Contudo, há algumas exceções deste princípio. Por exemplo, sinais de áudio multicanal (por exemplo, cinco canais de áudio surround ou, por exemplo, canais de áudio surround 5.1) devem ser reduzidos para reprodução sobre configurações do alto-falante estéreo de dois canais. As regras existem para reproduzir cinco canais surround em dois alto-falantes de um sistema estéreo.

[0005] Além disso, quando os canais estéreos foram introduzidos, uma regra existia para reproduzir o conteúdo de áudio de dois canais estéreos por um único alto-falante mono.

[0006] Visto que o número de formatos e, assim, as possibilidades de como os alto-falantes são posicionados aumentou, será quase impossível considerar a configuração do alto-falante do sistema de reprodução antes da transmissão ou armazenamento. Certamente, será necessário adaptar os sinais de áudio novos na configuração real do alto-falante.

[0007] Diferentes métodos podem ser utilizados para reduzir o som surround para estéreo de dois canais. O downmix de domínio de tempo amplamente utilizado com coeficientes estáticos de downmix é geralmente referido como downmix ITU [5] . Outras abordagens de downmix de domínio de tempo - parcialmente com ajuste dinâmico dos coeficientes de downmix - são empregados nos codificadores das técnicas surround da matriz [6], [7].

[0008] Em [3], é revelado que as fontes sonoras diretas misturadas nos canais traseiros dobrados no panorama estéreo de dois canais podem não ser distinguíveis devido ao mascaramento ou, caso contrário, mascarar outras fontes sonoras.

[0009] No curso do desenvolvimento das tecnologias de codificação de áudio espacial (SAC | spatial audio coding), os algoritmos de downmix seletivos de frequência foram introduzidos como parte do codificador [8], [9]. Particularmente, as colorizações do som podem ser reduzidas e o equilíbrio do nível e estabilidade da localização da fonte sonora é mantido aplicando a equalização de energia aos canais de áudio resultantes. A equalização de energia também é realizada em outros sistemas de downmix [9], [10], [12].

[00010] Para o caso em que os canais traseiros apenas contêm som ambiente como reverberância, a redução de ambiência (reverberância, amplitude) é solucionada no downmix ITU [5] pela atenuação dos canais traseiros do sinal multicanal. Se os canais traseiros também contiverem som direto, esta atenuação não é apropriada visto que as partes diretas do canal traseiro seriam atenuadas bem como no downmix. Assim, um algoritmo de atenuação com ambiência mais sofisticada é observado.

[00011] Os codecs de áudio como AC-3 e HE-AAC fornecem meios para transmitir os chamados metadados junto com o fluxo de áudio, incluindo os coeficientes de downmix para o downmix de cinco a dois canais de áudio (estéreo). A quantidade de canais de áudio selecionados (canais traseiros e centrais) no sinal estéreo resultante é controlada pelos valores de ganho transmitidos. Embora estes coeficientes possam ser variantes do tempo, eles permanecem geralmente constantes para a duração de um item de um programa.

[00012] A solução utilizada no sistema de matriz “Logic7” introduziu uma abordagem adaptativa do sinal que atenua os canais traseiros apenas se eles forem considerados ser completamente ambientes. Isso é obtido comparando a potência dos canais dianteiros com a potência dos canais traseiros. A suposição desta abordagem é que se os canais traseiros contêm apenas ambiência, eles têm significantemente menos potência do que os canais dianteiros. Quanto mais potência os canais dianteiros tiverem comparados aos canais traseiros, mais os canais traseiros são atenuados no processo de downmix. Esta suposição pode ser verdadeira para algumas produções surround especialmente com o conteúdo clássico, mas esta suposição não é verdadeira para vários outros sinais.

[00013] Então, deveria ser altamente observado, se os conceitos melhorados para processamento do sinal de áudio seriam fornecidos.

[00014] O objeto da presente invenção é fornecer conceitos melhorados para o processamento do sinal de áudio. O objeto da presente invenção é solucionado por um aparelho, de acordo com a reivindicação 1, por um sistema, de acordo com a reivindicação 13, por um método, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.

[00015] Um aparelho para gerar dois ou mais canais de saída de áudio de três ou mais canais de entrada de áudio é fornecido. O aparelho compreende uma interface de recepção para receber os três ou mais canais de entrada de áudio e para receber informação adicional. Além disso, o aparelho compreende um downmixer para reduzir três ou mais canais de entrada de áudio, dependendo da informação adicional para obter os dois ou mais canais de saída de áudio. O número de canais de saída de áudio é menor do que o número de canais de entrada de áudio. A informação adicional indica uma característica de pelo menos um dos três ou mais canais de entrada de áudio, ou uma característica de uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio, ou uma característica de uma ou mais fonte(s) sonora(s) que emitiu(ram) uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio.

[00016] As aplicações se baseiam no conceito de transmitir informação adicional junto com os sinais de áudios para guiar o processo de conversão do formato do formato do sinal de áudio novo ao formato do sistema de reprodução.

[00017] De acordo com uma aplicação, o downmixer pode ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela modificação de pelo menos dois canais de entrada de áudio de três ou mais canais de entrada de áudio, dependendo da informação adicional para obter um grupo de canais de áudio modificados, e pela combinação de cada canal de áudio modificado do referido grupo de canais de áudio modificados para obter o referido canal de saída de áudio.

[00018] Em uma aplicação, o downmixer pode, por exemplo, ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela modificação de cada canal de entrada de áudio de três ou mais canais de entrada de áudio, dependendo da informação adicional para obter o grupo de canais de áudio modificados, e pela combinação de cada canal de áudio modificado do referido grupo de canais de áudio modificados para obter o referido canal de saída de áudio.

[00019] De acordo com uma aplicação, o downmixer pode, por exemplo, ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela geração de cada canal de áudio modificado do grupo de canais de áudio modificados pela determinação de uma ponderação, dependendo de um canal de entrada de áudio de um ou mais canal(is) de entrada de áudio e dependendo da informação adicional e pela aplicação da referida ponderação no referido canal de entrada de áudio.

[00020] Em uma aplicação, a informação adicional pode indicar uma quantidade de ambiência de cada um dos três ou mais canais de entrada de áudio. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da quantidade de ambiência de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio.

[00021] De acordo com outra aplicação, a informação adicional pode indicar uma difusão de cada um dos três ou mais canais de entrada de áudio ou uma diretividade de cada um dos três ou mais canais de entrada de áudio. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da difusão de cada um dos três ou mais canais de entrada de áudio ou dependendo da diretividade de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio.

[00022] Em outra aplicação, a informação adicional pode indicar uma direção de chegada do som. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da direção de chegada do som para obter os dois ou mais canais de saída de áudio.

[00023] Em uma aplicação, cada um dos dois ou mais canais de saída de áudio pode ser um canal do alto-falante para direcionar um alto-falante.

[00024] De acordo com uma aplicação, o aparelho pode ser configurado para inserir cada dos dois ou mais canais de saída de áudio em um alto-falante de um grupo de dois ou mais alto-falantes. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo de cada posição do alto-falante assumida de um primeiro grupo de três ou mais posições do alto-falante assumidas e dependendo de cada posição do alto-falante real de um segundo grupo de duas ou mais posições do alto-falante reais para obter os dois ou mais canais de saída de áudio. Cada posição do alto- falante real do segundo grupo de duas ou mais posições do alto-falante reais pode indicar uma posição de um alto- falante do grupo de dois ou mais alto-falantes.

[00025] Em uma aplicação, cada canal de entrada de áudio dos três ou mais canais de entrada de áudio pode ser atribuído a uma posição do alto-falante assumida do primeiro grupo de três ou mais posições do alto-falante assumidas. Cada canal de saída de áudio dos dois ou mais canais de saída de áudio pode ser atribuído a uma posição do alto-falante real do segundo grupo de duas ou mais posições do alto- falante reais. O downmixer pode ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio dependendo de pelo menos dois dos três ou mais canais de entrada de áudio, dependendo da posição do alto- falante assumida de cada um de pelo menos dois referidos dos três ou mais canais de entrada de áudio e dependendo da posição do alto-falante real do referido canal de saída de áudio.

[00026] De acordo com uma aplicação, cada um dos três ou mais canais de entrada de áudio compreende um sinal de áudio de um objeto de áudio de três ou mais objeto de áudios. A informação adicional compreende, para cada objeto de áudio dos três ou mais objeto de áudios, uma posição do objeto de áudio que indica uma posição do referido objeto de áudio. O downmixer é configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da posição do objeto de áudio de cada um dos três ou mais objetos de áudio para obter os dois ou mais canais de saída de áudio.

[00027] Em uma aplicação, o downmixer é configurado para reduzir quatro ou mais canais de entrada de áudio, dependendo da informação adicional para obter três ou mais canais de saída de áudio.

[00028] Além disso, um sistema é fornecido. O sistema compreende um codificador para codificar três ou mais canais de áudio não processados para obter três ou mais canais de áudio codificados, e para codificar informação adicional sobre três ou mais canais de áudio não processados para obter a informação adicional. Ainda, o sistema compreende um aparelho de acordo com uma das aplicações descritas acima para receber os três ou mais canais de áudio codificados como três ou mais canais de entrada de áudio, para receber a informação adicional, e para gerar, dependendo da informação adicional, dois ou mais canais de saída de áudio de os três ou mais canais de entrada de áudio.

[00029] Além disso, um método para gerar dois ou mais canais de saída de áudio de três ou mais canais de entrada de áudio é fornecido. O método compreende: - Receber os três ou mais canais de entrada de áudio e receber informação adicional. E: - Reduzir os três ou mais canais de entrada de áudio, dependendo da informação adicional para obter os dois ou mais canais de saída de áudio.

[00030] O número dos canais de saída de áudio é menor do que o número de canais de entrada de áudio. Os canais de entrada de áudio compreendem uma gravação de som emitida do som emitido por uma fonte sonora, e em que a informação adicional indica uma característica do som ou uma característica da fonte sonora.

[00031] Além disso, um programa de computador para implementar o método descrito acima quando executado em um computador ou processador de sinal é fornecido.

[00032] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, em que:

[00033] A Figura 1 é um aparelho para reduzir três ou mais canais de entrada de áudio para obter dois ou mais canais de saída de áudio de acordo com uma aplicação,

[00034] A Figura 2 ilustra um downmixer, de acordo com uma aplicação,

[00035] A Figura 3 ilustra um cenário, de acordo com uma aplicação, em que cada um dos canais de saída de áudio é gerado dependendo de cada um dos canais de entrada de áudio,

[00036] A Figura 4 ilustra outro cenário, de acordo com uma aplicação, em que cada um dos canais de saída de áudio é gerado dependendo exatamente de dois dos canais de entrada de áudio,

[00037] A Figura 5 ilustra um mapeamento dos sinais de representação espacial transmitidos nas posições do alto- falante reais,

[00038] A Figura 6 ilustra um mapeamento de sinais espaciais elevados em outros níveis de elevação,

[00039] A Figura 7 ilustra tal interpretação de um sinal fonte para diferentes posições do alto-falante,

[00040] A Figura 8 ilustra um sistema de acordo com uma aplicação, e

[00041] A Figura 9 é outra ilustração de um sistema, de acordo com uma aplicação.

[00042] A figura 1 ilustra um aparelho 100 para gerar dois ou mais canais de saída de áudio de três ou mais canais de entrada de áudio de acordo com uma aplicação.

[00043] O aparelho 100 compreende uma interface de recepção 110 para receber os três ou mais canais de entrada de áudio e para receber informação adicional.

[00044] Além disso, o aparelho 100 compreende um downmixer 120 para reduzir os três ou mais canais de entrada de áudio, dependendo da informação adicional para obter os dois ou mais canais de saída de áudio.

[00045] O número de canais de saída de áudio é menor do que o número de canais de entrada de áudio. A informação adicional indica uma característica de pelo menos um dos três ou mais canais de entrada de áudio, ou uma característica de uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio, ou uma característica de uma ou mais fonte(s) sonora(s) que emitiu(ram) uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio.

[00046] A figura 2 descreve um downmixer 120 de acordo com uma aplicação em outra ilustração. A informação de orientação ilustrada na figura 2 é a informação adicional.

[00047] A figura 7 ilustra uma interpretação de um sinal fonte para diferentes posições do alto-falante. As funções de transferência de interpretação podem ser dependentes de ângulos (azimute e elevação), por exemplo, indicando uma direção de chegada de uma onda de som, pode ser dependente de uma distância, por exemplo, uma distância de uma fonte sonora em um microfone de gravação, e/ou pode ser dependente de uma difusão, em que estes parâmetros podem, por exemplo, ser dependentes da frequência.

[00048] Em contraste às abordagens cegas de downmix, por exemplo, as abordagens de downmix não guiado, de acordo com as aplicações, dados de controle ou informação descritiva serão transmitidos junto com o sinal de áudio para influenciar no processo de downmix no lado do receptor da corrente do sinal. Esta informação adicional pode ser calculada no lado do emissor/codificador da corrente do sinal ou pode ser fornecida da entrada do usuário. A informação adicional pode, por exemplo, ser transmitida em um fluxo contínuo de bits, por exemplo, multiplexada com um sinal de áudio codificado.

[00049] De acordo com uma aplicação particular, o downmixer 120 pode, por exemplo, ser configurado para reduzir quatro ou mais canais de entrada de áudio, dependendo da informação adicional para obter três ou mais canais de saída de áudio.

[00050] Em uma aplicação, cada um dos dois ou mais canais de saída de áudio pode, por exemplo, ser um canal do alto-falante para direcionar um alto-falante.

[00051] Por exemplo, em outra aplicação particular, o downmixer 120 pode ser configurado para reduzir sete canais de entrada de áudio para obter três ou mais canais de saída de áudio. Em outra aplicação particular, o downmixer 120 pode ser configurado para reduzir nove canais de entrada de áudio para obter três ou mais canais de saída de áudio. Em outra aplicação particular, o downmixer 120 pode ser configurado para reduzir 24 canais para obter três ou mais canais de saída de áudio.

[00052] Em outra aplicação particular, o downmixer 120 pode ser configurado para reduzir sete ou mais canais de entrada de áudio para obter exatamente cinco canais de saída de áudio, por exemplo, para obter cinco canais de áudio de um sistema surround de cinco canais. Em outra aplicação particular, o downmixer 120 pode ser configurado para reduzir sete ou mais canais de entrada de áudio para obter exatamente seis canais de saída de áudio, por exemplo, seus canais de áudio de um sistema surround 5.1.

[00053] De acordo com uma aplicação, o downmixer pode ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela modificação de pelo menos dois canais de entrada de áudio dos três ou mais canais de entrada de áudio, dependendo da informação adicional para obter um grupo de canais de áudio modificados, e pela combinação de cada canal de áudio modificado do referido grupo de canais de áudio modificados para obter o referido canal de saída de áudio.

[00054] Em uma aplicação, o downmixer pode, por exemplo, ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela modificação de cada canal de entrada de áudio dos três ou mais canais de entrada de áudio, dependendo da informação adicional para obter o grupo de canais de áudio modificados, e pela combinação de cada canal de áudio modificado do referido grupo de canais de áudio modificados para obter o referido canal de saída de áudio.

[00055] De acordo com uma aplicação, o downmixer 120 pode, por exemplo, ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio pela geração de cada canal de áudio modificado do grupo de canais de áudio modificados pela determinação de uma ponderação, dependendo de um canal de entrada de áudio de um ou mais canal(is) de entrada de áudio e dependendo da informação adicional e pela aplicação da referida ponderação no referido canal de entrada de áudio.

[00056] A figura 3 ilustra tal aplicação. Cada canal de saída de áudio (AOC1, AOC2, AOC3) dependendo de cada um dos canais de entrada de áudio (AIC1, AIC2, AIC3, AIC4).

[00057] Por exemplo, o primeiro canal de saída de áudio AOC1 é considerado.

[00058] O downmixer 120 é configurado para determinar uma ponderação g1,1, g1,2, g1,3, g1,4 para cada canal de entrada de áudio AIC1, AIC2, AIC3, AIC4 dependendo do canal de entrada de áudio e dependendo da informação adicional. Além disso, o downmixer 120 é configurado para aplicar cada ponderação g1,1, g1,2, g1,3, g1,4 em seu canal de entrada de áudio AIC1, AIC2, AIC3, AIC4.

[00059] Por exemplo, o downmixer pode ser configurado para aplicar uma ponderação em seu canal de entrada de áudio, multiplicando cada amostra de domínio de tempo do canal de entrada de áudio pela ponderação (por exemplo, quando o canal de entrada de áudio é representado em um domínio de tempo). Ou, por exemplo, o downmixer pode ser configurado para aplicar uma ponderação em seu canal de entrada de áudio multiplicando cada valor espectral do canal de entrada de áudio pela ponderação (por exemplo, quando o canal de entrada de áudio é representado em um domínio espectral, domínio de frequência ou domínio de tempo-frequência). Os canais de áudio modificados obtidos (MAC1,1, MAC1,2, MAC1,3, MAC1,4) resultantes da aplicação das ponderações g1,1, g1,2, g1,3, g1,4 são, então, combinados, por exemplo, somados, para obter um dos canais de saída de áudio AOC1.

[00060] O segundo canal de saída de áudio AOC2 determinado analogicamente pela determinação de ponderações g2,1, g2,2, g2,3, g2,4, pela aplicação de cada uma das ponderações em seu canal de entrada de áudio AIC1, AIC2, AIC3, AIC4, e pela combinação de canais de áudio modificados resultantes MAC2,1, MAC2,2, MAC2,3, MAC2,4.

[00061] Assim, o terceiro canal de saída de áudio AOC2 determinado analogicamente pela determinação de ponderações g3,1, g3,2, g3,3, g3,4, pela aplicação de cada uma das ponderações em seu canal de entrada de áudio AIC1, AIC2, AIC3, AIC4, e pela combinação dos canais de áudio modificados resultantes MAC3,1, MAC3,2, MAC3,3, MAC3,4.

[00062] A figura 4 ilustra uma aplicação, em que cada um dos canais de saída de áudio não é gerado pela modificação de cada canal de entrada de áudio dos três ou mais canais de entrada de áudio, mas em que cada um dos canais de saída de áudio é gerado pela modificação de apenas dois dos canais de entrada de áudio e pela combinação destes dois canais de entrada de áudio.

[00063] Por exemplo, na figura 4, quatro canais são recebidos como canais de entrada de áudio (LS1 = canal de entrada surround esquerdo; L1 = canal de entrada esquerdo; R1 = canal de entrada direito; RS1 = canal de entrada surround direito) e três canais de saída de áudio devem ser gerados (L2 = canal de saída esquerdo; R2 = canal de saída direito; C2 = canal de saída central) reduzindo os canais de entrada de áudio.

[00064] Na figura 4, o canal de saída esquerdo L2 é gerado dependendo do canal de entrada surround esquerdo LS1 e dependendo do canal de entrada esquerdo L1. Para esta finalidade, o downmixer 120 gera uma ponderação g1,1 para o canal de entrada surround esquerdo LS1 dependendo da informação adicional e gera uma ponderação g1,2 para o canal de entrada esquerdo L1 dependendo da informação adicional e aplica cada uma das ponderações em seu canal de entrada de áudio para obter o canal de saída esquerdo L2.

[00065] Além disso, o canal de saída central C2 é gerado dependendo do canal de entrada esquerdo L1 e dependendo do canal de entrada direito R1. Para esta finalidade, o downmixer 120 gera uma ponderação g2,2 para o canal de entrada esquerdo L1 dependendo da informação adicional e gera uma ponderação g2,3 para o canal de entrada direito R1 dependendo da informação adicional e aplica cada uma das ponderações em seu canal de entrada de áudio para obter o canal de saída central C2.

[00066] Além disso, o canal de saída direito R2 é gerado dependendo do canal de entrada direito R1 e dependendo do canal de entrada surround direito RS1. Para esta finalidade, o downmixer 120 gera uma ponderação g3,3 para o canal de entrada direito R1 dependendo da informação adicional e gera uma ponderação g3,4 para o canal de entrada surround direito RS1 dependendo da informação adicional e aplica cada uma das ponderações em seu canal de entrada de áudio para obter o canal de saída esquerdo R2.

[00067] As aplicações da presente invenção são motivadas pelas seguintes constatações:

[00068] O estado da técnica fornece coeficientes de downmix como metadados no fluxo contínuo de bits.

[00069] Uma abordagem seria estender o estado da técnica pelos coeficientes de downmix seletivos de frequência, canais adicionais (por exemplo, canais de áudio, da configuração original do canal, por exemplo, informação de altura) e/ou formatos adicionais para serem utilizados na configuração do canal alvo. Em outras palavras, a matriz de downmix para formatos de áudio 3D deveria ser estendida pelos canais adicionais do formato de entrada, em particular, pelos canais de altura dos formatos de áudio 3D. Com relação aos formatos de áudio, uma variedade de formatos de saída deveria ser suportada pelo áudio 3D. Enquanto com um sinal 5.0 ou um 5.1, um downmix pode ser realizado apenas no estéreo ou possivelmente o mono, com as configurações do canal compreendendo um número maior de canais que deve ser considerado que vários formatos de saída são relevantes. Com canais 22.2, estes podem ser mono, estéreo, 5.1 ou diferentes variantes 7.1, etc.

[00070] Entretanto, as taxas de bit esperadas para a transmissão destes coeficientes estendidos aumentariam significantemente. Para formatos particulares, pode ser razoável para definir os coeficientes de downmix adicionais e para combiná-los com os metadados de downmix existentes (veja 7.1 proposta para MPEG, documento de saída N12980).

[00071] No contexto de áudio 3D, as combinações esperadas das configurações do canal no lado do emissor e receptor são numerosas e a quantidade de dados vai além das taxas de bit aceitáveis. Independentemente, a redução de redundância (por exemplo, codificação de huffman) pode reduzir a quantidade de dados para uma proporção aceitável.

[00072] Além disso, os coeficientes de downmix conforme descrito acima podem ser caracterizados parametricamente.

[00073] Entretanto, também as taxas de bit esperadas seriam, contudo, significantemente elevadas por esta abordagem.

[00074] A partir do que está mencionado acima, segue que geralmente não é praticável estender as abordagens estabelecidas, uma razão sendo que como uma consequência, as taxas de dados se tornariam desproporcionalmente altas.

[00075] Uma especificação genérica de downmix no domínio de tempo pode ser formulada como segue:

[00076] caracterizado por y(t) ser o sinal de saída de um downmix, x(t) ser o sinal de entrada, n ser o índice do canal de áudio de entrada, m ser o índice do canal de saída. O coeficiente de downmix do canal de entrada mth no nth canal de saída corresponde a cnm. Um exemplo conhecido é o downmix de um sinal de 5 canais e um sinal estéreo de 2 canais com:

[00077] Os coeficientes de downmix são estáticos e são aplicados em cada amostra do sinal de áudio. Eles podem ser adicionados como metadados ao fluxo contínuo de bits de áudio. O termo “coeficientes de downmix seletivos de frequência” é utilizado com referência à possibilidade de utilizar coeficientes de downmix separados para faixas de frequência específicas. Em combinação com os coeficientes variantes de tempo, o downmix do lado do decodificador pode ser controlado a partir do codificador. A especificação de downmix para uma estrutura de áudio então se torna:

[00078] caracterizado por k ser a faixa de frequência (por exemplo, faixa QMF híbrida), s ser as subamostras de uma faixa QMF híbrida.

[00079] Como é descrito acima, a transmissão destes coeficientes resultaria nas altas taxas de bit.

[00080] As aplicações da presente invenção fornecem e empregam informação adicional descritiva. O downmixer 120 é configurado para reduzir os três ou mais canais de entrada de áudio, dependendo desta informação adicional (descritiva) para obter os dois ou mais canais de saída de áudio.

[00081] A informação descritiva sobre os canais de áudio, combinação de canais de áudio ou objeto de áudios pode melhorar o processo de downmix visto que as características dos sinais de áudio podem ser consideradas.

[00082] No geral, esta informação adicional indica uma característica de pelo menos um dos três ou mais canais de entrada de áudio, ou uma característica de uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio, ou uma característica de uma ou mais fonte(s) sonora(s) que emitiu(ram) uma ou mais onda(s) sonora(s) gravada(s) dentro de um ou mais canal(is) de entrada de áudio.

[00083] Exemplos para a informação adicional podem ser um ou mais dos seguintes parâmetros: - Razão seco/úmido - Quantidade de ambiência - Difusão - Diretividade - Largura da fonte sonora - Distância da fonte sonora - Direção de chegada

[00084] As definições destes parâmetros são bem- conhecidas para um técnico no assunto. As definições para estes parâmetros podem ser encontradas na literatura anexa (veja [1] - [24]). Por exemplo, uma definição para a quantidade de ambiência é fornecida em [15], [16], [17], [18], [19] e [14]. A definição para a razão seco/úmido pode ser imediatamente derivada da definição para direta/ambiência, como é conhecido pelo técnico no assunto. Os termos diretividade e difusão são explicados em [21] e também são bem conhecidos pelo técnico no assunto.

[00085] Os parâmetros sugeridos são fornecidos como informação adicional para guiar o processo de interpretação que gera um sinal de saída do canal N e um sinal de entrada do canal M onde - no caso de downmix - N é menor do que M.

[00086] Os parâmetros que são fornecidos como informação adicional não são necessariamente constantes. Ainda, os parâmetros podem variar ao longo do tempo (os parâmetros podem ser variantes do tempo).

[00087] No geral, a informação adicional pode compreender os parâmetros que estão disponíveis em uma forma seletiva de frequência.

[00088] A aplicação da informação adicional transmitida é realizada no pós-processamento/interpretação do lado do decodificador. A avaliação dos parâmetros e de sua ponderação é dependente da configuração do canal alvo e outras características do lado de entrega.

[00089] Os parâmetros mencionados podem se referir aos canais, grupos ou objetos.

[00090] Os parâmetros podem ser utilizados em um processo de downmix para determinar a ponderação de um canal ou objeto durante o downmix pelo downmixer 120.

[00091] Como um exemplo: se um canal de altura conter exclusivamente a reverberação e/ou reflexões, pode ter um efeito negativo sobre a qualidade do som durante o downmix. Neste caso, seu compartilhamento no canal de áudio resultante do downmix deveria ser menor. Ao controlar o downmix, um valor alto do parâmetro de “quantidade de ambiência” resultaria em baixos coeficientes de downmix para este canal. Em contraste, se ele contém sinais diretos, ele deveria ser refletido a uma extensão maior no canal de áudio resultante do downmix e, assim, resultaria em coeficientes de downmix mais altos (em uma ponderação mais alta).

[00092] Por exemplo, os canais de altura de uma produção de áudio 3D pode conter componentes de sinal direto bem como reflexões e reverberar para a finalidade de envoltória. Se estes canais de altura são misturados com os canais do plano horizontal, o último pode resultar sendo indesejado na mistura resultante, enquanto o conteúdo de áudio de primeiro plano dos componentes diretos deveria ser reduzido por sua quantidade total.

[00093] A informação pode ser utilizada para ajustar os coeficientes de downmix (onde apropriado em uma forma seletiva de frequência). Esta remarca aplica a todos os parâmetros mencionados acima. A seletividade de frequência pode permitir o controle mais fino do downmix.

[00094] Por exemplo, a ponderação que é aplicada em um canal de entrada de áudio para obter um canal de áudio modificado pode ser determinada certamente dependendo da respectiva informação adicional.

[00095] Por exemplo, se os canais do primeiro plano (por exemplo, um canal esquerdo, central ou direito de um sistema surround) devem ser gerados como canais de saída de áudio, e não como canais de plano de fundo (como um canal surround esquerdo ou um canal surround direito de um sistema surround), então: - Se a informação adicional indica que a quantidade de ambiência de um canal de entrada de áudio é alta, então uma pequena ponderação para este canal de entrada de áudio pode ser determinada para gerar o canal de saída de áudio de primeiro plano. Por isso, o canal de áudio modificado resultante deste canal de entrada de áudio é apenas levemente considerado para gerar o respectivo canal de saída de áudio. - Se a informação adicional indica que a quantidade de ambiência de um canal de entrada de áudio é baixa, então uma ponderação maior para este canal de entrada de áudio pode ser determinada para gerar o canal de saída de áudio de primeiro plano. Por isso, o canal de áudio modificado resultante deste canal de entrada de áudio é amplamente considerado para gerar o respectivo canal de saída de áudio.

[00096] Em uma aplicação, a informação adicional pode indicar uma quantidade de ambiência de cada um dos três ou mais canais de entrada de áudio. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da quantidade de ambiência de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio.

[00097] Por exemplo, a informação adicional pode compreender um parâmetro que especifica uma quantidade de ambiência para cada canal de entrada de áudio dos três ou mais canais de entrada de áudio. Por exemplo, cada canal de entrada de áudio pode compreender partes do sinal ambiente e/ou partes do sinal direto. Por exemplo, a quantidade de ambiência de um canal de entrada de áudio pode ser especificada como um número real ai, caracterizado por i indicar um dos três ou mais canais de entrada de áudio, e em que ai pode, por exemplo, estar na faixa 0 < ai < 1. ai = 0 pode indicar que o respectivo canal de entrada de áudio compreende nenhuma parte do sinal ambiente. ai = 1 pode indicar que o respectivo canal de entrada de áudio compreende apenas partes do sinal ambiente. No geral, uma quantidade de ambiência de um canal de entrada de áudio pode, por exemplo, indicar uma quantidade de partes do sinal ambiente dentro do canal de entrada de áudio.

[00098] Por exemplo, voltando à figura 3, em uma aplicação, pode ser decidido que as partes do sinal ambiente são sempre indesejadas. Um downmixer correspondente 120 pode determinar as ponderações da figura 3, por exemplo, de acordo com a fórmula:

caracterizado por c e { 1, 2, 3 }; i e { 1, 2, 3, 4 }; 0 < ai < 1.

[00099] Nesta aplicação, todas as ponderações são igualmente determinadas para cada um dos três ou mais canais de saída de áudio.

[000100] Entretanto, para outras aplicações, pode ser decidido que, para alguns canais de saída de áudio, a ambiência é mais aceitável do que para outros canais de saída de áudio. Por exemplo, pode ser decidido que em uma aplicação de acordo com a figura 3, a ambiência é mais aceitável para o primeiro canal de saída de áudio AOC1 e para o terceiro canal de saída de áudio AOC3 do que para o segundo canal de saída de áudio AOC2. Então, um downmixer correspondente 120 pode determinar as ponderações da figura 3, por exemplo, de acordo com a fórmula:

caracterizado por i e { 1, 2, 3, 4 }; 0 < ai < 1

[000101] Nesta aplicação, as ponderações de um dos três ou mais canais de saída de áudio são determinadas diferentemente das ponderações de um dos três ou mais canais de saída de áudio.

[000102] As ponderações da figura 4 podem ser determinadas semelhantemente, assim como para os dois exemplos descritos com relação à figura 3, por exemplo, analogamente ao primeiro exemplo, como:

[000103] As ponderações gc,i da figura 3 e da figura 4 também podem ser determinadas em qualquer outra forma adequada desejada.

[000104] De acordo com outra aplicação, a informação adicional pode indicar uma difusão de cada um dos três ou mais canais de entrada de áudio ou uma diretividade de cada um dos três ou mais canais de entrada de áudio. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da difusão de cada um dos três ou mais canais de entrada de áudio ou dependendo da diretividade de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio.

[000105] Nesta aplicação, a informação adicional pode, por exemplo, compreender um parâmetro que especifica a difusão para cada canal de entrada de áudio dos três ou mais canais de entrada de áudio. Por exemplo, cada canal de entrada de áudio pode compreender partes do sinal difuso e/ou partes do sinal direto. Por exemplo, a difusão de um canal de entrada de áudio pode ser especificada como um número real di, caracterizado por i indicar um dos três ou mais canais de entrada de áudio, e em que di pode, por exemplo, estar na faixa 0 < di < 1. di = 0 pode indicar que o respectivo canal de entrada de áudio compreende nenhuma parte do sinal difuso. di = 1 pode indicar que o respectivo canal de entrada de áudio compreende apenas partes do sinal difuso. No geral, uma difusão de um canal de entrada de áudio pode, por exemplo, indicar uma quantidade de partes do sinal difuso dentro do canal de entrada de áudio.

[000106] As ponderações gc,i podem ser determinadas no exemplo da figura 3, por exemplo, como

[000107] ou em qualquer outra forma desejada adequada.

[000108] Ou a informação adicional pode, por exemplo, compreender um parâmetro que especifica a diretividade para cada canal de entrada de áudio dos três ou mais canais de entrada de áudio. Por exemplo, a diretividade de um canal de entrada de áudio pode ser especificada como um número real di, caracterizado por i indicar um dos três ou mais canais de entrada de áudio e em que di pode, por exemplo, estar na faixa 0 < diri < 1. diri = 0 pode indicar que as partes do sinal do respectivo canal de entrada de áudio têm uma baixa diretividade. diri = 1 pode indicar que as partes do sinal do respectivo canal de entrada de áudio têm uma alta diretividade.

[000109] As ponderações gc,i podem ser determinadas no exemplo da figura 3, por exemplo, como

[000110] ou em qualquer forma desejada e adequada.

[000111] Em outra aplicação, a informação adicional pode indicar uma direção de chegada do som. O downmixer pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da direção de chegada do som para obter os dois ou mais canais de saída de áudio.

[000112] Por exemplo, uma direção de chegada, por exemplo, uma direção de chegada de uma onda de som. Por exemplo, a direção de chegada de uma onda de som gravada por um canal de entrada de áudio pode ser especificada como pode ser especificada como um ângulo Φi, caracterizado por I indicar um dos três ou mais canais de entrada de áudio, em que Φi pode, por exemplo, estar na faixa 0° < Φi < 360°. Por exemplo, as partes do som das ondas sonoras, tendo uma direção de chegada próxima a 90°, devem ter uma alta ponderação e as ondas sonoras, tendo uma direção de chegada próxima a 270°, devem ter uma baixa ponderação ou não devem ter qualquer ponderação no sinal de saída de áudio. As ponderações gc,i podem ser determinadas no exemplo da figura 3, por exemplo, como

[000113] Quando uma direção de chegada de 270° é mais aceitável para canais de saída de áudio AOC1 e AOC3 do que para o canal de saída de áudio AOC2, então, as ponderações gc,i podem, por exemplo, ser determinadas como

[000114] em que i ∈{ 1, 2, 3, 4 }; 0° ≤ φi < 360°

[000115] ou em qualquer forma desejada e adequada.

[000116] Para executar a reprodução dos sinais de áudio para diferentes configurações do alto-falante, empregando a informação adicional descritiva, por exemplo, um ou mais dos seguintes parâmetros podem ser empregados: - direção de chegada (horizontal e vertical); - diferença do ouvinte; - largura do som (“difusão”).

[000117] Em particular, com o áudio 3D orientado pelo objeto, estes parâmetros podem ser empregados para controlar o mapeamento de um objeto aos alto-falantes do formato alvo.

[000118] Além disso, estes parâmetros podem, por exemplo, estar disponíveis em uma forma seletiva de frequência.

[000119] A faixa do valor de “difusão”: Fonte do ponto - onda plana - de forma omnidirecional chegando a onda. Deve ser observado que a difusão pode ser diferente de ambiência. (veja, por exemplo, vozes em lugar nenhum nos filmes de característica psicodélico).

[000120] De acordo com uma aplicação, o aparelho 100 pode ser configurado para inserir cada um dos dois ou mais canais de saída de áudio em um alto-falante de um grupo de dois ou mais alto-falantes. O downmixer 120 pode ser configurado para reduzir os três ou mais canais de entrada de áudio, dependendo de cada posição do alto-falante assumida de um primeiro grupo de três ou mais posições do alto-falante assumidas e dependendo de cada posição do alto-falante real de um segundo grupo de duas ou mais posições do alto-falante reais para obter os dois ou mais canais de saída de áudio. Cada posição do alto-falante real do segundo grupo de duas ou mais posições do alto-falante reais pode indicar uma posição de um alto-falante do grupo de dois ou mais alto-falantes.

[000121] Por exemplo, um canal de entrada de áudio pode ser atribuído a uma posição do alto-falante assumida. Além disso, um primeiro canal de saída de áudio é gerado para um primeiro alto-falante em uma primeira posição do alto- falante real, e um segundo canal de saída de áudio é gerado para um segundo alto-falante em uma segunda posição do alto- falante real. Se a distância entre a primeira posição do alto-falante real e a posição do alto-falante assumida for menor do que a distância entre a segunda posição do alto- falante real e a posição do alto-falante assumida, então, por exemplo, o canal de entrada de áudio influencia o primeiro canal de saída de áudio mais do que o segundo canal de saída de áudio.

[000122] Por exemplo, uma primeira ponderação e uma segunda ponderação podem ser geradas. A primeira ponderação pode depender da distância entre a primeira posição do alto- falante real e a posição do alto-falante assumida. A segunda ponderação depender da distância entre a segunda posição do alto-falante real e a posição do alto-falante assumida. A primeira ponderação é maior do que a segunda ponderação. Para gerar o primeiro canal de saída de áudio, a primeira ponderação pode ser aplicada no canal de entrada de áudio para gerar um primeiro canal de áudio modificado. Para gerar o segundo canal de saída de áudio, a segunda ponderação pode ser aplicada no canal de entrada de áudio para gerar um segundo canal de áudio modificado. Outros canais de áudio modificados podem ser semelhantemente gerados para outros canais de saída de áudio e/ou para outros canais de entrada de áudio, respectivamente. Cada canal de saída de áudio dos dois ou mais canais de saída de áudio pode ser gerado pela combinação de seus canais de áudio modificados.

[000123] A figura 5 ilustra tal mapeamento de sinais de representação espacial transmitidos nas posições do alto- falante reais. As posições do alto-falante assumidas 511, 512, 513, 514 e 515 pertencem ao primeiro grupo de posições do alto-falante assumidas. As posições do alto-falante reais 521, 522 e 523 pertencem ao segundo grupo de posições do alto-falante reais.

[000124] Por exemplo, como um canal de entrada de áudio para um alto-falante assumido em uma posição do alto- falante assumida 512 influencia um primeiro sinal de saída de áudio para um primeiro alto-falante real em uma primeira posição do alto-falante real 521 e um segundo sinal de saída de áudio para um segundo alto-falante real em uma segunda posição do alto-falante real 522, depende de qual a proximidade da posição assumida 512 (ou sua posição virtual 532) está a primeira posição do alto-falante real 521 para a segunda posição do alto-falante real 522. Quanto mais próxima a posição do alto-falante assumida está à posição do alto- falante real, mais influência o canal de entrada de áudio tem sobre o canal de saída de áudio correspondente.

[000125] Na figura 5, f indica um canal de entrada de áudio para o alto-falante na posição do alto-falante assumida 512. g1 indica um primeiro canal de saída de áudio para o primeiro alto-falante real na primeira posição do alto- falante real 521, g2 indica um segundo canal de saída de áudio para o segundo alto-falante real na segunda posição do alto-falante real 522, α indica um ângulo azimute e β indica um ângulo de elevação, caracterizado pelo ângulo azimute α e o ângulo de elevação β, por exemplo, indicar uma direção de uma posição do alto-falante real em uma posição do alto- falante assumida ou vice versa.

[000126] Em uma aplicação, cada canal de entrada de áudio dos três ou mais canais de entrada de áudio pode ser atribuído a uma posição do alto-falante assumida do primeiro grupo de três ou mais posições do alto-falante assumidas. Por exemplo, quando é assumido que um canal de entrada de áudio será reproduzido por um alto-falante em uma posição do alto- falante assumida, então este canal de entrada de áudio é atribuído a esta posição do alto-falante assumida. Cada canal de saída de áudio dos dois ou mais canais de saída de áudio pode ser atribuído a uma posição do alto-falante real do segundo grupo de duas ou mais posições do alto-falante reais. Por exemplo, quando um canal de saída de áudio será reproduzido por um alto-falante em uma posição do alto- falante real, então este canal de saída de áudio é atribuído a esta posição do alto-falante real. O downmixer pode ser configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio dependendo de pelo menos dois dos três ou mais canais de entrada de áudio, dependendo da posição do alto-falante assumida de cada um de pelo menos dois referidos três ou mais canais de entrada de áudio e dependendo da posição do alto-falante real do referido canal de saída de áudio.

[000127] A figura 6 ilustra um mapeamento dos sinais espaciais elevados a outros níveis de elevação. Os sinais espaciais transmitidos (canais) são tanto canais para alto- falantes em um plano elevado do alto-falante ou para alto- falantes em um plano não elevado do alto-falante. Se todos os alto-falantes reais estão localizados em um único plano do alto-falante (um plano não elevado do alto-falante), os canais para alto-falantes no plano elevado do alto-falante devem ser inseridos aos alto-falantes do plano não elevado do alto-falante.

[000128] Para esta finalidade, a informação adicional compreende a informação sobre a posição do alto-falante assumida 611 de um alto-falante no plano elevado do alto- falante. Uma posição virtual correspondente 631 no plano não elevado do alto-falante é determinada pelo downmixer e canais de áudio modificados gerados pela modificação do canal de entrada de áudio para o alto-falante elevado assumido são gerados dependendo das posições do alto-falante reais 621, 622, 623, 624 dos alto-falantes atualmente disponíveis.

[000129] A seletividade de frequência pode ser empregada parta atingir um controle mais fino do downmix. Utilizando o exemplo da “quantidade de ambiência”, um canal de altura pode compreender ambos os componentes espaciais e componentes diretos. Os componentes de frequência tendo diferentes propriedades podem ser caracterizados corretamente.

[000130] De acordo com uma aplicação, cada um dos três ou mais canais de entrada de áudio compreende um sinal de áudio de um objeto de áudio de três ou mais objeto de áudios. A informação adicional compreende, para cada objeto de áudio dos três ou mais objetos de áudio, uma posição do objeto de áudio indicando uma posição do referido objeto de áudio. O downmixer é configurado para reduzir os três ou mais canais de entrada de áudio, dependendo da posição do objeto de áudio de cada um dos três ou mais objeto de áudios para obter os dois ou mais canais de saída de áudio.

[000131] Por exemplo, o primeiro canal de entrada de áudio compreende um sinal de áudio de um primeiro objeto de áudio. Um primeiro alto-falante pode estar localizado em uma primeira posição do alto-falante real. Um segundo alto- falante pode estar localizado em uma segunda posição do alto- falante real. A distância entre a primeira posição do alto- falante real e a posição do primeiro objeto de áudio pode ser menor do que a distância entre a segunda posição do alto- falante real e a posição do primeiro objeto de áudio. Então, um primeiro canal de saída de áudio para o primeiro alto- falante e um segundo canal de saída de áudio para o segundo alto-falante é gerado, de modo que o sinal de áudio do primeiro objeto de áudio tem uma influência maior no primeiro canal de saída de áudio do que no segundo canal de saída de áudio.

[000132] Por exemplo, uma primeira ponderação e uma segunda ponderação podem ser geradas. A primeira ponderação pode depender da distância entre uma primeira posição do alto-falante real e a posição do primeiro objeto de áudio. A segunda ponderação depender da distância entre a segunda posição do alto-falante real e a posição do segundo objeto de áudio. A primeira ponderação é maior do que a segunda ponderação. Para gerar o primeiro canal de saída de áudio, a primeira ponderação pode ser aplicada no sinal de áudio do primeiro objeto de áudio para gerar um primeiro canal de áudio modificado. Para gerar o segundo canal de saída de áudio, a segunda ponderação pode ser aplicada no sinal de áudio do primeiro objeto de áudio para gerar um segundo canal de áudio modificado. Outros canais de áudio modificados podem ser semelhantemente gerados para os outros canais de saída de áudio e/ou para os outros objetos de áudio, respectivamente. Cada canal de saída de áudio dos dois ou mais canais de saída de áudio pode ser gerado pela combinação de seus canais de áudio modificados.

[000133] A figura 8 ilustra um sistema de acordo com uma aplicação.

[000134] O sistema compreende um codificador 810 para codificar três ou mais canais de áudio não processados para obter três ou mais canais de áudio codificados, e para codificar a informação adicional nos três ou mais canais de áudio não processados para obter a informação adicional.

[000135] Além disso, o sistema compreende um aparelho 100 de acordo com uma das aplicações descritas acima para receber os três ou mais canais de áudio codificados as três ou mais canais de entrada de áudio, para receber a informação adicional, e para gerar, dependendo da informação adicional, dois ou mais canais de saída de áudio de os três ou mais canais de entrada de áudio.

[000136] A figura 9 ilustra outra ilustração de um sistema de acordo com uma aplicação. A informação de orientação descrita é a informação adicional. Os canais de áudio codificados M, codificados pelo codificador 810, são inseridos ao aparelho 100 (indicados por “downmix”) para gerar os dois ou mais canais de saída de áudio. Os canais de saída de áudio N são gerados pela redução de canais de áudio codificados M (os canais de entrada de áudio d o aparelho 820). Em uma aplicação, N < M se aplica.

[000137] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.

[000138] O sinal inventivo decomposto pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão cabeado, tal como a Internet.

[000139] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.

[000140] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitório tendo sinais de controle eletronicamente legíveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.

[000141] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[000142] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legível por máquina ou em um meio de armazenamento não transitório.

[000143] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.

[000144] Outra aplicação dos métodos inventivos é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.

[000145] Outra aplicação do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[000146] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.

[000147] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.

[000148] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[000149] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção da invenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.

LITERATURA

[000150] [1] J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, October 1968

[000151] [2] P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, April 1971 (2)

[000152] [3] D. Griesinger: Surround from stereo,Workshop #12, 115th AES Convention, 2003

[000153] [4] E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979

[000154] [5] ITU-R Recommendation BS.775-1 Multi channel Stereophonic Sound System with or without Accompanying Picture, International Telecommunications Union, Geneva, Switzerland, 1992-1994

[000155] [6] D. Griesinger: Progress in 5-2-5 Matrix Systems, 103rd AES Convention, September 1997

[000156] [7] J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/

[000157] [8] C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi -Channel Audio Compression, 112th AES Convention, Munich 2002

[000158] [9] C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes and Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520-531, Nov. 2003

[000159] [10] J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. Kjrling, W. Oomen: MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status, 119th AES Convention, October 2005.

[000160] [11] ISO/IEC 14496-3, Chapter 4.5.1.2.2

[000161] [12] B. Runow, J. Deigmoller: Optimierter Stereo - Downmix von 5.1-Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT international convention, November 2008

[000162] [13] J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions, 127 AES Convention, October 2009

[000163] [14] C. Faller: Multiple-Loudspeaker Playback of Stereo Signals. JAES Volume 54 Issue 11 pp. 1051 -1064; November 2006

[000164] [15] AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction and Synthesis from Stereo Signals for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2002

[000165] [16] US 7,412,380 B1: Ambience extraction and modification for enhancement and upmix of audio signals

[000166] [17] US 7,567,845 B1: Ambience generation for stereo signals

[000167] [18] US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS

[000168] [19] US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen: APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND COMPUTER PROGRAM

[000169] [20] J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjorling, E. Schuijers, J. Hilpert, and F. Myburg, The Reference Model Architecture for MPEG Spatial Audio Coding, presented at the 118th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693, 694 (2005 July/Aug.), convention paper 6447

[000170] [21] Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding. JAES Volume 55 Issue 6 pp. 503-516; June 2007

[000171] [22] ETSI TS 101 154, Chapter C

[000172] [23] MPEG-4 downmix metadata

[000173] [24] DVB downmix metadata

Claims

1. Um aparelho (100) para gerar dois ou mais canais de saída de áudio a partir de três ou mais canais de entrada de áudio, em que o aparelho (100) é caracterizado por compreender: uma interface de recebimento (110) para receber os três ou mais canais de entrada de áudio e para receber informações laterais, e um downmixer (120) para downmixing dos três ou mais canais de entrada de áudio, dependendo da informação lateral, usando um peso para cada canal de entrada de áudio para obter os dois ou mais canais de saída de áudio, em que o número dos canais de saída de áudio é menor que o número dos canais de entrada de áudio, em que a informação lateral indica uma característica de pelo menos um dos três ou mais canais de entrada de áudio, ou uma característica de uma ou mais ondas sonoras gravadas dentro de um ou mais canais de entrada de áudio ou uma característica de uma ou mais fontes de som emitidas uma ou mais ondas sonoras gravadas nos um ou mais canais de entrada de áudio e em que o downmixer está configurado para determinar o peso de cada canal de entrada de áudio, dependendo da informação lateral, em que o aparelho (100) está configurado para alimentar cada um dos dois ou mais canais de saída de áudio em um alto-falante de um grupo de dois ou mais alto-falantes, em que o downmixer (120) está configurado para downmix os três ou mais canais de entrada de áudio, dependendo de cada posição de alto-falante assumida de um primeiro grupo de três ou mais posições de alto-falante assumidas e dependendo de cada posição real de alto-falante de um segundo grupo de dois ou mais posições do alto-falante para obter os dois ou mais canais de saída de áudio, em que cada posição real do alto-falante do segundo grupo de duas ou mais posições reais do alto-falante indica uma posição de um alto-falante do grupo de dois ou mais alto-falantes, em que cada canal de entrada de áudio dos três ou mais canais de entrada de áudio é atribuído a uma posição assumida de alto-falante do primeiro grupo de três ou mais posições assumidas de alto-falante, em que cada canal de saída de áudio dos dois ou mais canais de saída de áudio é atribuído a uma posição real do alto-falante do segundo grupo de duas ou mais posições reais do alto-falante, em que o downmixer (120) está configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio, dependendo de pelo menos dois dos três ou mais canais de entrada de áudio, dependendo da posição assumida do alto-falante de cada um dos referidos pelo menos dois dos os três ou mais canais de entrada de áudio e, dependendo da posição real do alto-falante do referido canal de saída de áudio, em que a informação lateral compreender uma quantidade de ambiente de cada um dos três ou mais canais de entrada de áudio, em que o downmixer (120) está configurado para fazer downmix dos três ou mais canais de entrada de áudio, dependendo da quantidade de ambiente de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio; e em que o downmixer (120) é configurado para combinar cada canal de áudio modificado do referido grupo de canais de áudio modificados derivado de três ou mais canais de áudio de entrada para obter pelo menos um de dois ou mais canais de saída de áudio.

2. Aparelho (100), de acordo com a reivindicação 1, caracterizado pelo fato de que o downmixer (120) está configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio modificando cada canal de entrada de áudio dos três ou mais canais de entrada de áudio, dependendo do lado informações para obter o grupo de canais de áudio modificados e combinando cada canal de áudio modificado do referido grupo de canais de áudio modificados para obter o referido canal de saída de áudio.

3. Aparelho (100), de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o downmixer (120) é configurado para gerar cada canal de saída de áudio dos dois ou mais canais de saída de áudio, gerando cada canal de áudio modificado do grupo de canais de áudio modificados, determinando uma peso dependendo de um canal de entrada de áudio de um ou mais canais de entrada de áudio e dependendo da informação lateral e aplicando o referido peso no referido canal de entrada de áudio.

4. Aparelho (100) de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato que a informação lateral indica uma diretividade de cada um dos três ou mais canais de entrada de áudio, e em que o downmixer (120) está configurado para downmix os três ou mais canais de entrada de áudio, dependendo da difusão de cada um dos três ou mais canais de entrada de áudio ou dependendo da diretividade de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio.

5. Aparelho (100) de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato que a informação lateral indica uma direção de chegada do som e em que o downmixer (120) está configurado para downmix os três ou mais canais de entrada de áudio, dependendo da direção de chegada do som, para obter os dois ou mais canais de saída de áudio.

6. Aparelho (100), de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o downmixer (120) está configurado para downmix quatro ou mais canais de entrada de áudio, dependendo da informação lateral para obter três ou mais canais de saída de áudio.

7. Sistema, caracterizado pelo fato de que compreende: um codificador (810) para codificar três ou mais canais de áudio não processados para obter três ou mais canais de áudio codificados e para codificar informações adicionais nos três ou mais canais de áudio não processados para obter informações laterais, e aparelho (100), de acordo com qualquer uma das reivindicações 1 a 6, para receber os três ou mais canais de áudio codificados como três ou mais canais de entrada de áudio, para receber as informações secundárias e para gerar, dependendo da informação lateral, duas ou mais saídas de áudio canais dos três ou mais canais de entrada de áudio.

8. Método para gerar dois ou mais canais de saída de áudio a partir de três ou mais canais de entrada de áudio, em que o método é caracterizado por compreender: receber os três ou mais canais de entrada de áudio e receber informações laterais, e misturar os três ou mais canais de entrada de áudio, dependendo da informação lateral, usando um peso para cada canal de entrada de áudio para obter os dois ou mais canais de saída de áudio, em que o número dos canais de saída de áudio é menor que o número dos canais de entrada de áudio, e em que a informação lateral indica uma característica de pelo menos um dos três ou mais canais de entrada de áudio, ou uma característica de uma ou mais ondas sonoras gravadas dentro de um ou mais canais de entrada de áudio ou uma característica de uma ou mais fontes de som emitidas uma ou mais ondas sonoras gravadas nos um ou mais canais de entrada de áudio e em que o peso é determinado para cada canal de entrada de áudio, dependendo da informação lateral, em que cada um dos dois ou mais canais de saída de áudio é alimentado em um alto-falante de um grupo de dois ou mais alto-falantes, em que os três ou mais canais de entrada de áudio são reduzidos, dependendo de cada posição de alto- falante assumida de um primeiro grupo de três ou mais posições de alto-falante assumidas e de cada posição real de alto-falante de um segundo grupo de duas ou mais posições de alto-falante reais para obter os dois ou mais canais de saída de áudio, em que cada posição real do alto-falante do segundo grupo de duas ou mais posições reais do alto-falante indica uma posição de um alto-falante do grupo de dois ou mais alto-falantes, em que cada canal de entrada de áudio dos três ou mais canais de entrada de áudio é atribuído a uma posição assumida de alto-falante do primeiro grupo de três ou mais posições assumidas de alto-falante, em que cada canal de saída de áudio dos dois ou mais canais de saída de áudio é atribuído a uma posição real do alto-falante do segundo grupo de duas ou mais posições reais do alto-falante, em que cada canal de saída de áudio dos dois ou mais canais de saída de áudio é gerado dependendo de pelo menos dois dos três ou mais canais de entrada de áudio, dependendo da posição assumida do alto- falante de cada um dos referidos pelo menos dois dos três ou mais canais de entrada de áudio e dependendo da posição real do alto-falante do referido canal de saída de áudio, em que a informação lateral compreender uma quantidade de ambiente de cada um dos três ou mais canais de entrada de áudio, e a mixagem reduzida dos três ou mais canais de entrada de áudio é realizada dependendo da quantidade de ambiente de cada um dos três ou mais canais de entrada de áudio para obter os dois ou mais canais de saída de áudio,e em que o método compreende a combinação de cada canal de áudio modificado do referido grupo de canais de áudio modificados derivado de três ou mais canais de áudio de entrada para obter pelo menos um de dois ou mais canais de saída de áudio.