BR112016022559B1

BR112016022559B1 - Método de renderização de um sinal de áudio, aparelho para renderização de um sinal de áudio, e meio de gravação legível por computador

Info

Publication number: BR112016022559B1
Application number: BR112016022559-7A
Authority: BR
Inventors: Sang-Bae Chon; Sun-min Kim
Original assignee: Samsung Electronics Co., Ltd
Priority date: 2014-03-28
Filing date: 2015-03-30
Publication date: 2022-11-16
Also published as: KR20160141793A; AU2015237402B2; US10149086B2; KR102414681B1; CN108834038B; AU2018204427B2; MX2016012695A; US10382877B2; US20190090078A1; EP4199544A1; EP3110177B1; BR122022016682B1; KR20220088951A; KR102529121B1; US20190335284A1; PL3668125T3; CA3042818C; CA2944355A1; EP3110177A4; BR112016022559A2

Abstract

MÉTODO DE RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, APARELHO PARA RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, E MEIO DE GRAVAÇÃO LEGÍVEL POR COMPUTADOR. Quando um sinal multicanal, tal como a partir de um canal 22.2, é renderizado para um canal 5.1, os sinais de áudio tridimensionais podem ser reproduzidos por meio de um canal de saída bidimensional. No entanto, quando a elevação do canal de entrada é diferente da elevação padrão e um parâmetro de renderização de elevação correspondente ao padrão de elevação é usado, a distorção da imagem de áudio ocorre. A presente invenção resolve o problema descrito na tecnologia existente, e fornece um método de renderização de sinais de áudio, de acordo com uma modalidade da presente invenção, que reduz a distorção da imagem de áudio, mesmo quando a elevação do canal de entrada difere da elevação padrão, compreendendo as etapas de: receber um sinal multicanal que compreende uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; obter parâmetro de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação padrão de modo que cada canal de saída fornece uma imagem de áudio tendo uma detecção de elevação;(...).

Description

CAMPO TÉCNICO

[0001] A presente invenção se refere a um método e aparelho para renderização de um sinal de áudio e, mais especificamente, a um método e aparelho de renderização para reproduzir de forma mais precisa uma localização e um tom de uma imagem de áudio do que antes, corrigindo um coeficiente de panning de elevação ou um coeficiente de filtro de elevação quando uma elevação de um canal de entrada é maior ou menor do que uma elevação de acordo com um layout padrão.

ANTECEDENTES DA TÉCNICA

[0002] Um som estereofônico indica um som tendo uma detecção de ambiente, reproduzindo não só um passo e um tom do som, mas também uma direção e uma detecção da distância, e tendo informação espacial adicional pela qual um público, que não está localizado em um espaço onde uma fonte de som é gerada, está ciente de uma detecção da direção, uma detecção de distância, e uma detecção de espaço.

[0003] Quando um sinal multicanal, tal como a partir de canal 22.2, é renderizado para canais 5.1, um som estereofônico tridimensional pode ser reproduzido por meio de um canal de saída bidimensional. No entanto, quando um ângulo de elevação de um canal de entrada difere de um ângulo de elevação padrão e um sinal de entrada é renderizado com o uso de parâmetros de renderização determinados de acordo com o ângulo de elevação padrão, a distorção da imagem de áudio ocorre.

DESCRIÇÃO DETALHADA DA INVENÇÃO PROBLEMA TÉCNICO

[0004] Como descrito acima, quando um sinal multicanal, tal como de canais 22.2, é renderizado para canais 5.1, os sinais de áudio tridimensionais podem ser reproduzidos por meio de um canal de saída bidimensional. No entanto, quando um ângulo de elevação de um canal de entrada difere de um ângulo de elevação padrão e um sinal de entrada é renderizado com o uso de parâmetros de renderização determinados de acordo com o ângulo de elevação padrão, a distorção da imagem de áudio ocorre.

[0005] O propósito da presente invenção é o de resolver o problema acima descrito na tecnologia existente e reduzir a distorção da imagem de áudio, mesmo quando a elevação do canal de entrada é mais alta ou mais baixa do que a elevação padrão.

SOLUÇÃO TÉCNICA

[0006] A configuração representativa da presente invenção para atingir o propósito acima descrito é como segue.

[0007] De acordo com um aspecto de uma modalidade, um método de renderização de um sinal de áudio inclui as etapas de: receber um sinal multicanal incluindo uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; obter os parâmetros de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação padrão para fornecer uma imagem de som elevada pela pluralidade de canais de saída; e atualizar os parâmetros de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação predeterminado diferente do ângulo de elevação padrão.

EFEITOS VANTAJOSOS DA INVENÇÃO

[0008] De acordo com a presente invenção, um sinal de áudio tridimensional pode ser renderizado de modo que a distorção da imagem de áudio é reduzida mesmo quando uma elevação de um canal de entrada é maior ou menor do que uma elevação padrão.

DESCRIÇÃO DOS DESENHOS

[0009] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução de áudio estereofônico de acordo com uma modalidade.

[00010] A FIG. 2 é um diagrama de blocos que ilustra uma configuração de um renderizador no aparelho de reprodução de áudio estereofônico, de acordo com uma modalidade.

[00011] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é misturada para uma pluralidade de canais de saída, de acordo com uma modalidade.

[00012] A FIG. 4A ilustra um layout de canal quando os canais de camada superior são vistos a partir da frente.

[00013] A FIG. 4B ilustra um layout de canal quando os canais de camada superior são vistos a partir do topo.

[00014] A FIG. 4C ilustra um layout tridimensional dos canais de camada superior.

[00015] A FIG. 5 é um diagrama de blocos que ilustra uma configuração de um decodificador e um renderizador acústico tridimensional no aparelho de reprodução de áudio estereofônico, de acordo com uma modalidade.

[00016] A FIG. 6 é um fluxograma que ilustra um método de renderização de um sinal de áudio tridimensional, de acordo com uma modalidade.

[00017] A FIG. 7A ilustra um local de cada canal quando elevações de canais de altura são 0°, 35° e 45°, de acordo com uma modalidade.

[00018] A FIG. 7B ilustra a diferença entre os sinais sentidos pelos ouvidos esquerdo e direito de um público, quando um sinal de áudio é produzido em cada um dos canais de acordo com a modalidade da FIG. 7B.

[00019] A FIG. 7C ilustra as características de um filtro de tom de acordo com frequências quando os ângulos de elevação de canais são 35° e 45°, de acordo com uma modalidade.

[00020] A FIG. 8 ilustra um fenômeno no qual as imagens de áudio da esquerda e direita são invertidas quando um ângulo de elevação de um canal de entrada é um valor de limiar ou mais, de acordo com uma modalidade.

[00021] A FIG. 9 é um fluxograma que ilustra um método de renderização de um sinal de áudio tridimensional, de acordo com outra modalidade.

[00022] As FIGS. 10 e 11 são diagramas de sinalização para a descrição de uma operação de cada aparelho, de acordo com uma modalidade que inclui pelo menos um aparelho externo e um aparelho de reprodução de áudio.

MELHOR MODO

[00023] As configurações representativas da presente invenção para atingir o propósito descrito acima são como segue.

[00024] De acordo com um aspecto de uma modalidade, um método de renderização de um sinal de áudio inclui as etapas de: receber um sinal multicanal incluindo uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; obter um parâmetro de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação padrão de modo que cada canal de saída fornece uma imagem de áudio tendo uma detecção de elevação; e atualizar o parâmetro de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação definido diferente do ângulo de elevação padrão.

[00025] O parâmetro de renderização de elevação inclui pelo menos um dentre os coeficientes de elevação de filtro e os coeficientes de panning de elevação.

[00026] Os coeficientes de elevação de filtro são calculados por reflexão de uma característica dinâmica de um HRTF.

[00027] A etapa de atualização do parâmetro de renderização de elevação inclui a etapa de aplicação de um peso para os coeficientes de filtro de elevação com base no ângulo de elevação padrão e no ângulo de elevação definido.

[00028] O peso é determinado de modo que uma característica de filtro de elevação é exibida suavemente quando o ângulo de elevação definido é menor do que o ângulo de elevação padrão, e é determinado de modo que a característica de filtro de elevação é fortemente exposta quando o ângulo de elevação definido é maior do que o ângulo de elevação padrão.

[00029] A etapa de atualização do parâmetro de renderização de elevação inclui a etapa de atualização dos coeficientes de panning de elevação com base no ângulo de elevação padrão e no ângulo de elevação definido.

[00030] Quando o ângulo de elevação definido é menor do que o ângulo de elevação padrão, os coeficientes de panning de elevação atualizados para serem aplicados aos canais de saída existentes para serem ipsilaterais a um canal de saída tendo o ângulo de elevação definido entre os coeficientes de panning de elevação atualizados são maiores do que os coeficientes de panning de elevação antes da atualização, e uma soma dos quadrados dos coeficientes de panning de elevação atualizados a serem aplicados respectivamente aos canais de saída é 1.

[00031] Quando o ângulo de elevação definido é maior do que o ângulo de elevação padrão, os coeficientes de panning de elevação atualizados para serem aplicados aos canais de saída existentes para serem ipsilaterais a um canal de saída tendo o ângulo de elevação definido entre os coeficientes de panning de elevação atualizados são menores do que os coeficientes de panning de elevação antes da atualização, e uma soma dos quadrados dos coeficientes de panning de elevação atualizados a serem aplicados respectivamente aos canais de saída é 1.

[00032] A etapa de atualização do parâmetro de renderização de elevação inclui a etapa de atualização dos coeficientes de panning de elevação com base no ângulo de elevação padrão e um valor de limiar quando o ângulo de elevação definido é o valor de limiar ou mais.

[00033] O método inclui ainda a etapa de receber uma entrada do ângulo de elevação definido.

[00034] A entrada é recebida de um aparelho separado.

[00035] O método inclui as etapas de: renderizar o sinal multicanal recebido com base no parâmetro de renderização de elevação atualizado; e transmitir o sinal multicanal renderizado para o aparelho separado.

[00036] De acordo com um aspecto de outra modalidade, um aparelho para renderização de um sinal de áudio inclui: uma unidade de recepção para receber um sinal multicanal, incluindo uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; e uma unidade de renderização para obtenção de um parâmetro de renderização de elevação para um canal de entrada de altura tendo um ângulo de elevação padrão de modo que cada canal de saída fornece uma imagem de áudio tendo uma detecção de elevação e atualização do parâmetro de renderização de elevação para um canal de entrada de altura com um ângulo de elevação definido diferente do ângulo de elevação padrão.

[00037] O parâmetro de renderização de elevação inclui pelo menos um dentre os coeficientes de elevação de filtro e os coeficientes de panning de elevação.

[00038] Os coeficientes de elevação de filtro são calculados por reflexão de uma característica dinâmica de um HRTF.

[00039] O parâmetro de renderização de elevação atualizado inclui coeficientes de filtro de elevação para os quais um peso é aplicado com base no ângulo de elevação padrão e no ângulo de elevação definido.

[00040] O peso é determinado de modo que uma característica de filtro de elevação é exibida suavemente quando o ângulo de elevação definido é menor do que o ângulo de elevação padrão, e é determinado de modo que a característica de filtro de elevação é fortemente exposta quando o ângulo de elevação definido é maior do que o ângulo de elevação padrão.

[00041] O parâmetro de renderização de elevação atualizado inclui coeficientes de panning elevação atualizados com base no ângulo de elevação padrão e no ângulo de elevação definido.

[00042] Quando o ângulo de elevação definido é menor do que o ângulo de elevação padrão, os coeficientes de panning de elevação atualizados para serem aplicados aos canais de saída existentes para serem ipsilaterais a um canal de saída tendo o ângulo de elevação definido entre os coeficientes de panning de elevação atualizados são maiores do que os coeficientes de panning de elevação antes da atualização, e uma soma dos quadrados dos coeficientes de panning de elevação atualizados a serem aplicados respectivamente aos canais de saída é 1.

[00043] Quando o ângulo de elevação definido é maior do que o ângulo de elevação padrão, os coeficientes de panning de elevação atualizados para serem aplicados aos canais de saída existentes para serem ipsilaterais a um canal de saída tendo o ângulo de elevação definido entre os coeficientes de panning de elevação atualizados são menores do que os coeficientes de panning de elevação antes da atualização, e uma soma dos quadrados dos coeficientes de panning de elevação atualizados a serem aplicados respectivamente aos canais de saída é 1.

[00044] O parâmetro de renderização de elevação atualizado inclui os coeficientes de panning elevação atualizados com base no ângulo de elevação padrão e um valor de limiar quando o ângulo de elevação definido é o valor de limiar ou mais.

[00045] O aparelho inclui ainda uma unidade de entrada para receber uma entrada do ângulo de elevação definido.

[00046] A entrada é recebida de um aparelho separado.

[00047] A unidade de renderização renderiza o sinal multicanal recebido com base no parâmetro de renderização de elevação atualizado, e o aparelho inclui ainda uma unidade de transmissão para transmitir o sinal multicanal renderizado para o aparelho separado.

[00048] De acordo com um aspecto de uma outra modalidade, um meio de gravação legível por computador tem gravado no mesmo um programa para executar o método acima descrito.

[00049] Além disso, um outro método e um outro sistema para a implementação da presente invenção, e um meio de gravação legível por computador tendo gravado no mesmo um programa de computador para executar o método são ainda fornecidos.

MODO DA INVENÇÃO

[00050] A descrição detalhada da presente invenção a ser descrito abaixo se refere aos desenhos anexos que mostram, como exemplos, modalidades específicas pelas quais a presente invenção pode ser realizada. Estas modalidades são descritas em detalhe, de modo que os elementos versados na técnica realizem suficientemente a presente invenção. Deve ser entendido que várias modalidades da presente invenção diferem umas das outras, mas não têm que ser exclusivas entre si.

[00051] Por exemplo, uma forma, estrutura e características específicas definidas na presente descrição podem ser implementadas sendo alteradas de uma modalidade para uma outra modalidade sem se distanciar do espírito e do escopo da presente invenção. Além disso, deve-se entender que os locais ou um layout de componentes individuais em cada modalidade também podem ser alterados sem se distanciar do espírito e do escopo da presente invenção. Portanto, a descrição detalhada a ser descrita não é para fins de limitação, e deverá ser entendido que o escopo da presente invenção inclui o escopo reivindicado das reivindicações e todos os escopos equivalentes ao escopo reivindicado.

[00052] Os números de referência semelhantes nos desenhos denotam os mesmos elementos ou elementos semelhantes em vários aspectos. Além disso, nos desenhos, partes irrelevantes para a descrição são omitidas para descrever claramente a presente invenção, e números de referência semelhantes indicam elementos semelhantes ao longo do relatório descritivo.

[00053] A seguir, as modalidades da presente invenção serão descritas em detalhe com referência aos desenhos anexos, de modo que os versados na técnica à qual pertence a presente invenção podem facilmente realizar a presente invenção. No entanto, a presente invenção pode ser implementada em várias formas diferentes e não se limita às modalidades aqui descritas.

[00054] Ao longo do relatório descritivo, quando é descrito que um determinado elemento é "conectado" ao outro elemento, isto inclui um caso de "ser diretamente conectado" e um caso de "ser eletricamente conectado" através de um outro elemento no meio. Além disso, quando uma determinada parte "inclui" um determinado componente, isto indica que a parte pode incluir ainda um outro componente, em vez de excluir um outro componente a menos que haja divulgação especialmente diferente.

[00055] Daqui em diante, a presente invenção é descrita em detalhe com referência aos desenhos anexos.

[00056] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução de áudio estereofônico de acordo com uma modalidade.

[00057] Um aparelho de reprodução de áudio estereofônico 100 de acordo com uma modalidade pode produzir um sinal de áudio multicanal, em que uma pluralidade de canais de entrada é misturada a uma pluralidade de canais de saída a serem reproduzidos. Neste caso, se o número de canais de saída é menor do que o número de canais de entrada, os canais de entrada são misturados para satisfazer o número de canais de saída.

[00058] Um som estereofônico indica um som tendo uma detecção de ambiente, reproduzindo não só uma etapa e um tom do som, mas também uma direção e uma detecção de distância, e tendo informação espacial adicional pela qual um público, que não está localizado em um espaço onde uma fonte de som é gerada, está ciente de uma detecção de direção, uma detecção de distância, e uma detecção de espaço.

[00059] Na descrição a seguir, os canais de saída de um sinal de áudio podem indicar o número de alto-falantes através dos quais um som é emitido. Quanto maior for o número de canais de saída, maior é o número de alto-falantes através das quais um som é produzido. De acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 pode renderizar e misturar um sinal de entrada acústico multicanal para os canais de saída a serem reproduzidos de modo que um sinal de áudio multicanal tendo um maior número de canais de entrada pode ser produzido e reproduzido em um ambiente com um menor número de canais de saída. Neste caso, o sinal de áudio multicanal pode incluir um canal no qual um som elevado pode ser produzido.

[00060] O canal em que um som elevado pode produzido pode indicar um canal no qual um sinal de áudio pode ser produzido por um alto-falante localizado acima das cabeças de um público de modo que o público detecta a elevação. Um canal horizontal pode indicar um canal no qual um sinal de áudio pode ser produzido por um alto-falante localizado sobre uma superfície horizontal para o público.

[00061] O ambiente descrito acima tendo um menor número de canais de saída pode indicar um ambiente no qual um som pode ser produzido por alto-falantes dispostos sobre a superfície horizontal sem canais de saída no qual um som elevado pode ser produzido.

[00062] Além disso, na descrição abaixo, um canal horizontal pode indicar um canal incluindo um sinal de áudio, que pode ser produzido por um alto-falante localizado sobre a superfície horizontal. Um canal superior pode indicar um canal, incluindo um sinal de áudio, que pode ser produzido por um alto-falante localizado em uma posição elevada acima da superfície horizontal para produzir um som elevado.

[00063] Com referência à FIG. 1, o aparelho de reprodução de áudio estereofônico 100 de acordo com uma modalidade pode incluir um núcleo de áudio 110, um renderizador 120, um misturador 130, e uma unidade de pós-processamento 140.

[00064] De acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 pode produzir canais a serem reproduzidos por renderização e mistura dos sinais de áudio de entrada multicanais. Por exemplo, o sinal de áudio de entrada multicanal pode ser um sinal de canal 22.2, e os canais de saída a serem reproduzidos podem ser os canais 5.1 ou 7.1. O aparelho de reprodução de áudio estereofônico 100 pode executar a renderização por determinação de um canal de saída para corresponder a cada canal do sinal de áudio de entrada multicanal e misturar os sinais de áudio renderizados sintetizando os sinais de canais correspondentes a um canal a ser reproduzido e produzindo o sinal sintetizado como um sinal final.

[00065] Um sinal de áudio codificado é introduzido ao núcleo de áudio 110, em um formato de fluxo de bits, e o núcleo de áudio 110 decodifica o sinal de áudio de entrada por seleção de uma ferramenta de decodificador adequada para um layout através do qual o sinal de áudio foi codificado.

[00066] O renderizador 120 pode renderizar o sinal de áudio de entrada multicanal para um canal de saída multicanal de acordo com os canais e frequências. O renderizador 120 pode realizar a renderização tridimensional (3D) e renderização bidimensional (2D) de um sinal de áudio multicanal, cada um dos sinais de acordo com um canal superior e um canal horizontal. Uma configuração do renderizador e um método de renderização específica irá ser descrito em mais detalhe com referência à FIG. 2.

[00067] O misturador 130 pode produzir um sinal final sintetizando os sinais de canais correspondentes ao canal horizontal pelo renderizador 120. O misturador 130 pode misturar os sinais de canais para cada seção definida. Por exemplo, o misturador 130 pode misturar os sinais de canais para cada estrutura I.

[00068] De acordo com uma modalidade, o misturador 130 pode realizar a mistura com base nos valores de potência dos sinais renderizados aos respectivos canais a serem reproduzidos. Em outras palavras, o misturador 130 pode determinar uma amplitude do sinal final ou um ganho a ser aplicado ao sinal final com base nos valores de potência dos sinais renderizados aos respectivos canais a serem reproduzidos.

[00069] A unidade de pós-processamento 140 realiza um controle de faixa dinâmica e binauralização de um sinal de multibanda para um sinal de saída do misturador 130 satisfazer cada dispositivo de reprodução (alto-falante ou fone de ouvido). Um sinal de áudio de saída produzido a partir da unidade de pós-processamento 140 é produzido por um dispositivo tal como um alto-falante, e o sinal de áudio de saída pode ser reproduzido de um modo 2D ou 3D de acordo com o processamento de cada componente.

[00070] O aparelho de reprodução de áudio estereofônico 100 de acordo com a modalidade mostrada na FIG. 1 é mostrado com base em uma configuração de um decodificador de áudio, e uma configuração controlada é omitida.

[00071] A FIG. 2 é um diagrama de blocos que ilustra uma configuração do renderizador no aparelho de reprodução de áudio estereofônico, de acordo com uma modalidade.

[00072] O renderizador 120 inclui uma unidade de filtragem 121 e uma unidade de panning 123.

[00073] A unidade de filtragem 121 pode corrigir um tom e semelhantes de um sinal de áudio decodificado de acordo com a localização e filtrar um sinal de áudio de entrada com o uso de um filtro de função de transferência relacionada com a cabeça (HRTF).

[00074] A unidade de filtragem 121 pode renderizar um canal superior, que passou através do filtro HRTF, por métodos diferentes de acordo com frequências para renderização em 3D do canal superior.

[00075] O filtro HRTF permite o reconhecimento de um som estereofônico por um fenômeno em que não só as diferenças de caminho simples, como uma diferença de nível interaural (ILD) e uma diferença de tempo interaural (ITD), mas também características do caminho complicado, como a difração em uma superfície superior e reflexão na aurícula varia de acordo com as direções de chegada acústica. O filtro HRTF pode alterar a qualidade de som de um sinal de áudio para processar os sinais de áudio incluídos em um canal superior para que um som estereofônico possa ser reconhecido.

[00076] A unidade de panning 123 obtém e aplica um coeficiente de panning a ser aplicado para cada banda de frequências e cada canal para realizar o pan de um sinal de áudio de entrada para cada canal de saída. O panning de um sinal de áudio indica o controla de uma magnitude de um sinal a ser aplicado a cada canal de saída, a fim de renderizar uma fonte de som para um local específico entre dois canais de saída.

[00077] A unidade de panning 123 pode renderizar um sinal de um sinal de canal superior de baixa frequência de acordo com um método de canal de adição para o mais próximo e processar um sinal de alta frequência de acordo com um método de panning de multicanal. De acordo com o método de panning de multicanal, um valor de ganho definido de modo diferente para cada canal a ser renderizado para cada sinal de canal pode ser aplicado a um sinal de cada canal de um sinal de áudio multicanal de modo que o sinal é renderizado para, pelo menos, um canal horizontal. Os sinais de canais respectivos para os quais os valores de ganho são aplicados podem ser sintetizados através de mistura e produção como um sinal final.

[00078] Uma vez que um sinal de baixa frequência tem uma propriedade de difração forte, mesmo quando o sinal de baixa frequência é renderizado para apenas um canal sem renderizar separadamente cada canal de um sinal de áudio multicanal para vários canais de acordo com o método de panning multicanal, o único canal pode apresentar uma qualidade de som semelhante, quando um público ouve o sinal de baixa frequência. Portanto, de acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 pode renderizar um sinal de baixa frequência de acordo com o método de canal de adição para o mais próximo para evitar a deterioração da qualidade de som, que pode ocorrer por mistura de vários canais para um canal de saída. Ou seja, uma vez que a qualidade do som pode ser deteriorada devido à amplificação ou redução de acordo com a interferência entre os sinais de canal quando vários canais são misturados para um canal de saída, um canal pode ser misturado com um canal de saída para evitar a deterioração da qualidade de som.

[00079] De acordo com o método de canal de adição para o mais próximo, cada canal de um sinal de áudio multicanal pode ser renderizado para o canal mais próximo entre os canais a serem reproduzidos em vez de serem renderizados separadamente para vários canais.

[00080] Além disso, o aparelho de reprodução de áudio estereofônico 100 pode alargar um ponto ideal sem deterioração da qualidade de som através da realização de renderização por diferentes métodos de acordo com as frequências. Isto é, por renderização de um sinal de baixa frequência tendo uma forte característica de difração de acordo com o método de canal de adição para o mais próximo, a deterioração da qualidade de som, que pode ocorrer por mistura de vários canais para um canal de saída, pode ser evitada. Um ponto ideal indica uma faixa predeterminada em que o público pode ouvir otimamente um som estereofônico sem distorção.

[00081] Como o ponto ideal é grande, o público pode ouvir otimamente um som estereofônico sem distorção em uma ampla faixa, e quando o público não está localizado no ponto ideal, o público pode ouvir um som com qualidade de som ou imagem de áudio distorcida.

[00082] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é misturada com uma pluralidade de canais de saída, de acordo com uma modalidade.

[00083] Para fornecer uma mesma detecção ou uma detecção mais exagerada do realismo e detecção de imersão como ou diferente da realidade, como em uma imagem 3D, técnicas para fornecer um som estereofônico em 3D juntamente com uma imagem estereoscópica em 3D têm sido desenvolvidos. Um som estereofônico indica um som no qual um sinal de áudio em si tem uma detecção de elevação e uma detecção de espaço de um som, e para reproduzir um tal som estereofônico, pelo menos, dois alto-falantes, ou seja, canais de saída, são necessários. Além disso, com exceção de um som estereofônico binaural que usa o HRTF, um maior número de canais de saída é necessário para reproduzir com mais precisão uma detecção de elevação, uma detecção de distância, e uma detecção de espaço de um som.

[00084] Portanto, um sistema estéreo com dois canais de saída e vários sistemas multicanais, como um sistema de canal 5.1, um sistema Auro 3D, um sistema de canal 10.2 de Holman, um sistema de canal 10.2 ETRI/Samsung, e um sistema de canal 22.2 NHK foram propostos e desenvolvidos.

[00085] A FIG. 3 ilustra um caso em que um sinal de áudio de canal 22.2 em 3D é reproduzido por um sistema de saída de canal 5.1.

[00086] Um sistema de canal 5.1 é um nome geral de um sistema de som multicanal surround de cinco canais e é um sistema mais popularmente usado como home theaters e sistemas de som de cinema. Um total de canais 5.1 inclui um canal esquerdo frontal (FL), um canal central (C), um canal direito frontal (FR), um canal esquerdo (SL) de surround e um canal direito (SR) de surround. Como mostrado na FIG. 3, uma vez que todas as saídas dos canais 5.1 estão no mesmo plano, o sistema de canal 5.1 corresponde fisicamente a um sistema 2D, e para reproduzir um sinal de áudio em 3D com o uso do sistema de canal 5.1, um processo de renderização para conceder um efeito 3D para um sinal a ser reproduzido deve ser realizado.

[00087] O sistema de canal 5.1 é amplamente usado em vários campos da não apenas no campo de filme, mas também no campo de imagem de DVD, no campo de som de DVD, no campo de Disco Compacto de Super Áudio (SACD), ou no campo da radiodifusão digital. No entanto, embora o sistema de canal 5.1 forneça uma melhor detecção de espaço em comparação com um sistema estéreo, existem várias limitações na formação de um espaço mais amplo de audição. Particularmente, uma vez que um ponto ideal é formado para ser estreito e uma imagem de áudio vertical que tem um ângulo de elevação não pode ser fornecida, o sistema de canal 5.1 pode não ser adequado para um amplo espaço de audição, tal como uma sala de cinema.

[00088] O sistema de canal 22.2 proposto por NHK inclui canais de saída de três camadas, como mostrado na FIG. 3. Uma camada superior 310 inclui um canal de voz de Deus (VOG), um canal T0, um canal T180, um canal TL45, um canal TL90, um canal TL135, um canal TR45, um canal TR90, e um canal TR45. Aqui, um índice T que é o primeiro caractere do nome de cada canal indica uma camada superior, os índices L e R indicam a esquerda e a direita, respectivamente, e o número seguinte indica um ângulo de azimute do canal central. A camada superior é geralmente chamada de uma camada superior.

[00089] O canal de VOG é um canal existente acima das cabeças de um público, tem um ângulo de elevação de 90°, e não tem nenhum ângulo de azimute. No entanto, quando o canal de VOG está mal localizado mesmo um pouco, o canal de VOG tem um ângulo de azimute e um ângulo de elevação, que é diferente de 90° e, portanto, o canal de VOG não pode mais agir como o canal de VOG.

[00090] Uma camada intermediária 320 está no mesmo plano que os canais 5.1 existentes e inclui um canal ML60, um canal ML90, um canal ML135, um canal MR60, um canal MR90, e um canal MR135 além dos canais de saída dos canais 5.1. Aqui, um índice M, que é o primeiro caractere do nome de cada canal indica uma camada intermediária, e o número seguinte indica um ângulo de azimute do canal central.

[00091] A camada inferior 330 inclui um canal L0, um canal LL45, e um canal LR45. Aqui, um índice L que é o primeiro caractere do nome de cada canal indica uma camada mais baixa, e o número seguinte indica um ângulo de azimute do canal central.

[00092] Nos canais 22.2, a camada intermediária é chamada de um canal horizontal e os canais de VOG, T0, T180, M180, L e C correspondentes a um ângulo de azimute de 0° ou 180° são considerados como um canal vertical.

[00093] Quando um sinal de entrada de canal 22.2 é reproduzida usando um sistema de canal 5.1, de acordo com o método mais geral, um sinal de intercanal pode ser distribuído usando uma expressão de mistura. Em alternativa, a renderização para fornecer uma detecção virtual de elevação pode ser executada de modo que o sistema de canal 5.1 reproduz um sinal de áudio que tem uma detecção de elevação.

[00094] A FIG. 4 ilustra um layout de canais de camada de topo de acordo com as elevações de uma camada superior em um layout de canal, de acordo com uma modalidade.

[00095] Quando um sinal de canal de entrada é um sinal de áudio de canal 22.2 em 3D e está disposto de acordo com o layout da FIG. 3, uma camada superior entre os canais de entrada tem um layout, como mostrado na FIG. 4. Neste caso, presume-se que os ângulos de elevação são 0°, 25°, 35° e 45°, e o canal de VOG correspondente a um ângulo de elevação de 90° é omitido. Os canais de camada superior tendo um ângulo de elevação de 0° são como se eles estivessem localizados sobre uma superfície horizontal (a camada intermediária 320).

[00096] A FIG. 4A ilustra um layout de canal quando os canais de camada superior são vistos a partir da frente.

[00097] Com referência à FIG. 4A, uma vez que os oito canais de camada superior têm uma diferença de ângulo de azimute de 45° entre os mesmos, quando os canais de camada superior são vistos a partir da frente com base em um eixo do canal vertical, os seis canais restantes, excluindo o canal TL90 e o canal TR90, são mostrados de tal forma que o canal TL45 e o canal TL135, o canal T0 e o canal T180, e o canal TR45 e o canal TR135 se sobrepõem dois a dois. Isto ficará mais claro quando em comparação com a FIG. 4B.

[00098] A FIG. 4B ilustra um layout de canal quando os canais de camada superior são vistos a partir do topo. A FIG. 4C ilustra um layout em 3D dos canais de camada superior. Pode ser visto que os oito canais de camada superior estão dispostos com um intervalo igual e uma diferença de ângulo de azimute de 45° entre os mesmos.

[00099] Se o conteúdo a ser reproduzido como um som estereofônico através da renderização de elevação for fixo para ter, por exemplo, um ângulo de elevação de 35°, ele será fino, embora a renderização de elevação seja realizada para todos os sinais de áudio de entrada com um ângulo de elevação de 35°, e um resultado ótimo pode ser obtido.

[000100] No entanto, de acordo com o conteúdo, um ângulo de elevação pode ser aplicado a um som estereofônico de conteúdo correspondente, e como mostrado na FIG. 4, uma localização e uma distância de cada um dos canais varia de acordo com as elevações de canais e, consequentemente, uma característica de sinal também pode variar.

[000101] Portanto, quando a renderização virtual é realizada com um ângulo de elevação fixo, a distorção da imagem de áudio ocorre, e para obter um desempenho óptimo de renderização, é necessário realizar a renderização tendo em conta um ângulo de elevação de um sinal de áudio de entrada em 3D, ou seja, um ângulo de elevação de um canal de entrada.

[000102] A FIG. 5 é um diagrama de blocos que ilustra uma configuração de um decodificador e um renderizador acústico 3D na reprodução de áudio estereofônico, de acordo com uma modalidade.

[000103] Com referência à FIG. 5, de acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 é mostrado com base em uma configuração do decodificador 110 e do renderizador acústico 3D 120, e a outra configuração é omitida.

[000104] Uma entrada de sinal de áudio para o aparelho de reprodução de áudio estereofônico 100 é um sinal codificado e é inserido em um formato de fluxo de bits. O decodificador 110 decodifica o sinal de áudio de entrada por seleção de uma ferramenta de decodificador adequada para um esquema através do qual o sinal de áudio foi codificado e transmite o sinal de áudio decodificado para o renderizador acústico 3D 120.

[000105] O renderizador acústico 3D 120 inclui uma unidade de inicialização 125 para a obtenção e atualização de um coeficiente de filtro e um coeficiente de panning e uma unidade de renderização 127 para a realização de filtragem e de panning.

[000106] A unidade de renderização 127 realiza a filtragem e o panning com o sinal de áudio transmitido a partir do decodificador. Uma unidade de filtragem 1271 processa a informação sobre a localização de um som de modo que um sinal de áudio renderizado é reproduzido em uma localização desejada, e uma unidade de panning 1272 processa a informação sobre um tom do som de modo que o sinal de áudio renderizado tenha um tom adequado para a Localização pretendida.

[000107] A unidade de filtragem 1271 e a unidade de panning 1272 realizam funções semelhantes às da unidade de filtragem 121 e da unidade de panning 123 descritas com referência à FIG. 2. No entanto, a unidade de filtragem e a unidade de panning 123 da FIG. 2 estão representadas esquematicamente, e será entendido que uma configuração, tal como uma unidade de inicialização, para a obtenção de um coeficiente de filtro e um coeficiente de panning pode ser omitida.

[000108] Neste caso, um coeficiente de filtro a ser usado para a filtragem e um coeficiente de panning a ser usado para o panning são transmitidos a partir da unidade de inicialização 125. A unidade de inicialização 125 inclui uma unidade de aquisição de parâmetro de renderização de elevação 1251 e uma unidade de atualização de parâmetro de renderização de elevação 1252.

[000109] A unidade de atualização de parâmetro de renderização de elevação 1251 obtém um valor de inicialização de um parâmetro de renderização de elevação usando uma configuração e um layout de canais de saída, ou seja, alto-falantes. Neste caso, o valor de inicialização do parâmetro de renderização de elevação é calculado com base em uma configuração de canais de saída, de acordo com um layout padrão e uma configuração de canais de entrada de acordo com uma configuração de renderização de elevação, ou para o valor de inicialização do parâmetro de renderização de elevação, um valor de inicialização pré-armazenado é lido de acordo com uma relação de mapeamento entre os canais de entrada/saída. O parâmetro de renderização de elevação pode incluir um coeficiente de filtro a ser usado pela unidade de filtragem 1251 ou um coeficiente de panning a ser usado pela unidade de panning 1252.

[000110] No entanto, como descrito acima, um desvio entre um valor de elevação definido para a renderização de elevação e configurações de canais de entrada podem existir. Neste caso, quando um valor de elevação definido fixo é usado, é difícil atingir o propósito de renderização virtual de reprodução tridimensionalmente de um sinal de áudio original 3D para ser mais semelhante através de canais de saída tendo uma configuração diferente daquela dos canais de entrada.

[000111] Por exemplo, quando uma detecção de elevação é muito elevada, um fenômeno em que uma imagem de áudio é pequena e a qualidade do som é deteriorada pode ocorrer, e quando uma detecção de elevação é muito baixa, um problema pelo qual é difícil de sentir um efeito de renderização virtual pode ocorrer. Portanto, é necessário ajustar uma detecção de elevação de acordo com as configurações de um usuário ou um certo grau de renderização virtual adequada para um canal de entrada.

[000112] A unidade de atualização de parâmetro de renderização de elevação 1252 atualiza o parâmetro de renderização de elevação usando valores de inicialização do parâmetro de renderização de elevação, que são obtidos pela unidade de aquisição de parâmetro de renderização de elevação 1251, com base em informações de elevação de um canal de entrada ou elevação definida de um usuário. Neste caso, se um layout de alto-falante dos canais de saída tem um desvio em comparação com o layout padrão, um processo para a correção de uma influência de acordo com o desvio pode ser adicionado. O desvio do canal de saída pode incluir informações de desvio de acordo com uma diferença de ângulo de elevação ou uma diferença de ângulo de azimute.

[000113] Um sinal de áudio de saída filtrado e com panning pela unidade de renderização 127 usando o parâmetro de renderização de elevação obtido e atualizado pela unidade de inicialização 125 é reproduzido através de um alto-falante que corresponde a cada canal de saída.

[000114] A FIG. 6 é um fluxograma que ilustra um método de renderização de um sinal de áudio 3D, de acordo com uma modalidade.

[000115] Na operação 610, um renderizador recebe um sinal de áudio multicanal incluindo uma pluralidade de canais de entrada. O sinal de áudio multicanal de entrada é convertido em uma pluralidade de sinais de canal de saída por meio de renderização. Por exemplo, na mistura em que o número de canais de entrada é maior do que o número de canais de saída, um sinal de entrada tendo canais 22.2 é convertido em um sinal de saída tendo canais 5.1.

[000116] Como tal, quando um sinal de entrada estereofônico 3D é renderizado usando canais de saída 2D, a renderização normal é aplicada aos canais de entrada horizontal e a renderização virtual para a concessão de uma detecção de elevação é aplicada aos canais de entrada de altura tendo um ângulo de elevação.

[000117] Para realizar a renderização, um coeficiente de filtro a ser usado para a filtragem e um coeficiente de panning a ser usado para um panning são necessários. Neste caso, na operação 620, um parâmetro de renderização é obtido de acordo com um layout padrão de canais de saída e um ângulo de elevação implícita para renderização virtual em um processo de inicialização. O ângulo de elevação implícita pode ser determinado variavelmente de acordo com os renderizadores, mas quando a renderização virtual é realizada usando um tal ângulo de elevação fixo, um resultado de diminuição de um nível de satisfação e do efeito da renderização virtual de acordo com os gostos dos usuários ou características dos sinais de entrada pode ocorrer.

[000118] Portanto, quando uma configuração de canais de saída tem um desvio de um layout padrão de canais de saída correspondentes ou uma elevação com a qual a renderização virtual tem de ser realizada difere da elevação implícita, o parâmetro de renderização é atualizado na operação 630.

[000119] Neste caso, o parâmetro de renderização atualizado pode incluir um coeficiente de filtro atualizado pela aplicação de um peso determinado com base em um desvio de ângulo de elevação para um valor de inicialização do coeficiente de filtro ou de um coeficiente de panning atualizado, aumentando ou diminuindo um valor de inicialização do coeficiente de panning, de acordo com um resultado de comparação de magnitude entre uma elevação de um canal de entrada e a elevação implícita.

[000120] Um método específico de atualização de um coeficiente de filtro e um coeficiente de panning será descrito em mais detalhe com referência às FIGS. 7 e 8.

[000121] Se o layout dos alto-falantes dos canais de saída tem um desvio em comparação com o layout padrão, um processo para a correção de uma influência de acordo com o desvio pode ser adicionado, mas uma descrição de um método específico do processo é omitida. O desvio do canal de saída pode incluir informações de desvio de acordo com uma diferença de ângulo de elevação ou uma diferença de ângulo de azimute.

[000122] A FIG. 7 ilustra uma alteração em uma imagem de áudio e uma alteração em um filtro de elevação de acordo com elevações de canais, de acordo com uma modalidade.

[000123] A FIG. 7A ilustra uma localização de cada canal quando elevações de canais de altura são 0°, 35° e 45°, de acordo com uma modalidade. O desenho da FIG. 7A é uma figura vista da parte de trás de um público, e os canais mostrados na FIG. 7A são o canal ML90 ou o canal TL90. Quando um ângulo de elevação é de 0°, o canal existe na superfície horizontal e corresponde ao canal ML90, e quando os ângulos de elevação são 35° e 45°, os canais são canais de camada superior e correspondem ao canal TL90.

[000124] A FIG. 7B ilustra a diferença entre os sinais sentidos pelos ouvidos esquerdo e direito de um público, quando um sinal de áudio é produzido em cada um dos canais de acordo com a modalidade da FIG. 7B.

[000125] Quando um sinal de áudio é produzido a partir do canal ML90 não tendo nenhum ângulo de elevação, o sinal de áudio é reconhecido apenas pelo ouvido esquerdo, em princípio, e o sinal de áudio não é reconhecido pelo ouvido direito.

[000126] No entanto, à medida que a elevação aumenta, a diferença entre um som reconhecido pelo ouvido esquerdo e um sinal de áudio reconhecido pelo ouvido direito é gradualmente reduzida, e quando um ângulo de elevação se torna de 90°, quando o ângulo de elevação de um canal aumenta gradualmente, o canal torna-se um canal localizado acima das cabeças do público, ou seja, o canal de VOG, e, portanto, o mesmo sinal de áudio é reconhecido por ambos os ouvidos.

[000127] Portanto, uma alteração no sinal de áudio reconhecido por ambos os ouvidos de acordo com ângulos de elevação é tal como mostrada na FIG. 7B.

[000128] Para sinais de áudio reconhecidos pelos ouvidos esquerdo e direito, quando um ângulo de elevação é de 0°, um sinal de áudio é reconhecido apenas pelo ouvido esquerdo, e nenhum sinal de áudio pode ser reconhecido pelo ouvido direito. Neste caso, um ILD e um ITD são maximizados, e o público reconhece uma imagem de áudio do canal ML90 existente em um canal horizontal esquerdo.

[000129] Para a diferença entre os sinais de áudio reconhecidos pelos ouvidos esquerdo e direito, quando um ângulo de elevação é de 35° e os sinais de áudio reconhecidos pelos ouvidos esquerdo e direito, quando um ângulo de elevação é de 45°, a diferença entre os sinais de áudio reconhecidos pelos ouvidos esquerdo e direito é reduzida à medida que o ângulo de elevação é elevado, e de acordo com esta diferença, o público pode sentir a diferença na detecção da elevação de um sinal de áudio de saída.

[000130] Um sinal de saída de um canal tendo um ângulo de elevação de 35° tem características de uma imagem de áudio ampla e o ponto ideal e a qualidade de som natural em comparação com um sinal de saída de um canal tendo um ângulo de elevação de 45°, e o sinal de saída canal tendo um ângulo de elevação de 45° tem uma característica de obtenção de uma detecção de um campo de som através do qual uma forte detecção de imersão é fornecida, em comparação com o sinal de saída do canal tendo um ângulo de elevação de 35°, embora uma imagem de áudio seja estreitada e um ponto ideal também seja estreitado.

[000131] Tal como descrito acima, como um ângulo de elevação aumenta, uma detecção de elevação aumenta, e, assim, a detecção de imersão é mais forte, mas uma largura de uma imagem de áudio é mais estreita. Este fenômeno é porque à medida que um ângulo de elevação é elevado, a localização física de um canal se move gradualmente para o interior e está finalmente perto do público.

[000132] Portanto, a atualização de um coeficiente de panning de acordo com uma alteração em um ângulo de elevação é determinada como segue. O coeficiente de panning é atualizado para que uma imagem de áudio ser mais ampla à medida que um ângulo de elevação aumenta e é atualizado para que uma imagem de áudio seja mais estreita à medida que um ângulo de elevação diminui.

[000133] Por exemplo, assume-se que o ângulo de elevação padrão para renderização virtual é 45° e a renderização virtual é realizada diminuindo o ângulo de elevação para 35°. Neste caso, os coeficientes de panning de renderização a serem aplicados aos canais de saída ipsilaterais para um canal virtual a ser renderizado são aumentados, e os coeficientes de panning a serem aplicados aos canais restantes são determinados através de uma normalização de potência.

[000134] Para uma descrição detalhada, presume-se que um sinal multicanal de entrada de canais 22.2 é reproduzido através de canais de saída (alto-falantes) de canais 5.1. Neste caso, os canais de entrada tendo um ângulo de elevação, para o qual uma renderização virtual está sendo aplicada, entre os canais de entrada de canais 22.2 são nove canais de CH_U_000 (T0), CH_U_L45 (TL45), CH_U_R45 (TR45), CH_U_L90 (TL90), CH_U_R90 (TR90), CH_U_L135 (TL135), CH_U_R135 (TR135), CH_U_180 (T180), e CH_T_000 (VOG) e os canais de saída de canais 5.1 são cinco canais de CH_M_000, CH_M_L030, CH_M_R030, CH_M_L110, e CH_M_R110 existentes sobre a superfície horizontal (excluindo um canal woofer).

[000135] Como tal, quando o canal CH_U_L45 é renderizado usando canais de saída 5.1, se o ângulo de elevação implícito é de 45° e é desejável diminuir o ângulo de elevação para 35°, os coeficientes de panning a serem aplicados aos canais CH_M_L030 e CH_M_L110 que são canais de saída existentes para serem ipsilaterais ao canal CH_U_L45 são atualizados para aumentar por 3 dB, e os coeficientes de panning dos três canais restantes são atualizados para diminuir de modo a satisfazer a Equação 1. (1)

[000136] Aqui, N indica o número de canais de saída para renderizar um canal virtual arbitrário, e denota um coeficiente de panning para ser aplicado a cada canal de saída.

[000137] Este processo deve ser realizado para cada canal de entrada de altura.

[000138] Pelo contrário, considera-se que o ângulo de elevação implícito para renderização virtual é 45° e a renderização virtual é realizada através do aumento do ângulo de elevação para 55°. Neste caso, os coeficientes de panning de renderização a serem aplicados aos canais de saída ipsilaterais para um canal virtual a ser renderizado são diminuídos, e coeficientes de panning para serem aplicado aos canais restantes são determinados através de uma normalização de potência.

[000139] Quando o canal CH_U_L45 é renderizado usando os mesmos canais de saída 5.1 como no exemplo descrito acima, se o ângulo de elevação implícito é de 45° e é desejável aumentar o ângulo de elevação para 55°, os coeficientes de panning a serem aplicados aos canais CH_M_L030 e CH_M_L110 que são canais de saída existentes para serem ipsilaterais ao canal CH_U_L45 são atualizados para diminuir por 3 dB, e os coeficientes de panning dos três canais restantes são atualizados para aumentar, de modo a satisfazer a Equação 1.

[000140] No entanto, como descrito acima, quando uma detecção de elevação é aumentada, é necessário prestar atenção para que as imagens de áudio esquerda e direita não sejam invertidas devido a atualização do coeficiente de panning, e isto será descrito com referência à FIG. 8.

[000141] A seguir, um método de atualização de um coeficiente de filtro tom é descrito com referência à FIG. 7C.

[000142] A FIG. 7C ilustra as características de um filtro de tom de acordo com frequências quando os ângulos de elevação de canais são 35° e 45°, de acordo com uma modalidade.

[000143] Como mostrado na FIG. 7C, um filtro de tom de um canal tendo um ângulo de elevação de 45° apresenta uma característica maior devido ao ângulo de elevação em comparação com um filtro de tom de um canal tendo um ângulo de elevação de 35°.

[000144] Como resultado, quando se pretende realizar a renderização virtual, de modo a ter um ângulo de elevação maior do que o ângulo de elevação padrão, uma banda de frequência (uma banda da qual um coeficiente de filtro original é maior do que 1) dos quais uma magnitude deve ser aumentada quando a renderização do ângulo de elevação padrão é mais aumentada (um coeficiente de filtro atualizado é aumentado para ser maior do que 1), e uma banda de frequência (uma banda da qual um coeficiente de filtro original é menor do que 1) da qual uma magnitude deve ser diminuída quando a renderização do ângulo de elevação padrão é mais diminuída (um coeficiente de filtro atualizado é diminuída a ser menor do que 1).

[000145] Quando esta característica de magnitude de filtro é mostrada por uma escala de decibéis, tal como mostrado na FIG. 7C, uma magnitude do filtro tem um valor positivo em uma banda de frequência em que uma magnitude de um sinal de saída deve ser aumentada, e tem um valor negativo em uma banda de frequência em que uma magnitude de um sinal de saída deve ser diminuída. Além disso, como mostrado na FIG. 7C, à medida que um ângulo de elevação diminui, uma forma de uma magnitude de filtro torna-se suave.

[000146] Quando um canal de altura é vitualmente renderizado usando um canal horizontal, o canal de altura tem um tom semelhante ao do canal horizontal à medida que um ângulo de elevação diminui, e uma alteração em uma detecção da elevação aumenta à medida que o ângulo de elevação aumenta e, assim, à medida que o ângulo de elevação aumenta, uma influência devido a um filtro de tons é aumentada para enfatizar uma detecção de efeito de elevação devido a um aumento do ângulo de elevação. Ao contrário, à medida que o ângulo de elevação diminui, uma influência devido a um filtro de tons pode ser diminuída para diminuir uma detecção de efeito de elevação.

[000147] Portanto, para atualização de coeficiente de filtro de acordo com uma alteração em um ângulo de elevação, um coeficiente de filtro inicial é atualizado usando um peso com base no ângulo de elevação implícito e no ângulo de elevação real a ser renderizado.

[000148] Quando o ângulo de elevação implícito para renderização virtual é de 45°, e é desejável diminuir uma detecção de elevação que está sendo renderizada para 35° que é inferior ao ângulo de elevação implícito, os coeficientes correspondentes ao filtro de 45° na FIG. 7C são determinados como valores iniciais e devem ser atualizados para os coeficientes correspondentes ao filtro de 35°.

[000149] Como consequência, quando é desejado diminuir uma detecção de elevação ao ser renderizada a 35° que é um ângulo de elevação menor do que 45°, que é o ângulo de elevação implícito, um coeficiente de filtro deve ser atualizado para que tanto a um vale como uma crista de um filtro, de acordo com bandas de frequência, sejam mais delicadamente corrigidos do que o filtro de 45°.

[000150] Ao contrário, quando o ângulo de elevação implícito é de 45° e é desejável aumentar a uma detecção de elevação ao ser renderizado a 55° que é maior do que o ângulo de elevação padrão, um coeficiente de filtro deve ser atualizado para que tanto a um vale como uma crista de um filtro, de acordo com as bandas de frequências, sejam de modo mais acentuado do que o filtro de 45°.

[000151] A FIG. 8 ilustra um fenômeno no qual as imagens de áudio de esquerda e direita são invertidas quando um ângulo de elevação de um canal de entrada é um valor de limiar ou mais, de acordo com uma modalidade.

[000152] Tal como no caso da FIG. 7B, a FIG. 8 mostra uma figura vista da parte de trás de um público, e um canal marcado por um retângulo é o canal CH_U_L90. Neste caso, quando se assume que um ângulo de elevação do canal CH_U_L90 é Φ, à medida que Φ aumenta, um ILD e um ITD de sinais de áudio que chegam aos ouvidos esquerdo e direito do público diminui gradualmente, e os sinais de áudio reconhecidos por ambos ouvidos têm imagens de áudio semelhantes. Um valor máximo do ângulo de elevação Φ é 90°, e quando Φ se torna 90°, o canal CH_U_L90 se torna o canal de VOG existente sobre as cabeças do público, e o mesmo sinal de áudio é recebido por ambos ouvidos.

[000153] Como mostrado na FIG. 8A, quando Φ tem um valor consideravelmente grande, uma detecção de elevação aumenta de modo que o público pode sentir uma detecção de campo de som pelo qual uma detecção de armazenamento de imersão é fornecida. No entanto, de acordo com o aumento da detecção de elevação, uma imagem de áudio é estreitada, e um ponto ideal é formado para ser estreitado e, portanto, mesmo quando uma localização do público se move um pouco ou um canal se desvia um pouco, um fenômeno de inversão de esquerda/direita das imagens de áudio pode ocorrer.

[000154] A FIG. 8B ilustra as localizações do público e do canal quando o público se move um pouco para a esquerda. Uma vez que a detecção de elevação é formada para ser elevada devido a um grande valor do ângulo de elevação de canal Φ, mesmo quando o público se move um pouco, as localizações relativas dos canais esquerdo e direito são amplamente alteradas, e no pior dos casos, um sinal que chega no ouvido direito a partir de um canal à esquerda é reconhecido como sendo maior do que um sinal que chega no ouvido esquerdo a partir do canal esquerdo, e, assim, a inversão de esquerda/direita das imagens de áudio pode ocorrer, conforme mostrado na FIG. 8B.

[000155] Em um processo de renderização, em vez de conceder uma detecção de elevação, a manutenção de um equilíbrio de esquerda/direita das imagens de áudio e localização dos locais de esquerda e direita das imagens de áudio são problemas mais importantes e, portanto, para que uma situação como a inversão de esquerda/direita das imagens de áudio não ocorra, pode ser necessário que um ângulo de elevação para renderização virtual seja limitado a uma faixa predeterminada ou menos.

[000156] Portanto, quando um ângulo de elevação é aumentado para obter uma maior detecção de elevação do que o ângulo de elevação implícito para renderização, um coeficiente de panning deve ser reduzido, mas um valor de limiar mínimo do coeficiente de panning precisa ser definido para que o coeficiente de panning não seja um valor predeterminado ou menos.

[000157] Por exemplo, mesmo quando uma elevação de renderização de 60° ou mais é aumentada para 60° ou mais, se o panning é realizado através da aplicação compulsivamente de um coeficiente de panning atualizado para um ângulo de elevação de limiar de 60°, o fenômeno de inversão de esquerda/direita das imagens de áudio pode ser evitado.

[000158] A FIG. 9 é um fluxograma que ilustra um método de renderização de um sinal de áudio 3D, de acordo com outra modalidade.

[000159] Nas modalidades descritas acima, um método de realização de renderização virtual com base em um canal de altura de um sinal multicanal de entrada quando um ângulo de elevação do canal de altura do sinal de entrada difere de um ângulo de elevação implícito de um renderizador foi descrito. No entanto, é necessário alterar variavelmente um ângulo de elevação para renderização virtual de acordo com os gostos dos usuários ou características de espaços em que um sinal de áudio deve ser reproduzido.

[000160] Como tal, quando é necessário alterar variavelmente um ângulo de elevação para renderização virtual, é necessário adicionar uma operação de recebimento de uma entrada de um ângulo de elevação para renderizar o fluxograma da FIG. 6, e as outras operações são semelhantes às operações da FIG. 6.

[000161] Na operação 910, um renderizador recebe um sinal de áudio multicanal incluindo uma pluralidade de canais de entrada. O sinal de áudio multicanal de entrada é convertido em uma pluralidade de sinais de canal de saída através de renderização. Por exemplo, na mistura em que o número de canais de entrada é maior do que o número de canais de saída, um sinal de entrada tendo canais 22.2 é convertido em um sinal de saída tendo canais 5.1.

[000162] Como tal, quando um sinal de entrada estereofônico 3D é renderizado usando canais de saída 2D, a renderização normal é aplicada aos canais de entrada horizontal, e a renderização virtual para a concessão de uma detecção de elevação é aplicada aos canais de altura tendo um ângulo de elevação.

[000163] Para realizar a renderização, um coeficiente de filtro a ser usado para a filtragem e um coeficiente de panning a ser usado para o panning são necessários. Neste caso, na operação 920, um parâmetro de renderização é obtido de acordo com um layout padrão de canais de saída e um ângulo de elevação implícito para renderização virtual em um processo de inicialização. O ângulo de elevação implícito pode ser determinado variavelmente de acordo com renderizadores, mas quando a renderização virtual é realizada usando um tal ângulo de elevação fixo, um resultado de diminuição de um efeito da renderização virtual de acordo com os gostos dos usuários, das características dos sinais de entrada, ou das características de espaços de reprodução pode ocorrer.

[000164] Portanto, na operação 930, em um ângulo de elevação para a renderização virtual é introduzido para realizar a renderização virtual com respeito a um ângulo de elevação arbitrário. Neste caso, como o ângulo de elevação para a renderização virtual, um ângulo de elevação introduzido diretamente por um usuário através de uma interface de usuário de um aparelho de reprodução de áudio ou usando um controle remoto pode ser distribuído ao renderizador.

[000165] Em alternativa, o ângulo de elevação para a renderização virtual pode ser determinado por uma aplicação tendo informações sobre um espaço no qual um sinal de áudio deve ser reproduzido e distribuído para o renderizador, ou distribuído através de um aparelho externo separado, em vez de aparelhos de reprodução de áudio, incluindo o renderizador. Uma modalidade em que um ângulo de elevação para renderização virtual é determinado através de um aparelho externo separado irá ser descrita em mais detalhe com referência às FIGS. 10 e 11.

[000166] Apesar de se supor na FIG. 9 que uma entrada de um ângulo de elevação é recebida após a obtenção de um valor de inicialização de um parâmetro de renderização de elevação, usando uma configuração de inicialização de renderização, a entrada do ângulo de elevação pode ser recebida em qualquer operação antes do parâmetro de renderização de elevação ser atualizado.

[000167] Quando o ângulo de elevação diferente do ângulo de elevação implícito é introduzido, o renderizador atualiza o parâmetro de renderização com base no ângulo de elevação de entrada na operação 940.

[000168] Neste caso, o parâmetro de renderização atualizado pode incluir um coeficiente de filtro atualizado pela aplicação de um peso determinado com base em um desvio de ângulo de elevação para um valor de inicialização do coeficiente de filtro ou um coeficiente de panning atualizado, aumentando ou diminuindo um valor de inicialização do coeficiente de panning, de acordo com um resultado de comparação de magnitude entre uma elevação de um canal de entrada e a elevação implícita tal como descrito com referência às FIGS. 7 e 8.

[000169] Se o layout de alto-falante dos canais de saída tem um desvio em relação com o layout padrão, um processo para a correção de uma influência de acordo com o desvio pode ser adicionado, mas uma descrição de um método específico do processo é omitida. O desvio do canal de saída pode incluir informações de desvio de acordo com uma diferença de ângulo de elevação ou uma diferença de ângulo de azimute.

[000170] Como descrito acima, quando a renderização virtual é realizada através da aplicação de um ângulo de elevação arbitrário, de acordo com os gostos dos usuários, as características de espaços de reprodução de áudio, ou semelhantes, um melhor nível de satisfação na avaliação subjetiva da qualidade de som e semelhantes podem ser fornecidos para um público em comparação com um sinal de áudio 3D virtual para o qual a renderização foi realizada de acordo com um ângulo de elevação fixo.

[000171] As FIGS. 10 e 11 são diagramas de sinalização para a descrição de uma operação de cada aparelho, de acordo com uma modalidade que inclui pelo menos um aparelho externo e um aparelho de reprodução de áudio.

[000172] A FIG. 10 é um diagrama de sinalização para a descrição de uma operação de cada aparelho quando um ângulo de elevação é introduzido através de um aparelho externo, de acordo com uma modalidade de um sistema que inclui o aparelho externo e o aparelho de reprodução de áudio.

[000173] Juntamente com o desenvolvimento de tecnologias de tablet PC e smartphone, as técnicas de interoperabilidade e uso de um aparelho de reprodução de áudio/vídeo e um tablet PC ou semelhantes também foram rapidamente desenvolvidas. Simplesmente, um smartphone pode ser usado como um controle remoto para o aparelho de reprodução de áudio/vídeo. Mesmo para uma TV incluindo uma função de toque, a maioria dos usuários controla a TV usando um controle remoto uma vez que os usuários devem se mover próximo a TV para introduzir um comando usando a função de toque da TV, e um número considerável de smartphones pode realizar uma função de controle remoto, uma vez que eles incluem um terminal de infravermelho.

[000174] Alternativamente, um tablet PC ou um smartphone pode controlar uma configuração de decodificação ou uma configuração de renderização por interação com um dispositivo de multimídia, como uma TV ou um receptor de áudio/vídeo (AVR), através de um aplicativo específico instalado no mesmo.

[000175] Alternativamente, o ar-play para reproduzir conteúdo de áudio/vídeo decodificado e renderizado em um tablet PC ou um smartphone usando uma técnica de espelhamento pode ser implementado.

[000176] Nestes casos, uma operação entre o aparelho de reprodução de áudio estereofônico 100 incluindo um renderizador e um aparelho externo 200, tal como um tablet PC ou um smartphone é como mostrado na FIG. 10. Daqui em diante, uma operação do renderizador no aparelho de reprodução de áudio estereofônico é principalmente descrita.

[000177] Quando um sinal de áudio multicanal decodificado por um decodificador do aparelho de reprodução de áudio estereofônico 100 é recebido pelo renderizador na operação 1010, o renderizador obtém um parâmetro de renderização com base em um layout dos canais de saída e um ângulo de elevação implícito 1020. Neste caso, o parâmetro de renderização obtido é obtido através da leitura de um valor pré-armazenado como um valor de inicialização predeterminado de acordo com uma relação de mapeamento entre os canais de entrada e os canais de saída ou através de um cálculo.

[000178] O aparelho externo 200 para controlar uma configuração de renderização do aparelho de reprodução de áudio transmite, para o aparelho de reprodução de áudio na operação 1040, um ângulo de elevação a ser aplicado para renderização, que foi introduzido por um usuário, ou um ângulo de elevação determinado na operação 1030 como um ângulo de elevação ótimo através de uma aplicação ou semelhantes.

[000179] Quando o ângulo de elevação para renderização é introduzido, o renderizador atualiza o parâmetro de renderização com base no ângulo de elevação de entrada na operação 1050 e realiza a renderização usando o parâmetro de renderização atualizado na operação 1060. Aqui, um método de atualização do parâmetro de renderização é o mesmo que descrito com referência às FIGS. 7 e 8, e o sinal de áudio renderizado se torna um sinal de áudio 3D tendo uma detecção de ambiente.

[000180] O aparelho de reprodução de áudio 100 pode reproduzir um sinal de áudio renderizado por si só, mas quando uma solicitação do aparelho externo 200 existe, o sinal de áudio renderizado é transmitido para o aparelho externo na operação 1070, e o aparelho externo reproduz o sinal de áudio recebido na operação 1080 para fornecer um som estereofônico tendo uma detecção de ambiente para o usuário.

[000181] Como descrito acima, quando o ar-play é implementado usando a técnica de espelhamento, mesmo um dispositivo portátil tal como um tablet PC ou um smartphone pode fornecer um sinal de áudio 3D usando uma técnica binaural e headphones permitindo a reprodução de áudio estereofônico.

[000182] A FIG. 11 é um diagrama de sinalização para a descrição de uma operação de cada aparelho, quando um sinal de áudio é reproduzido por meio de um segundo aparelho externo, de acordo com uma modalidade de um sistema incluindo um primeiro aparelho externo, o segundo aparelho externo, e o aparelho de reprodução de áudio.

[000183] O primeiro aparelho externo 201 da FIG. 11 indica que o aparelho externo, tal como um tablet PC ou um smartphone incluído na FIG. 10. O segundo aparelho externo 202 da FIG. 11 indica um sistema acústico separado, como um AVR incluindo um renderizador diferente do aparelho de reprodução de áudio 100.

[000184] Quando o segundo aparelho externo realiza somente a renderização de acordo com um ângulo de elevação implícito fixo, um som estereofônico tendo um desempenho melhor pode ser obtido através da realização de renderização usando o aparelho de reprodução de áudio de acordo com uma modalidade da presente invenção e a transmissão de um sinal de áudio 3D renderizado para o segundo aparelho externo, de modo que o segundo aparelho externo reproduz o sinal de áudio 3D renderizado.

[000185] Quando um sinal de áudio multicanal decodificado por um descodificador do aparelho de reprodução de áudio estereofônico é recebido pelo renderizador na operação 1110, o renderizador obtém um parâmetro de renderização com base em um layout dos canais de saída e de um ângulo de elevação implícito na operação 1120. Neste caso, o parâmetro de renderização obtido é obtido através da leitura de um valor pré-armazenado como um valor de inicialização predeterminado de acordo com uma relação de mapeamento entre os canais de entrada e os canais de saída ou através de um cálculo.

[000186] O primeiro aparelho externo 201 para controlar uma configuração de renderização do aparelho de reprodução de áudio transmite, para o aparelho de reprodução de áudio na operação 1140, um ângulo de elevação a ser aplicado para renderização, o que foi introduzido por um usuário, ou um ângulo de elevação determinado na operação 1130 como um ângulo de elevação ótima através de uma aplicação ou semelhante.

[000187] Quando o ângulo de elevação para renderização é introduzido, o renderizador atualiza o parâmetro de renderização com base no ângulo de elevação de entrada na operação 1150 e desempenha a renderizado usando o parâmetro de renderização atualizado na operação 1160. Aqui, um método de atualização do parâmetro de renderização é o mesmo que descrito com referência às FIGS. 7 e 8, e o sinal de áudio renderizado se torna um sinal de áudio 3D tendo uma detecção de ambiente.

[000188] O aparelho de reprodução de áudio 100 pode reproduzir um sinal de áudio renderizado por si só, mas quando uma solicitação do segundo aparelho externo 202 existe, o sinal de áudio renderizado é transmitido a um segundo aparelho externo 202, e o segundo aparelho externo reproduz o sinal de áudio recebido na operação 1080. Aqui, se o segundo aparelho externo pode gravar o conteúdo de multimídia, o segundo aparelho externo pode gravar o sinal de áudio recebido.

[000189] Neste caso, quando o aparelho de reprodução de áudio 100 e o segundo aparelho externo 201 estão conectados através de uma interface específica, um processo de transformação do sinal de áudio renderizado para um formato adequado para uma interface correspondente que transcodifica o sinal de áudio renderizado usando outro codec para transmitir o sinal de áudio renderizado pode ser adicionado. Por exemplo, o sinal de áudio renderizado pode ser transformado em um formato de modulação de código de pulso (PCM) para a transmissão não comprimida através de uma interface de interface de multimídia de alta definição (HDMI) e, em seguida, transmitido.

[000190] Como descrito acima, permitindo a renderização em relação a um ângulo de elevação arbitrário, um campo de som pode ser reconfigurado pela disposição de localizações dos alto-falantes virtuais implementados através da renderização virtual para localizações arbitrárias desejadas por um usuário.

[000191] As modalidades acima descritas da presente invenção podem ser implementadas como instruções de computador que podem ser executadas por vários meios de computador, e gravadas em um meio de gravação legível por computador. O meio de gravação legível por computador pode incluir comandos de programa, arquivos de dados, estruturas de dados, ou uma combinação dos mesmos. Os comandos de programa gravados no meio de gravação legível por computador podem ser especialmente projetados e construídos para a presente invenção ou podem ser conhecidos e utilizáveis por aqueles versados na técnica em um campo de software de computador. Exemplos de meio legível por computador incluem meios magnéticos, como discos rígidos, disquetes e fitas magnéticas, suportes de gravação óptica, como CD-ROMs compactos e DVDs, mídia magneto-óptica, tais como discos floptical, e dispositivos de hardware que são especialmente configurados para armazenar e executar comandos do programa, tais como memórias ROM, RAM e flash. Exemplos de comandos de programa incluem um código de linguagem de alto nível, que pode ser executado por um computador usando um intérprete, bem como um código de linguagem de máquina feito por um compilador. Os dispositivos de hardware podem ser alterados para um ou mais módulos de software para executar o processamento de acordo com a presente invenção, e vice-versa.

[000192] Embora a presente invenção tenha sido descrita com referência às características específicas, tais como componentes detalhados, as modalidades limitadas e os desenhos, elas são fornecidas apenas para auxiliar na compreensão geral da presente invenção, e a presente invenção não está limitada às modalidades, e os versados na técnica à qual pertence a presente invenção podem realizar várias alterações e modificações das modalidades aqui descritas.

[000193] Portanto, a ideia da presente invenção não deve ser definida apenas pelas modalidades descritas acima, e as reivindicações anexas, seus equivalentes, ou todos os escopos equivalentemente alterados dos mesmos pertencem ao escopo da ideia da presente invenção.

Claims

1. MÉTODO DE RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, o método caracterizado por compreender as etapas de: receber sinais multicanais (610) incluindo um sinal de canal de entrada de altura de um ângulo de elevação predeterminado; obter um parâmetro de renderização de elevação (620) para um sinal de canal de entrada de altura de um ângulo de elevação padrão para fornecer uma imagem de som elevada; atualizar o parâmetro de renderização de elevação (630) com base no ângulo de elevação predeterminado, quando o ângulo de elevação predeterminado é superior ao ângulo de elevação padrão; e renderizar os sinais multicanais para uma pluralidade de sinais de canal de saída, usando o parâmetro de renderização de elevação atualizado (1060), para fornecer uma imagem de som elevada pela pluralidade de sinais de canal de saída.

2. Método, de acordo com a reivindicação 1, caracterizado por os parâmetros de renderização de elevação incluir pelo menos um dentre os coeficientes de filtro de elevação e os coeficientes de panning de elevação.

3. Método, de acordo com a reivindicação 2, caracterizado por os coeficientes de filtro de elevação serem calculados por reflexão de uma característica dinâmica de um HRTF.

4. Método, de acordo com a reivindicação 1, caracterizado por a atualização dos parâmetros de renderização de elevação (630) compreender a aplicação de pesos para os coeficientes de filtro de elevação com base no ângulo de elevação padrão e no ângulo de elevação predeterminado.

5. Método, de acordo com a reivindicação 2, caracterizado por a etapa de atualização do parâmetro de renderização de elevação (630) compreender a etapa de atualização dos coeficientes de panning de elevação com base no ângulo de elevação padrão e no ângulo de elevação predeterminado.

6. Método, de acordo com a reivindicação 2, caracterizado por os coeficientes de panning de elevação atualizados a serem aplicados aos sinais de canal de entrada contralateral a um sinal de canal de entrada possuindo o ângulo de elevação predeterminado entre os coeficientes de panning de elevação atualizados serem maiores do que os coeficientes de panning de elevação antes da atualização.

7. Método, de acordo com a reivindicação 2, caracterizado por os coeficientes de panning de elevação atualizados a serem aplicados aos sinais de canal de entrada ipsilateral para um sinal de canal de entrada tendo o ângulo de elevação predeterminado entre os coeficientes de panning de elevação atualizados serem menores do que os coeficientes de panning de elevação antes da atualização.

8. Método, de acordo com a reivindicação 2, caracterizado por a etapa de atualização dos parâmetros de renderização de elevação (630) compreender a etapa de atualização dos coeficientes de panning de elevação com base no ângulo de elevação padrão e em um valor de limiar quando o ângulo de elevação predeterminado é o valor de limiar ou mais.

9. Método, de acordo com a reivindicação 1, caracterizado por compreender ainda a etapa de receber uma entrada do ângulo de elevação predeterminado.

10. Método, de acordo com a reivindicação 9, caracterizado por a entrada ser recebida a partir de um dispositivo separado.

11. Método, de acordo com a reivindicação 1, caracterizado por compreender ainda as etapas de: renderizar o sinal multicanal recebido com base nos parâmetros de renderização de elevação atualizados (1060); e transmitir o sinal multicanal renderizado para um dispositivo separado (1070).

12. APARELHO PARA RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, o aparelho caracterizado por compreender: uma unidade de recepção para receber sinais multicanais (610) incluindo um sinal de canal de entrada de altura de um ângulo de elevação predeterminado; e uma unidade de renderização (127) para obter os parâmetros de renderização de elevação (620) para um canal de entrada de altura tendo um ângulo de elevação padrão para fornecer uma imagem de som elevada pela pluralidade de canais de saída e atualizar os parâmetros de renderização de elevação (630) com base no ângulo de elevação predeterminado quando o predeterminado ângulo de elevação é maior que o ângulo de elevação padrão, e renderização dos sinais multicanais a uma pluralidade de sinais de saída, usando o parâmetro de renderização de elevação atualizado, para fornecer uma imagem de som elevada pela pluralidade de sinais de canal de saída.

13. Aparelho, de acordo com a reivindicação 12, caracterizado por a unidade de renderização (127) renderizar o sinal multicanal recebido com base nos parâmetros de renderização de elevação atualizados, e compreender ainda uma unidade de transmissão para transmitir o recebido sinal multicanal renderizado para uma unidade de reprodução (1070).

14. MEIO DE GRAVAÇÃO LEGÍVEL POR COMPUTADOR, caracterizado por o meio ter gravado no mesmo instruções para executar o método de acordo com a reivindicação 1.