BR122022017776B1 - Método de renderização de elevação de um sinal de áudio, aparelho para renderização de um sinal de áudio de elevação, e meio de gravação não transitório legível por computador - Google Patents

Método de renderização de elevação de um sinal de áudio, aparelho para renderização de um sinal de áudio de elevação, e meio de gravação não transitório legível por computador Download PDF

Info

Publication number
BR122022017776B1
BR122022017776B1 BR122022017776-0A BR122022017776A BR122022017776B1 BR 122022017776 B1 BR122022017776 B1 BR 122022017776B1 BR 122022017776 A BR122022017776 A BR 122022017776A BR 122022017776 B1 BR122022017776 B1 BR 122022017776B1
Authority
BR
Brazil
Prior art keywords
channel
elevation
channels
output
rendering
Prior art date
Application number
BR122022017776-0A
Other languages
English (en)
Inventor
Sang-Bae Chon
Sun-min Kim
Original Assignee
Samsung Electronics Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co., Ltd. filed Critical Samsung Electronics Co., Ltd.
Publication of BR122022017776B1 publication Critical patent/BR122022017776B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

Quando um sinal de canal, tal como sinal de canal 22.2, é processado em um sinal de canal 5.1, um áudio tridimensional (3D) pode ser reproduzido pelo uso de um canal de saída bidimensional (2D), no entanto, quando um ângulo de elevação de um canal de entrada é diferente de um ângulo de elevação padrão, se os parâmetros de renderização de elevação de acordo com o ângulo de elevação padrão são usados, uma distorção em uma imagem de som pode ocorrer. A fim de resolver o problema acima mencionado de acordo com a técnica relacionada e para evitar confusão entre parte frontal-parte posterior devido a um canal de saída ambiente, uma modalidade da presente invenção fornece um método de renderização de um sinal de áudio, o método incluindo receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; adicionar atraso predefinido para um canal de entrada de altura frontal de modo a permitir que cada um da pluralidade de canais de saída forneça uma imagem de som tendo uma elevação em um ângulo de elevação de referência; alterar, com base no atraso adicionado, um parâmetro de elevação de renderização em (...).

Description

CAMPO TÉCNICO
[0001] A presente invenção se refere a um método e a um aparelho para renderização de um sinal de áudio e, mais particularmente, a um método e a um aparelho de renderização para que representa mais precisamente uma posição de uma imagem de som e um timbre através da modificação de um coeficiente de panning de elevação ou um coeficiente de filtro de elevação, quando uma elevação de um canal de entrada é maior ou menor que uma elevação de acordo com um layout padrão.
TÉCNICA ANTERIOR
[0002] O áudio 3D significa o áudio que permite que um ouvinte tenha uma sensação envolvente através da reprodução não só de uma elevação de áudio e de uma cor de tom, mas também de reprodução de uma direção ou uma distância, e para o qual a informação espacial é adicionada, em que a informação espacial faz com que o ouvinte, que não está localizado em um espaço onde uma fonte de áudio ocorreu, tenha uma percepção direcional, uma percepção de distância, e uma percepção espacial.
[0003] Quando um sinal de canal, tal como sinal de canal 22.2, é renderizado em um sinal de canal 5.1, um áudio tridimensional (3D) pode ser reproduzido através do uso de um canal de saída bidimensional (2D), no entanto, quando um ângulo de elevação de um canal de entrada é diferente de um ângulo de elevação padrão, se um sinal de entrada é renderizado usando os parâmetros de renderização determinados de acordo com o ângulo de elevação padrão, uma distorção pode ocorrer em uma imagem de som.
DESCRIÇÃO DETALHADA DA INVENÇÃO PROBLEMA TÉCNICO
[0004] Como descrito acima, quando um sinal multicanal, tal como um sinal de canal 22.2, é renderizado em um sinal de canal 5.1, um som ambiente tridimensional (3D) pode ser reproduzido através do uso de um canal de saída bidimensional (2D), no entanto, quando um ângulo de elevação de um canal de entrada é diferente de um ângulo de elevação padrão, se um sinal de entrada é renderizado através do uso de parâmetros de renderização determinados de acordo com o ângulo de elevação padrão, uma distorção pode ocorrer na imagem de som.
[0005] A fim de resolver o problema acima mencionado de acordo com a técnica relacionada, a presente invenção é fornecida para diminuir a distorção de uma imagem de som, mesmo que uma elevação de um canal de entrada seja maior ou menor que uma elevação padrão.
SOLUÇÃO TÉCNICA
[0006] A fim de alcançar o objetivo, a presente invenção inclui modalidades abaixo.
[0007] De acordo com uma modalidade da presente invenção, é fornecido um método de renderização de um sinal de áudio, o método incluindo receber um sinal multicanal que inclui uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; adicionar um atraso predeterminado para um canal de entrada de altura frontal de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência; modificar, com base no atraso adicionado, parâmetros de renderização de elevação em relação ao canal de entrada de altura frontal; e evitar a confusão entre a parte frontal-parte posterior pela geração, com base nos parâmetros de renderização de elevação modificados, de um canal de saída ambiente de elevação renderizado atrasado em relação ao canal de entrada de altura frontal.
[0008] A pluralidade de canais de saída pode ser de canais horizontais.
[0009] Os parâmetros de renderização de elevação podem incluir pelo menos um dentre coeficientes de filtro de elevação e ganhos de panning.
[00010] O canal de entrada de altura frontal pode incluir pelo menos um dos canais CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045, e CH_U_000.
[00011] O canal de saída ambiente pode incluir pelo menos um dos canais CH_M_L110 e CH_M_R110.
[00012] O atraso predeterminado pode ser determinado com base em uma taxa de amostragem.
[00013] De acordo com uma outra modalidade da presente invenção, é fornecido um aparelho de renderização de sinal de áudio, o aparelho incluindo uma unidade de recepção configurada para receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; uma unidade de renderização configurada para adicionar um atraso predeterminado para um canal de entrada de altura frontal, de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência, e para modificar, com base no atraso adicionado, os parâmetros de renderização de elevação com relação ao canal de entrada da altura frontal; e uma unidade de saída configurada para evitar a confusão entre parte frontal-parte posterior pela geração, com base nos parâmetros de renderização de elevação modificados, de um canal de saída ambiente de elevação renderizado atrasado em relação ao canal de entrada de altura frontal.
[00014] A pluralidade de canais de saída pode ser de canais horizontais.
[00015] Os parâmetros de renderização de elevação podem incluir pelo menos um dentre coeficientes de filtro de elevação e ganhos de panning.
[00016] O canal de entrada de altura frontal pode incluir pelo menos um dos canais CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045, e CH_U_000.
[00017] O canal de altura frontal pode incluir pelo menos um dos canais CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045, e CH_U_000.
[00018] O atraso predeterminado pode ser determinado com base em uma taxa de amostragem.
[00019] De acordo com uma outra modalidade da presente invenção, é fornecido um método de renderização de um sinal de áudio, o método incluindo receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; obter os parâmetro de renderização de elevação em relação a um canal de entrada de altura de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência; e atualizar os parâmetros de renderização de elevação com relação a um canal de entrada de altura tendo um ângulo de elevação predeterminado, em vez do ângulo de elevação de referência, em que a atualização dos parâmetros de renderização de elevação inclui ganhos de panning de elevação de atualização para o panning de um canal de entrada de altura em um centro frontal de topo para um canal de saída ambiente.
[00020] A pluralidade de canais de saída pode ser de canais horizontais.
[00021] Os parâmetros de renderização de elevação podem incluir pelo menos um dentre coeficientes de filtro de elevação e ganhos de panning de elevação.
[00022] A atualização dos parâmetros de renderização de elevação pode incluir a atualização dos ganhos de panning de elevação, com base no ângulo de elevação de referência e no ângulo de elevação predeterminado.
[00023] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, o ganhos de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser maior que o ganho de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00024] Quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, um ganho de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser menor que os ganhos de panning de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00025] De acordo com uma outra modalidade da presente invenção, é fornecido um aparelho para renderização de um sinal de áudio, o aparelho incluindo uma unidade de recepção configurada para receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; e uma unidade de renderização configurada para obter parâmetros de renderização de elevação em relação a um canal de entrada de altura de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência, e para atualizar os parâmetros de renderização de elevação com relação a um canal de entrada de altura tendo um ângulo de elevação predeterminado, em vez do ângulo de elevação de referência, em que os parâmetros de renderização de elevação atualizados incluem ganhos de panning de elevação para o panning de um canal de entrada de altura em um centro frontal de topo para um canal de saída ambiente.
[00026] A pluralidade de canais de saída pode ser de canais horizontais.
[00027] Os parâmetros de renderização de elevação podem incluir pelo menos um dentre um coeficiente de filtro de elevação e ganhos de panning.
[00028] Os parâmetros de renderização de elevação atualizados podem incluir os ganhos de panning de elevação atualizados com base no ângulo de elevação de referência e no ângulo de elevação predeterminado.
[00029] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, os ganhos de panning de elevação atualizados dentre o ganho de panning de elevação atualizados, que deve ser aplicado a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser maior que os ganhos de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00030] Quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, o ganho de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser menor que os ganhos de elevação que não são atualizados, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00031] De acordo com uma outra modalidade da presente invenção, é fornecido um método de renderização de um sinal de áudio, o método incluindo receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; obter os parâmetro de renderização de elevação em relação a um canal de entrada de altura de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência; e atualizar os parâmetros de renderização de elevação com relação a um canal de entrada de altura tendo um ângulo de elevação predeterminado, em vez do ângulo de elevação de referência, em que a atualização dos parâmetros de renderização de elevação incluindo a obtenção dos ganhos de panning de elevação atualizados em relação a uma faixa de frequências incluindo uma banda de baixa frequência, com base em uma localização do canal de entrada de altura.
[00032] Os ganhos de panning de elevação atualizado podem ser ganhos de panning relativos a um canal de entrada de altura posterior.
[00033] A pluralidade de canais de saída pode ser de canais horizontais.
[00034] Os parâmetros de renderização de elevação podem incluir, pelo menos, um dentre coeficientes de filtro de elevação e ganhos de panning de elevação.
[00035] A atualização dos parâmetros de renderização de elevação podem incluir a aplicação de um peso para os coeficientes de filtro de elevação, com base no ângulo de elevação de referência e no ângulo de elevação predeterminado.
[00036] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, o peso pode ser determinado de modo que uma característica de filtro de elevação pode ser suavemente exibida, e quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, o peso pode ser determinado de modo que a característica de filtro de elevação pode ser fortemente exibida.
[00037] A atualização dos parâmetros de renderização de elevação pode incluir a atualização dos ganhos de panning de elevação, com base no ângulo de elevação de referência e no ângulo de elevação predeterminado.
[00038] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, um ganho de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser maior que os ganhos de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00039] Quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, um ganho de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser menor que os ganhos de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00040] De acordo com uma outra modalidade da presente invenção, é fornecido um aparelho para renderização de um sinal de áudio, o aparelho incluindo uma unidade de recepção configurada para receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; e uma unidade de renderização configurada para obter parâmetros de renderização de elevação em relação a um canal de entrada de altura de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência, e para atualizar os parâmetros de renderização de elevação com relação a um canal de entrada de altura tendo um ângulo de elevação predeterminado, em vez do ângulo de elevação de referência, em que os parâmetros de renderização de elevação atualizados incluem ganhos de panning de elevação atualizados em relação a uma faixa de frequências incluindo uma banda de baixa frequência, com base em um local do canal de entrada de altura.
[00041] Os ganhos de panning de elevação atualizados podem ser ganhos de panning relativos a um canal de entrada de altura posterior.
[00042] A pluralidade de canais de saída pode ser de canais horizontais.
[00043] Os parâmetros de renderização de elevação podem incluir, pelo menos, um dentre coeficientes de filtro de elevação e ganhos de panning de elevação.
[00044] Os parâmetros de renderização de elevação atualizados podem incluir os coeficientes de filtro de elevação para os quais um peso é aplicado de acordo com o ângulo de elevação de referência e o ângulo de elevação predeterminado.
[00045] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, o peso pode ser determinado de modo que uma característica de filtro de elevação pode ser suavemente exibida, e quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, o peso pode ser determinado de modo que a característica de filtro de elevação pode ser fortemente exibida.
[00046] Os parâmetros de renderização de elevação atualizados podem incluir os ganhos de elevação de panning atualizados com base no ângulo de elevação de referência e no ângulo de elevação predeterminado.
[00047] Quando o ângulo de elevação predeterminado é menor que o ângulo de elevação de referência, o ganho de panning de elevação atualizado dentre os ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser maior que os ganhos de elevação antes da atualização, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00048] Quando o ângulo de elevação predeterminado é maior que o ângulo de elevação de referência, os ganhos de panning de elevação atualizados, dentre a pluralidade de ganhos de panning de elevação atualizados, que devem ser aplicados a um canal de saída ipsilateral de um canal de saída tendo o ângulo de elevação predeterminado pode ser menor que os ganhos de panning de elevação atualizados, e uma soma total dos quadrados dos ganhos de panning de elevação atualizados a serem aplicados respectivamente a uma pluralidade de canais de entrada pode ser 1.
[00049] De acordo com uma outra modalidade da presente invenção, são fornecidos um programa para a execução do referido métodos e um meio de gravação legível por computador tendo gravado no mesmo o programa.
[00050] Além disso, são fornecidos um outro método, um outro sistema, e um meio de gravação legível por computador tendo gravado no mesmo um programa de computador para realizar o método.
EFEITOS VANTAJOSOS
[00051] De acordo com a presente invenção, um sinal de áudio 3D pode ser renderizado de uma maneira que a distorção de uma imagem de som é diminuída mesmo se uma elevação de um canal de entrada for maior ou menor que uma elevação padrão. Além disso, de acordo com a presente invenção, um fenômeno de confusão entre a parte frontal-parte posterior, devido aos canais de saída ambiente pode ser evitada.
BREVE DESCRIÇÃO DOS DESENHOS
[00052] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução de áudio 3D, de acordo com uma modalidade.
[00053] A FIG. 2 é um diagrama de blocos que ilustra uma configuração de uma renderização no aparelho de reprodução de áudio 3D, de acordo com uma modalidade.
[00054] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é submisturada a uma pluralidade de canais de saída, de acordo com uma modalidade.
[00055] A FIG. 4 ilustra uma unidade de panning em um exemplo onde um desvio posicional ocorre entre um layout padrão e um layout de disposição de canais de saída, de acordo com uma modalidade.
[00056] A FIG. 5 é um diagrama de blocos que ilustra configurações de um decodificador e um renderizador de áudio 3D no aparelho de reprodução de áudio 3D, de acordo com uma modalidade.
[00057] As FIGS. 6 a 8 ilustram layouts de canais da camada superior de acordo com elevações de camadas superiores em um layout de canal, de acordo com uma modalidade.
[00058] As FIGS. 9 a 11 ilustram a variação de uma imagem de som e a variação de um filtro de elevação, de acordo com elevações de um canal, de acordo com uma modalidade.
[00059] A FIG. 12 é um fluxograma de um método de renderização de um sinal de áudio 3D, de acordo com uma modalidade.
[00060] A FIG. 13 ilustra um fenômeno em que as imagens de som à esquerda e à direita são invertidas quando um ângulo de elevação de um canal de entrada é maior ou igual a um valor limite, de acordo com uma modalidade.
[00061] A FIG. 14 ilustra canais horizontais e canais de altura frontal, de acordo com uma modalidade.
[00062] A FIG. 15 ilustra uma porcentagem de percepção dos canais de altura frontais, de acordo com uma modalidade.
[00063] A FIG. 16 é um fluxograma de um método de prevenção da confusão da parte frontal-parte posterior, de acordo com uma modalidade.
[00064] A FIG. 17 ilustra canais horizontais e canais de altura frontal quando um atraso é adicionado aos canais de saída ambiente, de acordo com uma modalidade.
[00065] A FIG. 18 ilustra um canal horizontal e um canal central frontal de topo (TFC), de acordo com uma modalidade.
MELHOR MODO
[00066] A fim de alcançar o objetivo, a presente invenção inclui as modalidades abaixo.
[00067] De acordo com uma modalidade, é fornecido um método de renderização de um sinal de áudio, o método incluindo receber um sinal multicanal incluindo uma pluralidade de canais de entrada a serem convertidos para uma pluralidade de canais de saída; adicionar um atraso predeterminado para um canal de entrada de altura frontal de modo a permitir que a pluralidade de canais de saída forneça uma imagem de som elevada a um ângulo de elevação de referência; modificar, com base no atraso adicionado, parâmetros de renderização de elevação em relação ao canal de entrada de altura frontal; e evitar a confusão entre parte frontal-parte posterior pela geração, com base nos parâmetros de renderização de elevação modificados, de um canal de saída ambiente de elevação renderizado atrasado em relação ao canal de entrada de altura frontal.
MODO DA INVEÇÃO
[00068] As descrições detalhadas da invenção são referidas com os desenhos anexos que ilustram modalidades particulares da invenção. Estas modalidades são fornecidas de modo que esta divulgação seja minuciosa e completa, e irão transmitir totalmente o conceito da invenção para uma pessoa versada na técnica. Deve-se entender que várias modalidades da invenção são diferentes umas das outras e não são exclusivas apenas em relação umas às outras.
[00069] Por exemplo, um formato particular, uma estrutura particular e uma característica particular descritos no relatório descritivo podem ser alterados de uma modalidade para uma outra modalidade sem distanciamento do espírito e escopo da invenção. Além disso, será entendido que uma posição ou layout de cada elemento de cada modalidade pode ser alterado sem distanciamento do espírito e escopo da invenção. Portanto, as descrições detalhadas devem ser consideradas em um sentido descritivo e não para fins de limitação e o escopo da invenção não é definido pela descrição detalhada da invenção, mas pelas reivindicações em anexo, e todas as diferenças dentro do escopo serão Interpretadas como sendo incluídas na presente invenção.
[00070] Números de referências semelhantes nos desenhos indicam elementos semelhantes ao longo do relatório descritivo. Na seguinte descrição e nos desenhos anexos, as funções ou construções bem conhecidas não são descritas em detalhe uma vez que elas iriam obscurecer a invenção com detalhes desnecessários. Além disso, os números de referência semelhantes nos desenhos indicam elementos semelhantes ao longo do relatório descritivo.
[00071] Daqui em diante, a presente invenção irá ser descrita em detalhe por explicação das modalidades exemplares da invenção, com referência aos desenhos anexos. A invenção pode, contudo, ser realizada de muitas formas diferentes e não deve ser interpretada como estando limitada às modalidades aqui apresentadas; em vez disso, estas modalidades são fornecidas para que esta divulgação seja minuciosa e completa, e irão transmitir totalmente o conceito da invenção para as pessoas versadas na técnica.
[00072] Ao longo do relatório descritivo, quando um elemento é referido como sendo "conectado a" ou "acoplado com" o outro elemento, que pode ser "conectado diretamente a, ou acoplado com" o outro elemento, ou pode ser "eletricamente conectado ou acoplado com o "outro elemento tendo um elemento interveniente interposto entre os mesmos. Além disso, quando uma parte "inclui" ou "compreende" um elemento, a menos que haja uma descrição específica contrária à mesma, a parte pode, ainda, incluir outros elementos, não excluindo outros elementos.
[00073] Daqui em diante, as modalidades exemplares da presente invenção serão descritas com referência aos desenhos anexos.
[00074] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução áudio 3D, de acordo com uma modalidade.
[00075] Um aparelho de reprodução de áudio 3D 100, de acordo com uma modalidade, pode gerar um sinal de áudio multicanal, em que a pluralidade de canais de entrada é misturada a uma pluralidade de canais de saída para reprodução. Aqui, se o número de canais de saída é menor que o número de canais de entrada, os canais de entrada são submisturados para corresponderem ao número de canais de saída.
[00076] Áudio 3D significa o áudio que permite que um ouvinte tenha uma sensação envolvente por reprodução não apenas de uma elevação de áudio e de uma cor de tom, mas também reprodução de uma direção ou de uma distância, e em que a informação espacial é adicionada, em que a informação espacial faz com que o ouvinte, que não está localizado em um espaço onde uma fonte de áudio ocorreu, tenha uma percepção direcional, uma percepção de distância e uma percepção espacial.
[00077] Nas descrições abaixo, os canais de saída de um sinal de áudio podem significar o número de alto-falantes através do qual o áudio é emitido. Quanto maior o número de canais de saída, maior é o número de alto-falantes de áudio através do qual é emitido. Os aparelhos de reprodução de áudio 3D 100, de acordo com uma modalidade, podem renderizar e misturar o sinal de áudio de múltiplos canais para um canal de saída para a reprodução, de modo que o sinal de áudio multicanal tendo o grande número de canais de entrada pode ser produzido e reproduzido em um ambiente em que o número de canais de saída é pequeno. A este respeito, o sinal de áudio multicanal pode incluir um canal capaz de produzir um som elevado.
[00078] O canal capaz de produzir um som elevado pode indicar um canal capaz de produzir um sinal de áudio através de um alto-falante posicionado acima de uma cabeça de um ouvinte, de modo a fazer com que o ouvinte sinta a elevação. Um canal horizontal pode indicar um canal capaz de produzir um sinal de áudio através de um alto-falante posicionado em um plano horizontal em relação ao ouvinte.
[00079] O ambiente acima mencionado em que o número de canais de saída é pequeno, pode indicar um ambiente que não inclui um canal de saída capaz de produzir o som elevado e em que áudio pode ser produzido através de um alto-falante disposto no plano horizontal.
[00080] Além disso, nas descrições abaixo, um canal horizontal pode indicar um canal, incluindo um sinal de áudio a ser produzido através de um alto-falante posicionado no plano horizontal. Um canal de sobrecarga pode indicar um canal, incluindo um sinal de áudio a ser produzido através de um alto-falante que não está posicionado em um plano horizontal, mas é posicionado em um plano elevado, de modo a produzir um som elevado.
[00081] Com referência à FIG. 1, os aparelhos de reprodução de áudio 3D 100, de acordo com uma modalidade, podem incluir um núcleo de áudio 110, um renderizador 120, um misturador 130, e uma unidade de pós-processamento 140.
[00082] De acordo com uma modalidade, o aparelho de reprodução de áudio 3D 100 pode produzir, renderizar, misturar, e produzir um sinal de áudio de entrada multicanal para um canal de saída para reprodução. Por exemplo, o sinal de áudio de entrada multicanal pode ser um sinal de canal 22.2, e o canal de saída para reprodução podem ser canais 5.1 ou 7.1. Os aparelhos de reprodução de áudio 3D 100 pode realizar a renderização, definindo os canais de saída a serem respectivamente mapeados para os canais do sinal de áudio de entrada multicanal, e pode misturar os sinais de áudio renderizados por mistura de sinais dos canais respectivamente mapeados com os canais para a reprodução e produção de um sinal final.
[00083] Um sinal áudio codificado é introduzido sob a forma de corrente de bits para o núcleo de áudio 110, e o núcleo de áudio 110 seleciona um decodificador apropriado para um formato do sinal de áudio codificado e decodifica o sinal de áudio de entrada.
[00084] O renderizador 120 pode renderizar o sinal de áudio de entrada multicanal com canais de saída multicanais de acordo com os canais e frequências. O renderizador 120 pode realizar a renderização tridimensional (3D) e bidimensional (2D) em cada um dos sinais de acordo com os canais de sobrecarga e canais horizontais. Uma configuração de renderização e um método de renderização serão descritos em detalhe com referência à FIG. 2.
[00085] O misturador 130 pode misturar os sinais dos canais respectivamente mapeados para os canais horizontais, pelo renderizador 120, e pode produzir o sinal final. O misturador 130 pode misturar os sinais dos canais de acordo com cada um dos períodos predeterminados. Por exemplo, o misturador 130 pode misturar os sinais de cada um dos canais de acordo com uma estrutura.
[00086] O misturador 130 de acordo com uma modalidade pode realizar a mistura, com base num valor de potência dos sinais respectivamente renderizados aos canais para reprodução. Em outras palavras, o misturador 130 pode determinar a amplitude do sinal final ou de um ganho a ser aplicada ao sinal final, com base no valor de potência dos sinais respectivamente renderizados aos canais de reprodução.
[00087] A unidade de pós-processamento 140 executa um controle de faixa dinâmica com respeito a um sinal de banda múltipla e binauralização no sinal de saída do misturador 130, de acordo com cada aparelho de reprodução (um alto-falante, um fone de ouvido, etc.). Um sinal de áudio de saída produzido da unidade de pós-processamento 140 pode ser produzido através de um aparelho, como um alto-falante, e pode ser reproduzido de forma 2D ou 3D após o processamento de cada elemento de configuração.
[00088] O aparelho de reprodução de áudio 3D 100 de acordo com uma modalidade mostrada na FIG. 1 é mostrado com respeito a uma configuração do seu decodificador de áudio, e uma configuração adicional é ignorada.
[00089] A FIG. 2 é um diagrama de blocos que ilustra uma configuração de um renderizador no aparelho de reprodução de áudio 3D, de acordo com uma modalidade.
[00090] O renderizador 120 inclui uma unidade de filtragem 121 e uma unidade de panning 123.
[00091] A unidade de filtragem 121 podem compensar uma cor de tom ou semelhante de um sinal de áudio decodificado de acordo com um local, e pode filtrar um sinal de áudio de entrada através do uso de um filtro de Função de Transferência Relacionado à Cabeça (HRTF).
[00092] A fim de realizar a renderização 3D sobre um canal complementar, a unidade de filtragem 121 pode renderizar o canal complementar, que passou no filtro de HRTF, usando métodos diferentes de acordo com as frequências.
[00093] O filtro de HRTF torna o áudio 3D reconhecível de acordo com um fenômeno em que não apenas a diferença de caminho simples, como as Diferenças de Nível Interaural (ILD) entre ambos os ouvidos, Diferenças de Tempo Interaural(ITD) entre ambos os ouvidos com respeito a um tempo de chegada de áudio, ou semelhantes, mas também propriedades de caminho complicadas, como a difração a uma superfície da cabeça, reflexão devido a um earflap, ou semelhantes são alterados de acordo com uma direção para a qual o áudio chega. O filtro de HRTF pode processar os sinais de áudio incluídos no canal de sobrecarga por alteração de uma qualidade de som de um sinal de áudio, de modo a tornar o áudio 3D reconhecível.
[00094] A unidade de panning 123 obtém um coeficiente de panning a ser aplicado a cada uma das bandas de frequência e cada um dos canais e aplica o coeficiente de panning, de modo a realizar panning do sinal de áudio de entrada em relação a cada um dos canais de saída. Para realizar um panning em um meio de sinal de áudio para controlar a magnitude de um sinal aplicado a cada canal de saída, de modo a renderizar uma fonte de áudio em uma localização particular entre dois canais de saída. O coeficiente de panning pode ser referido como o ganho de panning.
[00095] A unidade de panning 123 pode realizar a renderização em um sinal de baixa frequência, dentre os sinais de canal de sobrecarga usando um método de adição ao canal mais próximo, e pode realizar a renderização no sinal de alta frequência através de um método de panning multicanal. De acordo com o método de panning multicanal, um valor de ganho que é definido para diferir nos canais a serem renderizados para cada um dos sinais de canal é aplicado aos sinais de cada um dos canais de um sinal de áudio multicanal, de modo que cada um dos sinais pode ser renderizado para pelo menos um canal horizontal. Os sinais de cada canal ao qual o valor de ganho é aplicado podem ser sintetizados através de mistura e podem ser produzidos como um sinal final.
[00096] Os sinais de baixa frequência são altamente difrativos, mesmo que os canais do sinal de áudio multicanal não sejam divididos e renderizados para vários canais de acordo com o método de panning multicanal, mas são renderizados a apenas um canal, os sinais de baixa frequência podem ter qualidades de som semelhantes reconhecíveis por um ouvinte. Portanto, o aparelho de reprodução de áudio 3D 100 de acordo com uma modalidade pode renderizar os sinais de baixa frequência através do uso de um método de adição de canal mais próximo, portanto, pode evitar a deterioração da qualidade de som que pode ocorrer quando vários canais são misturados com um canal de saída. Isto é, quando vários canais são misturados para um canal de saída, uma qualidade de som pode ser amplificada ou diminuída devido à interferência entre os sinais de canal e, portanto, pode se deteriorar e, a este respeito, a deterioração da qualidade de som pode ser evitada pela mistura de um canal com um canal de saída.
[00097] De acordo com o um método de adição de canal mais próximo, os canais de sinal de áudio multicanal podem não ser processados para vários canais, mas podem, cada um, ser processados para um canal mais próximo dentre os canais para a reprodução.
[00098] Além disso, o aparelho de reprodução de áudio 3D 100 pode expandir um melhor local sem a deterioração da qualidade de som através da realização de renderização usando métodos diferentes de acordo com as frequências. Isto é, os sinais de baixa frequência, que são altamente difrativos são processados de acordo com a um método de adição de canal mais próximo, de modo que a deterioração da qualidade de som que ocorre quando vários canais são misturados com um canal de saída pode ser evitada. O melhor local significa uma faixa predeterminada onde o ouvinte pode ouvir otimamente o áudio 3D sem distorção.
[00099] Quando o melhor local é grande, o ouvinte pode ouvir otimamente o áudio 3D sem distorção em uma grande faixa, e quando o ouvinte não está localizado no melhor local, o ouvinte pode ouvir o áudio em que uma qualidade de som ou uma imagem de som está distorcida.
[000100] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é misturada com uma pluralidade de canais de saída, de acordo com uma modalidade.
[000101] Uma tecnologia foi sendo desenvolvida para fornecer áudio 3D com uma imagem 3D ambiente de modo a fornecer sensações de ao vivo e envolventes, tais como uma imagem 3D, as quais são as mesmas que a realidade ou são adicionalmente exageradas. O áudio 3D significa um sinal de áudio tendo a elevação e a percepção espacial em relação ao som, e pelo menos dois alto-falantes, isto é, os canais de saída são necessários de modo a reproduzir o áudio 3D. Além disso, exceto para o áudio 3D binaural utilizando um HRTF, o grande número de canais de saída é necessário, de modo a realizar elevação, uma percepção direcional e uma percepção espacial mais exata em relação ao som.
[000102] Portanto, através de um sistema estéreo tendo 2 saídas de canal, vários sistemas multicanais, como um sistema de canal 5.1, sistema Auro 3D, sistema de canal Holman 10.2, sistema de canal ETRI/Samsung 10.2, o sistema de canal NHK 22.2, e semelhantes, são fornecidos e desenvolvidos.
[000103] A FIG. 3 ilustra um exemplo no qual um sinal de áudio 3D de canal 22.2 é reproduzido através de um sistema de saída do canal 5.1.
[000104] O sistema de canal 5.1 é um nome geral de um sistema de som multicanal ambiente de 5 canais, e é comumente espalhado e usado como um home theater interno e um sistema de som para teatros. Todos os canais 5.1 incluem um canal frontal à esquerda (FL), um canal central (C), um canal frontal à direita (FR), um canal ambiente à esquerda (SL) e um canal ambiente à direita (SR). Como mostrado na FIG. 3, uma vez que as saídas dos canais 5.1 estão todos presentes no mesmo plano, o sistema de canal 5.1 corresponde a um sistema de 2D de uma forma física, e para que o sistema de canal 5.1 reproduza um sinal de áudio 3D, um processo de renderização tem que ser realizado para aplicar um efeito de 3D a um sinal a ser reproduzido.
[000105] O sistema de canal 5.1 é amplamente usado em vários campos, incluindo filmes, vídeos em DVD, áudios em DVD, discos compactos de super áudio (Super Audio Compact Discs, SACDs), radiodifusão digital e semelhantes. No entanto, mesmo que o sistema de canal 5.1 forneça uma percepção espacial melhorada, em comparação com o sistema estéreo, o sistema de canal 5.1 tem muitos limites na formação de um espaço de audição maior. Em particular, um melhor local é estreitamente formado, e uma imagem de som vertical tendo um ângulo de elevação não pode ser fornecida, de tal modo que o sistema de canal 5.1 pode não ser apropriado para um espaço de audição em larga escala, tal como um teatro.
[000106] O sistema de canal 22.2 apresentado pelo NHK consiste em três camadas de canais de saída como mostrado na FIG. 3. Uma camada superior 310 inclui canais Voz de Deus (VOG), T0, T180, TL45, TL90, TL135, TR45, TR90 e TR45. Aqui, um índice T na parte frontal de um nome de cada canal de uma camada superior, um índice L ou R significa um lado esquerdo ou lado direito, e um número na parte posterior significa um ângulo de azimute de um canal central. A camada superior é chamada geralmente de a camada de topo.
[000107] O canal VOG é um canal que está acima de uma cabeça de um ouvinte, tem um ângulo de elevação de 90 graus, e não tem um ângulo de azimute. Quando um local do canal de VOG é ligeiramente alterado, o canal VOG tem o ângulo de azimute e tem um ângulo de elevação que não é de 90 graus, e, neste caso, o canal VOG pode não ser mais um canal VOG.
[000108] A camada intermediária 320 é sobre o mesmo plano que os canais 5.1, e inclui os canais ML60, ML90, ML135, MR60, MR90 e MR135, além dos canais de saída dos canais 5.1. Aqui, um índice H na parte frontal de um nome de cada canal significa uma camada intermediária, e um número na parte posterior significa um ângulo de azimute de um canal central.
[000109] Uma camada de baixo 330 inclui os canais L0, LL45 e LR45. Aqui, um índice L na parte frontal do nome de cada canal significa uma camada de baixo, e um número na parte posterior significa um ângulo de azimute de um canal central.
[000110] Nos canais 22.2, a camada intermediária é chamada um canal horizontal, e os canais VOG, T0, T180, T180, M180, L, e C cujo ângulo de azimute é 0 grau ou 180 graus são chamados canais verticais.
[000111] Quando um sinal de entrada de canal 22.2 é reproduzido através do sistema de canais 5.1, o esquema mais geral é para distribuir sinais para canais usando uma fórmula submistura. Em alternativa, através da realização de renderização para fornecer uma elevação virtual, o sistema de canal 5.1 pode reproduzir um sinal de áudio que tem uma elevação.
[000112] A FIG. 4 ilustra uma unidade de panning em um exemplo em que um desvio posicional ocorre entre um layout padrão e um layout de disposição de canais de saída, de acordo com uma modalidade.
[000113] Quando um sinal de áudio de entrada multicanais é reproduzido, utilizando o número de canais de saída menor que o número de canais de um sinal de entrada, uma imagem de som original pode ser distorcida, e a fim de compensar a distorção, várias técnicas estão sendo estudadas.
[000114] As técnicas de renderização gerais são projetadas para realizar a renderização, desde que os alto-falantes, ou seja, canais de saída, sejam organizados de acordo com o layout padrão. No entanto, quando os canais de saída não estão dispostos para corresponder com precisão ao layout padrão, a distorção de uma localização de uma imagem de som e a distorção de uma qualidade de som ocorrem.
[000115] A distorção da imagem de som inclui amplamente a distorção da elevação, a distorção de um ângulo de fase, ou semelhante, que não são sensíveis a um nível relativamente baixo. No entanto, devido a uma característica física de um corpo humano, onde ambos os ouvidos estão localizados nos lados esquerdo e direito, se as imagens de som dos lados da esquerda-centro-direita são alteradas, a distorção da imagem do som pode ser sensivelmente percebida. Em especial, uma imagem de som de um lado frontal pode ser mais sensivelmente percebida.
[000116] Portanto, como mostrado na FIG. 3, quando os canais 22.2 são realizados por meio dos canais 5.1, é particularmente necessário não alterar as imagens de som dos canais VOG, T0, T180, T180, M180, L e C localizados a 0 grau ou 180 graus, em vez dos canais da esquerda e direita.
[000117] Quando um sinal de entrada de áudio é submetido a panning, basicamente, dois processos são realizados. O primeiro processo corresponde a um processo em que a inicialização de um coeficiente de panning em relação a um sinal de entrada multicanal é calculada de acordo com um layout padrão dos canais de saída. No segundo processo, um coeficiente calculado é modificado com um layout com os quais os canais de saída estão na verdade dispostos. Após a modificação do coeficiente de panning é realizada, uma imagem de som de um sinal de saída pode estar presente em uma localização mais precisa.
[000118] Portanto, para que a unidade de panning 123 realize o processamento, a informação sobre o layout padrão dos canais de saída e as informações sobre o layout de disposição dos canais de saída são necessários, além do sinal de entrada de áudio. Em um caso em que o canal C é renderizado a partir do canal de L e do canal R, o sinal de entrada de áudio indica um sinal de entrada a ser reproduzido através do canal C, e um sinal de saída de áudio indica os sinais de panning modificados produzidos do canal L e do canal R de acordo com o layout de disposição.
[000119] Quando um desvio elevação está presente entre o layout padrão e o layout de disposição dos canais de saída, um método de panning 2D considerando apenas um desvio de azimute não compensa um efeito devido ao desvio de elevação. Portanto, se o desvio de elevação está presente entre o layout padrão e o layout de disposição dos canais de saída, um efeito de aumento de elevação devido ao desvio de elevação tem que ser compensado pelo uso de uma unidade de compensação de efeito de elevação 124 da FIG. 4.
[000120] A FIG. 5 é um diagrama de blocos que ilustra as configurações de um decodificador e um renderizador de áudio 3D no aparelho de reprodução de áudio 3D, de acordo com uma modalidade.
[000121] Com referência à FIG. 5, o aparelho de reprodução de áudio 3D 100 de acordo com uma modalidade é mostrado com respeito a configurações de um decodificador 110 e de um renderizador de áudio 3D 120, e outras configurações são omitidas.
[000122] Uma entrada de sinal de áudio para o aparelho de reprodução de áudio 3D 100 é um sinal codificado que é introduzido de uma forma de corrente de bits. O decodificador 110 seleciona um decodificador apropriado para um formato do sinal de áudio codificado, decodifica o sinal de áudio de entrada, e transmite o sinal de áudio decodificado para o renderizador de áudio 3D 120.
[000123] O renderizador de áudio 3D 120 consiste em uma unidade de inicialização 125 configurada para obter e atualizar um coeficiente de filtro e um coeficiente de panning, e uma unidade de renderização 127 configurada para realizar a filtragem e o panning.
[000124] A unidade de renderização 127 realiza a filtragem e o panning com o sinal de áudio transmitido a partir do decodificador 110. A unidade de filtragem 1271 processa a informação sobre uma localização de áudio e, assim, torna o sinal de áudio renderizado reproduzido em uma localização desejada, e uma unidade de panning 1272 processa as informações sobre uma qualidade de som de áudio e, assim, faz com que o sinal de áudio renderizado tenha uma qualidade de som mapeada para a localização desejada.
[000125] A unidade de filtragem 1271 e a unidade de panning 1272 realizam funções semelhantes às da unidade de filtragem 121 e da unidade de panning 123 descritas com referência à FIG. 2. No entanto, a unidade de filtragem 121 e a unidade de panning 123 da FIG. 2 são apresentadas em formas simples, onde uma unidade de inicialização, ou semelhantes, para obter um coeficiente de filtro e um coeficiente de panning pode ser omitida.
[000126] Aqui, o coeficiente de filtro para realizar filtragem e o coeficiente de panning para a realizar o panning são fornecidos a partir da unidade de inicialização 125. A unidade de inicialização 125 consiste em uma unidade de obtenção de parâmetro de renderização de elevação 1251 e uma unidade de atualização de parâmetro de renderização de elevação 1252.
[000127] A unidade de obtenção de parâmetro de renderização de elevação 1251 obtém um valor inicial de um parâmetro de elevação de renderização usando uma configuração e disposição de um canal de saída, isto é, um alto-falante. Aqui, o valor inicial do parâmetro de renderização de elevação pode ser calculado com base em uma configuração de um canal de saída de acordo com o layout padrão e uma configuração de um canal de entrada de acordo com a configuração de renderização de elevação, ou um valor inicial previamente armazenado de acordo com uma relação de mapeamento entre os canais de entrada/saída é lido. O parâmetro de renderização de elevação pode incluir o coeficiente de filtro a ser usado pela unidade de obtenção de parâmetro de renderização de elevação 1251 ou o coeficiente de panning a ser usado pela unidade de atualização de parâmetro de renderização de elevação 1252.
[000128] No entanto, como descrito acima, um valor de configuração de elevação para renderizar uma elevação pode ter um desvio com relação à configuração do canal de entrada. Neste caso, se um valor de configuração de elevação fixo é usado, é difícil alcançar um objetivo da renderização virtual para reprodução similarmente tridimensional de um sinal de áudio 3D original, utilizando um canal de saída diferente de um canal de entrada.
[000129] Por exemplo, quando a elevação é muito alta, uma imagem de som é pequena e uma qualidade de som deteriora-se e, quando a elevação é muito baixa, é difícil sentir um efeito de renderização virtual. Consequentemente, é necessário ajustar a elevação de acordo com uma configuração de usuário ou um nível de renderização virtual apropriado para o canal de entrada.
[000130] A unidade de atualização de parâmetro de renderização de elevação 1252 atualiza os valores iniciais do parâmetro de renderização de elevação, que foram obtidos pela unidade de obtenção de parâmetro de renderização de elevação 1251, com base em informações de elevação do canal de entrada ou uma elevação definida pelo usuário. Aqui, se um layout de alto- falante de um canal de saída tem um desvio em relação ao layout padrão, um processo para compensar um efeito devido à diferença pode ser adicionado. O desvio do canal de saída pode incluir informações de desvio de acordo com a diferença entre os ângulos de elevação ou os ângulos de azimute.
[000131] Um sinal de áudio de saída que é filtrado e submetido a panning pela unidade de renderização 127 usando o parâmetro de renderização de elevação obtido e atualizado pela unidade de inicialização 125 é reproduzido através dos alto-falantes correspondentes para os canais de saída, respectivamente.
[000132] As FIGS. 6 a 8 ilustram layouts de canais da camada superior de acordo com as elevações das camadas superiores em um layout de canal, de acordo com uma modalidade.
[000133] Quando se assume que um sinal de canal de entrada é um sinal de áudio 3D de canal 22.2 de e é disposto de acordo com o layout mostrado na FIG. 3, uma camada superior de um canal de entrada tem um layout mostrado na FIG. 4, de acordo com os ângulos de elevação. Aqui, assume-se que os ângulos de elevação são de 0 grau, 25 graus, 35 graus e 45 graus, e um canal VOG correspondente a 90 graus de um ângulo de elevação é omitido. Os canais da camada superior tendo um ângulo de elevação de 0 grau estão presentes em um plano horizontal (a camada intermediária 320).
[000134] A FIG. 6 ilustra um layout de vista frontal dos canais da camada superior.
[000135] Com referência à FIG. 6, cada um dos oito canais da camada superior tem uma diferença de ângulo de azimute de 45 graus, assim, quando os canais da camada superior são vistos em um lado frontal em relação a um eixo de canal vertical, em seis canais excluindo um canal TL90 e um TR90 canal, cada um de dois canais, isto é, um canal TL45 e um canal TL135, um canal T0 e um canal T180, e um canal de TR45 e um canal TR135, são sobrepostos. Isto é mais aparente em comparação com a FIG. 8.
[000136] A FIG. 7 ilustra um layout de vista de topo dos canais de camada superior. A FIG. 8 ilustra um layout de vista 3D dos canais de camada superior. É possível ver que os oito canais da camada superior são dispostos em intervalos regulares, enquanto tendo, cada um, uma diferença de ângulo de azimute de 45 graus.
[000137] Quando o conteúdo a ser reproduzido com áudio 3D através de renderização de elevação é fixo para ter um ângulo de elevação de 35 graus, a renderização de elevação com o ângulo de elevação de 35 graus pode ser realizada em todos os sinais de áudio de entrada, de modo que um resultado otimizado será alcançado.
[000138] No entanto, um ângulo de elevação pode ser diferentemente aplicado a um áudio 3D do conteúdo, dependendo de uma pluralidade de peças de conteúdo, e como mostrado nas FIGS. 6 a 8, de acordo com uma elevação de cada um dos canais, as localizações e as distâncias dos canais variam, e as características de sinal devido à variação também variam.
[000139] Deste modo, quando a renderização virtual é realizada com um ângulo de elevação fixo, a distorção de uma imagem de som ocorre, e a fim de alcançar um desempenho de renderização ótimo, é necessário realizar a renderização, na consideração de um ângulo de elevação de um sinal de áudio 3D de entrada, isto é, um ângulo de elevação de um canal de entrada.
[000140] As FIGS. 9 a 11 ilustram a variação de uma imagem de som e a variação de um filtro de elevação, de acordo com as elevações de um canal, de acordo com uma modalidade.
[000141] A FIG. 9 ilustra as localizações dos canais quando as elevações dos canais de altura são de 0 grau, 35 graus e 45 graus, respectivamente. A FIG. 9 é tomada em uma parte posterior de um ouvinte, e cada um dos canais ilustrados é um canal ML90ou um canal TL90. Quando um ângulo de elevação é de 0 grau, um canal está presente em um plano horizontal e corresponde ao canal ML90, e quando o ângulo de elevação é de 35 graus e 45 graus, os canais são canais da camada superior e correspondem ao canal TL90.
[000142] A FIG. 10 ilustra um sinal de diferença entre os ouvidos esquerdo e direito de um ouvinte, quando os sinais de áudio são emitidos a partir dos respectivos canais localizados como mostrado na FIG. 9.
[000143] Quando o sinal de áudio é emitido a partir de um ML90 não tendo nenhum ângulo de elevação, teoricamente, o sinal de áudio é percebido apenas através do ouvido esquerdo e não é percebido através do ouvido direito.
[000144] No entanto, à medida que uma elevação é aumentada, uma diferença entre os sinais de áudio perceptíveis através do ouvido esquerdo e do ouvido direito é diminuída, e quando um ângulo de elevação de um canal é aumentado e, assim, torna-se de 90 graus, o canal torna-se um canal VOG acima de uma cabeça do ouvinte, assim, ambos os ouvidos percebem um mesmo sinal de áudio.
[000145] Portanto, a variação em relação a um sinal de áudio percebido por ambos os ouvidos de acordo com ângulos de elevação é tal como mostrada a FIG. 7B.
[000146] Com respeito a um sinal de áudio percebido através do ouvido esquerdo, quando o ângulo de elevação é de 0 grau, apenas o ouvido esquerdo percebe o sinal de áudio ao passo que o ouvido direito não percebe o sinal de áudio. Neste caso, as Diferenças de Nível Interaural (ILD) e as Diferenças de Tempo Internaural (ITD) são maximais, e o ouvinte percebe o sinal de áudio como uma imagem de som do canal ML90 existente em um canal plano horizontal à esquerda.
[000147] Com respeito a uma diferença entre os sinais de áudio perceptíveis através dos ouvidos esquerdo e direito quando o ângulo de elevação é de 35 graus e os sinais de áudio perceptíveis através dos ouvidos esquerdo e direito quando o ângulo de elevação é de 45 graus, uma vez que o ângulo de elevação é aumentado, a diferença entre os sinais de áudio perceptíveis através dos ouvidos esquerdo e direito é diminuída, e devido à diferença, o ouvinte pode sentir uma diferença de elevações no sinal de saída de áudio.
[000148] Um sinal de saída de um canal com o ângulo de elevação de 35 graus é caracterizado em uma grande imagem de som, um ponto de melhor local grande e uma qualidade de som natural, em comparação com um sinal de saída a partir de um canal com o ângulo de elevação de 45 graus, e o sinal de saída do canal com o ângulo de elevação de 45 graus é caracterizado por uma pequena imagem de som, um pequeno ponto de melhor local, e uma sensação de campo de som fornecendo uma sensação envolvente intensa, em comparação com o sinal de saída do canal com o ângulo de elevação de 35 graus.
[000149] Conforme descrito acima, à medida que o ângulo de elevação é aumentado, a elevação é também aumentada, de modo que a sensação envolvente se torna intensa, mas uma largura de um sinal de áudio é diminuída. Isto é porque, à medida que o ângulo de elevação é aumentado, uma localização física de um canal se torna mais estreita e, assim, está próximo ao ouvinte.
[000150] Portanto, uma atualização de um coeficiente de panning de acordo com a variação do ângulo de elevação é determinada a seguir. À medida que o ângulo de elevação é aumentado, o coeficiente panning é atualizado para tornar a imagem de som maior, e à medida que o ângulo de elevação é diminuído, o coeficiente de panning é atualizado para tornar a imagem de som menor.
[000151] Por exemplo, presume-se que um ângulo de elevação basicamente definido é de 45 graus para renderização virtual, e a renderização virtual deve ser executada, diminuindo o ângulo de elevação para 35 graus. Neste caso, um coeficiente de renderização de panning a ser aplicado a um canal virtual a ser renderizado e um canal de saída ipsilateral é aumentado, e um coeficiente de panning a ser aplicado aos canais residuais é determinado através da normalização de energia.
[000152] Para descrição mais específica, presume-se que um sinal multicanal de entrada 22.2 deve ser reproduzido através de canais de saída 5.1 (alto-falantes). Neste caso, dentre os canais de entrada 22.2, os canais de entrada para os quais a renderização virtual é aplicada e têm ângulos de elevação são nove canais que são CH_U_000(T0), CH_U_L45(TL45), CH_U_R45(TR45), CH_U_L90(TL90), CH_U_R90(TR90), CH_U_L135(TL135), CH_U_R135(TR135), CH_U_180(T180), e CH_T_000(VOG), e os canais de saída 5.1 são cinco canais (exceto para um canal woofer) que são CH_M_000, CH_M_L030, CH_M_R030, CH_M_L110, e CH_R_110 existentes em um plano horizontal.
[000153] Deste modo, em um caso em que o canal CH_U_L45 é renderizado usando os canais de saída 5.1, quando o ângulo de elevação basicamente definido é de 45 graus e o ângulo de elevação tenta ser diminuído para 35 graus, o coeficiente de panning a ser aplicado a CH_M_L030 e CH_M_L110 que são canais de saída ipsilaterais do canal CH_U_L45 é atualizado para ser aumento por 3 dB, e o coeficiente de panning de três canais residuais é atualizado para ser diminuído, de modo que
Figure img0001
é satisfeito. Aqui, N indica o número de canais de saída para renderizar um canal virtual aleatório, e ∑. indica um coeficiente de panning a ser aplicado a cada canal de saída.
[000154] O processo tem que ser realizado em cada um dos canais de entrada de altura.
[000155] Por outro lado, presume-se que o ângulo de elevação basicamente definido é de 45 graus para renderização virtual, e a renderização virtual deve ser realizada através do aumento do ângulo de elevação para 55 graus. Neste caso, o coeficiente de panning de renderização a ser aplicado a um canal virtual a ser renderizado e um canal de saída ipsilateral é diminuído, e o coeficiente de panning a ser aplicado aos canais residual é determinado através da normalização de potência.
[000156] Quando o canal CH_U_L45 é renderizado usando os canais de saída 5.1, se o ângulo de elevação basicamente definido é aumentado de 45 graus para 55 graus, o coeficiente de panning a ser aplicado a CH_M_L030 e CH_M_L110 que são canais de saída ipsilaterais do canal CH_U_L45 é atualizado para ser diminuído por 3 dB, e o coeficiente de panning dos três canais residuais é atualizado para ser aumentado de modo que
Figure img0002
é satisfeito. Aqui, N indica o número de canais de saída para renderizar um canal virtual aleatório, e ∑. indica um coeficiente de panning a ser aplicado a cada canal de saída.
[000157] No entanto, quando a elevação é aumentada no modo acima mencionado, não é necessário inverter as imagens de som da esquerda e direita devido à atualização do coeficiente de panning, e isso é descrito com referência à FIG. 8.
[000158] A seguir, um método de atualização de um coeficiente de filtro de cor de tom irá ser descrito com referência à FIG. 11.
[000159] A FIG. 11 ilustra características de um filtro de cor de tom de acordo com as frequências quando um ângulo de elevação de um canal é de 35 graus e um ângulo de elevação é de 45 graus.
[000160] Conforme ilustrado na FIG. 11, é evidente que uma característica devido a um ângulo de elevação é altamente notável no filtro de cor de tom do canal com o ângulo de elevação de 45 graus, em relação ao filtro de cor de tom do canal com o ângulo de elevação de 35 graus.
[000161] Em um caso em que a renderização virtual é realizada para ter um ângulo de elevação maior que um ângulo de elevação de referência, quando a renderização é realizada sobre o ângulo de elevação de referência, mais aumento (um coeficiente de filtro atualizado é aumentado para ser maior que 1) ocorre em uma banda de frequência (em que um coeficiente de filtro original é maior que 1) cuja magnitude necessita ser aumentada, e mais diminuição (o coeficiente de filtro atualizado é diminuído para ser menor que 1) ocorre em uma frequência de banda (em que o coeficiente de filtro original é menor que 1) cuja magnitude necessita ser diminuída.
[000162] Quando as características de magnitude de filtro são expressas em uma escala de decibéis, tal como mostrado na FIG. 11, o filtro de cor de tom tem um valor positivo que é mostrado em uma banda de frequência em que a magnitude de um sinal de saída necessita ser aumentada, e tem um valor negativo em uma banda de frequência, onde uma amplitude de sinal de saída necessita ser diminuída. Além disso, como se verifica na FIG. 11, à medida que um ângulo de elevação é diminuído, uma forma de magnitude do filtro se torna plana.
[000163] Quando um canal de altura é virtualmente renderizado usando um canal plano horizontal, à medida que o ângulo de elevação é diminuído, o canal de altura tem uma cor de tom semelhante a um sinal de um plano horizontal, e à medida que o ângulo de elevação é aumentado, uma alteração em uma elevação é significativa, de modo que, à medida que o ângulo de elevação é aumentado, um efeito de acordo com o filtro de cor de tom é aumentado de modo que um efeito de elevação, devido a um aumento no ângulo de elevação é enfatizado. Por outro lado, à medida que o ângulo de elevação é aumentado, o efeito de acordo com o filtro de cor de tom é diminuído de modo que o efeito de elevação pode ser diminuído.
[000164] Portanto, a atualização do coeficiente de filtro de acordo com a alteração no ângulo de elevação é realizada através da atualização doa coeficiente de filtro original usando um ângulo de elevação basicamente definido e um peso com base em um ângulo de elevação a ser realmente renderizado.
[000165] Em um caso em que o ângulo de elevação basicamente definido para renderização virtual é de 45 graus, e uma elevação é diminuída através da realização de renderização para 35 graus mais baixo do que o ângulo de elevação básico, os coeficientes que correspondem a um filtro de 45 graus da FIG. 11 são determinados como valores iniciais e necessitam ser atualizados para os coeficientes que correspondem a um filtro de 35 graus.
[000166] Deste modo, em um caso em que se procura diminuir uma elevação através da realização de renderização para 35 graus, que é o ângulo de elevação menor que 45 graus, que é o ângulo de elevação básico, o coeficiente de filtro tem que ser atualizado, para que um vale e uma base de um filtro de acordo com uma banda de frequência sejam modificados para serem mais suaves do que os do filtro de 45 graus.
[000167] Por outro lado, em um caso em que o ângulo de elevação basicamente definido é de 45 graus, e uma elevação é aumentada através da realização de renderização para 55 graus mais alto do que o ângulo de elevação básico, o coeficiente de filtro tem que ser atualizado para que um vale e uma base de um filtro de acordo com uma banda de frequência sejam modificados para serem mais acentuados do que os do filtro de 45 graus.
[000168] A FIG. 12 é um fluxograma de um método de renderização de um sinal de áudio 3D, de acordo com uma modalidade.
[000169] Um renderizador recebe um sinal de áudio multicanal, incluindo uma pluralidade de canais de entrada (1210). O sinal de áudio de entrada multicanal é convertido a uma pluralidade de sinais de canal de saída através de renderização, e em um exemplo de submistura, quando o número de canais de saída é menor que o número de canais de entrada, um sinal de entrada tendo canais 22.2 é convertido para um canal de saída tendo canais 5.1.
[000170] Desta maneira, quando um sinal de entrada de áudio 3D é renderizado usando os canais de saída 2D, a renderização geral é aplicada aos canais de entrada num plano horizontal, e a renderização virtual é aplicada aos canais de altura, cada um, tendo um ângulo de elevação de modo a aplicar uma elevação do mesmo.
[000171] A fim de realizar renderização, um coeficiente de filtro a ser usado na filtragem e um coeficiente de panning a ser usado o panning são necessários. Aqui, em um processo de inicialização, um parâmetro de renderização é obtido de acordo com um layout padrão de um canal de saída e um ângulo de elevação basicamente definido para a renderização virtual (1220). O ângulo de elevação basicamente definido pode ser variadamente determinado de acordo com a renderização, mas quando a renderização virtual é realizada a um ângulo de elevação fixo, a satisfação e um efeito de renderização virtual podem ser diminuídos de acordo com a preferência do usuário ou uma característica de um sinal de entrada.
[000172] Portanto, quando uma configuração de um canal de saída tem um desvio em relação a um layout padrão do canal de saída, ou quando uma elevação na qual a renderização virtual deve ser realizada é diferente do ângulo de elevação basicamente definido do renderizador, o parâmetro de renderização é atualizado (1230).
[000173] Aqui, o parâmetro de renderização atualizado pode incluir um coeficiente de filtro atualizado pela adição, a um valor inicial do coeficiente de filtro, de um peso determinado com base em um ângulo de desvio de elevação, ou pode incluir um coeficiente de panning atualizado por aumento ou diminuição de um valor inicial de um coeficiente de panning de acordo com um resultado da comparação de um ângulo de elevação de um canal de entrada com o ângulo de elevação basicamente definido.
[000174] Um método detalhado da atualização do coeficiente do filtro e do coeficiente de panning já é descrito com referência às FIGS. 9 a 11, e, consequentemente, as descrições são omitidas. A este respeito, o coeficiente de filtro atualizado e o coeficiente de panning atualizado podem ser adicionalmente modificados ou estendidos, e as descrições dos mesmos será fornecida em detalhe mais tarde.
[000175] Se um layout do alto-falante do canal de saída tem um desvio em relação ao layout padrão, um processo para compensar um efeito devido ao desvio pode ser adicionado, mas descrições de um método detalhado dos mesmos são aqui omitidas. O desvio do canal de saída pode incluir informações de desvio de acordo com a diferença entre os ângulos de elevação ou os ângulos de azimute.
[000176] A FIG. 13 ilustra um fenômeno em que as imagens de som da esquerda e da direita são invertidas quando um ângulo de elevação de um canal de entrada é maior ou igual a um valor limite, de acordo com uma modalidade.
[000177] Uma pessoa distingue entre as localizações de imagens de som, de acordo com as diferenças de tempo, diferenças de nível e diferenças de frequência de sons que chegam em ambos os ouvidos da pessoa. Quando as diferenças entre as características dos sinais que chegam em ambos os ouvidos são grandes, a pessoa pode facilmente localizar as localizações, e mesmo que um pequeno erro ocorra, a confusão entre a parte frontal- parte posterior ou confusão entre esquerda-direita com relação às imagens de som não ocorre. No entanto, uma fonte de áudio virtual localizada em um lado posterior direito e ou lado frontal direito de uma cabeça tem uma diferença de tempo muito pequena e uma diferença de nível muito pequena, de modo que a pessoa tem que localizar a localização, utilizando apenas uma diferença entre as frequências.
[000178] Como na FIG. 10, na FIG. 13, um canal de forma quadrada é um canal CH_U_L90 no lado posterior de um ouvinte. Aqui, quando um ângulo de elevação de CH_U_L90 é (p , à medida que L? é aumentado, ILD e ITD dos sinais de áudio que chegam a um ouvido esquerdo e um ouvido direito do ouvinte são diminuídos, e os sinais de áudio percebidos por ambos os ouvidos têm semelhante imagens de som. Um valor máximo do ângulo de elevação c é de 90 graus, e quando L? é de 90 graus, o CH_U_L90 se torna um canal VOG existente acima de uma cabeça do ouvinte, assim, os mesmos sinais de áudio são recebidos através de ambos os ouvidos.
[000179] Conforme mostrado no diagrama da esquerda da FIG. 13, se L'tem um valor significativamente grande, uma elevação é aumentada para que o ouvinte possa sentir uma sensação de campo de som fornecendo uma sensação envolvente intensa. No entanto, quando a elevação é aumentada, uma imagem de som torna-se pequena e um ponto de melhor local torna-se pequeno, de tal modo que, mesmo se um local do ouvinte é ligeiramente alterado ou um canal é ligeiramente movido, um fenômeno de inversão de esquerda-direita pode ocorrer com respeito à imagem de som.
[000180] Um diagrama da direita da FIG. 13 ilustra as localizações do ouvinte e o canal quando o ouvinte se moveu ligeiramente para a esquerda. Este é um caso em que uma elevação é altamente formada, uma vez que o ângulo de elevação L? do canal tem um grande valor, assim, mesmo que o ouvinte mova-se ligeiramente, as localizações relativas dos canais da esquerda e da direita são significativamente alterados, e no pior dos casos, embora seja um canal do lado esquerdo, um sinal que chega o ouvido direito é ainda significativamente percebido, de modo que uma inversão de esquerda-direita de uma imagem de som, como mostrado na FIG. 13 pode ocorrer.
[000181] Em um processo de renderização, é mais importante manter um equilíbrio à esquerda e à direita de uma imagem de som e localizar as localizações da esquerda e direita da imagem de som do que aplicar uma elevação, assim, a fim de evitar o fenômeno mencionado acima, pode ser necessário limitar um ângulo de elevação para renderização virtual dentro de uma faixa predeterminada.
[000182] Portanto, em um caso em que um coeficiente de panning é diminuído quando um ângulo de elevação é aumentado para atingir uma elevação mais alta do que um ângulo de elevação basicamente definido para renderização, é necessário definir um valor limite mínimo do coeficiente de panning que não seja igual ou menor que um valor predeterminado.
[000183] Por exemplo, mesmo que uma elevação de renderização de 60 graus é aumentada para ser igual ou maior que 60 graus, quando o panning é realizado por aplicação compulsoriamente de um coeficiente de panning que é atualizado em relação a um ângulo de elevação limite de 60 graus, o fenômeno de reversão de esquerda-direita da imagem de som pode ser evitado.
[000184] Quando o áudio 3D é gerado utilizando renderização virtual, um fenômeno de confusão entre a parte frontal-parte posterior de um sinal de áudio pode ocorrer devido a um componente de reprodução de um canal ambiente. O fenômeno de confusão entre parte frontal- parte posterior significa um fenômeno pelo qual é difícil determinar se uma fonte de áudio virtual no áudio 3D está presente no lado frontal ou no lado posterior.
[000185] Com referência à FIG. 13, assume-se que o ouvinte se moveu, no entanto, é óbvio para uma pessoa versada na técnica que, à medida que uma imagem de som é aumentada, mesmo se o ouvinte não se move, existe uma alta possibilidade de que a confusão de esquerda-direita ou a confusão entre a parte frontal-parte posterior ocorra devido a uma característica de um órgão auditivo de cada pessoa.
[000186] A seguir, um método de inicialização e atualização de um parâmetro de renderização de elevação, isto é, um coeficiente de panning de elevação e um coeficiente de filtro de elevação, será descrito em detalhe.
[000187] Quando um ângulo de elevação elv de um canal de entrada de altura •.... é maior que 35 graus, se •.... é um canal frontal (um ângulo de azimute é entre - 90 graus a + 90 graus), um coeficiente de filtro de elevação atualizado EQSRG^GÍJ) é determinado de acordo com as Equações 1 a 3.
Figure img0003
[000188] Por outro lado, quando a elevação de ângulo elev do canal de entrada de altura •.... é maior que 35 graus, se •.... é um canal posterior (o ângulo de azimute é entre - 180 graus a - 90 graus ou de 90 graus a 180 graus), o coeficiente de filtro de elevação atualizado
Figure img0004
é determinado de acordo com as Equações 4 a 6.
Figure img0005
onde, é uma frequência central normalizada de uma késima banda de frequência, fs é uma frequência de amostragem, e EQojir(eq(iin)) é um valor inicial do coeficiente de filtro de elevação em um ângulo de elevação de referência.
[000189] Quando um ângulo de elevação para a renderização de elevação não é o ângulo de elevação de referência, um coeficiente de panning de elevação em relação aos canais de entrada de altura, exceto para o canal TBC (CH_U_180) e o canal VOG (CH_T_000) tem que ser atualizado.
[000190] Quando o ângulo de elevação de referência é de 35 graus e ijn é o canal TFC (CH_U_000), os coeficientes de panning de elevação atualizado
Figure img0006
determinados de acordo com as Equações 7 e 8, respectivamente.
Figure img0007
Figure img0008
onde,
Figure img0009
é um coeficiente de panning de um canal de saída SL para renderizar virtualmente um canal TFC usando o ângulo de elevação de referência de 35 graus, e
Figure img0010
é um coeficiente de panning de um canal de saída SR para renderizar virtualmente o canal TFC usando o ângulo de elevação de referência de 35 graus.
[000191] Com respeito ao canal TFC, é impossível ajustar os ganhos dos canais da esquerda e direita, de modo a controlar uma elevação, assim, uma razão de um ganho em relação ao canal SL e ao canal SR que são canais traseiros de a canaleta frontal é ajustado de modo a controlar a elevação. Descrições detalhadas são fornecidas abaixo.
[000192] Com respeito a outros canais, exceto para o canal TFC, quando um ângulo de elevação de um canal de entrada de altura é maior que o ângulo de elevação de referência de 35 graus, um ganho de um canal ipsilateral de um canal de entrada é reduzido, e um ganho de um canal contralateral do canal de entrada é aumentado, devido a uma diferença de ganho entre
Figure img0011
[000193] Por exemplo, quando o canal de entrada é um canal CH_U_L045, um canal de saída ipsilateral do canal de entrada é CH_M_L030 e CH_M_L110, e um canal de saída contralateral do canal de entrada é CHMR030 e CHMR110.
[000194] A seguir, um método de obtenção de e
Figure img0012
e a de atualização de um ganho de panning de elevação do mesmo, quando um canal de entrada é um canal lateral, um canal frontal, ou um canal posterior, será descrito em detalhe.
[000195] Quando o canal de entrada com um ângulo de elevação elv é o canal lateral (um ângulo de azimute é entre - 110 graus a - 70 graus ou 70 graus a de 110 graus),
Figure img0013
e
Figure img0014
são determinados de acordo com as Equações 9 e 10, respectivamente.
Figure img0015
[000196] Quando o canal de entrada tendo o ângulo de elevação elv é o canal frontal (o ângulo de azimute é entre - 70 graus a + 70 graus) ou o canal posterior (o ângulo de azimute é entre - 180 graus a - 110 graus ou 110 graus a 180 graus),
Figure img0016
são determinados de acordo com as Equações 11 e 12, respectivamente.
Figure img0017
Figure img0018
[000197] Com base em
Figure img0019
calculados usando as Equações 9 a 12, os coeficientes de panning de elevação atualizados podem ser atualizados.
[000198] Um coeficiente de panning de elevação atualizado
Figure img0020
em relação ao canal de saída ipsilateral do canal de entrada, e um coeficiente de panning de elevação atualizado
Figure img0021
com relação ao canal de saída contralateral do canal de entrada são determinados de acordo com as Equações 13 e 14, respectivamente.
Figure img0022
[000199] A fim de manter constantemente um nível de energia de um sinal de saída, os coeficientes de panning obtidos através do uso das Equações 13 e 14 são normalizados de acordo com a Equações 15 e 16.
Figure img0023
Figure img0024
[000200] Desta forma, um processo de normalização de potência é realizado de modo que a soma total de um quadrado dos coeficientes de panning do canal de entrada torna-se 1, e fazendo assim, um nível de energia de um sinal de saída antes dos coeficientes de panning serem atualizados e um nível de energia do sinal de saída depois dos coeficientes de panning serem atualizados podem ser igualmente mantidos.
[000201] Dentro
Figure img0025
um índice H indica que um coeficiente de panning de elevação é atualizado apenas em um domínio de alta frequência. Os coeficientes de panning de elevação atualizados das Equações 13 e 14 são aplicados apenas a uma banda de alta frequência, de bandas de 2,8 kHz a 10 kHz. No entanto, quando o coeficiente de panning de elevação é atualizado em relação a um canal ambiente, o coeficiente de panning de elevação é atualizado não só com relação à banda de alta frequência, mas também cm relação a uma banda de baixa frequência.
[000202] Quando o canal de entrada tendo o ângulo de elevação elv é o canal ambiente (o ângulo de azimute é entre - 160 graus a - 110 graus ou 110 graus a 160 graus), um coeficiente de panning de elevação atualizado
Figure img0026
em relação a um canal de saída ipsilateral do canal de entrada em uma banda de baixa frequência de 2,8 kHz ou inferior e um coeficiente de panning elevação atualizado
Figure img0027
em relação a um canal de saída contralateral do canal de entrada são determinados de acordo com as Equações 17 e 18, respectivamente.
Figure img0028
[000203] Como na banda de alta frequência, a fim de que o ganho de panning de elevação atualizado da banda de baixa frequência mantenha constantemente uma energia nível de um sinal de saída, os coeficientes de panning obtidos usando as Equações 15 e 16 são de potência normalizada de acordo com as Equações 19 e 20.
Figure img0029
[000204] Desta forma, o processo de normalização de potência é realizado de modo que a soma total de um quadrado dos coeficientes de panning do canal de entrada torna-se 1, e fazendo assim, um nível de energia de um sinal de saída antes dos coeficientes de panning são atualizados e um nível de energia do sinal de saída após os coeficientes de panning serem atualizados pode ser igualmente mantido.
[000205] As FIGS. 14 a 17 são diagramas que descrevem um método de prevenção da confusão entre parte frontal-parte posterior de uma imagem de som, de acordo com uma modalidade.
[000206] A FIG. 14 ilustra os canais horizontais e os canais de altura frontais, de acordo com uma modalidade.
[000207] Com referência à modalidade mostrada na FIG. 14, presume-se que um canal de saída é de canais 5.0 (um canal woofer é agora mostrado) e canais de entrada de altura frontal são renderizados aos canais de saída horizontal. Os canais 5.0 estão presentes em um plano horizontal 1410 e incluem um canal Central Frontal (FC), um canal Frontal à esquerda (FL), um canal Frontal à Direita (FR), um canal ambiente à esquerda (SL), e um canal ambiente à direita (SR).
[000208] Os canais de altura frontal são canais correspondentes a uma camada superior 1420 da FIG. 14, e na modalidade mostrada na FIG. 14, os canais de altura frontais incluem um canal Central de Topo Frontal (TFC), um canal à esquerda de topo frontal (TFL), e um canal à direita de topo Frontal (TFR).
[000209] Quando é assumido que, na modalidade mostrada na FIG. 14, um canal de entrada é de canais 22.2, os sinais de entrada de 24 canais são renderizados (misturados) para gerar sinais de saída de 5 canais. Aqui, os componentes que correspondem, respectivamente, aos sinais de entrada dos 24canais são distribuídos no sinal de saída de canal 5 de acordo com uma regra de renderização. Portanto, os canais de saída, ou seja, o canal central frontal (FC), o canal frontal à esquerda (FL), o canal frontal à direita (FR), o canal ambiente à esquerda (SL) e o canal ambiente à direita (SR), respectivamente, incluem componentes correspondentes aos de sinais de entrada.
[000210] A este respeito, o número dos canais de altura frontais, o número dos canais horizontais, ângulos de azimute, e ângulos de elevação dos canais de altura podem ser variadamente determinados de acordo com um layout de canal. Quando o canal de entrada é de canais 22.2 ou canais 22.0, o canal de altura frontal pode incluir pelo menos um de CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045 e CH_U_000. Quando o canal de saída é de canais 5.0 ou canais 5.1, o canal ambiente pode incluir pelo menos um de CH_M_L110 e CH_M_R110.
[000211] No entanto, é óbvio para uma pessoa versada na técnica que, mesmo que os canais múltiplos de entrada e de saída não correspondam com o layout padrão, um layout de multicanal pode ser variadamente configurado de acordo com um ângulo de elevação e um ângulo de azimute de cada canal.
[000212] Quando um sinal de canal de entrada de altura é virtualmente renderizado usando os canais de saída horizontal, um canal de saída ambiente atua para aumentar uma elevação de uma imagem de som, aplicando a elevação ao som. Portanto, quando os sinais dos canais de entrada de altura horizontais são virtualmente renderizados para os canais de saída 5.0 que são canais horizontais, a elevação pode ser aplicada e ajustada por sinais de saída do canal SL e dos canais SR que são os canais de saída ambiente.
[000213] No entanto, uma vez que a HRTF é única para cada pessoa, um fenômeno de confusão entre a parte frontal-parte posterior pode ocorrer, em que um sinal que foi virtualmente renderizado para o canal de altura frontal é percebido como estando no lado posterior de acordo com uma característica de HRTF de um ouvinte.
[000214] A FIG. 15 ilustra uma porcentagem de percepção dos canais de altura frontais, de acordo com uma modalidade.
[000215] A FIG. 15 ilustra uma porcentagem que, quando um canal de altura frontal, ou seja, um canal de TFR, é virtualmente renderizado usando um canal de saída horizontal, um usuário localiza uma localização (frontal posterior) de uma imagem de som. Com referência à FIG. 15, uma altura reconhecida pelo usuário corresponde a um canal de altura 1420 e um tamanho de um círculo é proporcional a um valor da possibilidade.
[000216] Com referência à FIG. 15, embora a maioria dos usuários localize a imagem de som a 45 graus no lado direito que é uma localização de um canal virtualmente renderizado, muitos usuários localizam a imagem de som em outra localização, em vez de a 45 graus. Tal como acima descrito, este fenômeno ocorre uma vez que a característica de HRTF difere em pessoas, é possível ver que um determinado usuário ainda localiza a imagem de som no lado posterior que ainda se estende mais que 90 graus no lado direito.
[000217] A HRTF indica um caminho de transferência de áudio a partir de uma fonte de áudio em um ponto no espaço adjacente a uma cabeça para um tímpano, que é matematicamente expresso como uma função de transferência. A HRTF varia significativamente de acordo com uma localização da fonte de som em relação a um centro da cabeça, e um tamanho ou forma da cabeça ou pavilhão auricular. A fim de retratar com precisão a fonte de áudio virtual, as HRTFs de pessoas alvos têm que ser individualmente medidos e usados, o que é realmente impossível. Assim, em geral, um HRTF não individualizado medido por disposição de um microfone em uma posição do tímpano de um manequim semelhante a um corpo humano é usado.
[000218] Quando a fonte de áudio virtual é reproduzida utilizando a HRTF não individualizado, se uma cabeça ou pavilhão auricular de uma pessoa não correspondem com o manequim ou um sistema de microfone de cabeça simulado, vários problemas relacionados com a localização da imagem de som ocorrem. Um desvio de graus localizados em um plano horizontal pode ser compensado tendo em conta um tamanho da cabeça de uma pessoa, mas uma vez que um tamanho ou forma do pavilhão auricular difere nas pessoas, é difícil compensar um desvio de uma elevação ou de um fenômeno de confusão entre a parte frontal-parte posterior.
[000219] Conforme descrito acima, cada pessoa tem a sua própria HRTF de acordo com o tamanho ou a forma de uma cabeça, no entanto, é, na verdade, difícil de aplicar diferentes HRTFs para pessoas, respectivamente. Portanto, a HRTF não individualizada, ou seja, uma HRTF comum, é usada, e neste caso, o fenômeno de confusão entre a parte frontal-parte posterior pode ocorrer.
[000220] Aqui, quando um período de tempo predeterminado é adicionado a um sinal de canal de saída ambiente, o fenômeno de confusão entre a parte frontal-parte posterior pode ser evitado.
[000221] O som não é igualmente percebido por todos e é diferentemente percebido de acordo com um ambiente circundante ou um estado psicológico de um ouvinte. Isto é porque um evento físico no espaço onde o som é emitido é percebido pelo ouvinte de uma maneira subjetiva e sensorial. Um sinal de áudio que é percebido por um ouvinte de acordo com um fator subjetivo ou psicológico é referido como psico-acústico. A psicoacústica é influenciada não só por variáveis físicas, incluindo uma pressão acústica, uma frequência, um tempo, etc., mas também é afetada por variáveis subjetivas, incluindo sonoridade, um passo, uma cor de tom, uma experiência com relação ao som, etc..
[000222] A psicoacústica pode ter diversos efeitos de acordo com as situações, e por exemplo, pode incluir um efeito de mascaramento, um efeito de coquetel, um efeito de percepção de direção, um efeito percepção de distância, e um efeito de precedência. Uma técnica baseada na psicoacústica é usada em vários campos, de modo a fornecer um sinal de áudio mais adequada para um ouvinte.
[000223] O efeito de precedência é também chamado de efeito Hass em que, quando diferentes sons são gerados sequencialmente por um tempo de atraso de 1 ms a 30 ms, um ouvinte pode perceber que os sons são gerados em uma localização onde o primeiro som de chegada é gerado. No entanto, se um tempo de atraso entre os tempos de geração de dois sons é maior ou igual a 50 ms, os dois sons são percebidos em diferentes direções.
[000224] Por exemplo, quando uma imagem de som é localizada, se um sinal de saída de um canal direito for atrasado, a imagem de som é movida para a esquerda e, assim, é percebida como um sinal reproduzido no lado direito, e este fenômeno é chamado de efeito de precedência ou o efeito de Hass.
[000225] Um canal de saída ambiente é usado para adicionar uma elevação para a imagem de som, e como ilustrado na FIG. 15, devido a um sinal de canal de saída ambiente, o fenômeno de confusão entre a parte frontal-parte posterior ocorre de tal modo que alguns ouvintes podem perceber que um sinal de canal frontal vem de um lado posterior.
[000226] Ao usar o efeito de precedência acima mencionado, o problema acima pode ser resolvido. Quando um atraso de tempo predeterminado é adicionado ao sinal de canal de saída ambiente para reproduzir um canal de entrada de altura frontal, em comparação com os sinais de canais de saída frontais que estão presentes de - 90 graus a + 90 graus em relação à parte frontal e estão dentre os sinais de saída para a reprodução de um sinal de canal de entrada de altura frontal, os sinais dos canais de saída ambiente que estão presente a - 180 graus a - 90 graus ou de 90 graus ++ a 180 graus em relação à parte frontal são reproduzidos com um atraso.
[000227] Deste modo, mesmo que um sinal de áudio a partir do canal de entrada frontal possa ser percebido como é reproduzido no lado posterior, devido a uma HRTF única de um ouvinte, o sinal de áudio é percebido como é reproduzido no lado frontal, onde um sinal de áudio é primeiro reproduzido de acordo com o efeito de precedência.
[000228] A FIG. 16 é um fluxograma de um método de prevenção da confusão entre parte frontal-parte posterior, de acordo com uma modalidade.
[000229] Um renderizador recebe um sinal de áudio multicanal, incluindo uma pluralidade de canais de entrada (1610). O sinal de áudio multicanal de entrada é convertido para uma pluralidade de sinais de canal de saída através de renderização, e em um exemplo de submistura, em que o número de canais de saída é menor que o número de canais de entrada, um sinal de entrada tendo canais 22.2 é convertido para um sinal de saída tendo canais 5.1 ou canais 5.0.
[000230] Deste modo, quando um sinal de entrada de áudio 3D é renderizado através do uso de um canal de saída 2D, a renderização geral é aplicada para canais de entrada em um plano horizontal, e a renderização virtual é aplicada aos canais de altura tendo, cada um, um ângulo de elevação de modo a aplicar uma elevação do mesmo.
[000231] A fim de realizar a renderização, um coeficiente de filtro a ser usado na filtragem e um coeficiente de panning a ser usado no panning são necessários. Aqui, em um processo de inicialização, um parâmetro de renderização é obtido de acordo com um layout padrão de um canal de saída e um ângulo de elevação basicamente definido para a renderização virtual. O ângulo de elevação basicamente definido pode ser variadamente determinado de acordo com a renderização, e quando um ângulo de elevação predeterminado, e não o ângulo de elevação basicamente definido, é definido de acordo com a preferência do usuário ou uma característica de um sinal de entrada, a satisfação e um efeito de renderização virtual podem ser melhorados.
[000232] A fim de evitar a confusão entre a parte frontal- parte posterior devido a um canal ambiente, um atraso de tempo é adicionado a um canal de saída ambiente com respeito a um canal de altura frontal (1620).
[000233] Quando um retardo de tempo predeterminado é adicionado ao sinal de canal de saída ambiente para reproduzir um canal de entrada de altura frontal, em comparação com os sinais dos canais de saída frontais que estão presentes em - 90 graus a + 90 graus em relação à parte frontal e estão dentre os sinais de saída para reprodução de um sinal de canal de entrada de altura frontal, os sinais a partir dos canais de saída ambiente que estão presente em - 180 graus a - 90 graus ou +90 graus a + 180 graus em relação à parte frontal são reproduzidos com um atraso.
[000234] Assim, mesmo que um sinal de áudio a partir do canal de entrada frontal possa ser percebido como é reproduzido no lado posterior, devido a uma HRTF única de um ouvinte, o sinal de áudio é percebido como é reproduzido no lado frontal, onde um sinal de áudio é primeiro reproduzido de acordo com o efeito de precedência.
[000235] Conforme descrito acima, a fim de reproduzir o canal de altura frontal, atrasando o canal de saída ambiente com respeito ao canal de altura frontal, o renderizador altera um parâmetro de renderização de elevação, com base em um atraso adicionado ao canal de saída ambiente (1630).
[000236] Quando o parâmetro de renderização de elevação é alterado, o renderizador gera um canal de saída ambiente de elevação renderizado, com base na renderização de elevação de parâmetro alterado (1640). Em mais detalhe, a renderização é realizada pela aplicação do parâmetro de renderização de elevação alterado para um sinal de canal de entrada de altura, de modo que um sinal de canal de saída ambiente seja gerado. Desta maneira, o canal de saída ambiente de elevação renderizado que está atrasado em relação ao canal de entrada de altura frontal, com base no parâmetro de renderização de elevação alterado, pode impedir a confusão entre a parte frontal-parte posterior, devido ao canal de saída ambiente.
[000237] O atraso de tempo aplicado ao canal de saída ambiente é, de preferência, de cerca de 2,7 ms e cerca de 91,5 cm de distância, o que corresponde a 128 amostras, ou seja, duas amostras de Filtro de Espelho de Quadratura (QMF) em 48 kHz. No entanto, a fim de evitar a confusão entre a parte frontal- parte posterior, o atraso adicionado ao canal de saída ambiente pode variar de acordo com uma taxa de amostragem e um ambiente de reprodução.
[000238] Aqui, quando uma configuração de um canal de saída tem um desvio em relação a um layout padrão do canal de saída, ou quando uma elevação na qual a renderização virtual deve ser realizada é diferente do ângulo de elevação basicamente definido do renderizador, o parâmetro de renderização é atualizado. O parâmetro de renderização atualizado pode incluir um coeficiente de filtro atualizado pela adição, um valor inicial do coeficiente de filtro, de um peso determinado com base em um desvio de ângulo de elevação, ou pode incluir um coeficiente de panning atualizado por aumento ou diminuição de um valor inicial de um coeficiente de panning, de acordo com um resultado da comparação entre um ângulo de elevação de um canal de entrada com o ângulo de elevação basicamente definido.
[000239] Se o canal de entrada de altura frontal a ser renderizado espacialmente por elevação está presente, as amostras de QMF atrasadas do canal de entrada frontal são adicionadas a uma amostra de QMF de entrada, e uma matriz de submistura é estendida a um coeficiente de alterado.
[000240] Um método de adição de um atraso de tempo para um canal de entrada de altura frontal e a alteração de uma matriz de renderização (submistura) é descrito em detalhe abaixo.
[000241] Quando o número de canais de entrada é Nin, com respeito a um i-ésimo canal de entrada dentre os canais [1 Nin], se o i-ésimo canal de entrada é um dentre os canais de entrada de altura CH_U_L030, CH_U_L045, CH_U_R030, CH_U_R045, e CH_U_000, um atraso de amostra de QMF do canal de entrada e uma amostra de QMF atrasada são determinadas de acordo com a Equação 21 e Equação 22.
Figure img0030
onde fs indica uma frequência de amostragem, e
Figure img0031
indica uma n-ésima amostra de sub-banda de QMF de uma k-ésima banda. O atraso de tempo aplicado ao canal de saída ambiente é, de preferência, de cerca de 2,7 ms e cerca de 91,5 cm de distância, o que corresponde a 128 amostras, ou seja, duas amostras de QMF de 48 kHz. No entanto, a fim de evitar a confusão entre a parte frontal-parte posterior, o atraso adicionado ao canal de saída ambiente pode variar de acordo com uma taxa de amostragem e um ambiente de reprodução.
[000242] A matriz de renderização alterada (submistura) é determinada de acordo com as Equações 23 a 25.
Figure img0032
onde,
Figure img0033
indica uma matriz de submistura para renderização de elevação,
Figure img0034
indica uma matriz de submistura para renderização geral, e Nout indica o número de canais de saída.
[000243] A fim de completar a matriz de submistura para cada um dos canais de entrada, Nin é aumentado por 1 e um procedimento da Equação 3 e da Equação 4 é repetido. A fim de obter uma matriz de submistura com respeito a um canal de entrada, é necessário para obter parâmetros de submistura para os canais de saída.
[000244] O parâmetro de submistura de um j-ésimo canal de saída com relação a um i-ésimo canal de entrada é determinado como a seguir.
[000245] Quando o número de canais de saída é Nout, em relação a um j-ésimo canal de saída dentre os canais [1 Nout], se o j-ésimo canal de saída é um dos canais ambientes CH_M_L110 e CH_M_R110, o parâmetro de submistura a ser aplicado ao canal de saída é determinado de acordo com a Equação 26.
Figure img0035
[000246] Quando o número de canais de saída é Nout, em relação ao j-ésimo canal de saída dentre [1 Nout], se o j-ésimo canal de saída não é o canal ambiente CH_M_L110 ou CH_M_R110, o parâmetro de submistura a ser aplicado ao canal de saída é determinado de acordo com a Equação 27.
Figure img0036
[000247] Aqui, se um layout de alto-falante do canal de saída tem um desvio em relação ao layout padrão, um processo para compensar um efeito devido à diferença pode ser adicionado, mas as descrições detalhadas dos mesmos são omitidas. O desvio do canal de saída pode incluir informações de desvio de acordo com a diferença entre os ângulos de elevação ou ângulos de azimute.
[000248] A FIG. 17 ilustra os canais horizontais e os canais de altura frontais quando o atraso é adicionado aos canais de saída ambientes, de acordo com uma modalidade.
[000249] Na modalidade da FIG. 17, da mesma forma que para a modalidade da FIG. 14, presume-se que um canal de saída é de canais 5.0 (um canal woofer é agora mostrado) e os canais de entrada altura frontais são renderizados aos canais de saída horizontal. Os canais 5.0 estão presentes no plano horizontal 1410 e incluem um canal Frente Center (FC), um Canal Frontal à Esquerda (FL), um Canal Frontal à Direita (FR), um canal ambiente à esquerda (SL), e um canal ambiente à direita (SR).
[000250] Os canais de altura frontais são canais correspondente à camada superior 1420 da FIG. 14, e na modalidade mostrada na FIG. 14, os canais de altura frontais incluem um Canal Central Frontal de Topo (TFC), um canal Frontal de Topo à Esquerda (TFL), e um Canal Frontal de Topo à Direita (TFR).
[000251] Na modalidade da FIG. 17, da mesma forma que para a modalidade da FIG. 14, quando é assumido que um canal de entrada é de canais 22.2, os sinais de entrada de 24 canais são renderizados (submisturados), para gerar sinais de saída de 5 canais. Aqui, os componentes que correspondem, respectivamente, aos sinais de entrada dos 24canais são distribuídos no sinal de saída do canal 5 de acordo com uma regra de renderização. Portanto, os canais de saída, ou seja, o canal FC, o canal FL, o canal FR, o canal SL, e o canal SR incluem respectivamente os componentes correspondentes aos sinais de entrada.
[000252] A este respeito, o número dos canais de altura frontais, o número dos canais horizontais, os ângulos de azimute, e os ângulos de elevação de canais de altura podem ser variadamente determinados de acordo com um layout de canal. Quando o canal de entrada é de canais 22.2 ou canais 22.0, o canal de altura frontal pode incluir, pelo menos, um dentre CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045, e CH_U_000. Quando o canal de saída é de canais 5.0 ou canais 5.1, o canal ambiente pode incluir pelo menos um dentre CH_M_L110 e CH_M_R110.
[000253] No entanto, é óbvio para uma pessoa versada na técnica que, mesmo que os canais multicanais de entrada e de saída não correspondam com o layout padrão, um layout de multicanais pode ser variadamente configurado de acordo com um ângulo de elevação e um ângulo de azimute de cada canal.
[000254] Aqui, a fim de evitar que um fenômeno de confusão entre a parte frontal-parte posterior ocorra devido ao canal SL e o canal SR, um atraso predeterminado é adicionado ao canal de entrada de altura frontal que é renderizado através do canal de saída ambiente. Um canal de saída ambiente de elevação renderizada que está atrasado em relação ao canal de entrada de altura frontal, com base em um parâmetro de elevação de renderização modificado, pode impedir a confusão entre a parte frontal-parte posterior, devido ao canal de saída ambiente.
[000255] Os métodos de obtenção do parâmetro de renderização de elevação alterado com base em um sinal de áudio de atraso adicionado e adicionado um atraso adicionado está mostrado Equações 1 a 7. Tal como descrito em detalhe na modalidade da FIG. 16, uma descrição detalhada dos mesmos é omitida na modalidade da FIG. 17.
[000256] O tempo de atraso aplicado para o canal de saída ambiente é, de preferência, de cerca de 2,7 ms e cerca de 91,5 cm de distância, o que corresponde a 128 amostras, ou seja, duas amostras do QMF de 48 kHz. No entanto, a fim de evitar a confusão entre a parte frontal-parte posterior, o atraso adicionado ao canal de saída ambiente pode variar de acordo com uma taxa de amostragem e um ambiente de reprodução.
[000257] A FIG. 18 ilustra um canal horizontal e um canal central frontal de topo (TFC), de acordo com uma modalidade.
[000258] De acordo com a modalidade mostrada na FIG. 18, presume-se que um canal de saída seja de canais 5,0 (um canal woofer é agora mostrado) e o canal central frontal de topo (TFC) é renderizado para um canal de saída horizontal. Os canais 5.0 estão presentes no plano horizontal 1810 e incluem um canal central frontal (FC), um canal frontal à Esquerda (FL), um canal frontal à direita (FR), um canal ambiente à esquerda (SL), e um canal ambiente à direita (SR). O canal TFC corresponde a uma camada superior 1820 da FIG. 18, e assume-se que o canal TFC tem ângulo de azimute 0 e situa-se com um ângulo de elevação predeterminado.
[000259] Conforme descrito acima, é muito importante evitar uma inversão de esquerda-direita de uma imagem de som quando o sinal de áudio é processado. A fim de renderizar um canal de entrada de altura tendo um ângulo de elevação para um canal de saída horizontal, é necessário realizar a renderização virtual, e os sinais dos canais de entrada multicanais são submetidos a panning para sinais de saída multicanais através de renderização.
[000260] Para a renderização virtual que fornece uma sensação elevada a uma elevação particular, um coeficiente de panning e um coeficiente de filtro são determinados, e, a este respeito, para um sinal de entrada de canal de TFT, uma imagem de som tem que estar localizada na parte frontal de uma ouvinte, ou seja, no centro, assim, os coeficientes de panning de canal FL e do canal FR estão determinados para tornar a imagem do som do canal TFC localizada no centro.
[000261] Em um caso em que um layout de canais de saída corresponde a um layout padrão, os coeficientes de panning do canal FL e do canal RF têm que ser idênticos, e os coeficientes de panning do canal SL e do canal SR também têm que ser idênticos.
[000262] Conforme descrito acima, uma vez que os coeficientes de panning dos canais da esquerda e direita para renderização do canal de entrada de TFC têm que ser idênticos, é impossível ajustar os coeficientes de panning dos canais da esquerda e direita, de modo a ajustar a elevação do canal de entrada de TFC. Portanto, os coeficientes de panning entre os canais frontais e posteriores são ajustados de modo a aplicar uma sensação elevada pela renderização do canal de entrada de TFC.
[000263] Quando um ângulo de elevação de referência é de 35 graus e um ângulo de elevação do canal de entrada de TFC a ser renderizado é elv, os coeficientes de panning do canal SL e do canal SR para renderizar virtualmente o canal de entrada de TFC ao ângulo de elevação elv são, respectivamente, determinados de acordo com a Equação 28, e a Equação 29.
Figure img0037
onde,
Figure img0038
é o coeficiente de panning do canal SL para realizar o renderização virtual no ângulo de elevação de referência é de 35 graus, e
Figure img0039
é o coeficiente de panning do canal SR para realizar o renderização virtuais ao ângulo de elevação de referência é de 35 graus.
Figure img0040
é um índice em relação a um canal de entrada de altura, e a Equação 28 e a Equação 29, cada, indicam uma relação entre um valor inicial do coeficiente de panning e um coeficiente de panning atualizado quando o canal de entrada altura é o canal TFC.
[000264] Aqui, a fim de manter constantemente um nível de energia de um sinal de saída, os coeficientes de panning obtidos pelo uso da Equação 28 e da Equação 29 não são usados imutavelmente, mas são normalizados por energia pelo uso da Equação 30 e da Equação 31 e, em seguida, são usados.
Figure img0041
[000265] Desta forma, o processo de normalização de potência é realizado de modo que a soma total de um quadrado dos coeficientes de panning do canal de entrada torna-se 1, e fazendo assim, o nível de energia do sinal de saída antes que os coeficientes de panning sejam atualizados e o nível de energia do sinal de saída depois que os coeficientes de panning são atualizados pode ser igualmente mantido.
[000266] As modalidades de acordo com a presente invenção também podem ser concretizadas como comandos programados a serem executados em vários elementos de configuração de computador, e, em seguida, pode ser gravada para um meio de gravação legível por computador. O meio de gravação legível por computador poderá incluir um ou mais dos comandos programados, arquivos de dados, estruturas de dados, ou semelhantes. Os comandos programados gravados para o meio de gravação legível por computador podem ser especialmente projetados ou configurados para a invenção ou podem ser bem conhecidos de um dos versados na técnica do campo de software de computador. Exemplos meio de gravação legível por computador incluem meios magnéticos, incluindo discos rígidos, fitas magnéticas, e disquetes, mídia ótica, incluindo CD-ROMs, e DVDs, mídia magneto-óptica incluindo discos flopticais, e um aparelho de hardware projetado para armazenar e executar os comandos programados na memória somente de leitura (ROM), memória de acesso aleatório (RAM), memórias flash, e semelhantes. Exemplos dos comandos programados incluem não só os códigos de máquina gerados por um compilador, mas também incluem grandes códigos a serem executados em um computador usando um intérprete. O aparelho de hardware pode ser configurado para funcionar como um ou mais módulos de software, de modo a realizar operações para a invenção, ou vice-versa.
[000267] Embora a descrição detalhada tenha sido particularmente descrita com referência às características não óbvias da presente invenção, será entendido por uma pessoa versada na técnica que várias deleções, substituições, e alterações na forma e detalhes do aparelho e do processo acima mencionado podem ser feitas sem distanciamento do espírito e do escopo das reivindicações seguintes.
[000268] Deste modo, o escopo da presente invenção é definido não pela descrição detalhada, mas pelas reivindicações em anexo, e todas as diferenças que fazem parte do escopo serão interpretadas como estando incluídas na presente invenção.

Claims (11)

1. MÉTODO DE RENDERIZAÇÃO DE ELEVAÇÃO DE UM SINAL DE ÁUDIO, o método caracterizado por compreender: receber sinais multicanal incluindo um sinal de canal de entrada de altura; obter os primeiros parâmetros de renderização de elevação para os sinais multicanais; obter um sinal de canal de entrada de altura atrasado mediante aplicar um predeterminado atraso ao sinal de canal de entrada de altura se um rótulo do sinal de canal de entrada de altura for um dos rótulos de canal de altura frontal; obter parâmetros secundários de renderização de elevação com base nos rótulos de dois sinais de canal de saída se o rótulo do sinal de canal de entrada de altura for um dos rótulos de canal de altura frontal, em que os rótulos dos dois sinais de canal de saída são rótulos de canal adjacente; e renderização de elevação dos sinais multicanais e do sinal de canal de entrada de altura atrasado para emitir uma pluralidade de sinais de canal de saída com base nos parâmetros primários de renderização de elevação e nos parâmetros secundários de renderização de elevação se o rótulo do sinal do canal de entrada de altura for um dos rótulos de canal de altura frontal, em que o primeiro e o segundo parâmetros de renderização de elevação compreendem pelo menos um dos ganhos de panning e coeficientes de filtro de elevação, e em que a pluralidade de sinais de canal de saída são sinais de canal horizontal.
3. Método, de acordo com a reivindicação 1, caracterizado por os rótulos de canal de altura frontal compreenderem pelo menos um de CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045 e CH_U_000.
4. Método, de acordo com a reivindicação 1, caracterizado por os rótulos de canal adjacente compreenderem pelo menos um de CH_M_L110 e CH_M_R110.
5. Método, de acordo com a reivindicação 1, caracterizado por o atraso predeterminado ser determinado com base em uma taxa de amostragem dos sinais multicanais.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o atraso predeterminado é determinado com base em uma equação de
Figure img0042
, em que fs é a taxa de amostragem dos sinais multicanais.
7. APARELHO PARA RENDERIZAÇÃO DE UM SINAL DE ÁUDIO DE ELEVAÇÃO, caracterizado por compreender: pelo menos um processador configurado para: receber sinais multicanal incluindo um sinal de canal de entrada de altura; obter parâmetros primários de renderização de elevação para os sinais multicanais; obter um sinal de canal de entrada de altura atrasado mediante aplicar um predeterminado atraso ao sinal de canal de entrada de altura se um rótulo do sinal de canal de entrada de altura for um dos rótulos de canal de altura frontal; obter parâmetros secundários de renderização de elevação com base em rótulos de dois sinais de canal de saída se o rótulo do sinal de canal de entrada de altura for um dos rótulos de canal de altura frontal, em que os rótulos dos dois sinais de canal de saída são rótulos de canal adjacente; e renderização de elevação dos sinais multicanais e do sinal de canal de entrada de altura atrasado para emitir uma pluralidade de sinais de canal de saída com base nos parâmetros primários de renderização de elevação e nos parâmetros secundários de renderização de elevação se o rótulo do sinal do canal de entrada de altura for um dos rótulos de canal de altura frontal, em que os parâmetros primários e secundários de renderização de elevação compreendem pelo menos um dentre ganhos de panning e panorâmica e coeficiente de filtro de elevação, e em que a pluralidade de sinais de canal de saída são sinais de canal horizontal.
8. Aparelho, de acordo com a reivindicação 7, caracterizado por os rótulos de canal de altura frontal compreenderem pelo menos um de CH_U_L030, CH_U_R030, CH_U_L045, CH_U_R045 e CH_U_000.
9. Aparelho, de acordo com a reivindicação 7, caracterizado por os rótulos de canal adjacente compreenderem pelo menos um de CH_M_L110 e CH_M_R110.
10. Aparelho, de acordo com a reivindicação 7, caracterizado por o predeterminado atraso ser determinado com base em uma taxa de amostragem dos sinais multicanais.
11. Aparelho, de acordo com a reivindicação 10, caracterizado por o predeterminado atraso ser determinado com base em uma equação de
Figure img0043
em que fs é a taxa de amostragem dos sinais multicanais.
12. MEIO DE GRAVAÇÃO NÃO TRANSITÓRIO LEGÍVEL POR COMPUTADOR, caracterizado por ter nele gravadas instruções configuradas para serem executadas por um computador para realizar o método de acordo com a reivindicação 1.
BR122022017776-0A 2014-06-26 2015-06-26 Método de renderização de elevação de um sinal de áudio, aparelho para renderização de um sinal de áudio de elevação, e meio de gravação não transitório legível por computador BR122022017776B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462017499P 2014-06-26 2014-06-26
US62/017,499 2014-06-26
PCT/KR2015/006601 WO2015199508A1 (ko) 2014-06-26 2015-06-26 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Publications (1)

Publication Number Publication Date
BR122022017776B1 true BR122022017776B1 (pt) 2023-04-11

Family

ID=54938492

Family Applications (2)

Application Number Title Priority Date Filing Date
BR122022017776-0A BR122022017776B1 (pt) 2014-06-26 2015-06-26 Método de renderização de elevação de um sinal de áudio, aparelho para renderização de um sinal de áudio de elevação, e meio de gravação não transitório legível por computador
BR112016030345-8A BR112016030345B1 (pt) 2014-06-26 2015-06-26 Método de renderização de um sinal de áudio, aparelho para renderização de um sinal de áudio, meio de gravação legível por computador, e programa de computador

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR112016030345-8A BR112016030345B1 (pt) 2014-06-26 2015-06-26 Método de renderização de um sinal de áudio, aparelho para renderização de um sinal de áudio, meio de gravação legível por computador, e programa de computador

Country Status (11)

Country Link
US (3) US10021504B2 (pt)
EP (1) EP3163915A4 (pt)
JP (2) JP6444436B2 (pt)
KR (4) KR102294192B1 (pt)
CN (3) CN110418274B (pt)
AU (3) AU2015280809C1 (pt)
BR (2) BR122022017776B1 (pt)
CA (2) CA2953674C (pt)
MX (2) MX365637B (pt)
RU (2) RU2656986C1 (pt)
WO (1) WO2015199508A1 (pt)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
JP6918777B2 (ja) * 2015-08-14 2021-08-11 ディーティーエス・インコーポレイテッドDTS,Inc. オブジェクトベースのオーディオのための低音管理
EP3453190A4 (en) * 2016-05-06 2020-01-15 DTS, Inc. SYSTEMS FOR IMMERSIVE AUDIO PLAYBACK
US10791153B2 (en) * 2017-02-02 2020-09-29 Bose Corporation Conference room audio setup
KR102483470B1 (ko) * 2018-02-13 2023-01-02 한국전자통신연구원 다중 렌더링 방식을 이용하는 입체 음향 생성 장치 및 입체 음향 생성 방법, 그리고 입체 음향 재생 장치 및 입체 음향 재생 방법
CN109005496A (zh) * 2018-07-26 2018-12-14 西北工业大学 一种hrtf中垂面方位增强方法
EP3726858A1 (en) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Lower layer reproduction
CN113767650B (zh) 2019-05-03 2023-07-28 杜比实验室特许公司 使用多种类型的渲染器渲染音频对象
US11341952B2 (en) 2019-08-06 2022-05-24 Insoundz, Ltd. System and method for generating audio featuring spatial representations of sound sources
TWI735968B (zh) * 2019-10-09 2021-08-11 名世電子企業股份有限公司 音場型自然環境音效系統
CN112911494B (zh) * 2021-01-11 2022-07-22 恒大新能源汽车投资控股集团有限公司 一种音频数据处理方法、装置及设备
DE102021203640B4 (de) * 2021-04-13 2023-02-16 Kaetel Systems Gmbh Lautsprechersystem mit einer Vorrichtung und Verfahren zum Erzeugen eines ersten Ansteuersignals und eines zweiten Ansteuersignals unter Verwendung einer Linearisierung und/oder einer Bandbreiten-Erweiterung

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3427393A (en) * 1992-12-31 1994-08-15 Desper Products, Inc. Stereophonic manipulation apparatus and method for sound image enhancement
AU2002244269A1 (en) * 2001-03-07 2002-09-24 Harman International Industries, Inc. Sound direction system
US7928311B2 (en) * 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
KR100708196B1 (ko) * 2005-11-30 2007-04-17 삼성전자주식회사 모노 스피커를 이용한 확장된 사운드 재생 장치 및 방법
KR101336237B1 (ko) * 2007-03-02 2013-12-03 삼성전자주식회사 멀티 채널 스피커 시스템의 멀티 채널 신호 재생 방법 및장치
CA2684975C (en) * 2007-04-26 2016-08-02 Dolby Sweden Ab Apparatus and method for synthesizing an output signal
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2380365A1 (en) * 2008-12-18 2011-10-26 Dolby Laboratories Licensing Corporation Audio channel spatial translation
JP2011211312A (ja) * 2010-03-29 2011-10-20 Panasonic Corp 音像定位処理装置及び音像定位処理方法
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
JP2012049652A (ja) * 2010-08-24 2012-03-08 Panasonic Corp マルチチャネルオーディオ再生装置およびマルチチャネルオーディオ再生方法
WO2012031605A1 (en) * 2010-09-06 2012-03-15 Fundacio Barcelona Media Universitat Pompeu Fabra Upmixing method and system for multichannel audio reproduction
US20120155650A1 (en) 2010-12-15 2012-06-21 Harman International Industries, Incorporated Speaker array for virtual surround rendering
JP5867672B2 (ja) * 2011-03-30 2016-02-24 ヤマハ株式会社 音像定位制御装置
KR102160248B1 (ko) 2012-01-05 2020-09-25 삼성전자주식회사 다채널 음향 신호의 정위 방법 및 장치
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
MX343564B (es) * 2012-09-12 2016-11-09 Fraunhofer Ges Forschung Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d.
WO2014058275A1 (ko) 2012-10-11 2014-04-17 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
EP2981101B1 (en) 2013-03-29 2019-08-14 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
MX357405B (es) * 2014-03-24 2018-07-09 Samsung Electronics Co Ltd Metodo y aparato de reproduccion de señal acustica y medio de grabacion susceptible de ser leido en computadora.
BR122022016682B1 (pt) * 2014-03-28 2023-03-07 Samsung Electronics Co., Ltd Método de renderização de um sinal acústico, e aparelho para renderização de um sinal acústico

Also Published As

Publication number Publication date
KR20220106087A (ko) 2022-07-28
AU2017279615B2 (en) 2018-11-08
KR102362245B1 (ko) 2022-02-14
US10299063B2 (en) 2019-05-21
CA3041710C (en) 2021-06-01
US20190239021A1 (en) 2019-08-01
CA2953674C (en) 2019-06-18
CN110418274A (zh) 2019-11-05
US10484810B2 (en) 2019-11-19
CN110213709A (zh) 2019-09-06
AU2015280809A1 (en) 2017-02-09
BR112016030345B1 (pt) 2022-12-20
KR102529122B1 (ko) 2023-05-04
JP6600733B2 (ja) 2019-10-30
KR20210110253A (ko) 2021-09-07
US20170223477A1 (en) 2017-08-03
MX2017000019A (es) 2017-05-01
AU2017279615A1 (en) 2018-01-18
JP2017523694A (ja) 2017-08-17
EP3163915A4 (en) 2017-12-20
CA3041710A1 (en) 2015-12-30
JP6444436B2 (ja) 2018-12-26
JP2019062548A (ja) 2019-04-18
WO2015199508A1 (ko) 2015-12-30
RU2018112368A (ru) 2019-03-01
CN106797524B (zh) 2019-07-19
RU2759448C2 (ru) 2021-11-12
AU2015280809C1 (en) 2018-04-26
MX365637B (es) 2019-06-10
RU2656986C1 (ru) 2018-06-07
CN110213709B (zh) 2021-06-15
MX2019006683A (es) 2019-08-21
KR20220019746A (ko) 2022-02-17
US10021504B2 (en) 2018-07-10
CA2953674A1 (en) 2015-12-30
AU2019200907A1 (en) 2019-02-28
EP3163915A1 (en) 2017-05-03
BR112016030345A2 (pt) 2017-08-22
KR20160001712A (ko) 2016-01-06
US20180295460A1 (en) 2018-10-11
KR102294192B1 (ko) 2021-08-26
RU2018112368A3 (pt) 2021-09-01
KR102423757B1 (ko) 2022-07-21
CN110418274B (zh) 2021-06-04
CN106797524A (zh) 2017-05-31
AU2019200907B2 (en) 2020-07-02
AU2015280809B2 (en) 2017-09-28

Similar Documents

Publication Publication Date Title
US10484810B2 (en) Method and device for rendering acoustic signal, and computer-readable recording medium
JP6772231B2 (ja) 音響信号のレンダリング方法、該装置、及びコンピュータ可読記録媒体
BR112016023716B1 (pt) Método de renderização de um sinal de áudio
BR112016022559B1 (pt) Método de renderização de um sinal de áudio, aparelho para renderização de um sinal de áudio, e meio de gravação legível por computador
RU2777511C1 (ru) Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 26/06/2015, OBSERVADAS AS CONDICOES LEGAIS