BR112016023716B1 - Método de renderização de um sinal de áudio - Google Patents

Método de renderização de um sinal de áudio Download PDF

Info

Publication number
BR112016023716B1
BR112016023716B1 BR112016023716-1A BR112016023716A BR112016023716B1 BR 112016023716 B1 BR112016023716 B1 BR 112016023716B1 BR 112016023716 A BR112016023716 A BR 112016023716A BR 112016023716 B1 BR112016023716 B1 BR 112016023716B1
Authority
BR
Brazil
Prior art keywords
rendering
channel
signal
elevation
parameter
Prior art date
Application number
BR112016023716-1A
Other languages
English (en)
Other versions
BR112016023716A2 (pt
Inventor
Sang-Bae Chon
Original Assignee
Samsung Electronics Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co., Ltd filed Critical Samsung Electronics Co., Ltd
Publication of BR112016023716A2 publication Critical patent/BR112016023716A2/pt
Publication of BR112016023716B1 publication Critical patent/BR112016023716B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

MÉTODO DE RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, APARELHO PARA RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, E MEIO DE GRAVAÇÃO LEGÍVEL POR COMPUTADOR. A presente invenção se refere a um método para a reprodução de um sinal de áudio multicanal que inclui um sinal de som de elevação em um ambiente de layout horizontal, obtendo-se, assim, um parâmetro de renderização de acordo com um tipo de renderização e configuração de uma matriz de submistura e, assim, o desempenho eficaz de renderização pode ser obtido em relação a um sinal de áudio que não é adequado para a aplicação de renderização virtual. Um método de renderização de um sinal de áudio inclui receber um sinal multicanal que compreende uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; determinar um tipo de renderização para renderização de elevação com base em um parâmetro determinado a partir de uma característica do sinal multicanal; e renderizar pelo menos um canal de entrada de altura de acordo com o tipo de renderização determinado, em que o parâmetro é incluído em um fluxo de bits do sinal multicanal.

Description

CAMPO TÉCNICO
[0001] A presente invenção se refere a um método e aparelho para a renderização de um sinal de áudio e, mais especificamente, a um método e aparelho para renderização para submistura de um sinal multicanal de acordo com um tipo de renderização.
ANTECEDENTES DA TÉCNICA
[0002] Devido ao desenvolvimento da tecnologia de renderização de imagem e de som, uma grande quantidade de conteúdo de alta de qualidade de imagem e de som foi produzida. Os usuários que exigem conteúdo de alta de qualidade de imagem e de som desejam imagens e som realistas, e, assim, a pesquisa sobre imagem estereoscópica e som estereofônico tem sido conduzida de forma ativa.
[0003] Um som estereofônico indica um som que dá uma detecção de ambiente por reprodução não só de um passo e um tom do som, mas também uma direção tridimensional (3D) incluindo direções horizontais e verticais e uma detecção da distância, e tendo informação espacial adicional pela qual um público, que não está localizado em um espaço onde uma fonte de som é gerada, se torna ciente de uma detecção de direção, uma detecção de distância, e uma detecção de espaço.
[0004] Quando um sinal multicanal, tal como sinal de canal 22.2, é renderizado como um sinal de canal 5.1 através do uso uma tecnologia de renderização virtual, um som estereofônico 3D pode ser reproduzido por meio de um canal de saída bidimensional (2D).
DESCRIÇÃO DETALHADA DA INVENÇÃO PROBLEMA TÉCNICO
[0005] Quando um sinal multicanal, tal como um sinal de 22.2 canal, é renderizado como um sinal de canal 5.1, com o uso de uma tecnologia de renderização virtual, embora sinais áudio tridimensionais (3D) possam ser reproduzidos usando um canal de saída bidimensional (2D), pode não ser adequada a aplicação de renderização virtual de acordo com as características de sinais.
[0006] A presente invenção se refere a um método e um aparelho para reprodução de som estereofônico e, mais especificamente, a um método para reprodução de um sinal de áudio multicanal incluindo um sinal de som de elevação em um ambiente de layout horizontal, obtendo-se, assim, um parâmetro de renderização de acordo com um tipo de renderização, e configuração de uma matriz de submistura.
SOLUÇÃO TÉCNICA
[0007] A configuração representativa da presente invenção para atingir o propósito acima descrito é como segue.
[0008] De acordo com um aspecto de uma modalidade, um método de renderização de um sinal de áudio inclui a recepção de um sinal multicanal que compreende uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; determinação de um tipo de renderização de elevação com base em um parâmetro determinado a partir de uma característica do sinal multicanal; e renderização de pelo menos um canal de entrada de altura de acordo com o tipo de renderização determinado, em que o parâmetro é incluído em um fluxo de bits do sinal multicanal.
EFEITOS VANTAJOSOS DA INVENÇÃO
[0009] Quando um sinal multicanal, tal como um sinal de canal 22.2, é renderizado como um sinal de canal 5.1, com o uso de uma tecnologia de renderização virtual, embora os sinais áudio tridimensionais (3D) possam ser reproduzidos por meio de um canal de saída bidimensional (2D), pode não ser adequado a aplicação de renderização virtual de acordo com as características de sinais.
[00010] A presente invenção se refere a um método para a reprodução de um sinal de áudio multicanal inclui um sinal de som de elevação em um ambiente de layout horizontal, obtendo- se assim um parâmetro de renderização de acordo com um tipo de renderização e configuração de uma matriz de submistura, e assim o desempenho eficaz de renderização pode ser obtido em relação a um sinal de áudio que não é adequado para a aplicação de renderização virtual.
DESCRIÇÃO DOS DESENHOS
[00011] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução de áudio estereofônico de acordo com uma modalidade.
[00012] A FIG. 2 é um diagrama de blocos que ilustra uma configuração de um decodificador e um renderizador acústico tridimensional (3D) no aparelho de reprodução de áudio estereofônico de acordo com uma modalidade.
[00013] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é submisturada a uma pluralidade de canais de saída, de acordo com uma modalidade.
[00014] A FIG. 4 é um diagrama de blocos dos componentes principais de um conversor de formato de renderizador de acordo com uma modalidade.
[00015] A FIG. 5 ilustra uma configuração de um seletor que seleciona um tipo de renderização e uma matriz de submistura com base em um parâmetro de determinação do tipo de renderização, de acordo com uma modalidade.
[00016] A FIG. 6 ilustra uma sintaxe que determina uma configuração do tipo de renderização com base em um parâmetro de determinação do tipo de renderização, de acordo com uma modalidade.
[00017] A FIG. 7 é um fluxograma de um método de renderização de um sinal de áudio, de acordo com uma modalidade.
[00018] A FIG. 8 é um fluxograma de um método de renderização de um sinal de áudio com base em um tipo de renderização, de acordo com uma modalidade.
[00019] A FIG. 9 é um fluxograma de um método de renderização de um sinal de áudio com base em um tipo de renderização, de acordo com outra modalidade.
MELHOR MODO
[00020] As configurações representativas da presente invenção para atingir o propósito descrito acima são como segue.
[00021] De acordo com um aspecto de uma modalidade, um método de renderização de um sinal de áudio inclui a recepção de um sinal multicanal que compreende uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; determinação de um tipo de renderização de elevação com base em um parâmetro determinado a partir de uma característica do sinal multicanal; e renderização de pelo menos um canal de entrada de altura de acordo com o tipo de renderização determinado, em que o parâmetro é incluído em um fluxo de bits do sinal multicanal.
[00022] O sinal multicanal pode ser decodificado por um decodificador de núcleo.
[00023] A determinação do tipo de renderização pode incluir: a determinação do tipo de renderização para cada uma das estruturas do sinal multicanal.
[00024] A renderização de pelo menos um canal de entrada de altura pode incluir: aplicação de diferentes matrizes de submistura obtidas de acordo com o tipo de renderização determinado, para o pelo menos um canal de entrada de altura.
[00025] O método pode incluir ainda: determinar se é necessário realizar a renderização virtual em um sinal de saída, em que, se o sinal de saída não for virtualmente renderizado, a determinação do tipo de renderização compreende: determinar o tipo de renderização para não realizar renderização de elevação.
[00026] A renderização pode incluir: realizar a filtragem de cor de tom espacial sobre o pelo menos um canal de entrada de altura, se o tipo de renderização determinado for um tipo de renderização tridimensional (3D), realizar o panning de localização espacial sobre o pelo menos um canal de entrada de altura; e se o tipo de renderização determinado for um tipo de renderização bidimensional (2D), realizar o panning geral sobre o pelo menos um canal de entrada de altura.
[00027] O desempenho da filtragem de cor de tom espacial pode incluir: corrigir uma cor de tom de som com base em uma função de transferência relacionada à cabeça (HRTF).
[00028] A realização do panning de localização espacial pode incluir: gerar uma imagem de som superior através do panning de sinal multicanal.
[00029] A realização do panning geral pode incluir: a geração de uma imagem de som sobre um plano horizontal por panning do sinal multicanal com base em um ângulo de azimute.
[00030] O parâmetro pode ser determinado com base em um atributo de uma cena de áudio.
[00031] O atributo da cena de áudio pode incluir pelo menos uma correlação entre os canais de um sinal de áudio de entrada e uma largura de banda do sinal de áudio de entrada.
[00032] O parâmetro pode ser criado em um codificador.
[00033] De acordo com um aspecto de outra modalidade, um aparelho para processamento de um sinal de áudio inclui uma unidade de recepção para receber um sinal multicanal que compreende uma pluralidade de canais de entrada para serem convertidos para uma pluralidade de canais de saída; uma unidade de determinação para determinar um tipo de renderização de elevação com base em um parâmetro determinado a partir de uma característica do sinal multicanal; e uma unidade de renderização para renderizar pelo menos um canal de entrada de altura de acordo com o tipo de renderização determinado, em que o parâmetro é incluído em um fluxo de bits do sinal multicanal.
[00034] O aparelho pode ainda incluir: um decodificador de núcleo, em que o sinal multicanal é decodificado pelo decodificador de núcleo.
[00035] A unidade de determinação pode determinar o tipo de renderização para cada uma das estruturas do sinal multicanal.
[00036] A unidade de renderização pode aplicar diferentes matrizes de submistura obtidas de acordo com o tipo de renderização determinado com o pelo menos um canal de entrada de altura.
[00037] O aparelho pode incluir ainda: uma unidade de determinação para determinar se é necessário realizar a renderização virtual em um sinal de saída, em que, se o sinal de saída não for virtualmente renderizado, a unidade de determinação determina o tipo de renderização que não deve realizar renderização de elevação.
[00038] A unidade de renderização pode realizar a filtragem da cor de tom espacial sobre o pelo menos um canal de entrada de altura, se o tipo de renderização determinado é um tipo de renderização 3D, realizar ainda o panning de localização espacial sobre o pelo menos um canal de entrada de altura, e se o tipo de renderização determinado é um tipo de renderização 2D, realizar ainda o panning geral sobre o pelo menos um canal de entrada de altura.
[00039] A filtragem da cor de tom espacial pode corrigir uma cor de tom de som com base em uma função de transferência relacionada à cabeça (HRTF).
[00040] O panning de localização espacial pode gerar uma imagem de som superior através do panning do sinal multicanal.
[00041] O panning geral pode gerar uma imagem de som sobre um plano horizontal por panning do sinal multicanal com base em um ângulo de azimute.
[00042] O parâmetro pode ser determinado com base em um atributo de uma cena de áudio.
[00043] O atributo da cena de áudio pode incluir pelo menos uma das correlações entre os canais de um sinal de áudio de entrada e uma largura de banda do sinal de áudio de entrada.
[00044] O parâmetro pode ser criado em um codificador.
[00045] De acordo com um aspecto de uma outra modalidade, um meio de gravação legível por computador tem gravado no mesmo um programa para realizar o método acima descrito.
[00046] Além disso, um outro método e um outro sistema para a implementação da presente invenção, e um meio de gravação legível por computador tendo gravado no mesmo um programa de computador para realizar o método são, ainda, fornecidos.
MODO DA INVENÇÃO
[00047] A descrição detalhada da presente invenção a ser descrito abaixo se refere aos desenhos anexos que mostram, como exemplos, modalidades específicas em que a presente invenção pode ser realizada. Estas modalidades são descritas em detalhe, de modo que os elementos versados na técnica realizem suficientemente a presente invenção. Deve ser entendido que várias modalidades da presente invenção diferem umas das outras, mas não devem ser exclusivas para cada outra.
[00048] Por exemplo, um formato específico, estrutura e características definidas no presente relatório descritivo podem ser implementados por serem alterados de uma modalidade para uma outra modalidade sem se distanciar do espírito e do escopo da presente invenção. Além disso, deve-se entender que os locais ou um layout de componentes individuais em cada modalidade também pode ser alterado sem se distanciar do espírito e do escopo da presente invenção. Portanto, a descrição detalhada a ser descrita não é para fins de limitação, e deverá ser entendido que o escopo da presente invenção inclui o escopo reivindicado das reivindicações e todos os escopos equivalentes ao escopo reivindicado.
[00049] Os números de referência semelhantes nos desenhos denotam os mesmos elementos ou elementos semelhantes em vários aspectos. Além disso, nos desenhos, partes irrelevantes para a descrição são omitidas para descrever claramente a presente invenção, e números de referência semelhantes indicam elementos semelhantes ao longo do relatório descritivo.
[00050] A seguir, as modalidades da presente invenção serão descritas em detalhe com referência aos desenhos anexos, de modo que os elementos versados na técnica à qual pertence a presente invenção podem facilmente realizar a presente invenção. No entanto, a presente invenção pode ser implementada em várias formas diferentes e não se limita às modalidades aqui descritas.
[00051] Ao longo do relatório descritivo, quando é descrito que um determinado elemento é "conectado" a um outro elemento, isto inclui um caso de "ser diretamente conectado" e um caso de ser "conectado eletricamente" através de outro elemento no meio. Além disso, quando uma determinada parte "inclui" um determinado componente, isto indica que a parte pode incluir ainda um outro componente, em vez de excluir um outro componente a menos que haja divulgação especialmente diferente.
[00052] Daqui em diante, a presente invenção é descrita em detalhe com referência aos desenhos anexos.
[00053] A FIG. 1 é um diagrama de blocos que ilustra uma estrutura interna de um aparelho de reprodução de áudio estereofônico 100 de acordo com uma modalidade.
[00054] Os aparelhos de reprodução de áudio estereofônico 100 de acordo com uma modalidade podem produzir um sinal de áudio multicanal, em que uma pluralidade de canais de entrada é misturada com uma pluralidade de canais de saída a serem reproduzidos. Neste caso, se o número de canais de saída é menor do que o número de canais de entrada, os canais de entrada são submisturados para satisfazer o número de canais de saída.
[00055] Um som estereofônico indica um som tendo uma detecção de ambiente, reproduzindo não só um passo e um tom do som, mas também uma direção e uma detecção de distância, e tendo informação espacial adicional pela qual um público, que não está localizado em um espaço onde uma fonte de som é gerada, está ciente de uma detecção de direção, uma detecção de distância, e uma detecção de espaço.
[00056] Na descrição a seguir, os canais de saída de um sinal de áudio podem indicar o número de alto-falantes através do qual um som é produzido. Quanto maior for o número de canais de saída, maior é o número de alto-falantes através dos quais um som é produzido. De acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 pode processar e misturar um sinal acústico de entrada multicanal para os canais de saída a serem reproduzidos de modo que um sinal de áudio multicanal tendo um maior número de canais de entrada pode ser produzido e reproduzido em um ambiente com um menor número de canais de saída. Neste caso, o sinal de áudio multicanal pode incluir um canal no qual um som elevado pode ser produzido.
[00057] O canal em que um som elevado pode produzido pode indicar um canal no qual um sinal de áudio pode ser produzido por um alto-falante localizado acima das cabeças de um público para que o público detecte a elevação. Um canal horizontal pode indicar um canal no qual um sinal de áudio pode ser produzido por um alto-falante localizado sobre uma superfície horizontal ao público.
[00058] O ambiente acima descrito tendo um menor número de canais de saída pode indicar um ambiente no qual um som pode ser produzido por alto-falantes dispostos sobre a superfície horizontal sem canais de saída através dos quais um som elevado pode ser produzido.
[00059] Além disso, na descrição abaixo, um canal horizontal pode indicar um canal que inclui um sinal de áudio, que pode ser produzido por um alto-falante localizado sobre a superfície horizontal. Um canal superior pode indicar um canal que inclui um sinal de áudio, que pode ser produzido por um alto-falante localizado em uma posição elevada acima da superfície horizontal para produzir um som elevado.
[00060] Com referência à FIG. 1, o aparelho de reprodução de áudio estereofônico 100 de acordo com uma modalidade pode incluir um núcleo de áudio 110, um renderizador 120, um misturador 130, e uma unidade de pós-processamento 140.
[00061] De acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 pode produzir canais a serem reproduzidos por renderização e mistura dos sinais multicanais de entrada de áudio. Por exemplo, o sinal multicanal de entrada de áudio pode ser um sinal de canal 22.2, e os canais de saída a serem reproduzidos podem ser canais 5.1 ou 7.1. O aparelho de reprodução de áudio estereofônico 100 pode realizar a renderização por determinação de um canal de saída para corresponder a cada canal do sinal multicanal de entrada de áudio e misturar os sinais de áudio renderizados por síntese de sinais de canais correspondentes a um canal a ser reproduzido e produzir o sinal sintetizado como um sinal final.
[00062] Um sinal de áudio codificado é introduzido ao núcleo de áudio 110 em um formato de fluxo de bits. O núcleo de áudio 110 descodifica o sinal de áudio de entrada por seleção de uma ferramenta decodificadora adequada para um esquema através do qual o sinal de áudio foi codificado. O núcleo de áudio 110 pode ser usado para ter o mesmo significado que um decodificador de núcleo.
[00063] O renderizador 120 pode renderizar o sinal de áudio de entrada multicanal para um canal de saída multicanal de acordo com os canais e frequências. O renderizador 120 pode realizar renderização tridimensional (3D) e renderização bidimensional (2D) de um sinal de áudio multicanal, incluindo canal superior e o canal horizontal. Uma configuração do renderizador e um método de renderização específico irão ser descritos em mais detalhes com referência à FIG. 2.
[00064] O misturador 130 pode emitir um sinal final sintetizando os sinais de canais correspondentes ao canal horizontal pelo renderizador 120. O misturador 130 pode misturar os sinais de canais para cada seção definida. Por exemplo, o misturador 130 pode misturar os sinais de canais para cada estrutura I.
[00065] De acordo com uma modalidade, o misturador 130 pode realizar a mistura com base nos valores de energia dos sinais renderizados aos respectivos canais a serem reproduzidos. Em outras palavras, o misturador 130 pode determinar uma amplitude do sinal final ou um ganho a ser aplicado ao sinal final com base nos valores de energia dos sinais renderizados para os respectivos canais a serem reproduzidos.
[00066] A unidade de pós-processamento 140 realiza um controle de faixa dinâmica e binauralização de um sinal de multibanda para um sinal de saída do misturador 130 para satisfazer cada dispositivo de reprodução (alto-falante ou fone de ouvido). Um sinal de áudio de saída produzido a partir da unidade de pós-processamento 140 é produzido por um dispositivo tal como um alto-falante, e o sinal de áudio de saída pode ser reproduzido de um modo 2D ou 3D de acordo com o processamento de cada componente.
[00067] O aparelho de reprodução de áudio estereofônico 100 de acordo com a modalidade mostrada na FIG. 1 é mostrado com base em uma configuração de um decodificador de áudio, e uma configuração subsidiária é omitida.
[00068] A FIG. 2 é um diagrama de blocos que ilustra uma configuração do decodificador de núcleo 110 e o renderizador acústico 3D 120 na reprodução de áudio estereofônico 100 de acordo com uma modalidade.
[00069] Com referência à FIG. 2, de acordo com uma modalidade, o aparelho de reprodução de áudio estereofônico 100 é mostrado com base em uma configuração do decodificador 110 e do renderizador acústico 3D 120, e outras configurações são omitidas.
[00070] Uma entrada de sinal de áudio para o aparelho de reprodução de áudio estereofônico 100 é um sinal codificado e é introduzido em um formato de fluxo de bits. O decodificador 110 descodifica o sinal de áudio de entrada por seleção de uma ferramenta decodificadora adequada para um esquema através do qual o sinal de áudio foi codificado e transmite o sinal de áudio decodificado para o renderizador acústico 3D 120.
[00071] Se a renderização elevada é realizada, uma imagem de som virtual elevado 3D pode ser obtida por um layout de canal 5.1, incluindo apenas os canais horizontais. Tal algoritmo de renderização elevada inclui uma filtragem de cor de tom espacial e processo de panning de localização espacial.
[00072] O renderizador acústico 3D 120 inclui uma unidade de inicialização 121 para a obtenção e atualização de um coeficiente de filtro e um coeficiente de panning e uma unidade de renderização 123 para a realização de filtragem e de panning.
[00073] A unidade de renderização 123 realiza a filtragem e panning sobre o sinal de áudio transmitido a partir do decodificador de núcleo 110. Uma unidade de filtragem de cor de tom espacial 1231 processa a informação sobre a localização de um som de modo que um sinal de áudio renderizado é reproduzido em uma localização desejada. Uma unidade de panning de localização espacial 1232 processa a informação sobre um tom do som de modo que o sinal de áudio renderizado tem um tom adequado para o local desejado.
[00074] A unidade de filtragem de cor de tom espacial 1231, está projetada para corrigir um tom de som com base na modelagem da função de transferência relacionados à cabeça (HRTF) e reflete uma diferença de um caminho através do qual um canal de entrada se espalha para um canal de saída. Por exemplo, a unidade de filtragem de cor de tom espacial 1231 pode corrigir um tom de som para amplificar a energia em relação a um sinal de uma banda de frequência de 1 ~ 10 kHz e reduzir a energia em relação a outras bandas, obtendo-se assim um tom de som mais natural.
[00075] A unidade de panning de localização espacial 1232 é projetada para fornecer uma imagem de som superior através do panning multicanal. Diferentes coeficientes de panning (ganho) são aplicados aos canais de entrada. Embora a imagem de som superior possa ser obtida através da realização de panning de localização espacial, uma similaridade entre os canais pode aumentar, o que aumenta as correlações de todas as cenas de áudio. Quando renderização virtual é realizada em uma cena de áudio altamente não correlacionada, um tipo de renderização pode ser determinado com base em uma característica de uma cena de áudio, a fim de evitar que a qualidade de renderização se deteriore.
[00076] Em alternativa, quando um sinal de áudio é produzido, um tipo de renderização pode ser determinado de acordo com a intenção de um produtor de sinal de áudio (criador). Neste caso, o produtor de sinal de áudio pode determinar manualmente a informação sobre o tipo de renderização do sinal de áudio e pode incluir um parâmetro para a determinação do tipo de renderização no sinal de áudio.
[00077] Por exemplo, um codificador gera informações adicionais, como “rendering3DType” (tipo de renderização 3D) que é um parâmetro para determinar um tipo de renderização em uma estrutura de dados codificados e transmite as informações adicionais para o decodificador 110. O decodificador 110 pode reconhecer as informações de “rendering3DType” (tipo de renderização 3D), se o “rendering3DType” (tipo de renderização 3D) indica um tipo de renderização 3D, realizar a filtragem de tom de cor espacial e o panning de localização espacial, e, se o “rendering3DType” (tipo de renderização 3D) indica um tipo de renderização 2D, realizar filtragem de tom de cor espacial e panning geral.
[00078] A este respeito, o panning geral pode ser realizado em um sinal multicanal com base em informações do ângulo de azimute sem considerar a informação do ângulo de elevação de um sinal de áudio de entrada. O sinal de áudio para o qual o panning geral é realizado não fornece uma imagem de som que tem uma detecção de elevação, e, assim, uma imagem de som 2D em um plano horizontal é transferida a um usuário.
[00079] O panning de localização espacial aplicado à renderização em 3D pode ter diferentes coeficientes de panning para cada frequência.
[00080] A este respeito, um coeficiente de filtro a ser usado para a filtragem e um coeficiente de panning a ser usado para um panning são transmitidos a partir da unidade de inicialização 121. A unidade de inicialização 121 inclui uma unidade de obtenção de parâmetro de renderização de elevação 1211 e uma unidade de atualização de parâmetro de renderização de elevação 1212.
[00081] A unidade de obtenção de parâmetro de renderização de elevação 1211 obtém um valor de inicialização de um parâmetro de renderização de elevação usando uma configuração e um layout de canais de saída, ou seja, alto-falantes. A este respeito, o valor de inicialização do parâmetro de renderização de elevação é calculado com base em uma configuração de canais de saída de acordo com um layout de padrão e uma configuração de canais de entrada de acordo com uma configuração de renderização de elevação, ou para o valor de inicialização do parâmetro de renderização de elevação, um valor de inicialização pré-armazenado é lido de acordo com uma relação de mapeamento entre os canais de entrada/saída. O parâmetro de renderização de elevação pode incluir um coeficiente de filtro para ser usado pela unidade de filtragem de cor de tom espacial 1231 ou um coeficiente de panning para ser usado pela unidade de panning de localização espacial 1232.
[00082] No entanto, como descrito acima, um desvio entre um valor de elevação definido para a renderização de elevação e configurações de canais de entrada podem existir. Neste caso, quando um valor de elevação definido fixo é usado, é difícil atingir o objetivo de renderização virtual de um sinal de áudio 3D para reproduzir o sinal de áudio 3D mais semelhante ao som original do sinal de áudio 3D através dos canais de saída tendo uma configuração diferente dos canais de entrada.
[00083] Por exemplo, quando uma detecção de elevação é muito elevada, um fenômeno em que uma imagem de áudio é pequena e a qualidade do som é deteriorada pode ocorrer, e quando uma detecção de elevação é muito baixa, um problema em que é difícil de se perceber um efeito de renderização virtual pode ocorrer. Portanto, é necessário ajustar uma detecção de elevação de acordo com as configurações de um usuário ou um grau de renderização virtual adequado para um canal de entrada.
[00084] A unidade de atualização de parâmetro de renderização de elevação 1212 atualiza o parâmetro de renderização de elevação usando valores de inicialização do parâmetro de renderização de elevação, que são obtidos pela unidade de obtenção de parâmetro de renderização de elevação 1211, com base em informações de elevação de um canal de entrada ou elevação definida por um usuário. A este respeito, se um layout de alto-falante dos canais de saída tem um desvio em comparação com um layout de padrão, um processo para a correção de uma influência de acordo com o desvio pode ser adicionado. O desvio do canal de saída pode incluir informações de desvio de acordo com uma diferença de ângulo de elevação ou uma diferença de ângulo de azimute.
[00085] Um sinal de áudio de saída filtrado e com panning pela unidade de renderização 123 usando o parâmetro de renderização de elevação obtido e atualizado pela unidade de inicialização 121 é reproduzido através de um alto-falante correspondente a cada canal de saída.
[00086] A FIG. 3 ilustra um layout de canais quando uma pluralidade de canais de entrada é submisturada com uma pluralidade de canais de saída de acordo com uma modalidade.
[00087] Para fornecer a mesma detecção ou uma detecção mais exagerada do realismo e detecção de imersão como a realidade como em uma imagem 3D, as técnicas para fornecer um som estereofônico 3D juntamente com uma imagem estereoscópica 3D têm sido desenvolvidos. Um som estereofônico indica um som no qual um sinal de áudio em si gera uma detecção de elevação e uma detecção de espaço de um som, e para reproduzir um som estereofônico, pelo menos, dois alto-falantes, ou seja, canais de saída, são necessários. Além disso, com exceção de um som estereofônico binaural usando a HRTF, um maior número de canais de saída é necessário para reproduzir com mais precisão uma detecção de elevação, uma detecção de distância, e uma detecção de espaço de um som.
[00088] Portanto, um sistema estéreo tendo dois canais de saída e vários sistemas multicanais, tal como um sistema de canal 5.1, um sistema Auro 3D, um sistema de 10.2 canais Holman, um sistema ETRI/Samsung de 10.2 canais, e um sistema NHK de 22.2 canais têm sido propostos e desenvolvidos.
[00089] A FIG. 3 ilustra um caso em que um sinal de áudio 3D do canal 22.2 é reproduzido por um sistema de saída de canal 5.1.
[00090] Um sistema de canal 5.1 é um nome geral de um sistema de som multicanal de cinco canais surround e é o sistema mais popularmente usado como sistemas de som de home theaters e de cinema. Um total de 5.1 canais inclui um canal frontal à esquerda (FL), um canal central (C), um canal frontal à direita (FR), um canal de surround à esquerda (SL) e um canal de surround à direita (SR). Como mostrado na FIG. 3, uma vez que todas as saídas dos 5.1 canais estão no mesmo plano, o sistema de canal 5.1 corresponde fisicamente a um sistema 2D, e para reproduzir um sinal de áudio 3D utilizando o sistema de canal 5.1, um processo de renderização para conceder um efeito 3D para um sinal a ser reproduzido deve ser realizado.
[00091] O sistema de canal 5.1 é amplamente usado em vários campos, não apenas no campo de filme, mas também no campo de imagem de DVD, no campo de som de DVD, no campo de Disco Compacto de Super Áudio (SACD), ou no domínio da radiodifusão digital. No entanto, embora o sistema de canal 5.1 forneça uma melhor sensação de espaço em comparação com um sistema estéreo, existem várias limitações na formação de um espaço de escuta mais amplo em comparação com um método de apresentação de áudio multicanal, como em um sistema de canais 22.2. Em particular, uma vez que um ponto ideal é formado para ser estreito quando a renderização virtual é realizada e uma imagem de áudio vertical tendo um ângulo de elevação não pode ser fornecida quando renderização geral é realizada, o sistema de canal 5.1 pode não ser adequado para um espaço de escuta amplo tal como em um cinema.
[00092] O sistema de canal 22.2 proposto por NHK inclui canais de saída de três camadas, como mostrado na FIG. 3. Uma camada superior 310 inclui um canal de voz de Deus (VOG), um canal T0, canal T180, um canal TL45, um canal TL90, um canal TL135, um canal TR45, um canal TR90, e um canal TR45. Aqui, um índice T que é o primeiro caractere de cada nome de canal indica uma camada superior, os índices L e R indicam a esquerda e direita, respectivamente, e o número após as letras indicam um ângulo de azimute do canal central. A camada superior é geralmente chamada de uma camada de topo.
[00093] O canal de VOG é um canal existente acima das cabeças de um público, tem um ângulo de elevação de 90°, e não tem nenhum ângulo de azimute. No entanto, quando o canal está de VOG localizado de forma errada mesmo um pouco, o canal de VOG tem um ângulo de azimute e um ângulo de elevação, que é diferente de 90° e, portanto, o canal de VOG pode não mais agir como o canal de VOG.
[00094] Uma camada intermediária 320 está no mesmo plano que os canais 5.1 existentes e inclui um canal ML60, um canal ML90, um canal ML135, um canal MR60, um canal MR90, e um canal MR135 além dos canais de saída dos canais 5.1. A este respeito, um índice M, que é o primeiro caractere de cada nome de canal indica uma camada intermediária, e o número seguinte indica um ângulo de azimute do canal central.
[00095] A camada inferior 330 inclui um canal L0, um canal LL45, e um canal LR45. A este respeito, um índice L que é o primeiro caractere do nome de cada canal indica uma camada mais baixa, e o número seguinte indica um ângulo de azimute do canal central.
[00096] Nos canais 22.2, a camada intermediária é chamada de um canal horizontal e os canais de VOG, T0, T180, M180, L e C correspondentes a um ângulo de azimute de 0° ou 180° são chamados canais verticais.
[00097] Quando um sinal de entrada do canal 22.2 é reproduzido utilizando um sistema de canal 5.1, de acordo com o método mais geral, um sinal intercanal pode ser distribuído usando uma expressão de submistura. Em alternativa, a renderização para fornecer uma detecção virtual de elevação pode ser realizada de modo que o sistema de canal 5.1 reproduz um sinal de áudio que tem uma detecção de elevação.
[00098] A FIG. 4 é um diagrama de blocos dos componentes principais de um renderizador de acordo com uma modalidade.
[00099] Um renderizador é um submisturador que converte um sinal de entrada multicanal tendo canais Nin em um formato de reprodução tendo canais Nout e é chamado um conversor de formato. A este respeito, Nout < Nin. A FIG. 4 é um diagrama de blocos dos componentes principais de um conversor de formato configurado a partir de um renderizador com respeito à submistura.
[000100] Um sinal de áudio codificado é introduzido para o decodificador 110 do núcleo em um formato de fluxo de bits. A entrada de sinal para o decodificador de núcleo 110 é decodificada por uma ferramenta decodificadora adequada para um esquema de codificação e é introduzida para um conversor de formato 125.
[000101] O conversor de formato 125 inclui dois blocos principais. Um primeiro bloco principal é uma unidade de configuração de submistura 1251 que realiza o algoritmo de inicialização que é responsável por parâmetros estáticos tais como formatos de entrada e de saída. Um segundo bloco principal é uma unidade de submistura 1252 que submistura um sinal de saída do misturador com base em um parâmetro de submistura obtido usando o algoritmo de inicialização.
[000102] A unidade de configuração de submistura 1251 gera o parâmetro de submistura que é otimizado com base em um layout de saída do misturador que corresponde a um layout de um sinal de canal de entrada e um layout de reprodução que corresponde a um layout de um canal de saída. O parâmetro de submisturador pode ser uma matriz de submistura e é determinado por uma combinação de disponível de dado formato de entrada e canal de saída.
[000103] A este respeito, um algoritmo que seleciona um alto- falante de saída (canal de saída) é aplicado a cada canal de entrada pela regra de mapeamento mais adequada incluída em uma lista de regras de mapeamento na consideração de áudio psicológico. Uma regra de mapeamento é designada para mapear um canal de entrada para um alto-falante de saída ou uma pluralidade de alto-falantes de saída.
[000104] Um canal de entrada pode ser mapeado para um canal de saída ou pode ser de panning em relação a dois canais de saída. Um canal de entrada, tal como um canal de VOG pode ser distribuído a uma pluralidade de canais de saída. Alternativamente, um sinal de entrada pode ser de panning em relação a uma pluralidade de canais de saída com diferentes coeficientes de panning de acordo com as frequências e imersivamente renderizado para gerar uma detecção de ambiente. Um canal de saída apenas tendo um canal horizontal, tal como um canal 5.1 precisa ter um canal de elevação virtual (altura), a fim de gerar uma detecção de ambiente, e, assim, a renderização da elevação é aplicada ao canal de saída.
[000105] O mapeamento ótimo de cada canal de entrada é selecionado de acordo com uma lista de alto-falantes de saída que são suscetíveis de ser renderizados em um formato de saída desejado. Um parâmetro de mapeamento gerado pode incluir não só um ganho de submistura em relação a um canal de entrada, mas também um coeficiente de equalizador (filtro de cor de tom).
[000106] Durante um processo de geração do parâmetro de submistura, quando um canal de saída ultrapassa um layout de padrão, por exemplo, quando o canal de saída tem não só um desvio de elevação ou de azimute, mas também um desvio de distância, um processo de atualização ou correção do parâmetro de submistura a este respeito pode ser adicionado.
[000107] A unidade de submistura 1252 determina um modo de renderização de acordo com um parâmetro que determina um tipo de renderização incluído em um sinal de saída do decodificador de núcleo 110 e submistura um sinal de saída de misturador do decodificador de núcleo 110 de acordo com o modo de renderização determinado. A este respeito, o parâmetro que determina o tipo de renderização pode ser determinado por um codificador que codifica um sinal de multicanal e pode ser incluído no sinal multicanal decodificado pelo decodificador de núcleo 110.
[000108] O parâmetro que determina o tipo de renderização pode ser determinado para cada estrutura de um sinal de áudio e pode ser armazenado em um campo de uma estrutura que mostra a informação adicional. Se o número de tipos de renderização que são suscetíveis de serem renderizados por um renderizador é limitado, o parâmetro que determina o tipo de renderização pode ser possível como um número de bits pequeno e, por exemplo, se dois tipos de renderização são exibidas, pode ser configurado como uma indicação tendo 1 bit.
[000109] A unidade de submistura 1252 realiza a submistura em uma região de frequência e em uma região de sub-banda de filtro de espelho de quadratura híbrida (QMF) e, a fim de evitar a deterioração de um sinal devido a um defeito da filtragem de pente, coloração, ou modulação do sinal, realiza o alinhamento de fase e a normalização de energia.
[000110] O alinhamento de fase é um processo de ajuste das fases de sinais de entrada que têm correlação, mas diferentes fases antes da submistura dos sinais de entrada. O processo de alinhamento de fase alinha apenas canais relacionados com respeito aos mosaicos de tempo-frequência relacionados e não precisa alterar qualquer outra parte do sinal de entrada. Deve-se notar a necessidade de evitar um alinhamento de fase defeituoso uma vez que um intervalo de correção de fase se altera rapidamente para o alinhamento.
[000111] Se o processo de alinhamento de fase é realizado, um passo espectral estreito que ocorre devido a uma resolução de frequência limitada e que não pode ser compensado através de uma normalização de energia pode ser evitado, e, assim, a qualidade de um sinal de saída pode ser melhorada. Além disso, não há necessidade para amplificar um sinal durante a normalização de preservação de energia e, assim, um defeito de modulação pode ser reduzido.
[000112] Na renderização de elevação, o alinhamento de fase não é realizado para a sincronização precisa de um sinal multicanal renderizado com respeito a um sinal de entrada de uma banda de alta frequência.
[000113] Durante a submistura, a normalização de energia é realizada para preservar a energia de entrada e não é realizada quando uma matriz de submistura em si realiza escalonamento de energia.
[000114] A FIG. 5 ilustra uma configuração de um seletor que seleciona um tipo de renderização e uma matriz de submistura com base em um parâmetro de determinação do tipo de renderização, de acordo com uma modalidade.
[000115] De acordo com uma modalidade, o tipo de renderização é determinado com base em um parâmetro que determina o tipo de renderização e a renderização é realizada de acordo com o tipo de renderização determinado. Se o parâmetro que determina o tipo de renderização é uma indicação de “rendering3DType” (tipo de renderização 3D) tendo um tamanho de 1 bit, o seletor opera para realizar a renderização 3D se “rendering3DType” (tipo de renderização 3D) é 1(VERDADEIRO) e realiza a renderização 2D se “rendering3DType” (tipo de renderização 3D) é 0(FALSO) e é mudado de acordo com um valor de “rendering3DType” (tipo de renderização 3D).
[000116] A este respeito, M_DMX é selecionado como uma matriz de submistura para renderização 3D, e M_DMX2 é selecionado como uma matriz de submistura para renderização 2D. Cada uma das matrizes de submistura M_DMX e M_DMX2 é selecionada pela unidade de inicialização 121 da FIG. 2 ou pela unidade de configuração de submistura 1251 da FIG. 4. M_DMX é uma matriz de submistura básica para renderização de elevação espacial, incluindo um coeficiente de submistura (ganho) que é um número real não negativo. Um tamanho de M_DMX é (Nout x Nin) onde Nout denota o número de canais de saída e Nin denota o número de canais de entrada. M_DMX2 é uma matriz de submistura básica para renderização de elevação timbral incluindo um coeficiente de submistura (ganho), que é um número real não negativo. Um tamanho de M_DMX2 é (Nout x Nin) como M_DMX.
[000117] Um sinal de entrada é submisturado para cada sub-banda de frequência QMF híbrida com o uso de uma matriz de submistura adequada para cada tipo de renderização de acordo com um tipo de renderização selecionado.
[000118] A FIG. 6 ilustra uma sintaxe que determina uma configuração do tipo de renderização com base em um parâmetro de determinação do tipo de renderização de acordo com uma modalidade.
[000119] Do mesmo modo como mostrado na FIG. 5, um parâmetro que determina um tipo de renderização é uma indicação “rendering3DType” (tipo de renderização 3D) tendo um tamanho de 1 bit, e RenderingTypeConfig() (configuração do tipo de renderização) define um tipo de renderização apropriada para uma conversão de formato.
[000120] A indicação “rendering3DType” (tipo de renderização 3D) pode ser gerada por um codificador. A este respeito, “rendering3DType” (tipo de renderização 3D) pode ser determinada com base na cena de áudio de um sinal de áudio. Se a cena de áudio é um sinal de banda larga ou é um sinal altamente descorrelacionado como o som da chuva ou o som de aplausos, etc. “rendering3DType” (tipo de renderização 3D) é FALSO, e, portanto, o sinal multicanal é submisturado usando M_DMX2 que é uma matriz de submistura para renderização 2D. Em outros casos, “rendering3DType” (tipo de renderização 3D) é VERDADEIRO com relação a uma cena de áudio geral, e assim o sinal multicanal é submisturado usando M_DMX que é uma matriz de submistura para renderização 3D.
[000121] Alternativamente, “rendering3DType” (tipo de renderização 3D) pode ser determinado de acordo com a intenção de um de um produtor de sinal de áudio (criador). O criador submistura um sinal de áudio (estrutura) definido para realizar a renderização 2D usando M_DMX2 que é uma matriz de submistura para renderização 2D. Em outros casos, “rendering3DType” (tipo de renderização 3D) é VERDADEIRO com respeito a uma cena de áudio geral e, assim, o criador submistura um sinal de áudio (estrutura) usando M_DMX que é uma matriz de submistura para renderização 3D.
[000122] A este respeito, quando a renderização 3D é realizada, tanto o filtro de cor de tom espacial quanto o panning de localização espacial são realizados, enquanto que, quando renderização 2D é realizada, somente a filtragem de cor de tom espacial é realizada.
[000123] A FIG. 7 é um fluxograma de um método de renderização de um sinal de áudio de acordo com uma modalidade.
[000124] Se um sinal multicanal decodificado pelo decodificador de núcleo 110 é introduzido para o conversor de formato 125 ou para o renderizador 120, um valor de inicialização de um parâmetro de renderização é obtido com base em um layout de padrão de canais de entrada e canais de saída (operação 710). A este respeito, o valor de inicialização do parâmetro de renderização pode ser obtido de forma diferente determinada de acordo com um tipo de renderização que é suscetível de ser renderizado pelo renderizador 120 e pode ser armazenado em uma memória não volátil, tal como uma memória somente de leitura (ROM) de um sistema de reprodução de sinal de áudio.
[000125] Um valor de inicialização de um parâmetro de renderização de elevação é calculado com base em uma configuração de canais de saída de acordo com um layout de padrão e uma configuração de canais de entrada de acordo com uma configuração de renderização de elevação, ou para o valor de inicialização do parâmetro de renderização de elevação, um valor de inicialização pré-armazenado é lido de acordo com uma relação de mapeamento entre os canais de entrada/saída. O parâmetro de renderização de elevação pode incluir um coeficiente de filtro a ser usado pela unidade de filtragem de cor de tom espacial 1231 da FIG. 2 ou um coeficiente de panning a ser usado pela unidade de panning de localização espacial 1232 da FIG. 2.
[000126] A este respeito, se os layouts de canais de entrada/saída são idênticos para todos os layouts de padrão, a renderização pode ser realizada usando o valor de inicialização do parâmetro de renderização obtido em 710. No entanto, quando um desvio entre um valor de elevação definido para renderização e as configurações de canais de entrada existe ou um desvio entre um layout no qual um alto-falante está realmente instalado e um layout de padrão de canais de saída existe, se o valor de inicialização obtido na operação 710 é usado para a renderização da forma que é, um fenômeno no qual um sinal distorcido ou renderizado de uma imagem de som é produzido em um local que não é um local original ocorre.
[000127] Portanto, o parâmetro de renderização é atualizado com base em um desvio entre o layout de padrão dos canais de entrada/saída e um layout real (operação 720). A este respeito, o parâmetro de renderização atualizado pode ser diferente determinado de acordo com um tipo de renderização que é suscetível de ser renderizado pelo renderizador 120.
[000128] O parâmetro de renderização atualizado pode ter um formato de matriz tendo um tamanho de Nin x Nout para cada sub-banda QMF híbrida de acordo com cada tipo de renderização. Nin denota o número de canais de entrada. Nout denota o número de canais de saída. A este respeito, uma matriz que apresenta o parâmetro de renderização é chamada uma matriz de submistura. M_DMX denota uma matriz de submistura para renderização 3D. M_DMX2 denota uma matriz de submistura para renderização 2D.
[000129] Se as matrizes de submistura M_DMX e M_DMX2 são determinadas, um tipo de renderização adequado para uma estrutura atual é determinado com base em um parâmetro que determina o tipo de renderização (operação 730).
[000130] O parâmetro que determina o tipo de renderização pode ser incluído em um fluxo de bits introduzido a um decodificador de núcleo ao ser gerado quando um codificador codifica um sinal de áudio. O parâmetro que determina o tipo de renderização pode ser determinado de acordo com uma característica de uma cena de áudio da estrutura atual. Quando o sinal de áudio tem muitos sinais transientes, tais como o som de aplausos ou o som da chuva, uma vez que existem muitos sinais instantâneos e temporários, a cena de áudio tem uma característica de uma baixa correlação entre os canais.
[000131] Quando um sinal altamente descorrelacionado entre canais ou um sinal de banda larga atonal em uma pluralidade de canais de entrada existe, os níveis de sinais são semelhantes para cada canal, ou uma forma de impulso de uma pequena seção é repetida, se um sinal de uma pluralidade de canais é submisturada para um canal, um fenômeno "phaseyness", em que um efeito de deslocamento ocorre devido a uma interferência mútua de frequência de modo que um tom de som se altera e um fenômeno de distorção da cor de tom em que o número de sinais transitórios para um canal aumenta de modo que o clareamento do som ocorre.
[000132] Neste caso, pode ser preferencial realizar a renderização de elevação timbral como renderização 2D, em vez da renderização de elevação espacial como a renderização 3D.
[000133] Portanto, como um resultado da análise da característica da cena de áudio, o tipo de renderização pode ser determinado como um tipo de renderização 3D em um caso normal, e o tipo de renderização pode ser determinado como um tipo de renderização 2D se existe um sinal de banda larga ou existe um sinal altamente descorrelacionado entre canais.
[000134] Se o tipo de renderização adequado para a estrutura atual é determinado, um tipo de renderização com base no tipo de renderização determinado é obtido (operação 740). A estrutura atual é renderizada com base no tipo de renderização obtido (operação 750).
[000135] Se o tipo de renderização determinado é um tipo de renderização 3D, uma unidade de armazenamento que armazena a matriz de submistura pode obter M_DMX que é a matriz de submistura para renderização 3D. A matriz de submistura M_DMX submistura um sinal de canais de entrada Nin com respeito a uma sub-banda QMF híbrida para canais de saída Nout usando uma matriz que tem um tamanho de Nin x Nout para cada sub-banda QMF híbrida.
[000136] Se o tipo de renderização determinado é um tipo de renderização 2D, uma unidade de armazenamento que armazena a matriz de submistura pode obter M_DMX2 que é a matriz de submistura para renderização 2D. A matriz de submistura M_DMX2 submistura um sinal de canais de entrada Nin com respeito a uma sub-banda QMF híbrida para canais de saída Nout usando uma matriz tendo um tamanho de Nin x Nout para cada sub-banda QMF híbrida.
[000137] Um processo para determinar o tipo de renderização adequado para a estrutura atual (operação 730), obter o tipo de renderização com base no tipo de renderização determinado (operação 740), e renderizar a estrutura atual com base no tipo de renderização obtido (operação 750) é realizado para cada estrutura repetidamente até uma entrada do sinal multicanal decodificado pelo decodificador de núcleo terminar.
[000138] A FIG. 8 é um fluxograma de um método de renderização de um sinal de áudio com base em um tipo de renderização de acordo com uma modalidade.
[000139] Na modalidade da FIG. 8, a operação 810 para determinar se a renderização de elevação é possível a partir de uma relação entre os canais de entrada/saída é adicionada.
[000140] Se renderização de elevação é possível ela é determinada com base em uma prioridade de regras de submistura de acordo com os canais de entrada e um layout de reprodução.
[000141] Se a renderização de elevação não é realizada com base na prioridade de regras de submistura de acordo com os canais de entrada e o layout reprodução, um parâmetro de renderização sem elevação é obtido (operação 850) a fim de realizar a renderização sem elevação.
[000142] Se a renderização de elevação é possível como resultado da determinação na operação 810, um tipo de renderização é determinado a partir de um parâmetro de tipo de renderização de elevação (operação 820). Se o parâmetro do tipo de renderização de elevação indica a renderização 2D, o tipo de renderização é determinado como um tipo de renderização 2D, e um parâmetro de renderização 2D para renderização 2D é obtido (operação 830). Entretanto, se o parâmetro de tipo de renderização de elevação indica renderização 3D, o tipo de renderização é determinado como um tipo de renderização 3D, e um parâmetro de renderização 3D para renderização 3D é obtido (operação 840).
[000143] O parâmetro de renderização obtido através de um processo descrito acima é um parâmetro de renderização de um canal de entrada. Um parâmetro de renderização para cada canal é obtido repetindo o mesmo processo em cada canal de entrada e é usado para obter todas as matrizes de submistura com respeito a todos os canais de entrada (operação 860). Uma matriz de submistura é uma matriz para renderizar o sinal de entrada por submistura de um sinal de canal de entrada para um sinal de canal de saída e tem um tamanho de Nin x Nout para cada sub-banda QMF híbrida.
[000144] Se a matriz de submistura é obtida, o sinal do canal de entrada é submisturado usando a matriz de submistura obtida (operação 870) para gerar um sinal de saída.
[000145] Se o parâmetro de tipo de renderização de elevação existe para cada estrutura de um sinal decodificado, um processo de operações 810 a 870 da FIG. 8 é realizado repetidamente para cada estrutura. Se o processo em uma última estrutura for concluído, todo um processo de renderização termina.
[000146] A este respeito, quando a renderização sem elevação é realizada, a submistura ativa é realizada em todas as bandas de frequência. Quando renderização de elevação é realizada, o alinhamento de fase é realizado em apenas uma banda de baixa frequência e não é realizado em uma banda de alta frequência. O alinhamento de fase não é realizado na banda de alta frequência por causa de uma sincronização precisa de um sinal multicanal renderizado como descrito acima.
[000147] A FIG. 9 é um fluxograma de um método de renderização de um sinal de áudio com base em um tipo de renderização de acordo com outra modalidade.
[000148] Na modalidade da FIG. 9, a operação 910 para determinar se um canal de saída é um canal virtual é adicionada. Se o canal de saída não é o canal virtual, uma vez que não é necessário realizar a renderização de elevação ou renderização virtual, a renderização sem elevação é realizada com base em uma prioridade das regras de submistura válidas. Assim, um parâmetro de renderização para renderização sem elevação é obtido (operação 960) a fim de realizar a renderização sem elevação.
[000149] Se o canal de saída é o canal virtual, o fato de se a renderização de elevação é possível é determinado a partir de uma relação entre os canais de entrada/saída (operação 920). O fato de se a renderização de elevação é possível é determinado com base em uma prioridade de regras de submistura de acordo com os canais de entrada e um layout de reprodução.
[000150] Se a renderização de elevação não é realizada com base na prioridade de regras de submistura de acordo com os canais de entrada e o layout de reprodução, um parâmetro de renderização sem elevação é obtido (operação 960) a fim de realizar a renderização sem elevação.
[000151] Se a renderização de elevação é possível como resultado da determinação na operação 920, um tipo de renderização é determinado a partir de um parâmetro de tipo de renderização de elevação (operação 930). Se o parâmetro do tipo de renderização de elevação indica renderização 2D, o tipo de renderização é determinado como um tipo de renderização 2D, e um parâmetro de renderização 2D para renderização 2D é obtido (operação 940). Entretanto, se o parâmetro de tipo de renderização de elevação indica renderização 3D, o tipo de renderização é determinado como um tipo de renderização 3D, e um parâmetro de renderização 3D para renderização 3D é obtido (operação 950).
[000152] A renderização 2D e a renderização 3D são, respectivamente, usadas em conjunto com a renderização de elevação timbral e a renderização de elevação espacial.
[000153] O parâmetro de renderização obtido através de um processo descrito acima é um parâmetro de renderização de um canal de entrada. Um parâmetro de renderização para cada canal é obtido repetindo o mesmo processo em cada canal de entrada e é usado para obter todas as matrizes de submistura com respeito a todos os canais de entrada (operação 970). Uma matriz de submistura é uma matriz para renderizar o sinal de entrada por submistura de um sinal de canal de entrada para um sinal de canal de saída e tem um tamanho de Nin x Nout para cada sub-banda QMF híbrida.
[000154] Se a matriz de submistura é obtida, o sinal do canal de entrada é submisturado usando a matriz de submistura obtida (operação 980) para gerar um sinal de saída.
[000155] Se o parâmetro de tipo de renderização de elevação existe para cada estrutura de um sinal decodificado, um processo de operações 910 a 980 da FIG. 9 é realizado repetidamente para cada estrutura. Se o processo em uma última estrutura for concluído, todo um processo de renderização termina.
[000156] As modalidades acima descritas da presente invenção podem ser implementadas como instruções de computador que podem ser realizadas por vários meios de computador, e gravadas em um meio de gravação legível por computador. O meio de gravação legível por computador pode incluir comandos de programa, arquivos de dados, estruturas de dados, ou uma combinação dos mesmos. Os comandos de programa gravados no meio de gravação legível por computador podem ser especialmente projetados e construídos para a presente invenção ou podem ser conhecidos e utilizáveis por aqueles versados na técnica de um campo de software de computador. Exemplos de meio legível por computador incluem meios magnéticos, como discos rígidos, disquetes e fitas magnéticas, suportes de gravação óptica, como CD-ROMs compactos e DVDs, mídias magneto-ópticas, tais como discos flopticais, e dispositivos de hardware que são especialmente configurados para armazenar e transportar comandos do programa, tais como ROMs, RAMs e memórias flash. Exemplos de comandos de programa incluem um código de linguagem de alto nível, que pode ser realizado por um computador usando um intérprete, bem como um código de linguagem de máquina produzido por um compilador. Os dispositivos de hardware podem ser alterados para um ou mais módulos de software para realizar o processamento de acordo com a presente invenção, e vice-versa.
[000157] Embora a presente invenção tenha sido descrita com referência às características específicas, tais como componentes detalhados, as modalidades limitadas e os desenhos, elas são fornecidas apenas para auxiliar na compreensão geral da presente invenção, e a presente invenção não está limitada às modalidades, e os elementos versados na técnica à qual pertence a presente invenção podem realizar várias alterações e modificações das modalidades aqui descritas.
[000158] Como consequência, a ideia da presente invenção não deve ser definida apenas pelas modalidades descritas acima, e nas reivindicações anexas, ou seus equivalentes, todos os escopos equivalentemente alterados da mesma pertencem ao escopo da ideia da presente invenção.

Claims (4)

1. MÉTODO DE RENDERIZAÇÃO DE UM SINAL DE ÁUDIO, o método caracterizado por compreender: receber uma pluralidade de sinais de canal de entrada, incluindo pelo menos um sinal de canal de entrada de altura; determinar se um canal de saída, correspondendo a um sinal de canal de entrada de altura entre o pelo menos um sinal de canal de entrada de altura, é um canal virtual; determinar se a renderização de elevação é possível com base em uma tabela predeterminada para mapear o sinal do canal de entrada de altura para uma pluralidade de sinais do canal de saída; quando o canal de saída correspondente ao sinal do canal de entrada de altura é o canal virtual e a renderização de elevação é possível, obtendo um parâmetro de renderização de elevação; quando o canal de saída correspondente ao sinal do canal de entrada de altura não é o canal virtual, obtendo um parâmetro de renderização sem elevação; e obtenção de uma matriz de submistura, para converter a pluralidade de sinais de canal de entrada na pluralidade de sinais de canal de saída, com base em pelo menos um dentre o parâmetro de renderização de elevação e o parâmetro de renderização de não elevação.
2. Método, de acordo com a reivindicação 1, caracterizado por a matriz de submistura compreender pelo menos um de uma primeira matriz de submistura para renderização em 3D e uma segunda matriz de submistura para renderização em 2D.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que compreende ainda: receber um fluxo de bits incluindo um rendering3DType; e quando o rendering3DType for verdadeiro, selecionando a primeira matriz de submistura, e quando o rendering3DType for falso, selecionando a segunda matriz de submistura.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que um layout de acordo com a pluralidade de sinais de canal de saída é um de um layout de canal 5.1 ou um layout de canal 5.0.
BR112016023716-1A 2014-04-11 2015-04-13 Método de renderização de um sinal de áudio BR112016023716B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461978279P 2014-04-11 2014-04-11
US61/978,279 2014-04-11
PCT/KR2015/003680 WO2015156654A1 (ko) 2014-04-11 2015-04-13 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
BR112016023716A2 BR112016023716A2 (pt) 2017-08-15
BR112016023716B1 true BR112016023716B1 (pt) 2023-04-18

Family

ID=54288140

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016023716-1A BR112016023716B1 (pt) 2014-04-11 2015-04-13 Método de renderização de um sinal de áudio

Country Status (11)

Country Link
US (4) US10674299B2 (pt)
EP (1) EP3131313B1 (pt)
JP (2) JP6383089B2 (pt)
KR (4) KR102392773B1 (pt)
CN (2) CN110610712B (pt)
AU (2) AU2015244473B2 (pt)
BR (1) BR112016023716B1 (pt)
CA (2) CA3183535A1 (pt)
MX (1) MX357942B (pt)
RU (3) RU2646320C1 (pt)
WO (1) WO2015156654A1 (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI631553B (zh) * 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
EP3304929B1 (en) * 2015-10-14 2021-07-14 Huawei Technologies Co., Ltd. Method and device for generating an elevated sound impression
EP3424403B1 (en) * 2016-03-03 2024-04-24 Sony Group Corporation Medical image processing device, system, method, and program
US10327091B2 (en) * 2016-11-12 2019-06-18 Ryan Ingebritsen Systems, devices, and methods for reconfiguring and routing a multichannel audio file
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US10939222B2 (en) 2017-08-10 2021-03-02 Lg Electronics Inc. Three-dimensional audio playing method and playing apparatus
EP3499917A1 (en) * 2017-12-18 2019-06-19 Nokia Technologies Oy Enabling rendering, for consumption by a user, of spatial audio content
EP3987825A1 (en) * 2019-06-20 2022-04-27 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
KR20210072388A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
EP4118846A1 (en) * 2020-03-13 2023-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for rendering an audio scene using valid intermediate diffraction paths
US11576005B1 (en) * 2021-07-30 2023-02-07 Meta Platforms Technologies, Llc Time-varying always-on compensation for tonally balanced 3D-audio rendering

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101897A1 (en) * 2004-04-16 2005-10-27 Smart Internet Technology Crc Pty Ltd Apparatuses and methods for use in creating an audio scene
KR100885700B1 (ko) * 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
DE102006053919A1 (de) * 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
EP2595151A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transcoding apparatus
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
US20080234244A1 (en) 2007-03-19 2008-09-25 Wei Dong Xie Cucurbitacin b and uses thereof
WO2008120933A1 (en) 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
CN101809654B (zh) * 2007-04-26 2013-08-07 杜比国际公司 供合成输出信号的装置和方法
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
KR101342425B1 (ko) 2008-12-19 2013-12-17 돌비 인터네셔널 에이비 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하기 위한 방법 및 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하도록 구성된 리버브레이터
JP2011066868A (ja) 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
KR20120004909A (ko) 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8948406B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
ES2922639T3 (es) * 2010-08-27 2022-09-19 Sennheiser Electronic Gmbh & Co Kg Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
WO2012125855A1 (en) 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
US9754595B2 (en) * 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
HUE054452T2 (hu) * 2011-07-01 2021-09-28 Dolby Laboratories Licensing Corp Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére
KR102394141B1 (ko) 2011-07-01 2022-05-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
KR102160248B1 (ko) 2012-01-05 2020-09-25 삼성전자주식회사 다채널 음향 신호의 정위 방법 및 장치
EP2645749B1 (en) * 2012-03-30 2020-02-19 Samsung Electronics Co., Ltd. Audio apparatus and method of converting audio signal thereof
EP2741286A4 (en) 2012-07-02 2015-04-08 Sony Corp DECODING DEVICE AND METHOD, CODING DEVICE AND METHOD AND PROGRAM
US10140995B2 (en) 2012-07-02 2018-11-27 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
EP2875511B1 (en) * 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9564138B2 (en) 2012-07-31 2017-02-07 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
EP3253079B1 (en) 2012-08-31 2023-04-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
KR101859453B1 (ko) 2013-03-29 2018-05-21 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
CA2943670C (en) 2014-03-24 2021-02-02 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium

Also Published As

Publication number Publication date
CA2945280C (en) 2023-03-07
JP6674981B2 (ja) 2020-04-01
JP2017514422A (ja) 2017-06-01
US10674299B2 (en) 2020-06-02
KR102258784B1 (ko) 2021-05-31
EP3131313A1 (en) 2017-02-15
US20200252736A1 (en) 2020-08-06
EP3131313A4 (en) 2017-12-13
KR20220062131A (ko) 2022-05-13
CN110610712B (zh) 2023-08-01
MX357942B (es) 2018-07-31
MX2016013352A (es) 2017-01-26
AU2015244473A1 (en) 2016-11-10
EP3131313B1 (en) 2024-05-29
KR102574478B1 (ko) 2023-09-04
AU2018208751B2 (en) 2019-11-28
AU2018208751A1 (en) 2018-08-16
RU2698775C1 (ru) 2019-08-29
KR20160145646A (ko) 2016-12-20
US10873822B2 (en) 2020-12-22
US11245998B2 (en) 2022-02-08
US11785407B2 (en) 2023-10-10
CN106664500B (zh) 2019-11-01
JP6383089B2 (ja) 2018-08-29
CN106664500A (zh) 2017-05-10
WO2015156654A1 (ko) 2015-10-15
KR20210064421A (ko) 2021-06-02
JP2018201225A (ja) 2018-12-20
CA3183535A1 (en) 2015-10-15
KR102302672B1 (ko) 2021-09-15
US20220132259A1 (en) 2022-04-28
US20210120354A1 (en) 2021-04-22
RU2676415C1 (ru) 2018-12-28
RU2646320C1 (ru) 2018-03-02
CN110610712A (zh) 2019-12-24
US20170034639A1 (en) 2017-02-02
AU2015244473B2 (en) 2018-05-10
BR112016023716A2 (pt) 2017-08-15
CA2945280A1 (en) 2015-10-15
KR20210114558A (ko) 2021-09-23
KR102392773B1 (ko) 2022-04-29

Similar Documents

Publication Publication Date Title
US11785407B2 (en) Method and apparatus for rendering sound signal, and computer-readable recording medium
US10382877B2 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
BR112016022042B1 (pt) Método para renderizar um sinal de áudio, aparelho para renderizar um sinal de áudio, e meio de gravação legível por computador
BR122022017776B1 (pt) Método de renderização de elevação de um sinal de áudio, aparelho para renderização de um sinal de áudio de elevação, e meio de gravação não transitório legível por computador
BR112016016008B1 (pt) Método para renderizar um sinal de áudio

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 13/04/2015, OBSERVADAS AS CONDICOES LEGAIS