BR112021010972A2 - Aparelho e método para gerar uma descrição de campo de som - Google Patents

Aparelho e método para gerar uma descrição de campo de som Download PDF

Info

Publication number
BR112021010972A2
BR112021010972A2 BR112021010972-2A BR112021010972A BR112021010972A2 BR 112021010972 A2 BR112021010972 A2 BR 112021010972A2 BR 112021010972 A BR112021010972 A BR 112021010972A BR 112021010972 A2 BR112021010972 A2 BR 112021010972A2
Authority
BR
Brazil
Prior art keywords
order
sound field
component
signal
input signal
Prior art date
Application number
BR112021010972-2A
Other languages
English (en)
Inventor
Guillaume Fuchs
Oliver Thiergart
Srikanth KORSE
Stefan DÖHLA
Markus Multrus
Fabian KÜCH
Alexandre BOUTHÉON
Andrea EICHENSEER
Stefan Bayer
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112021010972A2 publication Critical patent/BR112021010972A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

aparelho e método para gerar uma descrição de campo de som. trata-se de um aparelho para gerar uma descrição de campo de som que usa um sinal de entrada que compreende um sinal mono ou um sinal multicanal que compreende: um analisador de sinal de entrada (600) para analisar o sinal de entrada para derivar dados de direção e dados de difusão; um gerador de componentes de ordem inferior (810) para gerar uma descrição do campo de som de ordem inferior a partir do sinal de entrada até uma ordem e modo predeterminados, em que o gerador de componentes de ordem inferior é configurado para derivar a descrição do campo de som de ordem inferior copiando-se ou tomando-se o sinal de entrada ou realizando-se uma combinação ponderada dos canais do sinal de entrada; um gerador de componentes de ordem média (820) para gerar uma descrição de campo de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo ou em uma primeira ordem de truncamento, usando uma síntese de pelo menos uma porção direta e de pelo menos uma porção difusa, usando os dados de direção e os dados de difusão, de modo que a descrição do campo de som de ordem média compreenda uma contribuição direta e uma contribuição difusa; e um gerador de componentes de ordem superior (830) para gerar uma descrição de campo de som de ordem superior com um componente acima da primeira ordem de truncamento, usando uma síntese de pelo menos uma porção direta, em que a descrição de campo de som de ordem superior compreende apenas uma contribuição direta.

Description

Relatório Descritivo da Patente de Invenção para “APARELHO E MÉTODO PARA GERAR UMA DESCRIÇÃO DE CAMPO DE SOM”
RELATÓRIO DESCRITIVO
[001] A presente invenção refere-se à codificação de áudio e, particularmente, a geração de uma descrição de campo de som a partir de um sinal de entrada usando um ou mais geradores de componentes de som.
[002] A técnica de Codificação de Áudio Direcional (DirAC) [1] é uma abordagem eficiente para a análise de reprodução de som espacial. A DirAC usa uma representação perceptivamente motivada do campo de som com base na direção de chegada (DOA) e difusão medida por faixa de frequência. Esta é construída sobre a suposição de que em um instante de tempo e em uma faixa crítica, a resolução espacial de sistema auditivo é limitada a decodificar uma indicação para direção e uma outra para coerência interauricular. O som espacial é então representado no domínio de frequência por meio de fading cruzado de duas transmissões contínuas: transmissão contínua difusa não direcional e uma transmissão contínua não difusa direcional.
[003] A DirAC foi originalmente planejada para formato de som B mas também pode se estender para sinais de microfone que correspondem a instalações de alto- falantes específicos como 5.1 [2] ou quaisquer arranjos de configuração de microfone
[5]. No último caso, mais flexibilidade pode ser alcançada por meio da gravação dos sinais, não para uma instalação de alto-falante específica, mas, em vez disso, para gravação dos sinais de um formato intermediário.
[004] Tal formato intermediário, que é bem estabelecido na prática, é representado por Ambissônico (de ordem superior) [3]. Por meio de um sinal Ambissônico, pode-se gerar os sinais de cada instalação de alto-falante desejada incluindo sinais biauriculares para reprodução em fones de ouvido. Isso exige um renderizador específico que é aplicado ao sinal Ambissônico, usando seja um renderizador Ambissônico linear [3] ou um renderizador paramétrico como a Codificação de Áudio Direcional (DirAC).
[005] Um sinal Ambissônico pode ser representado como um sinal multicanal em que cada canal (referido como componente Ambissônico) é equivalente ao coeficiente de uma chamada função de base espacial.Com uma soma ponderada dessas funções de base espaciais (com os pesos sendo correspondentes aos coeficientes) pode-se recriar o campo de som original no local de gravação [3]. Portanto, os coeficientes da função de base espacial (ou seja, os componentes Ambissônicos) representam uma descrição compacta do campo de som no local de gravação. Existem diferentes tipos de funções de base espaciais, por exemplo, harmônicos esféricos (SHs) [3] ou harmônicos cilíndricos (CHs) [3]. CHs podem ser usados ao descrever o campo de som no espaço 2D (por exemplo, para reprodução de som 2D) enquanto SHs podem ser usados para descrever o campo de som no espaço 2D e 3D (por exemplo para reprodução de som 2D e 3D).
[006] Como um exemplo, um sinal de áudio 𝑓(𝑡) que chega a partir de uma certa direção (𝜑, 𝜃) resulta em um sinal de áudio espacial 𝑓(𝜑, 𝜃, 𝑡) que pode ser representado no formato Ambissônico por meio da expansão dos harmônicos esféricos até uma ordem de truncamento H: 𝐻 +𝑙 𝑓(𝜑, 𝜃, 𝑡) = ∑ ∑ 𝑌𝑙𝑚 (𝜑, 𝜃)𝜙𝑙𝑚 (𝑡) 𝑙=0 𝑚=−𝑙
[007] Em que 𝑌𝑙𝑚 (𝜑, 𝜃) são os harmônicos esféricos de ordem l e modo m, e 𝜙𝑙𝑚 (𝑡) são os coeficientes de expansão. Com o aumento da ordem de truncamento H a expansão resulta em uma representação espacial mais precisa. Harmônicos esféricos até a ordem H = 4 com índice de Numeração de Canal Ambissônico (ACN) são ilustrados na Figura 1a para ordem n e modo m.
[008] A DirAC já foi estendida para entregar sinal Ambissônico de ordem superior a partir de um sinal Ambissônico de primeira ordem (FOA como o chamado formato B) ou a partir de arranjos de microfone diferentes [5]. Este documento foca em uma maneira mais eficiente de sintetizar sinal de ordem superior Ambissônico por meio de Parâmetros de DirAC e um sinal de referência. Neste documento, o sinal de referência, também referido como o sinal de mixagem de redução, é considerado um subconjunto de um sinal de ordem superior Ambissônico ou uma combinação linear de um subconjunto dos componentes Ambissônicos.
[009] Em adição, a presente invenção considera o caso em que a DirAC é usada para a transmissão em forma paramétrica da cena de áudio. Nesse caso, o sinal de mixagem de redução é codificado por um a codificador de núcleo de áudio convencional enquanto os parâmetros de DirAC são transmitidos de modo comprimido como informações externas. A vantagem do presente método é de levar em conta erro de quantização que ocorre durante a codificação de áudio.
[010] A seguir, uma visão geral do sistema de codificação de áudio espacial com base na DirAC projetada para Serviços de Áudio e Voz Imersivos (IVAS) é apresentada. Isso representa um dentre os diferentes contextos como uma visão geral do sistema de um Codificador de Áudio Espacial DirAC. O objetivo de tal sistema é de ser capaz de lidar com diferentes formatos de áudio espacial que representam a cena de áudio e para codificar elas em taxas de bits baixas e para reproduzir a cena de áudio original o mais fielmente possível após a transmissão.
[011] O sistema pode aceitar como entrada diferentes representações de cenas de áudio. A cena de entrada de áudio pode ser capturada por meio de sinais de multicanal com o objetivo de serem reproduzidos em diferentes posições de alto- falante, objetos auditivos juntos com metadados que descrevem as posições dos objetos com o passar do tempo, ou um formato Ambissônico de primeira ordem ou ordem superior que representam o campo de som na posição de referência ou do ouvinte.
[012] Preferencialmente o sistema é baseado em Serviços de Voz aprimorados 3GPP (EVS) uma vez que é esperado que a solução opere com baixa latência para permitir serviços conversacionais em redes móveis.
[013] Como mostrado na Figura 1b, o codificador (codificador de IVAS) é capaz de suportar diferentes formatos de áudio apresentados para o sistema separadamente ou ao mesmo tempo. Sinais de áudio podem ser acústico em sua natureza, captados por microfones, ou elétricos em sua natureza, que supostamente são transmitidos para os alto-falantes. Formatos de áudio suportados podem ser sinais de multicanal, componentes Ambissônicos de primeira ordem e ordem superior, e objetos de áudio. Uma cena de áudio complexa pode ser também descrita pela combinação de diferentes formatos de entrada. Todos os formatos de áudio são então transmitidos para a análise de DirAC, que extrai uma representação paramétrica da cena de áudio completa. Uma direção de chegada e uma difusão medida por unidade de tempo- frequência formam os parâmetros. A análise DirAC é seguida por um codificador de metadados espacial, que quantiza e codifica parâmetros de DirAC para obter uma representação paramétrica de taxa de bits baixa.
[014] Junto com os parâmetros, um sinal de mixagem de redução derivado a partir de diferentes fontes ou entradas de sinal de áudio é codificado para transmissão por um codificador de núcleo de áudio convencional. Nesse caso um codificador de áudio com base em EVS é adotado para codificar o sinal de mixagem de redução. O sinal de mixagem de redução consiste em diferentes canais, chamados de canais de transporte: o sinal pode ser por exemplo, os quatro sinais de coeficientes que compõem um sinal de formato B, uma mixagem de redução de par estéreo ou monofônica de pendendo da taxa de bits visada. Os parâmetros espaciais codificados e o fluxo de bits de áudio codificado são multiplexados antes de serem transmitidos sobre o canal de comunicação.
[015] A lateral do codificador de codificação de áudio espacial com base na DirAC que suporta diferentes formatos de áudio é ilustrada na Figura 1b. Uma entrada acústica/elétrica 1000 é colocada em uma interface de codificador 1010, em que a interface de codificador tem uma funcionalidade específica para o Ambissônico de primeira ordem (FOA) ou Ambissônico de ordem superior (HOA) ilustrada em 1013. Além disso, a interface de codificador tem uma funcionalidade para dados multicanal (MC) como dados estéreo, dados 5.1 ou dados que têm mais que dois ou cinco canais. Além disso, a interface de codificador 1010 tem uma funcionalidade para codificação de objeto como, por exemplo, SAOC (codificação de objeto de áudio espacial) ilustrado 1011. O codificador IVAS compreende um estágio da DirAC 1020 que tem um bloco de análise de DirAC 1021 e um bloco de mixagem de redução (DMX) 1022. A saída de sinal por bloco 1022 é codificada por um codificador de núcleo IVAS 1040 como um codificador AAC ou EVS, e os metadados gerados pelo bloco 1021 são codificados usando um codificador de metadados de DirAC 1030.
[016] No decodificador, mostrado na Figura 2, os canais de transporte são decodificados pelo decodificador de núcleo, enquanto os metadados de DirAC são primeiramente decodificados antes de serem transmitidos com os canais de transporte decodificados para a síntese da DirAC. Nesse estágio, diferentes opções podem ser consideradas. Pode-se requisitar a reprodução da cena de áudio diretamente em quaisquer configurações de alto-falante ou fone de ouvido como é usualmente possível em um sistema da DirAC convencional (MC na Figura 2).
[017] O decodificador pode também entregar os objetos individuais conforme eles foram apresentados na lateral do codificador (Objetos na Figura 2).
[018] Alternativamente, pode-se também requisitar a renderização da cena para o Formato Ambissônico para outras manipulações adicionais, como rotação, reflexão ou movimento da cena (FOA/HOA na Figura 2) ou para usar um renderizador externo não definido no sistema original.
[019] O decodificador da codificação de áudio espacial DirAC que entrega diferentes formatos de áudio é ilustrado na Figura 2 e compreende um decodificador IVAS 1045 e a interface de decodificador interface subsequentemente conectada
1046. O decodificador IVAS 1045 compreende um decodificador de núcleo IVAS 1060 que é configurado para executar uma operação de decodificação do conteúdo codificado pelo codificador de núcleo IVAS 1040 da Figura 1b. Além disso, é fornecido um decodificador de metadados DirAC 1050 que entrega a funcionalidade de decodificação para decodificar conteúdo codificado pelo codificador de metadados DirAC 1030. Um sintetizador DirAC 1070 recebe dados provenientes do bloco 1050 e 1060 e usando alguma interatividade de usuário, ou não, a saída é inserida em uma interface de decodificador 1046 que gera dados de FOA/HOA ilustrados em 1083, dados multicanais (dados MC) como ilustrado no bloco 1082, ou dados de objeto como ilustrado no bloco 1080.
[020] Uma síntese HOA convencional que usa paradigma de DirAC é retratada na Figura 3. Um sinal de entrada chamado de sinal de mixagem de redução é analisado com base em tempo-frequência por um banco de filtro de frequência. O banco de filtro de frequência 2000 pode ser um banco de filtro de valor complexo como um QMF de valor complexo ou um transformador de bloco STFT. A síntese HOA síntese gera na saída um sinal Ambissônico de ordem H que contém componentes (𝐻 + 1)2. Opcionalmente, pode-se também emitir o sinal Ambissônico renderizado em um layout de alto-falante específico. A seguir, será detalhado como obter os componentes (𝐻 + 1)2 a partir do sinal de mixagem de redução acompanhado em alguns casos pelos parâmetros espaciais de entrada.
[021] O sinal de mixagem de redução pode ser os sinais de microfone originais ou uma mistura dos sinais originais que retratam a cena de áudio original. Por exemplo, se a cena de áudio é capturada por um microfone de campo de som, o sinal de mixagem de redução pode ser o componente onidirecional da cena (W), uma mixagem de redução estéreo (L/R), ou o sinal Ambissônico de primeira ordem (FOA).
[022] Para cada bloco de tempo-frequência, uma direção de som, também chamada de Direção de chegada (DOA), e um fator de difusão são estimados pelo estimador de direção 2020 e pelo estimador de difusão 2010, respectivamente, se o sinal de mixagem de redução contém informações suficientes para determinais tais parâmetros de DirAC. É o caso, por exemplo, em que o sinal de mixagem de redução é um sinal Ambissônico de primeira ordem (FOA). Alternativamente, ou se o sinal de mixagem de redução não for suficiente para determinar tais parâmetros, os parâmetros podem ser transmitidos diretamente para a Síntese DirAC através de um fluxo de bits de entrada que contém os parâmetros espaciais. O fluxo de bits pode consistir, por exemplo, de parâmetros codificados e quantizados recebidos como informações externas no caso de aplicações de transmissão de áudio. Nesse caso, os parâmetros são derivados fora do módulo de síntese de DirAC a partir dos sinais de microfone originais ou nos formatos de áudio de entrada dados para o módulo de análise de DirAC na lateral do codificador como ilustrado pelo comutador 2030 ou
2040.
[023] As direções de som são usadas por meio de um avaliador de ganhos direcional 2050 para avaliar, para cada bloco de tempo-frequência dentre a pluralidade de blocos de tempo-frequência, um ou mais conjuntos de (𝐻 + 1)2 ganhos direcionais 𝐺𝑙𝑚 (𝑘, 𝑛), em que H é a ordem do sinal Ambissônico sintetizado.
[024] Os ganhos direcionais podem ser obtidos por meio da avaliação da função de base espacial para cada direção de som estimada na ordem desejada (nível) l e modo m do sinal Ambissônico para sintetizar. A direção de som pode ser expressa, por exemplo, em termos de um vetor unitário 𝑛(𝑘, 𝑛) ou em termos de um ângulo azimute 𝜑(𝑘, 𝑛) e/ou ângulo de elevação 𝜃(𝑘, 𝑛), que são relacionados, por exemplo, como: cos 𝜑(𝑘, 𝑛) cos 𝜃(𝑘, 𝑛) 𝑛(𝑘, 𝑛) = [ sen 𝜑(𝑘, 𝑛) cos 𝜃(𝑘, 𝑛)] sen 𝜃(𝑘, 𝑛)
[025] Após estimar ou obter a direção de som, uma resposta de uma função de base espacial da ordem desejada (nível) l e modo m pode ser determinada, por exemplo, ao considerar harmônicos esféricos de valor real com normalização SN3D como função de base espacial: |𝑚| |𝑚| sen(|𝑚|𝜑) se 𝑚 < 0 𝑌𝑙𝑚 (𝜑, 𝜃) = 𝑁𝑙 𝑃𝑙 sen 𝜃 { cos(|𝑚|𝜑) se 𝑚 ≥ 0 |𝑚|
[026] com as faixas de 0 ≤ l ≤ H, e −l ≤ m ≤ l. 𝑃𝑙 sendo as funções de Legendre- |𝑚| e 𝑁𝑙 sendo um termo de normalização para tanto as funções de Legendre e como as funções trigonométricas que assumem a seguinte forma para SN3D: |𝑚| 2 − 𝛿𝑚 (𝑙 − |𝑚|)! 𝑁𝑙 =√ 4𝜋 (𝑙 + |𝑚|)!
[027] em que o Delta de Kronecker 𝛿𝑚 é um para m = 0 e zero caso contrário. Os ganhos direcionais são então deduzidos diretamente para cada bloco de tempo- frequência dos índices (k,n) como: 𝐺𝑙𝑚 (𝑘, 𝑛) = 𝑌𝑙𝑚 (𝜑(𝑘, 𝑛), 𝜃(𝑘, 𝑛)) 𝑚
[028] Os componentes Ambissônicos de som direto 𝑃𝑠,𝑙 são computados por meio da entrega de um sinal de referência 𝑃𝑟𝑒𝑓 a partir do sinal de mixagem de redução e multiplicados pelos ganhos direcionais e uma função de fator de difusãoΨ(k, n): 𝑚 𝑃𝑠,𝑙 (𝑘, 𝑛) = 𝑃𝑟𝑒𝑓 (𝑘, 𝑛)√1 − Ψ(k, n)𝐺𝑙𝑚 (𝑘, 𝑛)
[029] Por exemplo, o sinal de referência 𝑃𝑟𝑒𝑓 pode ser o componente onidirecional do sinal de mixagem de redução ou uma combinação linear dos canais K do sinal de mixagem de redução.
[030] O componente Ambissônico de som difuso pode ser modelado por meio do uso de uma reposta de uma função de base espacial para som que chegam de todas as direções possíveis. Um exemplo é para definir a resposta média 𝐷𝑙𝑚 por meio da consideração da integral da magnitude ao quadrado da função de base espacial 𝑌𝑙𝑚 (𝜑, 𝜃) sobre todos os ângulos possíveis 𝜑 e 𝜃: 2𝜋 𝜋 𝐷𝑙𝑚 = ∫ ∫ |𝑌𝑙𝑚 (𝜑, 𝜃)|2 sen 𝜃 𝑑𝜃𝑑𝜑 0 0 𝑚
[031] Os componentes Ambissônicos de som difuso 𝑃𝑑,𝑙 são computados a partir de um sinal 𝑃𝑑𝑖𝑓𝑓 multiplicado pela resposta média e uma função de fator da difusãoΨ(k, n): 𝑚 𝑚 𝑃𝑑,𝑙 (𝑘, 𝑛) = 𝑃𝑑𝑖𝑓𝑓,𝑙 (𝑘, 𝑛)√Ψ(k, n)√𝐷𝑙𝑚 𝑚
[032] O sinal 𝑃𝑑𝑖𝑓𝑓,𝑙 pode ser obtido por meio do uso de diferentes correlacionadores aplicados ao sinal de referência 𝑃𝑟𝑒𝑓 .
[033] Finalmente, o componente Ambissônico de som direto e o componente Ambissônico de som difuso são combinados 2060, por exemplo, através da operação de soma, para obter o componente Ambissônico 𝑃𝑚 𝑙 final da ordem (nível) desejado l e modo m para o bloco de tempo-frequência (k, n), ou seja, 𝑚 𝑃𝑙𝑚 (𝑘, 𝑛) = 𝑃𝑠,𝑙 𝑚 (𝑘, 𝑛) + 𝑃𝑑𝑖𝑓𝑓,𝑙 (𝑘, 𝑛)
[034] Os componentes Ambissônicos obtidos podem ser transformados de volta para o domínio de tempo usando um banco de filtro inverso 2080 ou um STFT inverso, armazenado, transmitido, ou usado, por exemplo, para aplicações de reprodução de som espacial. Alternativamente, um renderizador Ambissônico linear 2070 pode ser aplicado a cada faixa de frequência para obter sinais para serem reproduzidos em um layout de alto-falante específico ou sobre fone de ouvido antes de transformar os sinais de alto-falantes ou os sinais biauriculares para o domínio de tempo.
[035] Deve-se notar que [5] também ensinou a possibilidade de que 𝑚 componentes de som difusos 𝑃𝑑𝑖𝑓𝑓,𝑙 possam apenas serem sintetizados até uma ordem L, em que L<H. Isso reduz a complexidade computacional enquanto evita artefatos sintéticos devido ao uso intensivo dos correlacionadores.
[036] É o objetivo da presente invenção fornecer um conceito melhorado para gerar uma descrição de campo de som a partir de um sinal de entrada.
[037] Esse objetivo é atingido por um aparelho para gerar uma descrição de campo de som de acordo com a reivindicação 1, um método de geração de uma descrição de campo de som de acordo com a reivindicação 20 ou um programa de computador de acordo com a reivindicação 21.
[038] A presente invenção de acordo com um primeiro aspecto é baseada na constatação de que não é necessário executar uma síntese do componente de campo de som que inclui um cálculo de porção difusa para todos os componentes gerados. É suficiente executar uma síntese de componente difusa apenas até uma certa ordem. Mesmo assim, a fim de não ter nenhuma flutuação de energia ou erros de energia, uma compensação de energia é executada ao gerar os componentes de campo de som de um primeiro grupo de componentes de campo de som que tem um componente difuso e um direto, em que essa compensação de energia depende dos dados de difusão, e de pelo menos um dentre um número de componentes de campo de som no segundo grupo, uma ordem máxima de componentes de campo de som do primeiro grupo e uma ordem máxima dos componentes de campo de som do segundo grupo. Particularmente, de acordo com o primeiro aspecto da presente invenção, um aparelho para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende um ou mais canais compreende um analisador de sinal de entrada para obter dados de difusão a partir do sinal de entrada e um gerador de componente de som para gerar, a partir do sinal de entrada, um ou mais componentes de campo de som de um primeiro grupo de componentes de campo de som que têm para cada componente de campo de som um componente direto e um componente difuso, e para gerar, partir do sinal de entrada, o segundo grupo de componentes de campo de som que tem apenas o componente direto. Particularmente, o gerador de componente de som reexecuta uma compensação de energia ao gerar o primeiro grupo de componentes de campo de som, a compensação de energia depende dos dados de difusão e de pelo menos um dentre um número de componentes de campo de som no segundo grupo, um número de componentes difusos em um primeiro grupo, uma ordem máxima de componentes de campo de som do primeiro grupo, e uma ordem máxima de componentes de campo de som do segundo grupo.
[039] O primeiro grupo de componentes de campo de som pode compreender componentes de campo de som de ordem inferior e componentes de campo de som de ordem média, e o segundo grupo compreende componentes de campo de som de ordem superior.
[040] Um aparelho para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende pelo menos dois canais de acordo com um segundo aspecto da invenção compreende um analisador de sinal de entrada para obter dados de direção e dados de difusão a partir do sinal de entrada. O aparelho, além disso, compreende um estimador para estimar uma medida relacionada à primeira energia ou amplitude para um componente onidirecional derivado do sinal de entrada e para estimar uma medida relacionada à segunda energia ou amplitude para um componente direcional derivado do sinal de entrada. Além disso, o aparelho compreende um gerador de componente de som para gerar componentes de campo de som do campo de som, em que o gerador de componente de som é configurado para executar uma compensação de energia do componente direcional usando a medida relacionada à primeira energia ou amplitude, a medida relacionada à segunda energia ou amplitude, os dados de direção e os dados de difusão.
[041] Particularmente, o segundo aspecto da presente invenção é baseado na constatação que em uma situação, em que um componente direcional é recebido pelo aparelho para gerar uma descrição de campo de som e, ao mesmo tempo, dados de direção e dados de difusão são também recebidos, os dados de difusão e direção podem ser utilizados para compensar quaisquer erros introduzidos provavelmente devido a quantização ou qualquer outro processamento do componente direcional ou componente onidirecional dentro do codificador. Portanto, os dados de difusão e direção não são simplesmente aplicados para o propósito da descrição de campo de som geração como eles são, mas esses dados são utilizados uma “segunda vez” para corrigir o componente direcional a fim de desfazer ou pelo menos parcialmente desfazer e, portanto, compensar por qualquer perda de energia do componente direcional.
[042] Preferencialmente, essa compensação de energia é executada para componentes de ordem inferior que são recebidos em uma interface de decodificador interface ou que são gerados a partir de dados recebidos pelo codificador de áudio gerando o sinal de entrada.
[043] De acordo com um terceiro aspecto da presente invenção, um aparelho para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou um sinal multicanal compreende um analisador de sinal de entrada, um gerador de componente de áudio baixo, um gerador de componente de ordem média, e um gerador de componentes de ordens superiores. Particularmente, os diferentes “subgeradores” são configurados para gerar componentes de campo de som na respectiva ordem com base um procedimento de processamento específico que é diferente para cada um dentre os geradores de componentes de ordem inferior, média e superior. Isso garante que uma troca ótima entre requerimentos de processamento por um lado, requerimentos de qualidade de áudio por outro lado e procedimentos práticos, novamente, por outro lado são mantidos. Por meio desse procedimento, o uso de decorrelacionadores, por exemplo, é restrito apenas ao gerador de componentes de ordem média mais quaisquer decorrelacionadores propensos a artefatos são evitados para os geradores de componentes de ordem inferior e para o gerador de componentes de ordem superior.
Por outro lado, uma compensação de energia é preferencialmente executada para a perda de energia dos componentes difusos essa compensação de energia é executada dentro dos componentes de campo de som de ordem inferior somente ou dentro dos componentes de campo de som de ordem média somente ou em ambos os componentes de campo de som de ordem inferior e os componentes de campo de som de ordem média. Preferencialmente, uma compensação de energia para o componente direcional formado no gerador de componentes de ordem inferior é também feita usando dados de difusão direcional transmitidos.
[044] Modalidades preferenciais se referem a um aparelho, um método ou a programa de computador sintetização de um sinal Ambissônico (Ordem superior) usando um paradigma de Codificação de Áudio Direcional (DirAC), uma técnica perceptivamente motivada para processamento de áudio espacial.
[045] Modalidades referem-se a um método eficiente para sintetizar uma representação Ambissônica de uma cena de áudio por meio de parâmetros espaciais e um sinal de mixagem de redução. Em uma aplicação do método, porém sem limitação a ela, a cena de áudio é transmitida e, portanto, codificada para reduzir a quantidade de dados transmitidos. O sinal de mixagem de redução é, então, fortemente restringido em um número de canais e qualidade da taxa de bits disponível para a transmissão. Modalidades referem-se a uma maneira efetiva de explorar informações contidas no sinal de mixagem de redução transmitido para reduzir complexidade da síntese enquanto aumenta qualidade.
[046] Uma outra modalidade da invenção concerne ao componente difuso do campo de som que pode ser limitado para ser apenas modelado até uma ordem predeterminada dos componentes sintetizados para evitar artefatos de síntese. A modalidade fornece uma maneira de compensar a perda de energia resultante por meio da amplificação do sinal de mixagem de redução.
[047] Uma outra modalidade concerne ao componente direcional do campo de som no qual características podem ser alteradas dentro do sinal de mixagem de redução. O sinal de mixagem de redução pode ser energia adicional normalizada para preservar a relação de energia ditada pelo parâmetro de direção transmitido, mas quebrado durante a transmissão pelos erros de quantização ou outros erros.
[048] Subsequentemente, modalidades preferenciais da presente invenção são descritas em relação às figuras em anexo nas quais: A Figura 1a ilustra harmônicos esféricos com numeração de canal/componente Ambissônico; A Figura 1b ilustra uma lateral de codificador de um processador de codificação de áudio espacial com base em DirAC; A Figura 2 ilustra um decodificador de um processador de codificação de áudio espacial com base em DirAC; A Figura 3 ilustra um processador de síntese Ambissônico de ordem superior conhecido na técnica; A Figura 4 ilustra uma modalidade preferencial da presente invenção que aplica o primeiro aspecto, o segundo aspecto, e o terceiro aspecto; A Figura 5 ilustra um processamento de visão geral de compensação de energia; A Figura 6 ilustra um aparelho para gerar uma descrição de campo de som de acordo com um primeiro aspecto da presente invenção; A Figura7 ilustra um aparelho para gerar uma descrição de campo de som de acordo com um segundo aspecto da presente invenção; A Figura 8 ilustra um aparelho para gerar uma descrição de campo de som de acordo com um terceiro aspecto da presente invenção; A Figura 9 ilustra uma implementação preferencial do gerador de componentes de ordem inferior da Figura 8; A Figura 10 ilustra uma implementação preferencial do gerador de componentes de ordem média da Figura 8; A Figura 11 ilustra uma implementação preferencial do gerador de componentes de ordem superior da Figura 8; A Figura 12a ilustra uma implementação preferencial do cálculo de compensação de ganho de acordo com o primeiro aspecto; A Figura 12b ilustra uma implementação do cálculo compensação de energia de acordo com o segundo aspecto; e A Figura 12c ilustra uma implementação preferencial da compensação de energia que combina o primeiro aspecto e o segundo aspecto.
[049] A Figura 6 ilustra um aparelho para gerar uma descrição de campo de som de acordo com o primeiro aspecto da invenção. O aparelho compreende um analisador de sinal de entrada 600 para obter dados de difusão a partir do sinal de entrada ilustrado à esquerda na Figura 6. Além disso, o aparelho compreende um gerador de componente de som 650 para gerar, a partir do sinal de entrada, um ou mais componentes de campo de som de um primeiro grupo de componentes de campo de som que tem para cada componente de campo de som um componente direto e um componente difuso. Além disso, o gerador de componente de som gera, a partir do sinal de entrada, um segundo grupo de componentes de campo de som que tem somente um componente direto.
[050] Particularmente, o gerador de componente de som 650 é configurado para executar uma compensação de energia ao gerar o primeiro grupo de componentes de campo de som. A compensação de energia depende dos dados de difusão e do número de componentes de campo de som no segundo grupo ou da ordem máxima dos componentes de campo de som do primeiro grupo ou de uma ordem máxima dos componentes de campo de som do segundo grupo. Particularmente, de acordo com o primeiro aspecto da invenção, uma compensação de energia é executada para compensar uma perda de energia devido ao fato de que, para o segundo grupo de componentes de campo de som, somente os componentes diretos são gerados e quaisquer componentes difusos não são gerados.
[051] Ao contrário disso, no primeiro grupo de componentes de campo de som, as porções difusas e diretas são incluídas nos componentes de campo de som. Portanto, o gerador de componente de som 650 gera, como ilustrado pelo arranjo superior, componentes de campo de som que somente têm uma parte direta e não uma parte difusa como ilustrado, em outras figuras, pelo número de referência 830 e o gerador de componente de som gera componentes de campo de som que têm uma porção direta e uma porção difusa como ilustrado pelos números de referência 810, 820 que são explicados posteriormente em relação as outras figuras.
[052] A Figura 7 ilustra um aparelho para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende pelo menos dois canais de acordo com o segundo aspecto da invenção. O aparelho compreende um analisador de sinal de entrada 600 para obter dados de direção e dados de difusão a partir do sinal de entrada. Além disso, um estimador 720 é fornecido para estimar uma medida relacionada à primeira energia ou amplitude para um componente onidirecional derivado do sinal de entrada e para estimar a medida relacionada à segunda energia ou amplitude para um componente direcional derivado do sinal de entrada.
[053] Além disso, o aparelho para gerar a descrição de campo de som compreende um gerador de componente de som 750 para gerar componentes de campo de som do campo de som, em que o gerador de componente de som 750 é configurado para executar uma compensação de energia do componente direcional usando a primeira medida de amplitude, a medida relacionada à segunda energia ou amplitude, os dados de direção e os dados de difusão. Portanto, o gerador de componente de som gera, de acordo com o segundo aspecto da presente invenção, componentes direcionais (diretos) corrigidos/compensados e, se implementado correspondentemente, outros componentes da mesma ordem que o sinal de entrada como componente onidirecionais que são preferencialmente energia não compensada ou são somente energia compensada para o propósito da compensação de energia difusa como discutido no contexto da Figura 6. Deve-se notar que a medida relacionada a amplitude pode também ser o valor absoluto ou normal ou de magnitude do componente direcional ou onidirecional como B0 e B1. Preferencialmente a potência ou energia derivada pela potência de 2 é preferido como delineado na equação, mas outras potências aplicadas ao valor absoluto ou normal ou de magnitude podem ser usadas também para obter a medida relacionada a energia ou amplitude.
[054] Em uma implementação, o aparelho para gerar uma descrição de campo de som de acordo com o segundo aspecto executa uma compensação de energia do componente de sinal direcional incluído no sinal de entrada que compreende pelo menos dois canais para que um componente direcional seja incluído no sinal de entrada ou possa ser calculado a partir do sinal de entrada como pelo cálculo da diferença entre os dois canais. Esse aparelho pode somente executar uma correção sem gerar quaisquer dados de ordem superior ou parecidos. Contudo, em outras modalidades, o gerador de componente de som é configurado também para gerar outros componentes de campo de som a partir de outras ordens como ilustrado pelos números de referência 820, 830 descritos posteriormente, mas para esses componentes de som (ou ordem superior), para os quais nenhum homólogo foi incluído no sinal de entrada, qualquer compensação de energia de componente direcional não é necessariamente executada.
[055] A Figura 8 ilustra uma implementação preferencial do aparelho para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou a sinal multicanal de acordo com o terceiro aspecto da presente invenção. O aparelho compreende um analisador de sinal de entrada 600 para analisar o sinal de entrada para derivar dados de direção e dados de difusão. Além disso, o aparelho compreende um gerador de componente de ordem inferior 810 para gerar uma descrição de campo de som de ordem inferior a partir do sinal de entrada até uma ordem predeterminada e um modo predeterminado, em que o gerador de componente de ordem inferior 810 é configurado para derivar a descrição de campo de som de ordem inferior ao copiar ou aceitar o sinal de entrada ou uma porção do sinal de entrada como ela é ou ao executar uma combinação ponderada dos canais do sinal de entrada quando o sinal de entrada for um sinal multicanal. Além disso, o aparelho compreende um gerador de componente de ordem média 820 para gerar uma descrição de campo de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo ou em uma primeira ordem de truncamento usando uma síntese de pelo menos uma porção direta e de pelo menos um porção difusa usando os dados de direção e os dados de difusão para que a descrição de campo de som de ordem média compreenda uma contribuição direta e uma contribuição difusa.
[056] O aparelho para gerar a descrição de campo de som, compreende, além disso, um gerador de componente de ordem superior 830 para gerar uma descrição de campo de som de ordem superior que tem um componente acima da primeira ordem de truncamento usado uma síntese de pelo menos uma porção direta, em que a descrição de campo de som de ordem superior compreende somente uma contribuição direta. Portanto, em uma modalidade, a síntese da pelo menos uma porção direta é executada sem qualquer síntese de componente difuso, para que a descrição de campo de som de ordem superior compreenda somente uma contribuição direta.
[057] Portanto, o gerador de componentes de ordem inferior 810 gera a descrição de campo de som de ordem inferior, o gerador de componentes de ordem média 820 gera a descrição de campo de som de ordem média e o gerador de componentes de ordem superior gera a descrição de campo de som de ordem superior. A descrição de campo de som de ordem inferior se estende até uma certa ordem e modo como, por exemplo, no contexto de componentes Ambissônicos de ordem superior como ilustrado na Figura 1. Contudo, qualquer outra descrição de campo de som como uma descrição de campo de som com funções cilíndricas ou uma descrição de campo de som com quaisquer outros componentes diferentes de qualquer representação Ambissônica pode ser gerado também de acordo com o primeiro, p segundo e/ou o terceiro aspecto da presente invenção.
[058] O gerador de componentes de ordem média 820 gera componentes de campo de som acima da ordem predeterminada ou modo e até uma certa ordem de truncamento que é também indicada com L na descrição a seguir. Finalmente, o gerador de componentes de ordem superior 830 é configurado para aplicar os componentes de campo de som geração a partir da ordem de truncamento L até uma ordem máxima indicada como H na descrição a seguir.
[059] Dependendo da implementação, a compensação de energia fornecida pelo gerador de componente de som 650 da Figura 6 não pode ser aplicado dentro do gerador de componentes de ordem inferior 810 ou do gerador de componentes de ordem média 820 como ilustrado pelos números de referência correspondentes na Figura 6 para o componente difuso direto/de som. Além disso, o segundo grupo de componentes de campo de som gerado pelo componente de campo de som gerado pelo gerador de componente de campo de som 650 corresponde à saída do gerador de componentes de ordem superior 830 da Figura 8 ilustrado pelo número de referência 830 abaixo da notação direta/não difusa na Figura 6.
[060] Em relação à Figura 7, é indicado que a compensação de energia de componente direcional é preferencialmente executada dentro do gerador de componentes de ordem inferior 810 ilustrado na Figura 8, ou seja, é executada para alguns ou todos os componentes de campo de som até a ordem predeterminada e o modo predeterminado como ilustrado pelo número de referência 810 acima da seta superior que sai do bloco 750. A geração de componentes de ordem média e os componentes de ordem superior é ilustrada em relação a seta superior hachurada que sai do bloco 750 na Figura 7 como ilustrado pelos números de referência 820, 830 indicados abaixo da seta superior. Portanto, o gerador de componentes de ordem inferior 810 da Figura 8 pode aplicar a compensação de energia difusa de acordo com o primeiro aspecto e o sinal de compensação direcional (direto) de acordo com o segundo aspecto, enquanto o gerador de componentes de ordem média 820 pode executar a compensação de componentes difusos somente, uma vez que o gerador de componentes de ordem média gera saída dados que tem porções difusas que podem ser aprimoradas em relação a sua energia a fim de ter um orçamento de energia de componente difuso mais alto no sinal de saída sinal.
[061] Subsequentemente, é feita referência à Figura 4 que ilustra uma implementação do primeiro aspecto, do segundo aspecto e do terceiro aspecto da presente invenção dentro de um aparelho para gerar uma descrição de campo de som.
[062] A Figura 4 ilustra o analisador de entrada 600. O analisador de entrada 600 compreende um estimador de direção 610, um estimador de difusão 620 e comutadores 630, 640. O analisador de sinal de entrada 600 é configurado para analisar o sinal de entrada, tipicamente subsequente ao banco de filtro de análise 400, a fim de encontrar, para cada informação de direção de compartimento de tempo/frequência indicado como DOA e/ou informações de difusão. As informações de direção de DOA e/ou as informações de difusão podem também resultar de um fluxo de bits. Portanto, em situações, em que esses dados não podem ser recuperados do sinal de entrada, ou seja, quando o sinal de entrada tem somente um componente onidirecional W, então o analisador de sinal de entrada recupera dados de direção e/ou dados de difusão do fluxo de bits. Quando, por exemplo, o sinal de entrada é um sinal de dois canais que tem um canal esquerdo L e um canal direito R, então uma análise pode ser executada a fim de obter dados de difusão e/ou de direção. Quando o sinal de entrada é um sinal Ambissônico de primeira ordem (FOA) ou, qualquer outro sinal com mais de dois canais como um sinal de formato A ou a sinal de formato B, então uma análise de sinal real é executada pelo bloco 610 ou 620 pode ser executada. Contudo, quando o fluxo de bits é analisado a fim de recuperar, do fluxo de bits, os dados de direção e/ou os dados de difusão, isso também representa uma análise feita pelo analisador de sinal de entrada 600, mas sem uma análise de sinal real como no outro caso. No último caso, a análise é feita no fluxo de bits, e o sinal de entrada consiste tanto no sinal de mixagem de redução quanto os dados de fluxo de bits.
[063] Além disso, o aparelho para gerar uma descrição de campo de som ilustrado na Figura 4 compreende um bloco computacional de ganhos direcionais 410, a divisor 420, um combinador 430, um decodificador 440 e um banco de filtro de síntese 450. O banco de filtro de síntese 450 recebe dados para uma representação Ambissônica de ordem superior ou um sinal para ser reproduzido por fones de ouvido, ou seja, um sinal. biauricular, ou um sinal para ser reproduzido por alto-falantes arranjados em uma certa instalação de alto-falantes que representa um multicanal sinalizado adaptado para a instalação específica de alto-falante da descrição de campo de som que é tipicamente agnóstica da instalação específica de alto-falante.
[064] Além disso, o aparelho para gerar a descrição de campo de som compreende um gerador de componente de som que consiste geralmente em um gerador de componentes de ordem inferior 810 que compreende “gerar componentes de ordem inferior” bloco e o bloco “de mixagem de componentes de ordem inferior”. Além disso, o gerador de componentes de ordem média 820 é fornecido consistindo de bloco de sinal de referência gerado 821, decorrelacionadores 823, 824 e o bloco de mixagem de componentes de ordem média 825. E, o gerador de componentes de ordem superior 830 é também fornecido na Figura 4 que compreende o bloco de mixagem de componentes de ordem superior 822. Além disso, um bloco de computação de ganhos de compensação (difuso) ilustrado nos números de referência 910, 920, 930, 940 é fornecido. Os números de referência 910 até 940 são adicionalmente explicados com referência às Figuras. 12a até 12c.
[065] Embora não ilustrado na Figura 4, pelo menos o sinal difuso de compensação de energia não é executado no gerador de componente de som para a ordem inferior como explicitamente ilustrado na Figura 4, mas essa compensação de energia pode também ser executada no mixer de componentes de ordem média 825.
[066] Além disso, a Figura 4 ilustra a situação, em que o processamento todo é executado para blocos de tempo/frequência individuais como gerados pelo banco de filtro de análise 400. Portanto, para cada bloco de tempo/frequência, em um certo valor de DOA, um certo valor de difusão e um certo processamento para aplicar esses valores e também para aplicar as diferentes compensações é feito. Além disso, os componentes de campo de som são também gerados/sintetizados para os blocos de tempo/frequência individuais e a combinação feita pelo combinador 430 também acontece dentro do domínio de tempo/frequência para cada bloco de tempo/frequência individuai, e, adicionalmente, o procedimento do decodificador HOA 440 é executado no domínio de tempo/frequência e, a síntese do filtro de banco 450 gera, então, os sinais de domínio de tempo para a faixa de frequência total com componentes HOA de largura de banda total, com sinais biauriculares de largura de banda total para fones de ouvido ou com sinais de alto-falantes de largura de banda total para alto-falantes de uma certa instalação de alto-falante.
[067] Modalidades da presente invenção exploram dois princípios principais: 𝑚 • Os componentes Ambissônicos de som difuso 𝑃𝑑𝑖𝑓𝑓,𝑙 podem ser restritos para serem sintetizados somente para os componentes de ordem inferior do sinal Ambissônico sintetizado até a ordem L<H. • A partir do sinal de mixagem de redução, componentes Ambissônicos de ordem inferior K podem usualmente ser extraídos, para os quais uma síntese completa não é exigida. ○ No caso de mixagem de redução mono, a mixagem de redução usualmente representa o componente onidirecional W do sinal Ambissônico. ○ No caso de mixagem de redução estéreo, os canais esquerdo (L) e direito (R) podem facilmente ser transformados em componentes Ambissônicos W e Y. 𝑊 =𝐿+𝑅 { 𝑌 =𝐿−𝑅
[068] No caso de uma mixagem de redução FOA, os componentes Ambissônicos de ordem 1 já estão visíveis. Alternativamente, a FOA pode ser recuperada por meio da combinação linear de um sinal de mixagem de redução de 4 canais DMX que está, por exemplo, no Formato A: 𝑊 𝐷𝑀𝑋0 𝑌 𝐷𝑀𝑋1 [ ] = 𝑇 −1 [ ] 𝑍 𝐷𝑀𝑋2 𝑋 𝐷𝑀𝑋3
[069] com 1 sen 𝜃 0 cos 𝜃 1 − sen 𝜃 0 cos 𝜃 𝑇 = 0.5 [ ] 1 0 sen 𝜃 − cos 𝜃 1 0 − sen 𝜃 − cos 𝜃
[070] e 1 𝜃 = cos −1 √3
[071] Sobre esses dois princípios, dois aprimoramentos podem também ser aplicados:
• A perda de energia pela não modelagem dos componentes Ambissônicos de som difuso até a ordem H pode ser compensada por meio da amplificação dos componentes Ambissônicos de ordem inferior K extraídos do sinal de mixagem de redução. • Em aplicações de transmissão em que o sinal de mixagem de redução é codificado com perdas, o sinal de mixagem de redução transmitido é corrompido por erro de quantização que pode ser mitigado por meio da restrição de relacionamento de energia dos componentes Ambissônicos de ordem inferior K extraídos do sinal de mixagem de redução.
[072] A Figura 4 ilustra uma modalidade do novo método. Uma diferença do estado da que foi retratado na Figura 3 é a diferenciação dos processos de mixagem que difere de acordo com a ordem dos componentes Ambissônicos que serão sintetizados. Os componentes de ordens inferiores são principalmente determinados a partir dos componentes de ordem inferior extraídos diretamente do sinal de mixagem de redução. A mixagem dos componentes de ordem inferior pode ser tão simples com copiar diretamente os componentes extraídos para a saída.
[073] Contudo, na modalidade preferencial, os componentes extraídos são processados adicionalmente pela aplicação de uma função de compensação de energia, função de difusão e ordens de truncamento L e H, ou pela aplicação de uma normalização de energia, função de difusão e as direções de som, ou pela aplicação de ambas.
[074] A mixagem dos componentes de ordem média é, na verdade, similar ao método do estado da técnica (exceto pela compensação de difusão opcional), e gera e combina tanto componentes Ambissônicos de som diretos quanto difusos e até uma ordem de truncamento L mas ignorando os componentes de ordem inferior K já sintetizados pela mixagem dos componentes de ordem inferior. A mixagem dos componentes de ordem superior consiste em gerar os componentes Ambissônicos restantes (𝐻 − 𝐿 + 1)2 até uma ordem de truncamento 𝐻 mas somente para o som direto e ignorando o som difuso. A seguir a mixagem ou geração dos componentes de ordem inferior é detalhada.
[075] O primeiro aspecto refere-se a compensação de energia ilustrado de modo geral na Figura 6 dando uma visão geral do processamento no primeiro aspecto. O princípio é explicado para o caso específico para K = (𝐿 + 1)2 sem perda de generalidade.
[076] A Figura 5 mostra uma visão geral do processamento. O vetor de entrada 𝑏⃗𝐿 é um sinal Ambissônico fisicamente correto de ordem de truncamento 𝐿. Este contém (𝐿 + 1)2 coeficientes denotados por 𝐵𝑚,𝑙 , em que 0 ≤ 𝑙 ≤ 𝐿 é a ordem do coeficiente e −𝑙 ≤ 𝑚 ≤ 𝑙 é o modo. Tipicamente, o sinal Ambissônico 𝑏⃗𝐿 é representado no domínio de tempo-frequência.
[077] No bloco de síntese HOA 820, 830, os coeficientes Ambissônicos são sintetizados de 𝑏⃗𝐿 até uma a ordem máxima 𝐻, em que 𝐻 > 𝐿. O vetor resultante 𝑦𝐻 contém os coeficientes sintetizados de ordem 𝐿 < 𝑙 ≤ 𝐻, denotado por 𝑌𝑚,𝑙 . A síntese HOA normalmente depende da difusão Ψ (ou uma medida similar), que descreve o quão difuso é o campo de som para o ponto de tempo-frequência atual. Normalmente, os coeficientes em 𝑦𝐻 são sintetizados somente se o campo de som se torna não difuso, enquanto em situações difusas, os coeficientes se tornam zero. Isso previne artefatos em situações difusas, mas também resulta em perda de energia. Detalhes da síntese HOA serão explicados posteriormente.
[078] Para compensar para a perda de energia em situações difusas mencionadas acima, foi aplicada uma compensação de energia em 𝑏⃗𝐿 no bloco de compensação de energia 650, 750. O sinal resultante é denotado por 𝑥𝐿 e tem a mesma ordem máxima 𝐿 como 𝑏⃗𝐿 . A compensação de energia depende da difusão (ou medida similar) e aumenta a energia dos coeficientes em situações difusas de modo que a perda de energia dos coeficientes em 𝑦𝐻 seja compensada. Detalhes serão explicados posteriormente.
[079] No bloco de combinação, os coeficientes de energia compensada em 𝑥𝐿 são combinados 430 com os coeficientes sintetizados em 𝑦𝐻 para obter o sinal Ambissônico de saída 𝑧𝐻 que contém todos os coeficientes (𝐻 + 1)2, ou seja,
𝑥𝐿 𝑧𝐻 = [ ]. 𝑦𝐻
[080] Subsequentemente, uma síntese HOA é explicada como uma modalidade. Existem várias abordagens do estado da técnica para sintetizar os coeficientes HOA em 𝑦𝐻 , por exemplo, uma renderização com base em covariância ou uma renderização direta usando Codificação de Áudio Direcional (DirAC). No caso mais simples, os coeficientes em 𝑦𝐻 são sintetizados a partir do componente onidirecional 𝐵00 em 𝑏⃗𝐿 usando 𝑌𝑙𝑚 = 𝐵00 √1 − Ψ𝐺𝑙𝑚 (𝜑, 𝜃).
[081] Aqui, (𝜑, 𝜃) é a direção de chegada (DOA) do som e 𝐺𝑙𝑚 (𝜑, 𝜃) é o ganho correspondente do coeficiente Ambissônico de ordem 𝑙 e modo 𝑚. Normalmente, 𝐺𝑙𝑚 (𝜑, 𝜃) corresponde ao padrão de diretividade de valor real da função harmônica esférica bem conhecida de ordem 𝑙 e modo 𝑚, avaliada na DOA (𝜑, 𝜃) . A difusão Ψ se torna 0 se o campo de som é não difuso, e 1 se o campo de som é difuso. Consequentemente, os coeficientes 𝑌𝑙𝑚 computados acima da ordem L se tornam zero em situações de gravação difusa. Note que os parâmetros 𝜑, 𝜃 e Ψ podem ser estimados a partir de um sinal Ambissônico de primeira ordem 𝑏⃗1 com base no vetor de intensidade de ativo conforme explicado nos documentos de DirAC originais.
[082] Subsequentemente, a compensação de energia dos componentes de som difuso é discutida. Para derivar a compensação de energia, foi considerado um modelo de campo de som típico em que o campo de som é composto de um componente de som direto e um componente de som difuso, ou seja, o sinal onidirecional pode ser escrito como: 𝐵00 = 𝑃𝑠 + 𝑃𝑑 ,
[083] em que 𝑃𝑠 é o som direto (por exemplo, onda plana) e 𝑃𝑑 é o som difuso. Supondo que esse modelo de campo de som é uma normalização SN3D dos coeficientes Ambissônicos, a potência esperada dos coeficientes fisicamente corretos 𝐵𝑚,𝑙 é dada por Ε{|𝐵𝑙𝑚 |2 } = Ε{|𝐺𝑙𝑚 (𝜑, 𝜃)|2 }Φ𝑠 + 𝑄𝑙 Φ𝑑 .
[084] Aqui, Φ𝑠 = Ε{|𝑃𝑠 |2 } é a potência do som direto e Φ𝑑 = Ε{|𝑃𝑑 |2 } é a potência do som difuso. Ademais, 𝑄𝑙 é o fator de diretividade do coeficiente de ordem 𝑙-th, que é dados por 𝑄𝑙 = 1⁄𝑁, em que 𝑁 = 2𝑙 + 1 é o número de coeficientes por ordem 𝑙.
Para computar a compensação de energia, pode tanto ser considerado a DOA (𝜑, 𝜃) (compensação de energia mais precisa) ou ser suposto que (𝜑, 𝜃) é uma variável aleatória distribuída uniformemente (abordagem mais prática). No último caso, a potência esperada de 𝐵𝑙𝑚 é Ε{|𝐵𝑙𝑚 |2 } = 𝑄𝑙 Φ𝑠 + 𝑄𝑙 Φ𝑑 .
[085] A seguir, seja 𝑏⃗𝐻 denotar um sinal Ambissônico fisicamente correto de ordem máxima 𝐻. Usando as equações acima, a potência total esperada de 𝑏⃗𝐻 é dada por 𝐻 𝑙 ∑ ∑ Ε{|𝐵𝑙𝑚 |2 } = (𝐻 + 1)Φ𝑠 + (𝐻 + 1)Φ𝑑. 𝑙=0 𝑚=−𝑙 Φ𝑑
[086] Similarmente, ao usar a definição de difusão comum Ψ = , a potência Φ𝑠 +Φ𝑑 total esperada do sinal Ambissônico sintetizado 𝑦𝐻 é dada por 𝐻 𝑙 ∑ ∑ Ε{|𝑌𝑙𝑚 |2 } = (𝐻 − 𝐿)Φ𝑠 . 𝑙=𝐿+1 𝑚=−𝑙
[087] A compensação de energia realizada pela multiplicação de um fator 𝑔 para 𝑏⃗𝐿 , ou seja, 𝑥𝐿 = 𝑔𝑏⃗𝐿 .
[088] A potência total esperada do sinal Ambissônico de saída 𝑧𝐻 agora é dada por 𝐻 𝑙 ∑ ∑ Ε{|𝑍𝑙𝑚 |2 } = 𝑔 ⏟2 (𝐿 + 1)Φ𝑠 + 𝑔2 (𝐿 + 1)Φ𝑑 + ⏟ (𝐻 − 𝐿)Φ𝑠 . 𝑙=0 𝑚=−𝑙 potência total 𝑥𝐿 potência total 𝑦 ⃗𝐻
[089] A potência total esperada de 𝑧𝐻 deve corresponder à potência total esperada de𝑏⃗𝐻 . Portanto, o fator de compensação quadrada é computado como (𝐿 + 1)Φ𝑠 + (𝐻 + 1)Φ𝑑 𝑔2 = (𝐿 + 1)(Φ𝑠 + Φ𝑑 )
[090] Isso pode ser simplificado para
𝐻+1 𝑔 = √1 + Ψ ( − 1), 𝐿+1
[091] Em que Ψ é a difusão, 𝐿 é a ordem máxima do sinal Ambissônico de entrada, e 𝐻 é a ordem máxima do sinal Ambissônico de saída.
[092] É possível adotar o mesmo princípio para 𝐾 < (𝐿 + 1)2 em que os componentes Ambissônicos de som difuso (𝐿 + 1)2 − 𝐾 são sintetizados usando decorrelacionadores e uma resposta difusa média.
[093] Em certos casos, 𝐾 < (𝐿 + 1)2 e nenhum componente de som difuso é sintetizado. Isso é especialmente verdadeiro para altas frequências em que fases absolutas são inaudíveis e o uso de decorrelacionadores é irrelevante. Os componentes de som difuso podem ser, então, ser modelados pela compensação de energia por meio de computação da ordem Lk e o número de modos mk correspondentes aos componentes de ordem inferior K, em que K representa um número de componentes difusos no primeiro grupo: Lk = ⌊√𝐾 − 1⌋ {𝑚𝑘 = 𝐾 − (𝐿𝑘 + 1)2 , 𝑁 = 2(𝐿𝑘 + 1) + 1
[094] O ganho de compensação se torna, então: 𝐻+1 𝑔 = √1 + Ψ ( − 1) 𝑚𝑘 𝐿𝑘 + 1 + 𝑁
[095] Subsequentemente, modalidades da normalização da energia dos componentes de som diretos correspondentes ao segundo aspecto ilustrado de maneira geral na Figura 7 são ilustradas. Acima, o vetor de entrada 𝑏⃗𝐿 foi suposto de ser o sinal Ambissônico fisicamente correto de ordem máxima 𝐿. Contudo, o sinal de mixagem de redução de entrada pode ser afetado por meio de erro de quantização, o que pode quebrar o relacionamento d e energia. Esse relacionamento pode ser restaurado por meio da normalização do sinal de mixagem de redução de entrada: 𝑥𝐿 = 𝑔𝑠 𝑏⃗𝐿 .
[096] Dada a direção da soma de som e os parâmetros de difusão, componentes difusos e diretos podem ser expressos como: 𝑚 𝑃𝑠,𝑙 = 𝐵00 √1 − Ψ𝐺𝑙𝑚 (𝜑, 𝜃) 𝑚 𝑃𝑑,𝑙 = √Ψ𝐵𝑙𝑚 .
[097] A potência esperada de acordo com o modelo pode ser então expressa para cada componente de𝑥𝐿 como: 2 Ε{|𝑋𝑙𝑚 |2 } = 𝑔𝑠 Ε{|𝐵𝑙𝑚 |2 } = Ε{|𝐵00 |2 }(1 − Ψ)(𝐺𝑙𝑚 (𝜑, 𝜃))2 + Ψ𝑄𝑙 Ε{|𝐵00 |2 }
[098] O ganho de compensação se torna, então: Ε{|𝐵00 |2 } 𝑔𝑠 = √ 2 (𝑄𝑙 Ψ + (1 − Ψ)(𝐺𝑙𝑚 (𝜑, 𝜃))2 ), Ε {|𝐵𝑙𝑚 | } em que 0≤ 𝑙 ≤ 𝐿 e −𝑙 ≤ 𝑚 ≤ 𝑙
[099] Alternativamente, a potência esperada de acordo com o modelo pode, então, ser expressa para cada componente de 𝑥𝐿 como: 2 Ε{|𝑋𝑙𝑚 |2 } = 𝑔𝑠 Ε{|𝐵𝑙𝑚 |2 } = Ε{|𝐵00 |2 }(1 − Ψ)(𝐺𝑙𝑚 (𝜑, 𝜃))2 + ΨΕ{|𝐵𝑙𝑚 |2 }
[0100] O ganho de compensação se torna, então: Ε{|𝐵00 |2 } 𝑔𝑠 = √Ψ + 2 (1 − Ψ)(𝐺𝑙𝑚 (𝜑, 𝜃))2 , Ε {|𝐵𝑙𝑚 | } em que 0≤ 𝑙 ≤ 𝐿 e −𝑙 ≤ 𝑚 ≤ 𝑙
[0101] 𝐵00 e 𝐵𝑙𝑚 são valores complexos para o cálculo de 𝑔𝑠 , o valor normal ou magnitude ou absoluto ou a representação de coordenada polar do valor complexo é aceita e elevada ao quadrado para obter a potência esperada ou energia como a medida relacionada a energia ou amplitude.
[0102] A compensação de energia dos componentes de componentes de som difusos e a normalização de energia dos componentes de som direto pode ser alcançada concomitantemente por meio da aplicação de um ganho da forma: 𝑔𝑠,𝑑 = 𝑔. 𝑔𝑠
[0103] Em uma implementação real, os ganhos de normalização obtidos, o ganho de compensação ou a combinação dos dois pode ser limitada para evitar fatores de ganho altos resultando em equalização severa que poderia levar a artefatos de áudio.
Por exemplo, os ganhos podem ser limitados para serem entre -6 e +6 dB. Além disso, os ganhos podem ser suavizados sobre tempo e/ou frequência (através da média de movimentação ou média recursiva) para evitar alterações abruptas e, então, para o processo de estabilização.
[0104] Subsequentemente, alguns dos benefícios e vantagens das modalidades preferenciais sobre o estado da técnica serão resumidos. • Síntese HOA dentro de DirAC simplificada (menos complexa). ○ Mais síntese direta sem uma síntese completa de todos os componentes Ambissônicos. ○ Redução do número de decorrelacionadores exigidos e seus impactos na qualidade final. • Redução de artefatos de codificação introduzidos no sinal de mixagem de redução durante a transmissão. • Separação do processamento para três diferentes ordens para ter uma troca otimizada entre qualidade e eficiência de processamento.
[0105] Subsequentemente, vários aspectos inventivos parcialmente ou totalmente incluídos na descrição acima são resumidos que podem ser usados de modo independente uns dos outros ou em combinação uns com os outros ou somente em uma certa combinação que combina somente dois aspectos selecionados de modo arbitrário dos três aspectos. PRIMEIRO ASPECTO: COMPENSAÇÃO DE ENERGIA PARA OS
COMPONENTES DE SOM DIFUSOS
[0106] Esta invenção se inicia a partir do fato de que quando uma descrição de campo de som é gerada a partir de um sinal de entrada que compreende um ou mais componentes de sinais, o sinal de entrada pode ser analisado para obter pelo menos dados de difusão para o campo de som representado pelo sinal de entrada. A análise do sinal de entrada pode ser uma extração de dados de difusão associados como metadados para o um ou mais componentes de sinais ou a análise do sinal de entrada pode ser uma análise de sinal real, quando, por exemplo, o sinal de entrada tem dois,
três ou ainda mais componentes de sinais como uma representação de primeira ordem total como uma representação de formato B ou uma representação de formato A.
[0107] Agora, existe um gerador de componente de som que gera um ou mais componentes de campo de som de um primeiro grupo que tem um componente direto e um componente difuso. E, adicionalmente, um ou mais componentes de campo de som de um segundo grupo é gerado, em que, para tal segundo grupo, o componente de campo de som tem somente componentes diretos.
[0108] Em contraste à geração de campo de som total, isso irá resultar em um erro de energia fornecido de que o valor de difusão para o quadro atual ou para o compartimento de tempo/frequência sob consideração tenha um valor diferente de zero.
[0109] A fim de compensar esse erro de energia, uma compensação de energia é executada ao gerar o primeiro grupo de componentes de campo de som. Essa compensação de energia depende dos dados de difusão e de um número de componentes de campo de som no segundo grupo que representa a perda de energia devido a não síntese dos componentes difusos para o segundo grupo.
[0110] Em uma modalidade, o gerador de componente de som para o primeiro grupo pode ser o ramo de ordem inferior da Figura 4 que extrai os componentes de campo de som do primeiro grupo por meio de cópia ou execução de uma adição ponderada, ou seja, sem executar uma função de base espacial avaliação complexa. Portanto, o componente de campo de som do primeiro grupo disponível separadamente com uma porção direta e uma porção difusa. Contudo, o aumento de todo o componente de campo de som do primeiro grupo em relação a sua energia automaticamente aumenta a energia da porção difusa.
[0111] Alternativamente, o gerador de componente de som para o um ou mais componentes de campo de som do primeiro grupo pode também ser o ramo de ordem média na Figura 4 que depende de uma síntese de porção direta e síntese de porção difusa separada. Aqui, é tido a porção difusa disponível separadamente e, em uma modalidade, a porção difusa do componente de campo de som é aumentada mas não a porção direta a fim de compensar a perda de energia devido ao segundo grupo. Alternativamente, contudo, pode-se, nesse caso, aumentar a energia do componente de campo de som resultante após ter-se combinado a porção direta e a porção difusa.
[0112] Alternativamente, o gerador de componente de som para o um ou mais componentes de campo de som do primeiro grupo pode ser também os ramos de componentes de ordem inferior e média na Figura 4. A compensação de energia pode ser então aplicada somente aos componentes de ordem inferior, ou a ambos os componentes de ordem inferior e média. SEGUNDO ASPECTO: NORMALIZAÇÃO DE ENERGIA DE
COMPONENTES DE SOM DIRETOS
[0113] Nesta invenção, parte-se do pressuposto de que a geração do sinal de entrada que tem dois ou mais componentes de som foi acompanhado por algum tipo de quantização. Tipicamente, quando se considera dois ou mais componentes de som, um componente de som do sinal de entrada pode ser um sinal onidirecional, como sinais de microfone onidirecional W em uma representação de formato B, e os outros componentes de som podem ser sinais direcionais individuais, como os sinais de microfone em forma de oito X,Y,Z em uma representação de formato B representação, ou seja, uma representação Ambissônica de primeira ordem.
[0114] Quando um codificador de sinal entra em uma situação que os requerimentos de taxa de bits são muito altos para uma operação de codificação perfeita, então, um procedimento típico é que o codificador codifica o sinal onidirecional tão exato quanto possível, mas o codificador somente gasta um número baixo de f bits para componentes direcionais que podem ser ainda tão baixos que um ou mais componentes direcionais são reduzidos para zero completamente. Isso representa tamanha compatibilidade de energia e perda em informações direcionais.
[0115] Agora, no entanto, se tem a exigência, por exemplo, que é obtida por ter informações externas de parâmetros explícitos que dizem que um certo quadro ou compartimento de tempo/frequência tem uma certa difusão que é menor que um e uma direção de som. Portanto, pode surgir a situação que se tem, de acordo com os dados paramétricos, um certo componente não difuso com uma certa direção enquanto, por outro lado, o sinal onidirecional transmitido e os sinais direcionais não refletem essa direção. Por exemplo, o sinal onidirecional poderia ter sido transmitido sem qualquer perda de informações significativas enquanto o sinal, Y, responsável pela direção esquerda e direita poderia ter sido configurado para zero pela falta de razões de bit. Nesse cenário, mesmo se na cena de áudio original um componente de som direto estiver vindo pela esquerda, os sinais transmitidos irão refletir uma cena de áudio sem qualquer característica direcional de direita ou esquerda.
[0116] Portanto, de acordo com a segunda invenção, uma normalização de energia é executada para os componentes de som diretos a fim de compensar a quebra de relacionamento de energia com a ajuda de dados de direção/ difusão seja sendo explicitamente incluído no sinal de entrada ou sendo derivado do próprio sinal de entrada.
[0117] Essa normalização de energia pode ser aplicada no contexto de todos os ramos de processamento individual da Figura 4, sejam todos juntos ou somente separadamente.
[0118] Esta invenção permite o uso de dados paramétricos adicionais, sejam eles recebidos do sinal de entrada ou derivados de porções não comprometidas do sinal de entrada, e, portanto, erros que são incluídos no sinal de entrada podem, por alguma razão, serem diminuídos usando os dados de direção adicional e dados de difusão derivados do sinal de entrada.
[0119] Nesta invenção, uma medida relacionada a energia ou amplitude para um componente onidirecional derivado do sinal de entrada e uma medida adicional relacionada a energia ou amplitude para o componente direcional derivado do sinal de entrada são estimados e usados para compensação de energia juntamente com os dados de direção e os dados de difusão. Tal medida relacionada a energia ou amplitude pode ser a própria amplitude, ou a potência, ou seja, as amplitudes quadradas e adicionadas, ou pode ser a energia como a potência multiplicada por um certo período de tempo ou pode ser qualquer outra medida derivada da amplitude com um expoente para uma amplitude sendo que o expoente é diferente de um e uma adição subsequente. Portanto, uma medida adicional relacionada a energia ou amplitude também poderia ser sem barulho com um expoente de três comparado com a potência que tem um expoente de dois. TERCEIRO ASPECTO: IMPLEMENTAÇÃO DE SISTEMA COM
DIFERENTES PROCEDIMENTOS DE PROCESSAMENTO PARA AS DIFERENTES ORDENS
[0120] Na terceira invenção, que é ilustrada na Figura 4, um campo de som é gerado usando um sinal de entrada que compreende um sinal mono ou um sinal multicomponente que tem dois ou mais componentes de sinais. Um analisador de sinal deriva dados de direção e dados de difusão a partir do sinal de entrada seja por uma análise de sinal explícita no caso de o sinal de entrada ter dois ou mais componentes de sinais pela análise de sinal de entrada a fim de extrair dados de direção e dados de difusão incluídos no sinal de entrada como metadados.
[0121] Um gerador de componentes de ordem inferior gera a descrição de som de ordem inferior a partir do sinal de entrada até uma ordem predeterminada e reexecuta essa tarefa para modos disponíveis que podem ser extraídos do sinal de entrada por meio da cópia de um componente de sinal componente a partir do sinal de entrada ou por meio da execução de uma combinação ponderada dos componentes no sinal de entrada.
[0122] O gerador de componentes de ordem média gera uma descrição de som de ordem média que tem componentes de ordens acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e menor ou igual a uma primeira ordem de truncamento usando uma síntese de pelo menos um componente direto e uma síntese de pelo menos um componente difuso usando dados de direção e os dados de difusão obtidos pelo analisador para que a descrição de som de ordem média compreenda uma contribuição direta e uma contribuição difusa.
[0123] Além disso, um gerador de componentes de ordem superior gera uma descrição de som de ordem superior que tem componentes de ordens acima da primeira truncada e menor que ou igual a segunda ordem de truncamento usando uma síntese de pelo menos um componente direto sem qualquer síntese de componente difusa para que a descrição de som de ordem superior tenha contribuição direta somente.
[0124] Esta invenção de sistema tem vantagens significativas nas quais a mais exata geração de campo de som de ordem inferior possível é feita por meio da utilização das informações incluídas no sinal de entrada tão boas quanto possíveis enquanto, ao mesmo tempo, a operação de processamento que executa a descrição de som de ordem inferior exige poucos esforços devido ao fato de que somente operações de cópia ou operações de combinação ponderada como adições ponderadas são exigidas. Portanto, uma descrição de som de ordem inferior de alta qualidade é executada com uma quantidade mínima de potência de processamento exigida.
[0125] A descrição de som de ordem média exige mais potência de processamento, mas permite gerar uma descrição de som de ordem média muito precisa que tem contribuições difusas e diretas usando os dados de direção analisados e dados de difusão tipicamente até uma ordem, ou seja, a ordem superior, abaixo da qual uma contribuição difusa em uma descrição de campo de som é ainda exigida de um ponto de vista perceptiva.
[0126] Finalmente, o gerador de componentes de ordem superior gera a descrição de som de ordem superior apenas pela execução de uma síntese direta sem executar uma síntese difusa. Isso, mais uma vez, reduz a quantidade de potência de processamento exigida devido ao fato de que somente os componentes diretos são gerados enquanto, ao mesmo tempo, a omissão da síntese difusa não é tão problemática de um ponto de vista perceptivo.
[0127] Naturalmente, a terceira invenção pode ser combinada com a primeira invenção e/ou a segunda invenção, mas mesmo quando, por algumas razões, a compensação para não executar a síntese difusa com o gerador de componentes de ordem superior não for aplicada o procedimento, mesmo assim, resulta em um compromisso ótimo entre potência de processamento por um lado e qualidade de áudio por outro. O mesmo é verdadeiro para a execução de normalização de energia de ordem inferior que compensa a codificação usada para gerar o sinal de entrada. Em uma modalidade, essa compensação é adicionalmente executada, mas mesmo sem essa compensação, vantagens não triviais significativas são obtidas.
[0128] A Figura 4 ilustra, como uma ilustração simbólica de uma transmissão paralela, o número de componentes processados por cada gerador de componentes. O gerador de componentes de ordem inferior 810 ilustrado na Figura 4 gera uma descrição de campo de som de ordem inferior a partir do sinal de entrada até uma ordem predeterminada e um modo predeterminado, em que o gerador de componentes de ordem inferior 810 é configurado para derivar a descrição de campo de som de ordem inferior ao copiar ou aceitar o sinal de entrada como ele é ou executar uma combinação ponderada dos canais do sinal de entrada. Como ilustrado, entre o bloco de componentes de gerador ordem inferior e os blocos de componentes de mixagem de ordem inferior, componentes individuais K são processados por esse gerador de componentes de ordem inferior 810. O gerador de componentes de ordem média 820 gera o sinal de referência e, como uma situação exemplificativa, é delineado que o sinal onidirecional incluso no sinal de mixagem de redução na entrada ou na saída do banco de filtro 400 é usado. Contudo, quando o sinal de entrada tem o canal esquerdo e o canal direito, então o sinal mono obtido por meio da adição do canal esquerdo e do canal direito é calculado pelo gerador de sinal de referência 821. Além disso, o número de componentes (L + 1)2 – K são gerados pelo gerador de componentes de ordem média. Além disso, o gerador de componentes de ordem superior gera um número de componentes (H + 1)2 – (L + 1)2 para que, no fim, na saída do combinador, (H + 1)2 estejam os componentes únicos ou variados (número pequeno) dentre os componentes na entrada até o banco de filtro 400. O divisor é configurado para fornecer os de dados de difusão/direcionais par os geradores de componentes correspondentes 810, 820, 830. Portanto, o gerador de componentes de ordem inferior recebe os itens de dados K. Isso é indicado pela linha que coleta o divisor 420 e o bloco de componentes de mixagem de ordem inferior.
[0129] Além disso, o bloco de mixagem de componentes de ordem misturada 825 recebe itens de dados K (L + 1)2 –, e o bloco de componentes de mixagem de ordem superior recebe itens de dados (H + 1)2 – (L + 1)2. Correspondentemente, os blocos de componentes de mixagem individuais fornecem um certo número de componentes de campo de som para o combinador 430.
[0130] Subsequentemente, uma implementação preferencial do gerador de componentes de ordem inferior 810 da Figura 4 é ilustrado em relação a Figura 9. O sinal de entrada é inserido em um investigador de sinal de entrada 811, e o investigador de sinal de entrada 811 fornece as informações adquiridas para um seletor de modo de processamento 812. O seletor de modo de processamento 812 é configurado para selecionar uma pluralidade de diferentes modos de processamento que são esquematicamente ilustrados como um bloco de cópia 813 indicado pelo número 1, um bloco aceito (como ele é) 814 indicado pelo número 2, um bloco de combinação linear (primeiro modo) indicado pelo número 3 e pelo número de referência 815, e um bloco de combinação linear (segundo modo) 816 indicado pelo número 4. Por exemplo, quando o investigador de sinal de entrada 811 determina em certo tipo de sinal de entrada então o seletor do modo de processamento 812 seleciona um dentre a pluralidade de diferentes modos de processamento como mostrado na tabela da Figura 9. Por exemplo, quando o sinal de entrada é um sinal onidirecional W ou um sinal processamento então, a cópia 813 ou aceito 814 é selecionada. Contudo, quando o sinal de entrada é um sinal estéreo com um canal esquerdo ou um canal direito ou um sinal multicanal com canais 5.1 ou 7.1 então bloco de combinação linear 815 é selecionado para derivar, a partir do sinal de entrada sinal de entrada, o sinal onidirecional W por meio da adição do esquerda e direito e por meio do cálculo do componente direcional ao calcular a diferença entre o esquerdo e o direito.
[0131] Contudo, quando o sinal de entrada é um sinal estéreo unificado, ou seja,
a representação de meio/lateral então o bloco 813 ou bloco 814 é selecionado uma vez que o sinal de meio já representa o sinal onidirecional e o sinal lateral já representa o componente direcional.
[0132] Similarmente, quando é determinado que o sinal de entrada é um sinal Ambissônico de primeira ordem (FOA) então o bloco 813 ou bloco 814 é selecionado pelo seletor de modo de processamento 812. Contudo, quando é determinado que o sinal de entrada e um sinal de formato A então o bloco de combinação linear (segundo modo) 816 é selecionado a fim de executar uma transformação linear no sinal de formato A para obter o sinal Ambissônico de primeira ordem que tem o componente onidirecional e três componentes direcionais que representam blocos de componentes de ordem inferior K gerados pelo bloco 810 da Figura 8 ou Figura 6. Além disso, a Figura 9 ilustra um compensador de energia 900 que é configurado para executar uma compensação de energia para a saída de um dos blocos 813 até 816 a fim de executar a compensação de fusível e/ou a compensação direta com valores de ganho correspondentes g e gs.
[0133] Assim, a implementação do compensador de energia 900 corresponde ao procedimento do gerador de componente de som 650 ou do gerador de componente de som 750 da Figura 6 e Figura 7, respectivamente.
[0134] A Figura 10 ilustra uma implementação preferencial do gerador de componentes de ordem média 820 da Figura 8 ou uma parte do gerador de componente de som 650 para a seta baixa direta/difusa do bloco 650 em relação ao primeiro grupo. Em particular, o gerador de componentes de ordem média 820 compreende o gerador de sinal de referência 821 que recebe o sinal de entrada e gera o sinal de referência ao copiar ou aceitar como ele é quando o sinal de entrada é um sinal mono ou ao derivar o sinal de referência a partir do sinal de entrada por meio de cálculo como discutido anteriormente ou como ilustrado no pedido de patente WO 2017/157803 A1 incorporado no presente documento a título de referência com seus ensinamentos totais.
[0135] Além disso, A Figura 10 ilustra o calculador de ganho direciona l 410 que é configurado para calcular, a partir de certas informações de DOA (Φ, θ) e a partir de um certo número de modo m e um certo número de ordem l o ganho direcional Glm. Na modalidade preferencial, em que o processamento e feito no domínio de tempo/frequência para cada bloco individual referenciado por k, n, o ganho direcional é calculado para cada bloco de tempo/frequência. O ponderador 820 recebe o sinal de referência e os dados de difusão para o certo bloco de tempo/frequência e o resultado do ponderador 820 é a porção direta. A porção difusa é gerada por meio de processamento executado pelo filtro de decorrelacão 823 e o ponderador subsequente 824 que recebe o valor de difusão Ψ para o certo quadro de tempo e o compartimento de frequência e, em particular, recebe a resposta média para um certo modo m e ordem l indicado pelo Dl gerado pelo fornecedor de resposta média 826 que recebe, como uma entrada, o modo exigido m e a ordem exigida l.
[0136] O resultado do ponderador 824 é a porção difusa e a porção difusa é adicionada à porção direta pelo adicionador 825 a fim de obter um certo componente de campo de som de ordem média para um certo modo m e uma certa ordem l. Prefere-se aplicar um ganho de compensação difusa discutido em relação à Figura 6 somente à porção difusa gerada pelo bloco 823. Isso pode ser feito de modo vantajoso dentro do procedimento feito pelo ponderador (difuso). Portanto, somente a porção difusa no sinal é intensificado a fim de compensar a perda de energia difusa incorrida pelos componentes superiores que não recebem uma síntese total como ilustrado na Figura 10.
[0137] Uma geração somente de porção direta é ilustrada na Figura 11 para o gerador de componentes de ordem superior. Basicamente, o gerador de componentes de ordem superior é implementado da mesma maneira que o gerador de componentes de ordem média em relação ao ramo direto mas não compreende os blocos 823, 824, 825 e 826. Portanto, o gerador de componentes de ordem superior apenas compreende o ponderador (direto) 822 que recebe dados de entrada do calculador de ganho direcional 410 e recebe um sinal de referência do gerador de sinal de referência
821. Preferencialmente, apenas um sinal de referência único para o gerador de componentes de ordem superior e para o gerador de componentes de ordem média é gerado. Contudo, ambos os blocos podem também ter um gerador de sinal de referências individual como pode ser o caso. Mesmo assim, prefere-se somente um gerador de sinal de referência único. Portanto, o processamento executado pelo gerador de componentes de ordem superior é extremamente eficiente, uma vez que uma direção de ponderação única com um certo ganho direcional Glm com certas informações de difusão Ψ para o bloco de tempo/frequência está para ser executada. Portanto, os componentes de ordem superior de campo de som podem ser gerados prontamente e de modo extremamente eficiente e qualquer erro devido a não geração de componentes difusos ou não uso de componentes difusos no sinal de saída sinal é facilmente compensada pelo aprimoramento dos componentes de campo de som ordem inferior ou preferencialmente somente pela porção difusa dos componentes de campo de som de ordem média.
[0138] Tipicamente, a porção difusa não estará disponível separadamente dentro dos componentes de campo de som ordem inferior de gerados por meio da cópia ou por meio da execução da combinação linear (ponderada). Contudo, intensificar a energia de tais componentes automaticamente intensifica a energia da porção difusa. A intensificação concorrente da energia da porção direta não é problemática como foi constatado pelos inventores.
[0139] Subsequentemente, é feita referência às Figuras. 12a até 12c a fim de adicionalmente ilustrar o cálculo dos ganhos de compensação individual.
[0140] A Figura 12a ilustra uma implementação preferencial do gerador de componente de som 650 da Figura 6. O ganho de compensação (difuso) é calculado, em uma modalidade, usando o valor de difusão, a ordem máxima H e a ordem de truncamento L. Na outra modalidade, o ganho de compensação difuso é calculado usando o parâmetro Lk derivado do número de componentes no ramo de processamento de ordem inferior 810. Além disso, o parâmetro mk é usado dependendo do parâmetro lk e do número de componentes K realmente gerados pelo gerador de componente de ordem inferior. Além disso, o valor N dependente de Lk é usado também. Ambos os valores H, L na primeira modalidade ou H, Lk, mk representam de maneira geral o número de componentes de campo de som no segundo grupo (em relação ao número de componentes de som no primeiro grupo). Portanto, quanto mais componentes existirem para os quais nenhum componente difuso é sintetizado, mais alta será o ganho de compensação de energia. Por outro lado, quanto mais alto for o número de componentes de campo de som de ordem inferior que existam, que podem ser compensados para, ou seja, multiplicados pelo fator de ganho, menor o fator de ganho pode ser. De maneira geral, o fator de ganho g será sempre maior que 1.
[0141] A Figura 12a ilustra o cálculo do fator de ganho g por meio do calculador de ganho de compensação (difuso) 910 e a aplicação subsequente desse fator de ganho para o componente (ordem inferior) que será “corrigido” como feito por meio do aplicador de ganho de compensação 900. No caso de números lineares, o aplicador de ganho de compensação será um multiplicador, e no caso de números logarítmicos, o aplicador de ganho de compensação será um adicionador. Contudo, outras implementações da aplicação do ganho de compensação podem ser implementadas dependendo da natureza específica e maneira de calcular o ganho de compensação por meio do bloco 910. Portanto, o ganho não necessariamente tem que ser um ganho multiplicativo mas também pode ser qualquer outro ganho.
[0142] A Figura 12b ilustra uma terceira implementação para processamento de ganho de compensação (direto). Um calculador de ganho de compensação (direto) 920 recebe, como uma entrada, a medida relacionada a energia ou amplitude para o componente onidirecional indicado como “potência onidirecional” na Figura 12b. Além disso, a medida relacionada à segunda energia ou amplitude para o componente direcional é também colocada no bloco 920 como “potência direcional”. Além disso, o calculador de ganho de compensação direta 920 adicionalmente recebe as informações QL ou, alternativamente, as informações N. N são iguais a (2l + 1) sendo que o número de coeficientes por ordem l, e Ql é igual a 1/N. Além disso, o ganho direcional Glm para o certo bloco de tempo/frequência (k, n) é também exigido para o cálculo do ganho de compensação (direta). Os ganhos direcionais são os mesmos dados que são derivados do calculador de ganho direcional 410 da Figura 4, por exemplo. O ganho de compensação (direto) gs é encaminhado do bloco 920 para o aplicador de ganho de compensação 900 que pode ser implementado de uma maneira similar como o bloco 900, ou seja, recebe o componente (ou componentes) para serem “corrigidos” e emitem o componente corrigido (ou componentes corrigidos).
[0143] A Figura 12c ilustra uma implementação preferencial da combinação da compensação de energia dos componentes de som difusos e a normalização de energia de compensação dos componentes de som diretos para serem executados em conjunto. Para esse fim, o ganho de compensação (difuso) g e o ganho de compensação (direto) gs são colocados em um combinador de ganho 930. O resultado do combinador de ganho (ou seja, o ganho combinado) é inserido em um manipulador de ganho 940 que é implementado com um pós-processador e reexecuta uma limitação para um valor mínimo ou máximo que aplica uma função de compressão a fim de executar algum tipo de limitação mais suave ou reexecuta uma suavização entre blocos de tempo ou frequência. O ganho manipulado que é limitado ou comprimido ou suavizado ou processado em outras maneiras de pós-processamento e o ganho pós-processado é então aplicado pelo aplicador de ganho a um componente de ordem inferior (ou componentes de ordem inferior) para obter componentes de ordem inferior corrigido (ou componentes de ordem inferior corrigidos).
[0144] No caso de ganhos lineares g, gs, o combinador de ganho 930 é implementado como um multiplicador. No caso de ganhos logarítmicos, o combinador de ganho é implementado como um adicionador. Além disso, sobre a implementação do estimador da Figura 7 indicado no número de referência 620, é delineado que o estimador 620 pode fornecer qualquer medida relacionada a energia ou amplitudes para o componente onidirecional e para o componente direcional contanto que a torre aplicada à amplitude seja maior que 1. No caso de uma potência como a medida relacionada a energia ou amplitude, o expoente é igual a 2. Contudo, expoentes entre 1,5 e 2,5 são úteis também. Além disso, expoentes ainda mais altos ou potências são úteis como a potência de 3 aplicada à amplitude que corresponde a um valor de ruído em vez do valor de potência. Portanto, de maneira geral, potências de 2 ou 3 são preferenciais para fornecer a medida relacionada a energia ou amplitudes mas potências entre 1.5 e 4 são geralmente preferenciais também.
[0145] Subsequentemente, vários exemplos para os aspectos da invenção são resumidos. EXEMPLO PRINCIPAL 1A PARA O PRIMEIRO ASPECTO (COMPENSAÇÃO DE ENERGIA PARA OS COMPONENTES DE SONS DIFUSOS)
[0146] 1a. Aparelho para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende um ou mais canais, sendo que o aparelho compreende:
[0147] um analisador de sinal de entrada para obter dados de difusão a partir do sinal de entrada;
[0148] um gerador de componente de som para gerar, a partir do sinal de entrada, um ou mais componentes de campo de som de um primeiro grupo de componentes de campo de som que tem para cada componente de campo de som um componente direto e um componente difuso, e para gerar, a partir do sinal de entrada, um segundo grupo de componentes de campo de som que tem somente um componente direto,
[0149] em que o gerador de componente de som é configurado para executar uma compensação de energia quando gera o primeiro grupo de componentes de campo de som, a compensação de energia dependendo dos dados de difusão e um número de componentes de campo de som no segundo grupo. EXEMPLO PRINCIPAL 1B PARA O SEGUNDO ASPECTO (NORMALIZAÇÃO DE ENERGIA PARA OS COMPONENTES DE SINAIS DIRETOS)
[0150] 1b. Aparelho para gerar uma descrição de campo de som partir de um sinal de entrada que compreende pelo menos dois canais, sendo que o aparelho compreende:
[0151] um analisador de sinal de entrada para obter dados de direção e dados de difusão a partir do sinal de entrada;
[0152] um estimador para estimar uma primeira medida relacionada a amplitude para um componente onidirecional derivado a partir do sinal de entrada e para estimar uma segunda medida relacionada a amplitude para um componente direcional derivado do sinal de entrada, e
[0153] um gerador de componente de som para gerar componentes de campo de som do campo de som, em que o gerador de componente de som é configurado para executar uma compensação de energia do componente direcional usando a primeira medida relacionada a amplitude, a segunda medida relacionada a amplitude, os dados de direção e os dados de difusão. EXEMPLO PRINCIPAL 1C PARA O TERCEIRO ASPECTO:
IMPLEMENTAÇÃO DE SISTEMA COM DIFERENTES RAMOS GERADORES
[0154] 1c. Aparelho para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou um sinal multicanal, sendo que o aparelho compreende:
[0155] um analisador de sinal de entrada para analisar o sinal de entrada para derivar dados de direção e dados de difusão;
[0156] um gerador de componentes de ordem inferior para gerar uma descrição de som de ordem inferior a partir do sinal de entrada até uma ordem e modo predeterminado e, em que o gerador de componentes de ordem inferior é configurado par derivar a descrição de som de ordem inferior ao copiar o sinal de entrada ou executar uma combinação ponderada dos canais do sinal de entrada;
[0157] um gerador de componentes de ordem média para gerar uma descrição de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo ou em uma primeira ordem de truncamento usando uma síntese de pelo menos uma porção direta e de pelo menos uma porção difusa usando os dados de direção e os dados de difusão para que a descrição de som de ordem média compreenda uma contribuição direta e uma contribuição difusa; e
[0158] um gerador de componentes de ordem superior para gerar uma descrição de som de ordem superior que tem um componente acima da primeira ordem de truncamento usando uma síntese de pelo menos uma porção direta sem qualquer síntese de componente difusa para que a descrição de som de ordem superior compreende somente uma contribuição direta.
[0159] 2. O aparelho de acordo com os exemplos 1a, 1b, 1c,
[0160] em que a descrição de som de ordem inferior, a descrição de som de ordem média ou descrição de som de ordem superior contém componentes de campo de som da saída campo de som que são ortogonais, para que quaisquer duas descrições de som não contenham um e os mesmos componentes de campo de som, ou
[0161] em que o gerador de componentes de ordem média gera componentes abaixo ou em uma primeira ordem de truncamento não usada pelo gerador de componentes de ordem inferior.
[0162] 3. Aparelho de um dentre os exemplos precedentes, que compreende:
[0163] receber um sinal de mixagem de redução de entrada que tem um ou mais canais de áudio que representam o campo de som
[0164] receber ou determinar uma ou mais direções de som que representam o campo de som;
[0165] avaliar uma ou mais funções de bases espaciais usando a uma e mais direções de som;
[0166] derivar em um primeiro conjunto de um ou mais componentes de campo de som por meio de uma primeira combinação ponderada de canais de sinal de mixagem de redução de entrada.
[0167] derivar um segundo conjunto de um ou mais componentes diretos de campo de som por meio de uma segunda combinação ponderada de canais de sinal de mixagem de redução de entrada da uma e mais funções de bases espaciais avaliadas.
[0168] combinar o primeiro conjunto de um ou mais componentes de campo de som e segundo conjunto de um ou mais componentes de campo de som.
[0169] 4. Aparelho de um dentre os exemplos precedentes, em que o primeiro e o segundo conjuntos de componentes de campo de som são ortogonais.
[0170] 5. Aparelho de um dentre os exemplos precedentes, em que os componentes de campo de som são os coeficientes funções de bases ortogonais.
[0171] 6. Aparelho de um dentre os exemplos precedentes, em que os componentes de campo de som são os coeficientes de funções de bases espaciais.
[0172] 7. Aparelho de um dentre os exemplos precedentes, em que os componentes de campo de som são os coeficientes de harmônicos esféricos ou circulares.
[0173] 8. Aparelho de um dentre os exemplos precedentes, em que os componentes de campo de som são coeficientes Ambissônicos.
[0174] 9. Aparelho de um dentre os exemplos precedentes, em que o sinal de mixagem de redução de entrada tem menos que três canais de áudio.
[0175] 10. Aparelho de um dentre os exemplos precedentes, que compreende adicionalmente:
[0176] receber ou determinar um valor de valor de difusão;
[0177] gerar um ou mais componentes de som difusos como uma função de valor de difusão; e
[0178] combinar o um ou mais componentes de som difusos com um segundo conjunto do um ou mais componentes diretos de campo de som;
[0179] 11. Aparelho de um dentre os exemplos precedentes, em que um gerador de componente difuso compreende adicionalmente um decorrelacionador e para decorrelacionar informações de som difuso.
[0180] 12. Aparelho de um dentre os exemplos precedentes, em que o primeiro conjunto de um ou mais componentes de campo de som são derivados do valor de difusão.
[0181] 13. Aparelho de um dentre os exemplos precedentes, em que o primeiro conjunto de um ou mais componentes de campo de som são derivados da uma ou mais direções de som.
[0182] 14. Aparelho de um dentre os exemplos precedentes que deriva direções de som dependentes de tempo-frequência.
[0183] 15. Aparelho de um dentre os exemplos precedentes que deriva valores de difusão dependentes de tempo-frequência.
[0184] 16. Aparelho de um dentre os exemplos precedentes, que compreende adicionalmente decompor a pluralidade de canais do sinal de mixagem de redução do domínio de tempo em uma representação de frequência que tem a pluralidade de blocos de tempo-frequência.
[0185] 17. Método para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende um ou mais canais, que compreende:
[0186] obter dados de difusão a partir do sinal de entrada;
[0187] gerar, a partir do sinal de entrada, um ou mais componentes de campo de som de um primeiro grupo de componentes de campo de som que tem para cada componente de campo de som um componente direto e a componente difuso, e para gerar, a partir do sinal de entrada, a um segundo grupo de componentes de campo de som que tem somente um componente direto,
[0188] em que a geração compreende executar uma compensação de energia ao gerar o primeiro grupo de componentes de campo de som, sendo que a compensação de energia depende dos dados de difusão e de um número de componentes de campo de som no segundo grupo.
[0189] 18. Método para gerar uma descrição de campo de som a partir de um sinal de entrada que compreende pelo menos dois canais, que compreende:
[0190] obter dados de direção e dados de difusão a partir do sinal de entrada;
[0191] estimar uma primeira medida relacionada a amplitude para um componente onidirecional derivado do sinal de entrada e para estimar uma segunda medida relacionada a amplitude para um componente direcional derivado do sinal de entrada, e
[0192] gerar componentes de campo de som do campo de som, em que gerador de componente de som é configurado para executar uma compensação de energia do componente direcional usando a primeira medida relacionada a amplitude, a segunda medida relacionada a amplitude, os dados de direção e os dados de difusão.
[0193] 19. Método para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou a sinal multicanal, que compreende:
[0194] Analisar o sinal de entrada para derivar dados de direção e dados de difusão;
[0195] gerar uma descrição de som de ordem inferior a partir do sinal de entrada até uma ordem e modo predeterminado, em que o gerador de ordem inferior é configurado para derivar a descrição de som de ordem inferior ao copiar o sinal de entrada ou executar uma combinação ponderada dos canais do sinal de entrada;
[0196] gerar uma descrição de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo de uma ordem superior usando uma síntese de pelo menos uma porção direta e de pelo menos uma porção difusa usando os dados de direção e os dados de difusão para que a descrição de som de ordem média compreenda uma contribuição direta e uma contribuição difusa; e
[0197] gerar uma descrição de som de ordem superior que tem um componente na ou acima da ordem superior usando uma síntese de pelo menos uma porção direta sem qualquer síntese de componente difusa para que descrição de som de ordem superior compreenda somente uma contribuição direta.
[0198] 20. Programa de computador para executar, ao operar em um computador ou um processador, o método de um dentre os exemplos 17, 18, ou 19.
[0199] Deve-se mencionar aqui que todas as alternativas ou aspectos como discutidos anteriormente e todos os aspectos conforme definidos pelas reivindicações independentes a seguir podem ser usados individualmente, ou seja, sem qualquer outra alternativa ou objeto que não seja a alternativa contemplada, objeto ou reivindicação independente. Contudo, em outas modalidades, duas ou mais dentre as alternativas ou dos aspectos ou das reivindicações independentes podem ser combinadas umas com as outras e, em outras modalidades, todos os aspectos, ou alternativas e todas as reivindicações independentes podem ser combinados umas com as outras.
[0200] Um sinal de áudio codificado inventivo pode ser armazenado em uma mídia de armazenamento digital ou uma mídia de armazenamento não transitória ou pode ser transmitido em uma mídia de transmissão como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio como a Internet.
[0201] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. Analogamente, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso de um aparelho correspondente.
[0202] Dependendo de certas exigências de implementação, modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser executada usando uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, que têm sinais de controle legíveis eletronicamente armazenados nas mesmas, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de moco que o método respectivo é executado.
[0203] Algumas modalidades de acordo com a invenção compreendem um carreador de dados que tem sinais de controle legíveis eletronicamente que são capazes de cooperar com um sistema de computador programável, de modo que um dentre os métodos descritos no presente documento é executado.
[0204] De maneira geral, modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para executar um dentre os métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em um carreador legível por máquina.
[0205] Outras modalidades compreendem ao programa de computador para executar um dentre os métodos descritos no presente documento, armazenados em um carreador legível por máquina ou uma mídia de armazenamento não transitória.
[0206] Em outras palavras, uma modalidade o método inventivo é, portanto, um programa de computador que tem um código de programa para executar um dentre os métodos descritos no presente documento, quando o programa de computador opera em um computador.
[0207] Uma modalidade adicional os métodos inventivos é, portanto, um carreador de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por comutador) que compreende, gravada na mesma, o programa de computador para executar um dentre os métodos descritos no presente documento.
[0208] Uma modalidade adicional do método inventivo é, portanto, uma transmissão contínua de dados ou uma sequência de sinais que representam o programa de computador para executar um dentre os métodos descritos no presente documento. A transmissão contínua de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida através de uma conexão de comunicação de dados por exemplo através da Internet.
[0209] Uma modalidade adicional compreende um meio de processamento, por exemplo um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dentre os métodos descritos no presente documento.
[0210] Uma modalidade adicional compreende um computador que tem, instalado no mesmo, o programa de computador para executar um dentre os métodos descritos no presente documento.
[0211] Em algumas modalidades, um dispositivo lógico programável (por exemplo uma matriz de portas programáveis em campo) pode ser usadas para executar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programáveis em capo pode cooperar com um microprocessador a fim de executar um dentre os métodos descritos no presente documento. De maneira geral, os métodos são preferencialmente executados por qualquer aparelho de hardware.
[0212] As modalidades acima descritas são meramente ilustrativas para os princípios da presente invenção. Deve-se compreender que modificações e variações dos arranjos e detalhes descritos no presente documento serão evidentes para aqueles versados na técnica. A intenção é, portanto, de ser limitada somente pelo escopo das reivindicações iminentes da patente e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS QUE ESTÃO TODAS INCORPORADAS EM SUA TOTALIDADE A TÍTULO DE REFERÊNCIA:
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B- format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64
[3] R. K. Furness, "Ambisonics —An overview," in AES 8th International Conference, April 1990, pp. 181—189.
[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX – A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011
[5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (correspondente ao pedido de patente n WO 2017/157803 A1) Como no caso de compensação de compensação difusa.

Claims (22)

REIVINDICAÇÕES
1. Aparelho para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou um sinal multicanal, sendo que o aparelho é caracterizado por compreender: um analisador de sinal de entrada (600) para analisar o sinal de entrada para derivar dados de direção e dados de difusão; um gerador de componentes de ordem inferior (810) para gerar uma descrição do campo de som de ordem inferior a partir do sinal de entrada até uma ordem e modo predeterminados, em que o gerador de componentes de ordem inferior é configurado para derivar a descrição do campo de som de ordem inferior copiando- se ou tomando-se o sinal de entrada ou realizando-se uma combinação ponderada dos canais do sinal de entrada; um gerador de componentes de ordem média (820) para gerar uma descrição de campo de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo ou em uma primeira ordem de truncamento, usando uma síntese de pelo menos uma porção direta e de pelo menos uma porção difusa, usando os dados de direção e os dados de difusão, de modo que a descrição do campo de som de ordem média compreenda uma contribuição direta e uma contribuição difusa; e um gerador de componentes de ordem superior (830) para gerar uma descrição de campo de som de ordem superior com um componente acima da primeira ordem de truncamento, usando uma síntese de pelo menos uma porção direta, em que a descrição do campo de som de ordem superior compreende apenas uma contribuição direta.
2. Aparelho, de acordo com a reivindicação 1, caracterizado por o analisador de sinal de entrada (600) ser configurado para extrair os dados de difusão a partir dos metadados associados ao sinal de entrada ou para extrair os dados de difusão a partir do sinal de entrada por uma análise de sinal (610, 620) do sinal de entrada com dois ou mais canais ou componentes.
3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado por o gerador de componentes de ordem inferior (810) ser configurado para gerar K componentes de campo de som de ordem inferior, em que K é 1 ou maior que 1 e depende da ordem predeterminada e do modo predeterminado, em que o gerador de componentes de ordem média (820) é configurado para gerar componentes de campo de som de ordem média (L + 1)2 – K, em que L é maior que K e depende da ordem de truncamento e, em que o gerador de componentes de ordem superior (830) é configurado para gerar (H + 1)2 - (L + 1)2 componentes de campo de som de ordem superior, em que H é um número inteiro maior que L e em que H representa uma ordem máxima da descrição do campo de som gerado.
4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por compreender ainda um combinador de campo de som (430) para combinar os componentes de campo de som de ordem inferior, em que os componentes de campo de som de ordem média e os componentes de campo de som de ordem superior obtêm um campo de som combinado que tem (H + 1)2 componentes de campo de som, em que H é uma ordem máxima da descrição do campo de som gerado.
5. Aparelho, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por compreender ainda uma calculadora de ganhos direcionais (410) para calcular ganhos direcionais para os componentes de campo de som de ordem média e de ordem superior a partir dos dados de direção e/ou dados de difusão e para fornecer os ganhos direcionais para os componentes de campo de som de ordem média ao gerador de componentes de ordem média (820) e para fornecer os ganhos direcionais para os componentes de campo de som de ordem superior ao gerador de componentes de ordem superior (830).
6. Aparelho, de acordo com a reivindicação 5, caracterizado por a calculadora de ganhos direcional ser configurada para receber, para cada bloco de tempo-frequência de uma pluralidade de blocos de tempo-frequência, os dados direcionais e/ou os dados de difusão, e para avaliar uma função de base espacial para uma determinada ordem e modo usando os dados direcionais para obter o ganho direcional para uma certa ordem e modo.
7. Aparelho, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o gerador de componentes de ordem média (820) compreender: um gerador de sinal de referência (821) para fornecer um sinal de referência para um componente de campo de som da descrição de campo de som de ordem média e para modificar (822) o sinal de referência usando os dados direcionais; um descorrelacionador (823, 824) para descorrelacionar o sinal de referência ou um sinal derivado do sinal de referência para obter um sinal descorrelacionado; e um misturador (824, 825) para misturar o sinal de referência modificado e o sinal descorrelacionado usando os dados de difusão.
8. Aparelho, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o sinal de entrada compreender o sinal mono e em que o gerador de componentes de ordem inferior (810) é configurado para gerar um sinal Ambisonics de ordem zero, tomando-se ou copiando-se o sinal mono (813, 814), ou em que o sinal de entrada compreende pelo menos dois canais e em que o gerador de componentes de ordem inferior (810) é configurado para gerar um sinal Ambisonics de ordem zero adicionando-se os dois canais e para gerar um sinal Ambisonics de primeira ordem com base na diferença dos dois canais (815), ou em que o sinal de entrada compreende um sinal Ambisonics de primeira ordem com três ou quatro canais e em que o gerador de componentes de ordem inferior (810) é configurado para gerar um sinal Ambisonics de primeira ordem, tomando-se ou copiando-se os três ou quatro canais do sinal de entrada (813, 814), ou em que o sinal de entrada compreende um sinal de formato A com quatro canais e em que o gerador de componentes de ordem inferior (810) é configurado para calcular um sinal Ambisonics de primeira ordem realizando-se uma combinação linear ponderada dos quatro canais (816).
9. Aparelho, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o gerador de componentes de ordem superior (830) ser configurado para sintetizar apenas uma porção direta para um componente da descrição do campo de som de ordem superior usando os dados de direção.
10. Aparelho, de acordo com a reivindicação 9, caracterizado por compreender ainda uma calculadora de ganho direcional (410) para o componente de campo de som da descrição do campo de som de ordem superior configurada para avaliar uma função de base espacial para uma ordem e um modo do componente da descrição de campo de som de ordem superior e em que o gerador de componentes de ordem superior (830) é configurado para derivar o componente de campo de som da descrição do campo de som de ordem superior do sinal de referência e do ganho direcional.
11. Aparelho, de acordo com a reivindicação 10, caracterizado por o gerador de componentes de ordem superior (830) ser configurado para multiplicar (822) o sinal de referência pelo ganho direcional para a ordem e modo do componente de campo de som e para multiplicar (822) por um fator derivado a partir dos dados de difusão para obter o componente do campo de som da descrição do campo de som de ordem superior.
12. Aparelho, de acordo com a reivindicação 7, caracterizado por o descorrelacionador (823, 824) compreender um filtro de descorrelação (823) para receber o sinal de referência e para emitir um sinal de referência filtrado, e em que o descorrelacionador é configurado para ponderar (824) o sinal filtrado ou uma entrada de sinal no filtro de descorrelação (823) por um valor de ponderação derivado a partir dos dados de difusão e por um valor de ponderação adicional derivado a partir de uma ordem e modo do componente de campo de som em consideração para obter a porção difusa, e em que o misturador é configurado para adicionar (825) a porção direta e a porção difusa da mesma ordem e modo para obter o componente de campo de som de ordem média.
13. Aparelho, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por o gerador de componentes de ordem inferior (810) e/ou o gerador de componentes de ordem média (820) serem configurados para realizar uma compensação de energia para um ou mais componentes de campo de som da descrição de campo de som de ordem inferior ou a pelo menos uma porção difusa da descrição do campo de som de ordem média ou para um componente de campo de som da descrição do campo de som de ordem média para compensar uma perda de energia devido à descrição do campo de som de ordem superior com apenas o componente direto, ou em que o gerador de componente de som é configurado para realizar uma compensação de energia a um ou mais componentes de campo de som da descrição de campo de som de ordem inferior ou pelo menos uma porção difusa da descrição de campo de som de ordem média ou a um componente de campo de som da descrição de campo de som de ordem média em que a compensação de energia depende dos dados de difusão e pelo menos um de um número de componentes de campo de som gerados pelo gerador de componentes de ordem superior (830), um número de componentes difusos gerados pelo gerador de componentes de ordem inferior (810) e/ou o gerador de componentes de ordem média (820), uma ordem máxima dos componentes do campo de som gerados pelo gerador de componentes de ordem inferior (810) e/ou o gerador de componentes de ordem média (820) e uma ordem máxima de componentes de campo de som gerados pelo gerador de componentes de ordem superior (830).
14. Aparelho, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por o gerador de componentes de ordem inferior (810) ser configurado para realizar uma compensação de energia para um componente direcional incluído no sinal de entrada ou derivado do sinal de entrada copiando-se, tomando-se ou realizando-se uma combinação ponderada.
15. Aparelho, de acordo com a reivindicação 14, caracterizado por o gerador de componentes de ordem inferior compreender: um estimador (620) para estimar uma primeira medida relacionada à energia ou amplitude para um componente omnidirecional derivado do sinal de entrada e para estimar uma segunda medida relacionada à energia ou amplitude para um componente direcional derivado do sinal de entrada; e em que o gerador de componentes de ordem inferior (810) é configurado para realizar uma compensação de energia do componente direcional que usa primeira medida relacionada à energia ou amplitude, em que a segunda medida é relacionada à energia ou amplitude, aos dados de direção e aos dados de difusão.
16. Aparelho, de acordo com a reivindicação 14 ou 15, caracterizado por o gerador de componentes de ordem inferior (810) compreender um compensador de energia (910, 900) para realizar a compensação de energia, sendo que o compensador de energia compreende uma calculadora de ganho de compensação (910) para calcular um ganho de compensação usando os dados de difusão, uma ordem máxima dos componentes do campo de som do primeiro grupo e uma ordem máxima dos componentes do campo de som do segundo grupo, em que a ordem máxima dos componentes do campo de som do segundo grupo depende do número de componentes do campo de som no segundo grupo.
17. Aparelho, de acordo com a reivindicação 16, caracterizado por o gerador de componentes de ordem superior (830) ser configurado para multiplicar (822) o sinal de referência pelo ganho direcional para a ordem e modo do componente de campo de som da descrição do campo de som de ordem superior e para multiplicar (822) por um fator derivado a partir dos dados de difusão para obter o componente do campo de som da descrição do campo de som de ordem superior.
18. Aparelho, de acordo com a reivindicação 16 ou 17, caracterizado por o compensador de energia (910, 920, 930, 940) compreender um aplicador de ganho de compensação (900) para aplicar o ganho de compensação a pelo menos um componente de campo de som.
19. Aparelho, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado por um primeiro grupo de componentes de campo de som e um segundo grupo de componentes de campo de som serem ortogonais entre si ou os componentes de campo de som serem pelo menos um dos coeficientes de funções de base ortogonal, coeficientes de funções de base espacial, coeficientes de harmônicas esféricas ou circulares e coeficientes Ambisonics.
20. Aparelho, de acordo com qualquer uma das reivindicações 1 a 19 caracterizado por compreender ainda: um banco de filtros de análise (400) para gerar um ou mais componentes de campo de som do primeiro grupo e do segundo grupo para uma pluralidade de diferentes blocos de tempo-frequência, em que o analisador de sinal de entrada (600) é configurado para obter um item de dados de direção e um item de dados de difusão para cada bloco de tempo- frequência, e em que um gerador de componentes de ordem inferior (810), um gerador de componentes de ordem média (820) ou o gerador de componentes de som de ordem superior (830) (650) são configurados para operar separadamente para cada bloco de tempo-frequência.
21. Método para gerar uma descrição de campo de som usando um sinal de entrada que compreende um sinal mono ou um sinal multicanal caracterizado por compreender: analisar o sinal de entrada para derivar dados de direção e dados de difusão; gerar uma descrição de campo de som de ordem inferior a partir do sinal de entrada até uma ordem e modo predeterminados, em que o gerador de ordem inferior é configurado para derivar a descrição de campo de som de ordem inferior copiando-se o sinal de entrada ou realizando-se uma combinação ponderada dos canais de sinal de entrada; gerar uma descrição de campo de som de ordem média acima da ordem predeterminada ou na ordem predeterminada e acima do modo predeterminado e abaixo de uma ordem superior, usando uma síntese de pelo menos uma porção direta e de pelo menos uma porção difusa, usando os dados de direção e os dados de difusão, de modo que a descrição do campo de som de ordem média compreenda uma contribuição direta e uma contribuição difusa; e gerar uma descrição de campo de som de ordem superior com um componente na ordem superior ou acima, usando uma síntese de pelo menos uma porção direta sem qualquer síntese de componente difusa de modo que a descrição de campo de som de ordem superior compreenda apenas uma contribuição direta.
22. Programa de computador caracterizado por realizar, quando executado no computador ou em um processador, o método conforme definido na reivindicação 21.
BR112021010972-2A 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som BR112021010972A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18211064 2018-12-07
EP18211064.3 2018-12-07
PCT/EP2019/084056 WO2020115311A1 (en) 2018-12-07 2019-12-06 Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators

Publications (1)

Publication Number Publication Date
BR112021010972A2 true BR112021010972A2 (pt) 2021-09-08

Family

ID=64870294

Family Applications (3)

Application Number Title Priority Date Filing Date
BR112021010972-2A BR112021010972A2 (pt) 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som
BR112021010964-1A BR112021010964A2 (pt) 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som
BR112021010956-0A BR112021010956A2 (pt) 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som

Family Applications After (2)

Application Number Title Priority Date Filing Date
BR112021010964-1A BR112021010964A2 (pt) 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som
BR112021010956-0A BR112021010956A2 (pt) 2018-12-07 2019-12-06 Aparelho e método para gerar uma descrição de campo de som

Country Status (17)

Country Link
US (6) US11937075B2 (pt)
EP (4) EP3891735B1 (pt)
JP (3) JP7311602B2 (pt)
KR (5) KR20230113413A (pt)
CN (6) CN113439303B (pt)
AU (3) AU2019392876B2 (pt)
BR (3) BR112021010972A2 (pt)
CA (3) CA3122164C (pt)
ES (3) ES2969138T3 (pt)
FI (2) FI3891734T3 (pt)
MX (3) MX2021006565A (pt)
PL (3) PL3891736T3 (pt)
PT (2) PT3891736T (pt)
SG (3) SG11202105720RA (pt)
TW (3) TWI751457B (pt)
WO (3) WO2020115309A1 (pt)
ZA (3) ZA202103739B (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023549033A (ja) 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
WO2022074201A2 (en) 2020-10-09 2022-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
JP2023549038A (ja) 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031474B1 (en) * 1999-10-04 2006-04-18 Srs Labs, Inc. Acoustic correction apparatus
CN100539737C (zh) 2001-03-27 2009-09-09 1...有限公司 产生声场的方法和装置
ES2271654T3 (es) * 2002-08-07 2007-04-16 Dolby Laboratories Licensing Corporation Conversion espacial de canales de audio.
TWI313857B (en) 2005-04-12 2009-08-21 Coding Tech Ab Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
DE102008004674A1 (de) * 2007-12-17 2009-06-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalaufnahme mit variabler Richtcharakteristik
MX2010012580A (es) 2008-05-23 2010-12-20 Koninkl Philips Electronics Nv Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.
US8452019B1 (en) * 2008-07-08 2013-05-28 National Acquisition Sub, Inc. Testing and calibration for audio processing system with noise cancelation based on selected nulls
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
KR101388901B1 (ko) 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
US9111528B2 (en) 2009-12-10 2015-08-18 Reality Ip Pty Ltd Matrix decoder for surround sound
TWI489450B (zh) * 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
SG11201403493XA (en) * 2012-03-22 2014-07-30 Dirac Res Ab Audio precompensation controller design using a variable set of support loudspeakers
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) * 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US9502044B2 (en) * 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
CN105264595B (zh) 2013-06-05 2019-10-01 杜比国际公司 用于编码和解码音频信号的方法和装置
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2942981A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
KR102516625B1 (ko) * 2015-01-30 2023-03-30 디티에스, 인코포레이티드 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
CN108474643B (zh) * 2015-09-14 2020-04-24 统雷有限公司 用于一个或多个波长扫描激光器的设备和方法及其信号检测
WO2017085140A1 (en) * 2015-11-17 2017-05-26 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal
BR112018007276A2 (pt) * 2016-03-15 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho, método ou programa de computador para gerar uma descrição de campo de som
CN109891502B (zh) * 2016-06-17 2023-07-25 Dts公司 一种近场双耳渲染方法、系统及可读存储介质
EP3346729B1 (en) 2017-01-04 2020-02-05 Harman Becker Automotive Systems GmbH Headphone for generating natural directional pinna cues
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US20180333103A1 (en) * 2017-05-18 2018-11-22 One Health Group, LLC Algorithmic Approach for Estimation of Respiration and Heart Rates
CA3069772C (en) * 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques
CA3076703C (en) * 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
TWM564300U (zh) * 2018-05-04 2018-07-21 十銓科技股份有限公司 耳道式耳機
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
EP3675522A1 (en) * 2018-12-28 2020-07-01 Sonion Nederland B.V. Miniature speaker with essentially no acoustical leakage

Also Published As

Publication number Publication date
CN113454715A (zh) 2021-09-28
KR102590816B1 (ko) 2023-10-19
EP3891735A1 (en) 2021-10-13
US20230396949A1 (en) 2023-12-07
CN113439303B (zh) 2024-03-08
AU2019392988A1 (en) 2021-07-22
CA3122164A1 (en) 2020-06-11
US20240040330A1 (en) 2024-02-01
EP3891735B1 (en) 2023-11-29
US20210289313A1 (en) 2021-09-16
BR112021010956A2 (pt) 2021-08-31
KR20230113413A (ko) 2023-07-28
US11838743B2 (en) 2023-12-05
TWI751457B (zh) 2022-01-01
CA3122164C (en) 2024-01-02
KR102599744B1 (ko) 2023-11-08
SG11202105720RA (en) 2021-06-29
US11937075B2 (en) 2024-03-19
JP7309876B2 (ja) 2023-07-18
EP3891734B1 (en) 2023-01-25
AU2019392876B2 (en) 2023-04-27
KR20210097775A (ko) 2021-08-09
TWI745795B (zh) 2021-11-11
KR20210102924A (ko) 2021-08-20
JP7311601B2 (ja) 2023-07-19
MX2021006563A (es) 2021-08-11
ZA202103741B (en) 2022-06-29
ES2941268T3 (es) 2023-05-19
JP7311602B2 (ja) 2023-07-19
US20210289314A1 (en) 2021-09-16
WO2020115310A1 (en) 2020-06-11
TW202107449A (zh) 2021-02-16
ES2969138T3 (es) 2024-05-16
TWI747095B (zh) 2021-11-21
CN113424257B (zh) 2024-01-19
AU2019394097A1 (en) 2021-07-22
CA3122168C (en) 2023-10-03
WO2020115311A1 (en) 2020-06-11
CA3122170C (en) 2024-01-02
US20230379652A1 (en) 2023-11-23
WO2020115309A1 (en) 2020-06-11
AU2019394097B2 (en) 2022-11-17
MX2021006572A (es) 2021-08-11
CA3122170A1 (en) 2020-06-11
PL3891734T3 (pl) 2023-06-05
JP2022518663A (ja) 2022-03-16
JP2022518664A (ja) 2022-03-16
PT3891736T (pt) 2023-05-03
EP3891735C0 (en) 2023-11-29
CA3122168A1 (en) 2020-06-11
FI3891734T3 (fi) 2023-04-14
BR112021010964A2 (pt) 2021-08-31
FI3891736T3 (fi) 2023-04-14
SG11202105719RA (en) 2021-06-29
EP3891736B1 (en) 2023-01-25
TW202038214A (zh) 2020-10-16
EP3891736A1 (en) 2021-10-13
US20210289312A1 (en) 2021-09-16
CN117975975A (zh) 2024-05-03
CN117953905A (zh) 2024-04-30
JP2022517506A (ja) 2022-03-09
EP4191580A1 (en) 2023-06-07
EP3891734A1 (en) 2021-10-13
PL3891736T3 (pl) 2023-06-26
MX2021006565A (es) 2021-08-11
AU2019392876A1 (en) 2021-07-22
PL3891735T3 (pl) 2024-04-22
CN113454715B (zh) 2024-03-08
PT3891734T (pt) 2023-05-03
ES2940286T3 (es) 2023-05-05
CN113439303A (zh) 2021-09-24
ZA202103739B (en) 2022-01-26
SG11202105712QA (en) 2021-06-29
AU2019394097A8 (en) 2021-08-05
KR20230112750A (ko) 2023-07-27
CN117809663A (zh) 2024-04-02
CN113424257A (zh) 2021-09-21
ZA202103738B (en) 2022-06-29
AU2019392988B2 (en) 2022-11-17
US11856389B2 (en) 2023-12-26
TW202029186A (zh) 2020-08-01
KR20210102300A (ko) 2021-08-19

Similar Documents

Publication Publication Date Title
BR112021010972A2 (pt) Aparelho e método para gerar uma descrição de campo de som
RU2779415C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации
RU2772423C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка
RU2782511C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент