BR112016006832B1 - Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório - Google Patents

Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório Download PDF

Info

Publication number
BR112016006832B1
BR112016006832B1 BR112016006832-7A BR112016006832A BR112016006832B1 BR 112016006832 B1 BR112016006832 B1 BR 112016006832B1 BR 112016006832 A BR112016006832 A BR 112016006832A BR 112016006832 B1 BR112016006832 B1 BR 112016006832B1
Authority
BR
Brazil
Prior art keywords
audio signals
transient
fuzzy
matrix
audio
Prior art date
Application number
BR112016006832-7A
Other languages
English (en)
Other versions
BR112016006832A2 (pt
Inventor
Alan J. Seefeldt
Mark S. Vinton
C. Phillip Brown
Original Assignee
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112016006832A2 publication Critical patent/BR112016006832A2/pt
Publication of BR112016006832B1 publication Critical patent/BR112016006832B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

GERAÇÃO DE SINAL DIFUSO ADAPTATIVO EM UM UPMIXER. A presente invenção se refere a um sistema de processamento de áudio, como um upmixer, que é capaz de separar as porções difusas e não difusas dos sinais de áudio de entrada N. O upmixer pode ser capaz de detectar os casos de condições de sinal de áudio transitório. Durante os exemplos de condições de sinal de áudio transitório, o upmixer pode ser capaz de adicionar um sinal de controle adaptativo para um processo de expansão de sinal difuso, no qual os sinais de áudio M são emitidos. O upmixer pode variar o processo de expansão de sinal difuso ao longo do tempo, de tal modo que durante os casos de condições de sinal de áudio transitório, as porções difusas de sinais de áudio podem ser distribuídas de forma substancialmente apenas para os canais de saída espacialmente próximos aos canais de entrada. Durante os exemplos de condições de sinal de áudio não transitório, as porções difusas de sinais de áudio podem ser distribuídas de um modo substancialmente uniforme.

Description

Referência Cruzada aos Pedidos Relacionados
[001] Este pedido reivindica prioridade ao Pedido de Patente Provisória U.S. N° 61/886.554, depositado no dia 3 de outubro de 2013 e ao Pedido de Patente Provisória U.S. N° 61/907.890, depositado no dia 22 de novembro de 2013, cada um dos quais é aqui incorporado a título de referência em sua totalidade.
Campo Técnico
[002] A presente invenção refere-se aos dados de processamento de áudio. Em particular, a invenção refere-se ao processamento de dados de áudio, que inclui ambos os sinais de áudio difusos e direcionais durante um processo de upmixing. Antecedentes
[003] Um processo conhecido como upmixing envolve derivar um número M de canais de sinal de áudio a partir de um número menor N de canais de sinal de áudio. Alguns dispositivos de processamento de áudio capazes de realizar upmixing (que podem ser referidos aqui como "upmixers") podem, por exemplo, ser capazes de emitir 3, 5, 7, 9 ou mais canais de áudio com base em dois canais de áudio de entrada. Alguns upmixers podem ser capazes de analisar a fase e a amplitude dos dois canais de sinal de entrada para determinar como o campo sonoro que eles representam destina-se a transmitir as impressões direcionais para um ouvinte. Um exemplo de tal dispositivo de upmixing é o decodificador Dolby® Pro Logic® II descrito em Gundry, "A New Active Matrix Decoder for Surround Sound" (19a Conferência AES, maio de 2001).
[004] Os sinais de áudio de entrada podem incluir os dados de áudio difusos e/ou direcionais. No que diz respeito aos dados de áudio direcionais, um upmixer deve ser capaz de gerar os sinais de saída para vários canais para fornecer ao ouvinte a sensação de um ou mais componentes aurais que têm locais e/ou direções aparentes. Alguns sinais de áudio, como aqueles correspondentes a tiros, podem ser muito direcionais. Os sinais de áudio difusos, como aqueles que correspondem ao vento, chuva, o ruído ambiente, etc., podem ter pouca ou nenhuma capacidade de direcionamento aparente. Ao processar dados de áudio que também incluem os sinais de áudio difusos, o ouvinte deve ser fornecido com a percepção de um campo sonoro difuso envolvente que corresponde aos sinais de áudio difusos. Sumário
[005] Os métodos aprimorados para o processamento de sinais de áudio difusos são fornecidos. Algumas implementações envolvem um método para derivar os M sinais de áudio difusos de N sinais de áudio para a apresentação de um campo sonoro difuso, em que M é maior que N e é maior que 2. Cada um dos N sinais de áudio pode corresponder a um local espacial.
[006] O método pode envolver receber os N sinais de áudio, derivar as porções difusas dos N sinais de áudio e detectar os casos de condições de sinal de áudio transitório. O método pode envolver processar as porções difusas dos N sinais de áudio para obter os M sinais de áudio difusos. Durante os casos de condições de sinal de áudio transitório, o processamento pode envolver distribuir as porções difusas dos N sinais de áudio, em maior proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais próximas às localizações espaciais dos N sinais de áudio e, em menor proporção, para um ou mais M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio.
[007] O método pode envolver a detecção de casos de condições de sinal de áudio não transitório. Durante os casos de condições de sinal de áudio transitório, o processamento pode envolver distribuir as porções difusas dos N sinais de áudio para os M sinais de áudio difusos de uma maneira substancialmente uniforme.
[008] O processamento pode envolver aplicar uma matriz de mistura para as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos. A matriz de mistura pode ser uma matriz de distribuição variável. A matriz de distribuição variável pode ser derivada a partir de uma matriz não transitória mais adequada para a utilização durante as condições do sinal de áudio não transitório e a partir de uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório. Em algumas implementações, a matriz transitória pode ser derivada a partir da matriz não transitória. Cada elemento do matriz transitória pode representar um dimensionamento de um elemento de matriz não transitória correspondente. Em alguns casos, a escala pode ser uma função de uma relação entre um local do canal de entrada e um local do canal de saída.
[009] O método pode envolver a determinação de um valor de sinal de controle transitório. Em algumas implementações, a matriz de distribuição variável pode ser obtida mediante a interpolação entre a matriz transitória e a matriz não transitória com base pelo menos em parte no valor do sinal de controle transitório. O valor do sinal de controle transitório pode ser variável com o tempo. Em algumas implementações, o valor do sinal de controle transitório pode variar de uma maneira contínua a partir de um valor mínimo até um valor máximo. Em alternativa, o valor do sinal de controle transitório pode variar em um intervalo de valores descontínuos de um valor mínimo até um valor máximo.
[0010] Em algumas implementações, a determinação da matriz de distribuição variável pode envolver calcular a matriz de distribuição variável de acordo com o valor do sinal de controle transitório. No entanto, a determinação da matriz de distribuição variável pode envolver a recuperação de uma matriz de distribuição variável armazenada a partir de um dispositivo de memória.
[0011] O método pode envolver a determinação do valor do sinal de controle transitório em resposta aos N sinais de áudio. O método pode envolver a transformação de cada um dos N sinais de áudio em bandas de frequência B e realizar a derivação, detecção e processamento separadamente para cada uma das bandas de frequência B. O método pode envolver deslocar de modo panorâmico as porções não difusas dos N sinais de áudio para formar os N sinais de áudioão difusos M e combinar os M sinais de áudio difusos com os N sinais de áudioão difusos M para formar os sinais de áudio de saída M.
[0012] Em algumas implementações, o método pode envolver derivar os sinais de intermediários K a partir das porções difusas dos N sinais de áudio, em que K é maior que ou igual a um e menor que ou igual a M-N. Cada sinal de áudio intermediário pode ser não correlacionado de modo pscicoacústico com as porções difusas dos N sinais de áudio. Se K for maior que um, cada um dos sinais áudio intermediário pode ser não correlacionado de modo pscicoacústico com todos os outros sinais de áudio intermediários. Em algumas implementações, derivar os sinais intermediários K pode envolver um processo de descorrelação, que pode incluir um ou mais dos atrasos, os filtros universais, filtros pseudoaleatórios ou algoritmos de reverberação. Os M sinais de áudio difusos podem ser derivados em resposta aos sinais intermediários K, bem como aos sinais difusos N.
[0013] Alguns aspectos da presente divulgação podem ser implementados em um aparelho que inclui um sistema de interface e um sistema lógico. O sistema lógico pode incluir um ou mais processadores, como os processadores de único chip ou múltiplos chips de uso geral, processadores de sinais digitais (DSP), circuitos integrados de aplicação específica (ASICs), arranjos de porta de campo programável (FPGA) ou outros dispositivos lógicos programáveis, porta discreta ou transistor lógicos, componentes descontínuos de hardware e/ou as combinações dos mesmos. O sistema de interface pode incluir pelo menos uma de uma interface de usuário ou uma interface de rede. O aparelho pode incluir um sistema de memória. O sistema de interface pode incluir pelo menos uma interface entre o sistema lógico e o sistema de memória.
[0014] O sistema lógico pode ser capaz de receber, através do sistema de interface, os sinais de áudio de entrada N. Cada um dos N sinais de áudio pode corresponder a um local espacial. O sistema lógico pode ser capaz de derivar as porções difusas dos N sinais de áudio e detectar os casos de condições de sinal de áudio transitório. O sistema lógico pode ser capaz de processar as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos, em que M é maior que N e é maior que 2. Durante os casos de condições de sinal de áudio transitório, o processamento pode envolver distribuir as porções difusas dos N sinais de áudio, em maior proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais próximas às localizações espaciais dos N sinais de áudio e, em menor proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais distantes do local espacial dos N sinais de áudio.
[0015] O sistema lógico pode ser capaz de detectar os casos de condições de sinal de áudio não transitório. Durante os casos de condições de sinal de áudio transitório, o processamento pode envolver distribuir as porções difusas dos N sinais de áudio para os M sinais de áudio difusos de uma maneira substancialmente uniforme.
[0016] O processamento pode envolver a aplicação de uma matriz de mistura para as porções difusas dos N sinais de áudio para obter os M sinais de áudio difusos. A matriz de mistura pode ser uma matriz de distribuição variável. A matriz de distribuição variável pode ser derivada a partir de uma matriz não transitória mais adequada para a utilização durante as condições do sinal de áudio não transitório e uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório. Em algumas implementações, a matriz transitória pode ser derivada a partir da matriz não transitória. Cada elemento do matriz transitória pode representar um dimensionamento de um elemento de matriz não transitória correspondente. Em alguns exemplos, o dimensionamento pode ser uma função de uma relação entre um local do canal de entrada e um local do canal de saída.
[0017] O sistema lógico pode ser capaz de determinar um valor de sinal de controle transitório. Em alguns exemplos, a matriz de distribuição variável pode ser obtida mediante a interpolação entre a matriz transitória e a matriz não transitória com base pelo menos em parte no valor do sinal de controle transitório.
[0018] Em algumas implementações, o sistema lógico pode ser capaz de transformar cada um dos N sinais de áudio em bandas de frequência B. O sistema lógico pode ser capaz de realizar a derivação, detecção e processamento separadamente para cada uma das bandas de frequência B.
[0019] O sistema lógico pode ser capaz de deslocar de modo panorâmico as porções não difusas dos sinais áudio de entrada N para formar os N sinais de áudioão difusos M. O sistema lógico pode ser capaz de se combinar os M sinais de áudio difusos com os N sinais de áudioão difusos M para formar os sinais de áudio de saída M.
[0020] Os métodos aqui descritos podem ser implementados através de hardware, firmware, software armazenado em um ou mais meios de comunicação não transitórios, e/ou as combinações dos mesmos. Os detalhes de um ou mais implementações do assunto descrito no presente relatório descritivo são estabelecidos nos desenhos anexos e na descrição a seguir. Outras características, aspectos e vantagens serão evidentes a partir da descrição, dos desenhos, e das concretizações. Observa-se que as dimensões relativas das figuras a seguir não podem ser desenhadas à escala.
Breve Descrição dos Desenhos
[0021] A figura 1 mostra um exemplo de upmixing.
[0022] A figura 2 mostra um exemplo de um sistema de processamento de áudio.
[0023] A figura 3 é um diagrama de fluxo que descreve os blocos de um método de processamento de áudio que podem ser executados por um sistema de processamento de áudio.
[0024] A figura 4A é um diagrama de blocos que fornece outro exemplo de um sistema de processamento de áudio.
[0025] A figura 4B é um diagrama de blocos que fornece outro exemplo de um sistema de processamento de áudio.
[0026] A figura 5 mostra exemplos de fatores de dimensionamento para uma implementação que inclui um sinal de entrada estéreo e um sinal de saída de cinco canais.
[0027] A figura 6 é um diagrama de blocos que mostra os detalhes adicionais de um processador de sinal difuso de acordo com um exemplo.
[0028] A figura 7 é um diagrama de blocos de um aparelho capaz de gerar um conjunto de sinais de saída intermediários M a partir dos sinais de entrada intermediários N.
[0029] A figura 8 é um diagrama de blocos que mostra um exemplo da não correlação dos sinais intermediários selecionados.
[0030] A figura 9 é um diagrama de blocos que mostra um exemplo de componentes de descorrelação.
[0031] A figura 10 é um diagrama de blocos que mostra um exemplo alternativo de componentes de descorrelação.
[0032] A figura 11 é um diagrama de blocos que apresenta os exemplos de componentes de um aparelho de processamento de áudio.
[0033] Os números de referência e denominações iguais nos vários desenhos indicam os elementos iguais.
Descrição de Modalidades de Exemplo
[0034] A descrição a seguir refere-se a certas implementações com os propósitos de descrever alguns aspectos inovadores do presente relatório descritivo, assim como os exemplos de contextos em que os aspectos inovadores podem ser implementados. No entanto, os ensinamentos aqui apresentados podem ser aplicados de diversas maneiras diferentes. Por exemplo, embora várias implementações estejam descritas em termos de ambientes de reprodução específicos, os ensinamentos aqui são amplamente aplicáveis a outros ambientes de reprodução conhecidos, assim como os ambientes de reprodução que podem ser introduzidos no futuro. Além disso, as implementações descritas podem ser implementadas, pelo menos em parte, em vários dispositivos e sistemas como hardware, software, firmware, sistemas baseados em nuvem, etc. Assim, os ensinamentos do presente relatório descritivo não se destinam a ser limitados às implementações mostradas nas figuras e/ou aqui descritas, mas em vez disso, têm uma ampla aplicabilidade.
[0035] A figura 1 mostra um exemplo de upmixing. Em vários exemplos aqui descritos, o sistema de processamento de áudio 10 é capaz de fornecer a funcionalidade de upmixer e pode também ser referido aqui como um upmixer. Nesse exemplo, o sistema de processamento de áudio 10 é capaz de obter os sinais de áudio de cinco canais de saída designados como esquerda (L), direita (r), central (C), surround esquerdo (LS) e surround direito (RS) por sinais de upmixing de áudio de dois canais de entrada, que são entrada esquerda (LI) e entrada direita (canais R nesse exemplo). Alguns upmixers podem ser capazes de emitir diferentes números de canais, por exemplo, 3, 7, 9 ou mais canais de saída, a partir de duas ou um número diferente de canais de entrada, por exemplo, três, cinco, ou mais canais de entrada.
[0036] Os sinais de áudio de entrada incluem, em geral, tanto os dados de áudio difusos e direcionais. No que diz respeito aos dados de áudio direcionais, o sistema de processamento de áudio 10 deve ser capaz de gerar os sinais de saída direcionais que fornecem ao ouvinte 105 a sensação de um ou mais componentes aural que tem locais e/ou instruções aparentes. Por exemplo, o sistema de processamento de áudio 10 pode ser capaz de aplicar um algoritmo de movimento para criar uma imagem em espectro ou direção aparente de som entre os dois alto-falantes 110, reproduzindo o mesmo sinal de áudio através de cada um dos alto-falantes 110.
[0037] No que diz respeito aos dados de áudio difusos, o sistema de processamento de áudio 10 deve ser capaz de gerar os sinais de áudio difusos que fornecem ao ouvinte 105 a percepção de um campo sonoro difuso envolvente, em que o som parece emanar a partir de muitas (se não todas) direções ao redor do ouvinte 105. O campo sonoro difuso de alta qualidade normalmente não pode ser criado simplesmente ao reproduzir o mesmo sinal de áudio através de múltiplos alto-falantes 110 localizados em torno de um ouvinte. O campo sonoro resultante terá, em geral, amplitudes que variam substancialmente em diferentes locais de audição, muitas vezes mudando por grandes quantidades de alterações muito pequenas no local do ouvinte 105. Algumas posições dentro da área de audição podem parecer desprovidas de som para um ouvido, mas não para o outro. O campo sonoro resultante pode parecer artificial. Portanto, alguns upmixers podem descorrelacionar as porções difusas de sinais de saída, a fim de criar a impressão de que as porções difusas dos sinais de áudio estão distribuídas de maneira uniforme ao redor do ouvinte 105. No entanto, tem sido observado que durante os momentos "transitórios" ou "de percussão" do sinal de áudio de entrada, o resultado de espalhar os sinais difusos de maneira uniforme em todos os canais de saída pode ser uma percepção de "arraste" ou "falta de grave" na transição inicial. Isso pode ser especialmente problemático quando vários dos canais de saída são espacialmente afastados dos canais de entrada originais. Tal é o caso, por exemplo, com sinais surround derivados de entrada estéreo padrão.
[0038] A fim de resolver os problemas anteriores, algumas implementações aqui divulgadas apresentam um upmixer capaz de separar as porções difusas e não difusas "diretas" de sinais de áudio de entrada N. O upmixer pode ser capaz de detectar os casos de condições de sinal de áudio transitório. Durante os casos de condições de sinal de áudio transitório, o upmixer pode ser capaz de adicionar um sinal de controle adaptativo para um processo de expansão de sinal difuso, no qual os M sinais de áudio são emitidos. Essa descrição presume que o número N é maior que ou igual a um, o número M é maior ou igual a três, e o número M é maior que o número N.
[0039] De acordo com algumas de tais implementações, o upmixer pode variar o processo de expansão de sinal difuso ao longo do tempo, de tal modo que durante os casos de condições de sinal de áudio transitório as porções difusas de sinais de áudio podem ser distribuídas de forma substancialmente apenas para os canais de saída espacialmente próximos aos canais de entrada. Durante os casos de condições de sinal de áudio não transitório, as porções difusas de sinais de áudio podem ser distribuídas de um modo substancialmente uniforme. Com essa abordagem, as porções difusas de sinais de áudio permanecem em vizinhança espacial aos sinais de áudio originais durante os casos de condições de sinal de áudio transitório, a fim de manter o impacto das transições. Durante os casos de condições de sinal de áudio não transitório, as porções difusas de sinais de áudio podem ser distribuídas de um modo substancialmente uniforme, a fim de maximizar o envolvimento.
[0040] A figura 2 mostra um exemplo de um sistema de processamento de áudio. Nessa modalidade, o sistema de processamento de áudio 10 inclui um sistema de interface 205, um sistema lógico 210 e um sistema de memória 215. O sistema de interface 205 pode, por exemplo, incluir uma ou mais interfaces de rede, interfaces de usuário, etc. O sistema de interface 205 pode incluir uma ou mais interfaces de barramento serial universal (USB) ou interfaces semelhantes. O sistema de interface 205 podem incluir interfaces sem fio ou com fio.
[0041] O sistema lógico 210 pode incluir um ou mais processadores, tais como um ou processadores de único chip ou múltiplos chips de propósito geral, processadores de sinal digital (DSPs), circuitos integrados aplicação específica (ASIC), arranjo de porta de campo programável (FPGA) ou outros dispositivos lógicos programáveis, porta discreta ou transistor lógico, componentes de hardware descontínuos, ou as combinações dos mesmos.
[0042] O sistema de memória 215 pode incluir uma ou mais mídias não transitórios, como a memória de acesso aleatório (RAM) e/ou memória só de leitura (ROM). O sistema de memória 215 pode incluir um ou mais de outros tipos adequados de meios de armazenamento não transitório, tais como memória flash, um ou mais discos rígidos, etc. Em algumas implementações, o sistema de interface 205 pode incluir pelo menos uma interface entre o sistema lógico 210 e o sistema de memória 215.
[0043] O sistema de processamento de áudio 10 pode ser capaz de realizar um ou mais dos vários métodos aqui descritos. A figura 3 é um diagrama de fluxo que descreve blocos de um método de processamento de áudio que podem ser executados por um sistema de processamento de áudio. Por conseguinte, o método 300, que é descrito na figura 3 também vai ser descrito com referência ao sistema de processamento de áudio 10 da figura 2. Tal como com outros métodos aqui descritos, as operações de processo 300 não são necessariamente realizadas na ordem mostrada na figura 3. Além disso, o método 300 (e outros métodos aqui fornecidos) podem incluir mais ou menos do que blocos mostrados ou descritos.
[0044] Nesse exemplo, o bloco 305 da figura 3 envolve receber os sinais de áudio de entrada N. Cada um dos N sinais de áudio podem corresponder a um local espacial. Por exemplo, para algumas implementações, em que n = 2, as localizações espaciais podem corresponder aos locais presumíveis de canais de áudio de entrada esquerdo e direito. Em algumas implementações o sistema lógico 210 pode ser capaz de receber, através do sistema de interface 205, os sinais de áudio de entrada N.
[0045] Em algumas implementações, os blocos de método 300 podem ser realizados para cada um de uma pluralidade de bandas de frequência. Por conseguinte, em algumas implementações, o bloco 305 pode envolver a recepção de dados de áudio, que correspondem aos sinais de áudio de entrada N, que têm sido decompostos em uma pluralidade de bandas de frequência. Em implementações alternativas, o bloco 305 pode incluir um processo de decomposição dos dados de áudio de entrada em uma pluralidade de bandas de frequência. Por exemplo, esse processo pode envolver algum tipo de banco de filtros, tais como Transformada de Fourier em curto tempo (STFT) ou banco de filtros de espelho em quadratura (QMF).
[0046] Nessa implementação, o bloco 310 da figura 3 envolve derivar porções difusas dos sinais de áudio de entrada N. Por exemplo, o sistema lógico 210 pode ser capaz de separar as porções difusas das porções não difusas dos sinais de áudio de entrada N. Alguns exemplos desse processo são fornecidos abaixo. A qualquer determinado instante de tempo, o número de sinais de áudio que correspondem às porções difusas dos sinais de áudio de entrada N pode ser N, menos que N ou superior a N.
[0047] O sistema lógico 210 pode ser capaz de descorrelacionar os sinais de áudio, pelo menos em parte. A correlação numérica dos dois sinais pode ser calculada com o uso de uma variedade de algoritmos numéricos conhecidos. Esses algoritmos produzem uma medida de correlação numérica chamada de um coeficiente de correlação que varia entre um negativo e um positivo. Um coeficiente de correlação, com uma magnitude igual ou próxima de um, indica que os dois sinais estão intimamente relacionados. Um coeficiente de correlação, com uma magnitude igual ou próxima de zero, indica que os dois sinais são, em geral, independentes uns dos outros.
[0048] A correlação psicoacústica refere-se às propriedades de correlação de sinais de áudio que existem entre as sub-bandas de frequência que têm uma, então conhecida, largura de banda crítica. O poder do sistema auditivo humano de resolução de frequência varia com frequência em todo o espectro de áudio. O ouvido humano pode discernir componentes espectrais mais próximos na frequência em frequências mais baixas, abaixo de cerca de 500 Hz, mas não tão próximas à medida que a frequência avança para cima para os limites de audibilidade. A largura dessa resolução de frequência é referida como uma largura de banda crítica, que varia com a frequência.
[0049] Dois sinais de áudio são ditos ser não correlacionados de modo pscicoacústico um com relação ao outro, se o coeficiente de correlação médio numérico entre as larguras de banda crítica psicoacústicas forem iguais ou próximas a zero. A não correlação psicoacústica é alcançada se o coeficiente de correlação numérica entre dois sinais for igual a ou próximo de zero em todas as frequências. A não correlação psicoacústica também pode ser alcançada mesmo se o coeficiente de correlação numérica entre dois sinais não for igual a ou próximo a zero em todas as frequências, se a correlação numérica variar de tal forma que o seu valor médio de cada banda crítica psicoacústica for menos de metade do coeficiente de correlação máximo para qualquer frequência dentro dessa banda crítica. Assim, não correlação psicoacústica é menos rigorosa que não correlação numérica, na qual os dois sinais podem ser considerados não correlacionados de modo pscicoacústico mesmo se eles tiverem algum grau de correlação numérica uns com os outros.
[0050] O sistema lógico 210 pode ser capaz de derivar os sinais de intermediários K a partir das porções difusas dos N sinais de áudio, tal que cada um dos sinais de áudio intermediário k é não correlacionado de modo pscicoacústico com as porções difusas dos N sinais de áudio. Se K for maior que um, cada um dos sinais de áudio intermediário K pode ser não correlacionado de modo pscicoacústico com todos os outros sinais de áudio intermediários. Alguns exemplos são descritos abaixo.
[0051] Em algumas implementações, o sistema lógico 210 também pode ser capaz de desempenhar as operações descritas nos blocos 315 e 320 da figura 3. Nesse exemplo, o bloco 315 envolve a detecção de casos de condições de sinal de áudio transitório. Por exemplo, o bloco 315 pode envolver a detecção do início de uma mudança abrupta na potência, por exemplo, através da determinação se uma mudança na potência ao longo do tempo excedeu um limite predeterminado. Por conseguinte, a detecção transitória pode ser aqui referida como a detecção inicial. Os exemplos são fornecidos a seguir com referência ao módulo de detecção inicial 415 das figuras 4B e 6. Alguns de tais exemplos envolvem a detecção inicial de uma pluralidade de bandas de frequência. Por conseguinte, em alguns casos, o bloco 315 pode envolver a detecção de um exemplo de um sinal de áudio transitório em algumas, mas não todas, as faixas de frequências.
[0052] Aqui, o bloco 320 envolve o processamento das porções difusas dos N sinais de áudio para obter os M sinais de áudio difusos. Durante os casos de condições de sinal de áudio transitório, o processamento do bloco 320 pode envolver distribuir as porções difusas dos N sinais de áudio, em maior proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais próximas às localizações espaciais do áudio N sinais. O processamento do bloco 320 pode envolver distribuir as porções difusas dos N sinais de áudio, em menor proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio. Um exemplo é mostrado na figura 5 e é discutido abaixo. Em algumas de tais implementações, o processamento do bloco 320 pode envolver misturar as porções difusas dos N sinais de áudio e os sinais de áudio intermediários K para derivar os M sinais de áudio difusos. Durante os casos de condições de sinal de áudio transitório, o processo de mistura pode envolver distribuir as porções difusas dos sinais de áudio, principalmente para os sinais de áudio de saída que correspondem aos canais de saída espacialmente próximos dos canais de entrada. Algumas implementações também envolvem a detecção de casos de condições de sinal de áudio não transitório. Durante os casos de condições do sinal de áudio não transitório, a mistura pode envolver a distribuição dos sinais de difuso para os canais de saída para os sinais de áudio de saída M de uma maneira substancialmente uniforme.
[0053] Em algumas implementações, o processamento do bloco 320 pode envolver a aplicação de uma matriz de mistura para as porções difusas dos N sinais de áudio e os sinais de áudio intermediários K para derivar os M sinais de áudio difusos. Por exemplo, a matriz de mistura pode ser uma matriz de distribuição variável que é derivada a partir de uma matriz não transitória mais adequada para a utilização durante as condições do sinal de áudio não transitório e uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório. Em algumas implementações, a matriz transitória pode ser derivada a partir da matriz não transitória. De acordo com algumas de tais implementações, cada elemento da matriz transitória pode representar um dimensionamento de um elemento de matriz não transitória correspondente. O dimensionamento pode, por exemplo, ser uma função de uma relação entre um local do canal de entrada e um local do canal de saída.
[0054] Os exemplos mais detalhados de processo 300 são proporcionados abaixo incluindo, mas não se limitando aos exemplos da matriz transitória e a matriz não transitória. Por exemplo, vários exemplos de blocos 315 e 320 encontram-se descritos abaixo com referência às figuras 4B-5.
[0055] A figura 4A é um diagrama de blocos que fornece outro exemplo de um sistema de processamento de áudio. Os blocos da figura 4A podem ser, por exemplo, implementados pelo sistema lógico 210 da figura 2. Em algumas implementações, os blocos da figura 4A podem ser implementados, pelo menos em parte, por software armazenado em um meio não transitório. Nessa modalidade, o sistema de processamento de áudio 10 é capaz de receber os sinais de áudio de um ou mais canais de entrada a partir do caminho de sinal 19, e gerar os sinais de áudio ao longo do caminho de sinal 59 para uma pluralidade de canais de saída. A pequena fileira que atravessa o caminho de sinal 19, bem como as pequenas linhas que atravessam os outros caminhos de sinal, indicam que esses caminhos de sinal são capazes de transportar os sinais para um ou mais canais. Os símbolos M e N imediatamente abaixo das pequenas linhas cruzadas indicam que os vários caminhos de sinal são capazes de transportar sinais para os canais N e M, respectivamente. Os símbolos "x" e "y" imediatamente abaixo algumas das pequenas linhas cruzadas indicam que os respectivos caminhos de sinal são capazes de transportar um número indeterminado de sinais.
[0056] No sistema de processamento de áudio 10, o analisador do sinal de entrada 20 é capaz de receber os sinais de áudio de um ou mais canais de entrada a partir do caminho de sinal 19, e determinar quais as porções dos sinais de áudio de entrada representam um campo sonoro difuso e quais as porções da entrada sinais de áudio representam um campo sonoro não difuso. O analisador do sinal de entrada 20 é capaz de passar as porções dos sinais de áudio de entrada que são consideradas representar um campo sonoro não difuso ao longo do caminho de sinal 28 para o processador de sinal não difuso 30. Aqui, o processador de sinal não difuso 30 é capaz de gerar um conjunto de M sinais de áudio que são destinados a reproduzir o campo sonoro não difuso por meio de uma pluralidade de transdutores acústicos, tais como alto-falantes, e transmitir esses sinais de áudio ao longo do caminho de sinal 39. Um exemplo de um dispositivo de upmixing que é capaz de realizar esse tipo de processamento é um decodificador Dolby Pro Logic II®.
[0057] Nesse exemplo, o analisador do sinal de entrada 20 é capaz de transmitir as porções de áudio dos sinais de entrada que correspondem a um campo sonoro difuso ao longo do caminho de sinal 29 para o processador de sinal difuso 40. Aqui, o processador de sinal difuso 40 é capaz de gerar, ao longo do caminho de sinal 49, um conjunto de M sinais de áudio que correspondem a um campo sonoro difuso. A presente invenção proporciona vários exemplos de processamento de áudio que podem ser executados pelo processador de sinal difuso 40.
[0058] Nessa modalidade, o componente de soma 50 é capaz de combinar cada um dos M sinais de áudio do processador de sinal não difuso 30 com aquele respectivo dos M sinais de áudio do processador de sinal difuso 40 para gerar um sinal de áudio para aquele respectivo dos canais de saída M. O sinal de áudio para cada canal de saída pode ser destinado a conduzir um transdutor acústico, tal como um alto-falante.
[0059] Várias implementações aqui descritas são direcionadas para o desenvolvimento e utilização de um sistema de equações de mistura para gerar um conjunto de sinais de áudio que podem representar um campo sonoro difuso. Em algumas implementações, as equações de mistura podem ser equações de mistura lineares. As equações de mistura podem ser utilizadas no processador de sinal difuso 40, por exemplo.
[0060] No entanto, o sistema de processamento de áudio 10 é apenas um exemplo de como a presente descrição pode ser implementada. A presente descrição pode ser implementada em outros dispositivos que podem diferir em estrutura ou função daquelas mostradas e descritas aqui. Por exemplo, os sinais que representam tanto as porções difusas quanto as não difusas de um campo sonoro podem ser processados por um único componente. Algumas implementações para um processador de sinal difuso 40 distinto são descritas abaixo, que misturam os sinais de acordo com um sistema de equações lineares definidas por uma matriz. Várias partes dos processos, tanto para o processador de sinal difuso 40 quanto ara o processador de sinal não difuso 30, podem ser implementadas por um sistema de equações lineares definidas por uma única matriz. Além disso, os aspectos da presente invenção podem ser incorporados em um dispositivo, sem incorporar também o analisador de sinal de entrada 20, o processador de sinal não difuso 30 ou o componente de soma 50.
[0061] A figura 4B é um diagrama de blocos que fornece outro exemplo de um sistema de processamento de áudio. Os blocos da figura 4B incluem os exemplos mais detalhados dos blocos da figura 4A, de acordo com algumas implementações. Por conseguinte, os blocos da figura 4B podem, por exemplo, ser implementados pelo sistema lógico 210 da figura 2. Em algumas implementações, os blocos da figura 4B podem ser implementados, pelo menos em parte, por software armazenado em um meio não transitório.
[0062] Aqui, o analisador do sinal de entrada 20 inclui um módulo de análise estatística 405 e um sinal de módulo de separação 410. Nessa implementação, o processador de sinal difuso 40 inclui um módulo de detecção inicial 415 e um módulo de expansão de sinal de difuso adaptativo 420. No entanto, em implementações alternativas, a funcionalidade de um dos blocos mostrados na figura 4B pode ser distribuída entre os módulos diferentes. Por exemplo, em algumas implementações, o analisador do sinal de entrada 20 pode desempenhar as funções do módulo de detecção inicial 415.
[0063] O módulo de análise estatística 405 pode ser capaz de realizar vários tipos de análises no sinal de áudio de entrada do canal N. Por exemplo, se N = 2, a módulo de análise estatística 405 pode ser capaz de calcular uma estimativa da soma da energia nos sinais esquerdo e direito, a diferença da potência nos sinais esquerdo e direito, e a parte real da correlação cruzada entre os sinais de entrada direito e esquerdo. Cada estimativa estatística pode ser acumulada ao longo de um bloco de tempo e sobre uma banda de frequência. A estimativa estatística pode ser ajustada ao longo do tempo. Por exemplo, a estimativa estatística pode ser alisada por meio de um integrador dependente da frequência, tal como um filtro de primeira ordem de resposta de impulso infinito (IIR). O módulo de análise estatística 405 pode fornecer dados de análise estatística para outros módulos, por exemplo, módulo de separação de sinal 410 e/ou o módulo de deslocamento panorâmico 425.
[0064] Nessa implementação, o módulo separação de sinal 410 é capaz de separar as porções difusas dos sinais de áudio de entrada N a partir de porções "diretas" ou não difusas dos sinais de áudio de entrada N. O sinal do módulo de separação 410 pode, por exemplo, determinar que as porções altamente correlacionadas dos sinais de áudio de entrada N correspondem aos N sinais de áudioão difusos. Por exemplo, se N = 2, o sinal de separação de módulo 410 pode determinar, com base em análise estatística dos dados a partir do módulo de análise estatística 405, que o sinal de áudio não difuso é uma parte altamente correlacionada do sinal de áudio que está contida em ambas as entradas esquerda e direita.
[0065] Com base na mesma análise estatística (ou semelhante) dos dados, o módulo de deslocamento panorâmico 425 pode determinar que essa porção do sinal de áudio deve ser direcionada para um local apropriado, por exemplo, como que representa uma fonte de áudio localizada, tal como uma fonte de ponto. O módulo de deslocamento panorâmico 425, ou outro módulo do processador de sinais não difuso 30, pode ser capaz de produzir os N sinais de áudioão difusos M que correspondem às porções não difusas dos sinais de áudio de entrada N. O processador de sinal não difuso 30 pode ser capaz de proporcionar os N sinais de áudioão difusos M ao componente de soma 50.
[0066] O sinal de módulo de separação 410 pode, em alguns exemplos, determinar que as porções difusas dos sinais de áudio de entrada são aquelas porções do sinal que permanecem após as porções não difusas foram isolados. Por exemplo, o sinal de módulo de separação 410 podem determinar as porções difusas do sinal de áudio pelo cálculo da diferença entre o sinal de entrada e a porção não difusa do sinal de áudio. O módulo separação de sinal 410 pode fornecer as porções difusas do sinal de áudio para o módulo de expansão de sinal difuso adaptativo 420.
[0067] Aqui, o módulo de detecção inicial 415 é capaz de detectar os casos de condições de sinal de áudio transitório. Nesse exemplo, o módulo de detecção inicial 415 é capaz de determinar um valor de sinal de controle transitório e proporcionar o valor do sinal de controle transitório para o módulo de expansão de sinal difuso adaptativo 420. Em alguns casos, o módulo de detecção inicial 415 pode ser capaz de determinar se um sinal de áudio, em cada uma de uma pluralidade de bandas de frequência que inclui um sinal de áudio transitório. Por conseguinte, em alguns casos, o valor do sinal de controle transitório determinado pelo módulo de detecção inicial 415 e fornecido para a expansão de sinal difuso adaptativo módulo 420 pode ser específico para uma ou mais bandas de frequência específicas, mas não para todas as bandas de frequência.
[0068] Nessa implementação, o módulo de expansão de sinal difuso adaptativo 420 é capaz de derivar os sinais intermediários K a partir das porções difusas dos sinais de áudio de entrada N. Em algumas implementações, cada sinal de áudio intermediário pode ser não correlacionado de maneira psicoacústica com as porções difusas dos sinais de áudio de entrada N. Se K for maior que um, cada um dos sinais áudio intermediário pode ser não correlacionado de modo pscicoacústico com todos os outros sinais de áudio intermediários.
[0069] Nessa implementação, o módulo de expansão de sinal difuso adaptativo 420 é capaz de misturar as porções difusas dos N sinais de áudio e os sinais de áudio intermediário K para derivar os M sinais de áudio difusos, em que M é maior que N e é superior a 2. Nesse exemplo, K é maior que ou igual a um, e menor que ou igual a M-N. Durante os casos de condições de sinal de áudio transitórios (determinados, pelo menos em parte, de acordo com o valor do sinal de controle transitório recebido a partir do módulo de detecção inicial 415), o processo de mistura pode envolver distribuir as porções difusas dos N sinais de áudio, em maior proporção, para uma ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais próximos às localizações espaciais dos sinais de áudio, por exemplo, N, mais próximo de localizações espaciais presumidos dos canais de entrada N. Durante os casos de condições de sinal de áudio transitório, o processo de mistura pode envolver distribuir as porções difusas dos N sinais de áudio, em menor proporção, para um ou mais dos M sinais de áudio difusos que correspondem às localizações espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio. No entanto, durante os casos de condições de sinal de áudio não transitório, o processo de mistura pode envolver distribuir as porções difusas dos N sinais de áudio para os M sinais de áudio difusos de uma maneira substancialmente uniforme.
[0070] Em algumas implementações, o módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de aplicar uma matriz de mistura para as porções difusas dos N sinais de áudio e os sinais de áudio intermediários K para derivar os M sinais de áudio difusos. O módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de proporcionar os M sinais de áudio difusos para o componente de soma 50, que pode ser capaz de se combinar os M sinais de áudio difusos com os N sinais de áudioão difusos M, de modo a formar os sinais de áudio de saída M.
[0071] De acordo com algumas de tais implementações, a matriz de mistura aplicada pelo módulo de expansão de sinal difuso adaptativo 420 pode ser uma matriz de distribuição variável que é derivada a partir de uma matriz não transitória mais adequada para a utilização durante as condições do sinal de áudio não transitório e uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório. Vários exemplos de matrizes de determinação transitórias e matrizes não transitórias são fornecidos abaixo.
[0072] De acordo com algumas de tais implementações, a matriz transitória pode ser derivada a partir da matriz não transitória. Por exemplo, cada elemento da matriz transitória pode representar um dimensionamento de um elemento de matriz não transitória correspondente. O dimensionamento pode, por exemplo, ser uma função de uma relação entre um local do canal de entrada e um local do canal de saída. Em algumas implementações, o módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de interpolar entre a matriz transitória e a matriz não transitória com base, pelo menos em parte, em um valor de sinal de controle transitório recebido do módulo de detecção inicial 415.
[0073] Em algumas implementações, o módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de calcular a matriz de distribuição variável de acordo com o valor do sinal de controle transitório. Alguns exemplos são fornecidos abaixo. No entanto, em implementações alternativas, o módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de determinar a matriz de distribuição variável através da obtenção de uma matriz de distribuição variável armazenada a partir de um dispositivo de memória. Por exemplo, o módulo de expansão de sinal difuso adaptativo 420 pode ser capaz de determinar qual matriz de distribuição variável de uma pluralidade de matrizes de distribuição variável armazenada recuperar a partir do dispositivo de memória com base, pelo menos em parte, no valor do sinal de controle transitório.
[0074] O valor do sinal de controle transitório, em geral, será variável com o tempo. Em algumas implementações, o valor do sinal de controle transitório pode variar de uma maneira contínua a partir de um valor mínimo até um valor máximo. No entanto, em implementações alternativas, o valor do sinal de controle transitório pode variar em um intervalo de valores descontínuos de um valor mínimo até um valor máximo.
[0075] Seja c(t) representante de um sinal de controle transitório que varia com o tempo e que tem valores de sinal de controle transitório que variam continuamente entre os valores zero e um. Nesse exemplo, um valor de sinal de controle transitório um indica que o sinal de áudio correspondente é transitório em sua natureza, e um valor de sinal de controle transitório de zero indica que o sinal de áudio correspondente é não transitório. Seja T representante de uma "matriz transitória" mais adequada para o uso durante os casos de condições de sinal de áudio transitório, e C representante de uma "matriz não transitória" mais adequada para o uso durante os casos de condições de sinal de áudio não transitório. Vários exemplos da matriz não transitória estão descritos abaixo. Uma versão não normalizada da matriz de distribuição variável D (t) pode ser calculada como uma interpolação de conservação de energia entre as matrizes transitórias e não transitórias:
Figure img0001
[0076] A fim de manter a energia relativa do sinal de saída difusa H-canal, esta matriz não normalizada pode então ser normalizado de modo a que a soma dos quadrados de todos os elementos da matriz é igual a um:
Figure img0002
[0077] Na Equação 2b, Dtj (t) representa o elemento na fileira j e na coluna j da matriz de distribuição de não normalizada D(t). O elemento da fileira j e da coluna j da matriz de distribuição especifica a quantidade que o canal de entrada difuso j contribui para o canal de saída difuso j. O módulo de expansão de sinal difuso adaptativo 420 pode, em seguida, aplicar a matriz de distribuição normalizada D(t) para o sinal de entrada difuso de canal N + K para gerar o sinal de saída difuso de canal M.
[0078] No entanto, nas implementações alternativas, o módulo de expansão de sinal difuso adaptativo 420 pode recuperar a matriz de distribuição normalizada D(t) a partir de uma pluralidade matrizes de distribuição normalizada D(t) armazenada (por exemplo, a partir de uma tabela de referência) em vez de calcular novamente a matriz de distribuição normalizada D(t) para cada novo caso de tempo. Por exemplo, cada uma das matrizes de distribuição normalizada D(t) pode ter sido previamente calculada para um valor correspondente (ou gama de valores) do sinal de controle c(t).
[0079] Como referido acima, a matriz transitória T pode ser calculada como uma função de C, juntamente com as localizações espaciais presumidas dos canais de entrada e saída. Especificamente, cada elemento da matriz transitória pode ser calculado como um dimensionamento do elemento de matriz não transitória correspondente. O dimensionamento pode, por exemplo, ser uma função da relação do local do canal de saída correspondente àquele dos canais de entrada. Reconhecendo que o elemento na fileira j e coluna j da matriz de distribuição especifica a quantidade que o canal de difuso de entrada j contribui para o canal difuso de saída j, cada elemento da matriz transitória T pode ser calculado como
Figure img0003
[0080] Na equação 3, o fator de dimensionamento βi é calculado com base no local do canal de ordem j do sinal de saída do canal M em relação às localizações dos canais N do sinal de entrada. Em geral, para os canais de saída próximos aos canais de entrada, pode ser desejável que βi esteja perto de um. Como um canal de saída torna-se espacialmente mais distante dos canais de entrada, pode ser desejável para βi se tornar menor.
[0081] A figura 5 mostra exemplos de fatores de dimensionamento para uma implementação que inclui um sinal de entrada estéreo e um sinal de saída de cinco canais. Nesse exemplo, os canais de entrada são designados como Li, e Rj, e os canais de saída são designados como L, R, C, LS e RS. Os locais de canal presumidos e valores de exemplo do fator de dimensionamento βi estão representados na figura 5. Vemos que, para os canais de saída L, R e C, que são espacialmente próximos aos canais de entrada Li e Ri, o fator de dimensionamento βi foi definido para um nesse exemplo. Para os canais de saída LS e RS, presumidos ser espacialmente mais distantes dos canais de entrada Li e Ri, o fator de dimensionamento βi foi definido para 0,25 nesse exemplo.
[0082] Assumindo que os canais de entrada Li e Ri estão localizados em menos e mais de 30 graus a partir do plano médio 505, em seguida, de acordo com algumas de tais implementações βi = 0,25, se o valor absoluto do ângulo do canal de saída a partir do plano médio 505 for maior que 45 graus. Caso contrário, βi = 1. Esse exemplo fornece uma estratégia simples para gerar os fatores de dimensionamento. No entanto, muitas outras estratégias são possíveis. Por exemplo, em algumas implementações, o fator de dimensionamento βi pode ter um valor mínimo diferente e/ou pode ter uma faixa de valores compreendidos entre os valores mínimo e máximo.
[0083] A figura 6 é um diagrama de blocos que mostra detalhes adicionais de um processador de sinal difuso de acordo com um exemplo. Nessa implementação, o módulo de expansão de sinal difuso adaptativo 420 do processador de sinal difuso 40 inclui um módulo de não correlação 605 e um módulo de matriz de distribuição variável 610. Nesse exemplo, o módulo de não correlação 605 é capaz de não correlacionar os canais N de sinais de áudio difusos e produzir K canais de saída substancialmente ortogonais para o módulo de matriz de distribuição variável 610. Tal como utilizado aqui, dois vetores são considerados como sendo "substancialmente ortogonais" um ao outro se o seu produto de pontos for inferior a 35% de um produto de suas magnitudes. Isso corresponde a um ângulo entre os vetores de cerca de setenta graus a cerca de 110 graus.
[0084] O módulo de matriz de distribuição variável 610 é capaz de determinar e aplicar uma matriz de distribuição variável apropriada, com base, pelo menos em parte, em um valor do sinal de controle transitório recebido a partir do módulo de detecção inicial 415. Em algumas implementações, o módulo de matriz de distribuição variável 610 pode ser capaz de calcular a matriz de distribuição variável, com base pelo menos em parte no valor do sinal de controle transitório. Em implementações alternativas, o módulo de matriz de distribuição variável 610 pode ser capaz de selecionar uma matriz de distribuição variável armazenada, com base pelo menos em parte no valor do sinal de controle transitório, e recuperar a matriz de distribuição variável selecionada a partir do dispositivo de memória.
[0085] Embora algumas implementações possam funcionar de uma forma de banda larga, pode ser preferível para o módulo de expansão de sinal difuso adaptativo 420 funcionar com uma multiplicidade de bandas de frequência. Dessa forma, as bandas de frequência não associadas com uma transição podem ser autorizadas a permanecer distribuídas de maneira uniforme em todos os canais, maximizando assim a quantidade de envolvimento ao mesmo tempo em que conserva o impacto de transições nas bandas de frequências adequadas. Para alcançar esse objetivo, o sistema de processamento de áudio 10 pode ser capaz de decompor o sinal de áudio de entrada em uma multiplicidade de bandas de frequência.
[0086] Por exemplo, o sistema de processamento de áudio 10 pode ser capaz de aplicar algum tipo de banco de filtros, tais como uma Transformada de Fourier em curto tempo (STFT) ou do Banco de filtros de espelho em quadratura (QMF). Para cada banda de banco de filtros, um caso de um ou mais componentes do sistema de processamento de áudio 10 (por exemplo, tal como mostrado na figura 4B ou na figura 6) pode ser executado em paralelo. Por exemplo, um caso do módulo de expansão de sinal difuso adaptativo 420 pode ser executado para cada banda do banco de filtros.
[0087] De acordo com algumas de tais implementações, a módulo de detecção inicial 415 pode ser capaz de produzir um sinal de controle transitório de multibanda que indica a natureza transitória do tipo de sinais de áudio de cada banda de frequência. Em algumas implementações, o módulo de detecção inicial 415 pode ser capaz de detectar os aumentos de energia ao longo do tempo em cada banda e gerar um sinal de controle transitório que corresponde a tais aumentos de energia. Tal sinal de controle pode ser gerado a partir da energia variável no tempo em cada banda de frequência, com downmix em todos os canais de entrada. E(b, t) representa essa energia no momento t em banda de frequência b, uma versão ajustada do tempo dessa energia pode primeiramente ser calculado com o uso de um regulador de um polo em um exemplo:
Figure img0004
(Equação 4)
[0088] Em um exemplo, o coeficiente de ajuste como pode ser escolhido para obter um tempo de meio declínio de aproximadamente 200ms. No entanto, outros valores de coeficiente de ajuste podem proporcionar resultados satisfatórios. Em seguida, um sinal transitório bruto o(b, t) pode ser calculado ao subtrair o valor dB da energia ajustada a um momento de tempo anterior a partir do valor dB da energia não ajustada no instante de tempo real:
Figure img0005
(Equação 5)
[0089] Esse sinal transitório bruto pode então ser normalizado para situar-se entre zero e um, com o uso dos limites de normalização de transição olow e ohigh.
Figure img0006
[0090] Valores de olow = 3dB e ohigh = 9 dB, revelaram funcionar bem. No entanto, outros valores podem produzir resultados aceitáveis. Por fim, o sinal de controle transitório c(b, t) pode ser calculado. Em um exemplo, o sinal de controle transitório c(b, T) pode ser calculado pelo ajuste do sinal transitório normalizado com um filtro de ajuste de um polo de libertação lenta e ataque infinito:
Figure img0007
[0091] Um coeficiente de libertação ou que rende um tempo de meio declínio de aproximadamente 200ms foi considerado funcionar bem. No entanto, outros valores de coeficiente de liberação podem proporcionar resultados satisfatórios. Nesse exemplo, o sinal resultante de controle transitório c(b, t) de cada banda de frequência sobe instantaneamente para aquele quando a energia naquela banda apresenta um aumento significativo e, em seguida, diminui gradualmente a zero quando a energia do sinal diminui. A variação proporcional subsequente da matriz de distribuição em cada banda produz uma modulação transparente de modo perceptual do campo sonoro difuso, que mantém tanto o impacto de transições quanto o desenvolvimento geral.
[0092] A seguir, apresenta-se alguns exemplos de formação e aplicação da matriz não transitória C, bem como os métodos e processos relacionados.
Primeiro Método de Derivação
[0093] Novamente, com referência à figura 4A, nesse exemplo, o processador de sinal difuso 40 gera ao longo do caminho 49 de um conjunto de sinais M mediante a mistura dos canais N de sinais de áudio recebidos do caminho 29 de acordo com um sistema de equações lineares. Para facilitar a descrição na discussão a seguir, as porções dos canais N de sinais de áudio recebidos do caminho 29 são referidos como sinais de entrada intermediários e os canais M de sinais intermediários gerados ao longo do caminho 49 são referidos como sinais de saída intermediários. Essa operação de mistura inclui a utilização de um sistema de equações lineares que pode ser representado por uma multiplicação de matrizes, por exemplo, como mostrado abaixo:
Figure img0008
[0094] Na Equação 8, X representa um vetor de coluna que corresponde aos sinais N + K, obtidos a partir dos sinais de entrada intermediários N; C representa uma matriz ou arranjo M x (N + K) para misturar os coeficientes; e Y representa um vetor de coluna que corresponde aos sinais de saída intermediários M. A operação de mistura pode ser executada em sinais representados no domínio do tempo ou no domínio da frequência. A discussão a seguir faz menção mais específica às implementações de domínio do tempo.
[0095] Como mostrado na expressão 1, K é maior que ou igual a um e menor ou igual à diferença (M-N). Como resultado, o número de sinais X; e o número de colunas da matriz C está entre N + L e M. Os coeficientes da matriz C podem ser obtidos a partir de um conjunto de vetores de unidade de magnitude N + K em um espaço dimensional M que é substancialmente ortogonal um ao outro. Como observado acima, dois vetores são considerados como sendo "substancialmente ortogonais" um ao outro se o seu produto de pontos for inferior a 35% de um produto de suas magnitudes.
[0096] Cada coluna na matriz C pode ter M coeficientes que correspondem aos elementos de um dos vetores no conjunto. Por exemplo, os coeficientes que estão na primeira coluna da matriz C correspondem a um dos vetores V no conjunto cujos elementos são indicados como (V1, ..., Vm), de modo que C1;1 = p.V1,..., Cm,1 = p.Vm, em que p representa um fator de dimensionamento usado para dimensionar os coeficientes da matriz como pode ser desejado. Em alternativa, os coeficientes em cada coluna j da matriz C podem ser dimensionados por diferentes fatores de dimensionamento pj. Em muitas aplicações, os coeficientes são dimensionadas de modo que a norma de Frobenius da matriz é igual a ou dentro de 10% de '' '•. Os aspectos adicionais da escala são discutidos abaixo.
[0097] O conjunto de vetores N + K pode ser derivado de qualquer forma que pode ser desejado. Um método cria uma matriz G M X M de coeficientes com valores pseudoaleatórios que têm uma distribuição de Gauss, e calcula a decomposição do valor singular da matriz para obter as três matrizes M x M indicadas aqui como L, S e V. As matrizes U e V podem ser ambas matrizes unitárias. A matriz C pode ser obtida ao selecionar as colunas N + K a partir de qualquer matriz U ou matriz V e dimensionar os coeficientes nessas colunas para alcançar uma norma de Frobenius igual a ou dentro de 10% de '' '•. Um método que facilita algumas das exigências para ortogonalidade é descrito abaixo.
[0098] A correlação numérica dos dois sinais pode ser calculada com o uso de uma variedade de algoritmos numéricos conhecidos. Esses algoritmos produzem uma medida de correlação numérica chamada de um coeficiente de correlação que varia entre um negativo e um positivo. Um coeficiente de correlação com uma magnitude igual ou próxima a um indica que os dois sinais estão intimamente relacionados. Um coeficiente de correlação, com uma magnitude igual ou próxima a zero indica que os dois sinais são, em geral, independentes uns dos outros.
[0099] Os sinais de entrada N + K podem ser obtidos ao não correlacionar os sinais de entrada intermediários N um em relação aos outros. Em algumas implementações, a não correlação pode ser o que é aqui referido como "não correlação psicoacústica", que é discutida brevemente acima. A não correlação psicoacústica é menos rigorosa que não correlação numérica em que os dois sinais podem ser considerados não correlacionados de modo pscicoacústico, mesmo se eles tiverem algum grau de correlação numérica uns com os outros.
[00100] A não correlação psicoacústica pode ser alcançada com o uso de atrasos ou outros tipos de filtros, alguns dos quais são descritos abaixo. Em muitas implementações, N dos sinais N + K Xj pode ser levado diretamente a partir dos sinais de entrada intermediários N sem o uso de quaisquer atrasos ou filtros para alcançar a não correlação psicoacústica, porque esses sinais N representam um campo sonoro difuso e provavelmente já não são correlacionados de modo pscicoacústico.
Segundo Método de Derivação
[00101] Se os sinais gerados pelo processador de sinal difuso 40 forem combinados com outros sinais, que representam um campo sonoro não difuso de acordo com o primeiro método de derivação descrito acima, a combinação resultante de sinais pode, por vezes, gerar artefatos indesejáveis. Em alguns casos, esses artefatos podem resultar devido ao fato de que o design da matriz C não representa corretamente as possíveis interações entre as porções difusas e não difusas de um campo sonoro. Como mencionado acima, a distinção entre difusa e não difusa nem sempre é definitiva. Por exemplo, com referência à figura 4A, o analisador do sinal de entrada 20 pode gerar alguns sinais ao longo do caminho 28 que representam, em certa medida, um campo sonoro difuso e pode gerar os sinais ao longo do caminho 29 que representam um campo sonoro não difuso em algum grau. Se o gerador de sinal de difuso 40 destruir ou modificar o carácter não difuso do campo sonoro representado pelos sinais no caminho 29, os artefatos indesejáveis ou distorções audíveis podem ocorrer no campo sonoro que é produzido a partir dos sinais de saída gerados ao longo do caminho 59. Por exemplo, se a soma dos sinais processados difusos M no caminho 49 com os sinais processados não difusos M no caminho 39 causar o cancelamento de alguns componentes de sinal não difusos, isso pode degradar a impressão subjetiva que, de outra forma, seria alcançada.
[00102] A melhoria pode ser alcançada através da concepção da matriz C para considerar a natureza não difusa do campo sonoro que é processado pelo processador de sinal não difuso 30. Isso pode ser feito pela identificação de uma primeira matriz E que representa, ou presume-se representar, o processamento de codificação que processa os canais M de sinais de áudio para criar os canais N de sinais de áudio de entrada recebidos do caminho 19 e, em seguida, deriva um inverso dessa matriz, por exemplo, como discutido abaixo.
[00103] Um exemplo de uma matriz E é uma matriz de 5 x 2 que é usada para cinco canais de downmix, L, C, R, LS, RS, em dois canais indicados como o total esquerda (LT) e total direita (TA). Os sinais para os canais LT e RT são um exemplo dos sinais áudio de entrada para dois canais (N = 2) que são recebidos a partir do caminho 19. Nesse exemplo, o dispositivo 10 pode ser usado para sintetizar cinco canais (m = 5) de sinais de áudio de saída que podem criar um campo sonoro que é perceptualmente semelhante (se não substancialmente idêntico) ao campo sonoro que pode ter sido criado a partir dos cincos sinais de áudio originais.
[00104] Um exemplo de uma matriz E 5 x 2 que pode ser usada para codificar os sinais de canal LT e RT dos sinais de canal L, C, R, LS e RS é mostrado na expressão a seguir:
Figure img0009
[00105] Uma matriz B pseudoinversa M x N pode ser derivada a partir da matriz E N x M com o uso de técnicas numéricas conhecidas, como aquelas implementadas em software numérico, tal como a função "pinv" em Matlab®, disponível junto a The MathWorks®, Natick, Massachusetts, ou a função "PseudoInverse" em Mathematica®, disponível junto a Wolfram Research, Champaign, Illinois. A matriz B pode não ser ideal se seus coeficientes criarem uma ligação cruzada indesejada entre qualquer um dos canais, ou se alguns coeficientes forem números imaginários ou complexos. A matriz B pode ser modificada para remover essas características indesejáveis. A matriz B também pode ser modificada para se alcançar uma variedade de efeitos artísticos pretendidos, alterando os coeficientes para enfatizar os sinais para alto-falantes selecionados. Por exemplo, os coeficientes podem ser alterados para aumentar a energia em sinais destinados a reprodução através de alto-falante para os canais esquerdo e direito e para diminuir a energia em sinais destinados a reprodução através do(s) alto-falante(s) para o canal central. Os coeficientes da matriz B podem ser dimensionados de modo que cada coluna da matriz representa um vetor de unidade de magnitude em um espaço M dimensional. Os vetores representados pelas colunas da matriz B não precisam ser substancialmente ortogonais um em relação ao outro.
[00106] Um exemplo de uma matriz B 5 x 2 é mostrado na expressão a seguir:
Figure img0010
[00107] Uma matriz, como da Equação 10, pode ser utilizada para gerar um conjunto de sinais de saída intermediários M a partir dos sinais de entrada intermediários N pela operação a seguir:
Figure img0011
[00108] A figura 7 é um diagrama de blocos de um aparelho capaz de gerar um conjunto de sinais de saída intermediários M a partir de sinais de entrada intermediários N. O upmixer 41 pode, por exemplo, ser um componente do processador de sinal difuso 40, por exemplo, como mostrado na figura 4A. Nesse exemplo, o upmixer 41 recebe os sinais de entrada intermediários N dos caminhos de sinal 29-1 e 29-2 e mistura esses sinais de acordo com um sistema de equações lineares para gerar um conjunto de sinais de saída intermediários M ao longo dos caminhos de sinal 49-1 a 49-5. As caixas dentro do upmixer 41 representam a multiplicação de sinal ou amplificação por coeficientes da matriz B de acordo com o sistema de equações lineares.
[00109] Embora a matriz B possa ser usada sozinha, o desempenho pode ser melhorado com o uso de uma matriz de aumento A adicional M x K, onde 1 < K < (MN). Cada coluna da matriz A pode representar um vetor de unidade de magnitude em um espaço M dimensional que é substancialmente ortogonal aos vetores representados pelas colunas N da matriz B. Se K for maior que um, cada coluna pode representar um vetor que também é substancialmente ortogonal aos vetores representados por todas as outras colunas na matriz A.
[00110] Os vetores para as colunas da matriz A podem ser derivados de uma variedade de maneiras. Por exemplo, as técnicas mencionadas acima podem ser utilizadas. Outros métodos que envolvem dimensionar os coeficientes da matriz de aumento A e da matriz B, por exemplo, como explicado abaixo, e concatenar os coeficientes para produzir a matriz C. Em um exemplo, o dimensionamento e a concatenação podem ser expressas algebricamente como:
Figure img0012
[00111] Na equação 12, "I" representa uma concatenação horizontal das colunas da matriz B e da matriz A, α representa um fator de dimensionamento para os coeficientes de matriz A, e β representa um fator de dimensionamento para os coeficientes de matriz B.
[00112] Em algumas implementações, os fatores de dimensionamento α e β podem ser escolhidos de modo que a norma de Frobenius da matriz de composição C é igual a ou está dentro de 10% da norma de Frobenius da matriz B. A norma de Frobenius da matriz de C pode ser expressa como:
Figure img0013
[00113] Na Equação 13, cij representa o coeficiente de matriz na fileira i e na coluna j.
[00114] Se cada uma das colunas de N na matriz B e cada uma das colunas K na matriz A representar um vetor de unidade de magnitude, a norma de Frobenius da matriz B é igual a < - e a norma de Frobenius da matriz A é igual a . Para esse caso, pode ser demonstrado que se a norma de Frobenius da matriz C for definida para ser igual a < - , em seguida, os valores para os fatores de dimensionamento α e β estão relacionados uns aos outros, como mostrado na expressão a seguir:
Figure img0014
[00115] Depois de ajustar o valor do fator de dimensionamento β, o valor para o fator de dimensionamento um pode ser calculado a partir da Equação 14. Em algumas implementações, o fator de dimensionamento β pode ser selecionado de modo que os sinais misturados pelos coeficientes nas colunas da matriz B são dados pelo menos 5 dB maiores em peso que os sinais misturados pelos coeficientes nas colunas da matriz de aumento A. uma diferença em peso de pelo menos 6 dB pode ser alcançada ao restringir os fatores de dimensionamento de modo que 1 ’I . As diferenças em maior ou menor escala em peso para as colunas da matriz B e da matriz A podem ser utilizadas para alcançar um equilíbrio acústico desejado entre os canais de áudio.
[00116] Em alternativa, os coeficientes em cada coluna da matriz de aumento A podem ser dimensionados de modo individual como mostrado na expressão a seguir:
Figure img0015
[00117] Na Equação 15, Aj representa coluna j da matriz de aumento A e αj representa o respectivo fator de dimensionamento para a coluna j. Para essa alternativa, pode-se escolher valores arbitrários para cada fator de dimensionamento αj, desde que cada fator de dimensionamento satisfaça a restrição
Figure img0016
Em algumas implementações, os valores dos coeficientes de αj e β são escolhidos para assegurar que a norma de Frobenius de C é aproximadamente igual à norma de Frobenius da matriz B.
[00118] Cada um dos sinais que são misturados de acordo com a matriz de aumento A pode ser processado de modo que eles são não correlacionados de modo pscicoacústico a partir dos sinais de entrada intermediários N e a partir de todos os outros sinais que são misturados de acordo com a matriz de aumento A. A figura 8 é um diagrama de blocos que mostra um exemplo de não correlação de sinais intermediários selecionados. Nesse exemplo, dois (N = 2) sinais de entrada intermediários, cinco (N = 5) sinais de saída intermediários e três (K =3) sinais não correlacionados são misturados de acordo com a matriz de aumento A. No exemplo mostrado na figura 8, os dois sinais de entrada intermediários são misturados de acordo com a matriz inversa básica B, representada pelo bloco 41. Os dois sinais de entrada intermediários não são correlacionados pela descorrelação 43 para fornecer três sinais não correlacionados que são misturados de acordo com a matriz de aumento A, que é representada pelo bloco 42.
[00119] A descorrelação 43 pode ser implementada em uma variedade de maneiras. A figura 9 é um diagrama de blocos que mostra um exemplo de componentes de descorrelação. A implementação mostrada na figura 9 é capaz de alcançar a descorrelação psicoacústica, atrasando os sinais de entrada por quantidades variáveis. Os atrasos na gama de um a vinte milissegundos são adequados para muitas aplicações.
[00120] A figura 10 é um diagrama de blocos que mostra um exemplo alternativo de componentes de descorrelação. Nesse exemplo, um dos sinais de entrada intermediários é processado. Um sinal de entrada intermediário passa ao longo de dois caminhos de processamento de sinais diferentes que se aplicam filtros para os respectivos sinais em duas sub-bandas de frequências sobrepostas. O caminho de frequência inferior inclui um filtro de fase de mudança 61, que filtra o sinal de entrada de uma primeira sub-banda de frequência de acordo com uma primeira e uma resposta de impulso do filtro passa-baixa 62, que define a primeira sub-banda de frequência. O caminho de frequência mais alta inclui um atraso dependente da frequência 63 implementado por um filtro que filtra o sinal de entrada em uma segunda sub-banda de frequência de acordo com uma segunda resposta ao impulso que não é igual à primeira resposta de impulso, um filtro passa alto 64 que define a segunda sub-banda de frequência e um componente de atraso 65. As emissões do atraso 65 e o filtro passa-baixa 62 são combinados no nó de soma 66. A emissão do nó de soma 66 é um sinal que é não correlacionado de modo pscicoacústico com relação ao sinal de entrada intermediário.
[00121] A resposta de fase do filtro de fase de mudança 61 pode depender da frequência e pode ter uma distribuição bimodal com picos de frequência substancialmente iguais, positivos e negativos de noventa graus. Uma implementação ideal do filtro de fase de mudança 61 tem uma resposta de magnitude de unidade e uma resposta de fase que altera ou muda entre noventa graus positivos e noventa graus negativos nas bordas de duas ou mais bandas de frequências dentro da passa banda do filtro. A fase de mudança pode ser implementada por um transformador Hilbert disperso que tem uma resposta de impulso mostrada na expressão a seguir:
Figure img0017
(Equação 16)
[00122] A resposta ao impulso do transformador Hilbert disperso é, de preferência, truncada para um comprimento selecionado para otimizar o desempenho de descorrelação equilibrando uma troca entre desempenho transitório e ajuste da resposta em frequência. O número de fase de mudança pode ser controlado pelo valor do parâmetro S. Esse parâmetro deve ser escolhido para equilibrar uma troca entre o grau de não correlação e o comprimento da resposta de impulso. Uma resposta ao impulso mais longo pode ser exigida à medida que o valor do parâmetro S aumenta. Se o valor do parâmetro S for muito pequeno, o filtro pode fornecer não correlação insuficiente. Se o parâmetro S for muito grande, o filtro pode arrastar sons transitórios, durante um intervalo de tempo suficientemente longo para criar artefatos desagradáveis no sinal não correlacionado.
[00123] A capacidade de equilibrar essas características pode ser melhorada através da aplicação do filtro de fase de mudança 21 que tem um espaçamento não uniforme de frequência entre mudanças de fase adjacentes, com um espaçamento mais estreito em frequências mais baixas e um espaçamento mais amplo em frequências mais elevadas. Em algumas implementações, o espaçamento entre as mudanças adjacentes de fase é uma função logarítmica da frequência.
[00124] O atraso dependente de frequência 63 pode ser implementado por um filtro que tem uma resposta de impulso igual a um comprimento finito sinusoidal sequência h[n], cuja frequência instantânea diminui monotonicamente de π para zero ao longo da duração da sequência. Essa sequência pode ser expressa como:
Figure img0018
[00125] Na equação 17
Figure img0019
representa a frequência instantânea,
Figure img0020
representa a primeira derivada da frequência instantânea, representa um fator de normalização,
Figure img0021
' representa uma fase instantânea, e L representa o comprimento do filtro de atraso Em alguns exemplos, o fator de normalização G pode ser definido para um valor tal que:
Figure img0022
(Equação 18)
[00126] Um filtro com essa resposta de impulso, por vezes, pode gerar artefatos "de modulação de comprimento de onda" quando é aplicado aos sinais de áudio transitórios. Esse efeito pode ser reduzido mediante a adição de um termo semelhante a ruído ao termo de fase instantânea, como mostrado na expressão a seguir
Figure img0023
(Equação 19)
[00127] Se o termo semelhante a ruído a uma sequência de ruído Gaussian branco com uma variação que é uma pequena fração de π, os artefatos que são gerados por transições de filtragem irão soar mais como o ruído, em vez de modulações de comprimento de onda e a relação desejada entre o atraso e frequência pode ainda ser alcançada.
[00128] As frequências de corte do filtro passa-baixa 62 e do filtro passa alto 64 podem ser escolhidas para ser, aproximadamente, 2,5 kHz, de modo que não há diferença entre as faixas de passagem dos dois filtros e de modo que a energia espectral das suas emissões combinadas no região próxima à frequência de cruzamento onde as bandas de passagem se sobrepõem é substancialmente igual à energia espectral do sinal de entrada intermediário nessa região. A quantidade de atraso imposto pelo atraso 65 pode ser definida de modo que o atraso de propagação da maior frequência e os caminhos de processamento de sinal de frequência inferior são aproximadamente iguais à frequência de cruzamento.
[00129] A descorrelação pode ser implementada de maneiras diferentes. Por exemplo, um ou ambos do filtro passa-baixa 62 e do filtro passa alto 64 podem preceder o filtro de fase de mudança 61 e o atraso em função da frequência 63, respectivamente. O atraso 65 pode ser implementado por um ou mais componentes do atraso colocados nos caminhos de processamento de sinal, como desejado.
[00130] A figura 11 é um diagrama de blocos que apresenta os exemplos de componentes de um sistema de processamento de áudio. Nesse exemplo, o sistema de processamento de áudio 1100 inclui um sistema de interface 1105. O sistema de interface 1105 pode incluir uma interface de rede, tal como uma interface de rede sem fios. Em alternativa, ou além disso, o sistema de interface 1105 pode incluir uma interface de barramento serial universal (USB) ou outra interface.
[00131] O sistema de processamento de áudio 1100 inclui um sistema lógico de 1110. O sistema lógico 1110 pode incluir um processador, tal como um processador de único chip simples ou múltiplos chips de uso geral. O sistema lógico 1110 pode incluir um processador de sinal digital (DSP), um circuito integrado e aplicação específica (ASIC), um arranjo de porta de campo programável (FPGA) ou outro dispositivo lógico programável, porta discreta ou transistor lógico, ou componentes de hardware descontínuos, ou combinações dos mesmos. O sistema lógico 1110 pode ser configurado para controlar os outros componentes do sistema de processamento de áudio 1100. Embora as interfaces entre os componentes do sistema de processamento de áudio 1100 sejam mostrados na figura 11, o sistema lógico 1110 pode ser configurado com as interfaces para comunicação com outros componentes. Os outros componentes podem ou não ser configurados para a comunicação um com o outro, conforme adequado.
[00132] O sistema lógico 1110 pode ser configurado para executar a funcionalidade de processamento de áudio, que inclui, mas não se limita aos tipos de funcionalidades aqui descritas. Em algumas de tais implementações, o sistema lógico 1110 pode ser configurado para funcionar (pelo menos em parte) de acordo com o software armazenado em um ou mais meios de comunicação não transitórios. Os meios de comunicação não transitórios podem incluir memória associada com o sistema lógico 1110, tais como a memória de acesso aleatório (RAM) e/ou memória só de leitura (ROM). Os meios de comunicação não transitórios podem incluir a memória do sistema de memória 1115. O sistema de memória 1115 pode incluir um ou mais tipos adequados de meios de armazenamento não transitórios, como memória flash, um disco rígido, etc.
[00133] O sistema de exibição de 1130 pode incluir um ou mais tipos apropriados de visor, dependendo da manifestação do sistema de processamento de áudio 1100. Por exemplo, o sistema de exibição 1130 pode incluir um visor de cristal líquido, um visor de plasma, um visor biestável, etc.
[00134] O sistema de entrada de usuário 1135 pode incluir um ou mais dispositivos configurados para aceitar entradas de um usuário. Em algumas implementações, o sistema de entrada do usuário 1135 pode incluir um visor táctil que se sobrepõe a uma exibição do sistema de exibição 1130. O sistema de entrada do usuário 1135 pode incluir um mouse, uma esfera guia, um sistema de detecção de gesto, um joystick, um ou mais GUIs e/ou menus apresentados no sistema de exibição 1130, botões, teclado, interruptores, etc. Em algumas implementações, o sistema de entrada de usuário 1135 pode incluir o microfone 1125: um usuário pode proporcionar os comandos de voz para o sistema de processamento de áudio 1100 através do microfone 1125. O sistema lógico pode ser configurado para reconhecer a voz e para controlar pelo menos algumas operações do sistema de processamento de áudio 1100 de acordo com a tais comandos de voz. Em algumas implementações, o sistema de entrada de usuário 1135 pode ser considerado como uma interface de usuário e, portanto, como parte do sistema de interface de 1105.
[00135] O sistema de alimentação 1140 pode incluir um ou mais dispositivos de armazenamento de energia adequados, como uma bateria de níquel e cádmio ou uma bateria de lítio e íon. O sistema de alimentação 1140 pode ser configurado para receber energia de uma tomada elétrica.
[00136] Várias modificações às implementações descritas no presente relatório descritivo podem ser facilmente evidentes para os versados na técnica. Os princípios gerais aqui definidos podem ser aplicados a outras implementações, sem se afastar do espírito ou âmbito dessa divulgação. Assim, as concretizações não se destinam a ser limitadas às implementações aqui mostradas, mas devem ser desenvolvidas com âmbito o mais vasto consistente com essa descrição, os princípios e as novas características aqui descritas.

Claims (16)

1. Método para derivar M sinais de áudio difusos a partir de N sinais de áudio para a apresentação de um campo sonoro difuso, em que M é maior que N e é maior que 2, caracterizado pelo fato de que compreende: receber (305) os N sinais de áudio, em que cada um dos N sinais de áudio corresponde a um local espacial; derivar (310) as porções difusas dos N sinais de áudio; detectar (315) os casos de condições de sinal de áudio transitório nos N sinais de áudio; e processar (320) as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos, em que durante os casos de condições de sinal de áudio transitório, o processamento compreende distribuir as porções difusas dos N sinais de áudio, em maior proporção, para um ou mais dos M sinais de áudio difusos correspondentes às localizações espaciais relativamente mais próximas às localizações espaciais dos N sinais de áudio e, em menor proporção, para um ou mais dos M sinais de áudio difusos correspondentes às posições espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende detectar os casos de condições de sinal de áudio não transitório, em que durante os casos de condições de sinal de áudio não transitório, o processamento envolve a distribuição de porções difusas dos N sinais de áudio para os M sinais de áudio difusos de uma maneira substancialmente uniforme.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o processamento envolve a aplicação de uma matriz de mistura às porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a matriz é uma matriz de mistura de distribuição variável (D(t)) que é derivada a partir de uma matriz não transitória mais adequada para o uso durante as condições de sinal de áudio não transitório e uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que ainda compreende determinar um valor de sinal de controle transitório, em que a matriz de distribuição variável é derivada mediante a interpolação entre a matriz transitória e a matriz não transitória com base, pelo menos em parte, no valor do sinal de controle transitório.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o valor do sinal de controle transitório é variante no tempo, podendo variar de uma maneira contínua a partir de um valor mínimo até um valor máximo, ou podendo variar em um intervalo de valores discretos de um valor mínimo até um valor máximo.
7. Método, de acordo com qualquer uma das reivindicações 5 a 6, caracterizado pelo fato de que a determinação da matriz de distribuição variável envolve o cálculo da matriz de distribuição variável de acordo com o valor do sinal de controle transitório ou envolve a recuperação de uma matriz de distribuição variável armazenada a partir de um dispositivo de memória.
8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que ainda compreende: derivar os sinais intermediários K a partir das porções difusas dos N sinais de áudio, tal que cada sinal de áudio intermediário é não correlacionado de modo pscicoacústico com as porções difusas dos N sinais de áudio e, se K for maior que um, é não correlacionado de maneira psicoacústica com todos os outros sinais de áudio intermediários, em que K é maior que ou igual a um e menor que ou igual a M-N, em que derivar os sinais intermediários K opcionalmente envolve um processo de não correlação que inclui um ou mais dos atrasos, filtros universais, filtros pseudoaleatórios ou algoritmos de reverberação, e/ou em que os M sinais de áudio difusos são opcionalmente derivados em resposta aos sinais intermediários K, bem como aos sinais difusos N.
9. Aparelho caracterizado pelo fato de que compreende: um sistema de interface (1105); e um sistema lógico (1110) capaz de: receber (305), através do sistema de interface, os sinais de áudio de entrada N, em que cada um dos N sinais de áudio corresponde a um local espacial; derivar (310) as porções difusas dos N sinais de áudio; detectar (315) os casos de condições de sinal de áudio transitórionos sinais de áudio de entrada; e processar (320) as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos, em que M é maior que N e é maior que 2, e em que durante os casos de condições de sinal de áudio transitório, o processamento compreende distribuir as porções difusas dos N sinais de áudio em proporção maior para um ou mais dos M sinais de áudio difusos correspondentes às posições espaciais relativamente mais próximas às localizações espaciais dos N sinais de áudio e, em menor proporção, para um ou mais dos M sinais de áudio difusos correspondentes às posições espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio.
10. Aparelho, de acordo com a reivindicação 9, carac-terizado pelo fato de que o sistema lógico é capaz de detectar os casos de condições de sinal de áudio não transitório e em que durante os casos de condições de sinal de áudio não transitório, o processamento envolve a distribuição de porções difusas dos N sinais de áudio para os M sinais de áudio difusos de uma maneira substancialmente uniforme.
11. Aparelho, de acordo com a reivindicação 10, carac-terizado pelo fato de que o processamento envolve a aplicação de uma matriz de mistura para as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos.
12. Aparelho, de acordo com a reivindicação 11, carac-terizado pelo fato de que a matriz é uma matriz de mistura de distribuição variável que é derivada a partir de uma matriz não transitória mais adequada para o uso em condições de sinal de áudio não transitório de uma matriz transitória mais adequada para o uso durante as condições de sinal de áudio transitório.
13. Aparelho, de acordo com a reivindicação 12, carac-terizado pelo fato de que a matriz transitória é derivada a partir da matriz não transitória, em que cada elemento da matriz transitória representa um dimensionamento de um elemento de matriz não transitória correspondente, e em que o dimensionamento é uma função de uma relação entre um local do canal de entrada e um local do canal de saída.
14. Aparelho, de acordo com qualquer uma das reivin-dicações 12 ou 13, caracterizado pelo fato de que o sistema lógico é capaz de determinar um valor de sinal de controle transitório, em que a matriz de distribuição variável é derivada mediante a interpolação entre a matriz transitória e a matriz não transitória com base, pelo menos em parte, no valor do sinal de controle transitório.
15. Aparelho, de acordo com qualquer uma das reivin-dicações 9 a 14, caracterizado pelo fato de que o sistema lógico é capaz de: transformar cada um dos N sinais de áudio em bandas de frequência B; e realizar a derivação, detecção e processamento separadamente para cada uma das bandas de frequência B, em que o sistema lógico é opcionalmente capaz de: deslocar de modo panorâmico as porções não difusas dos sinais áudio de entrada N para formar N sinais de áudioão difusos M; e combinar os M sinais de áudio difusos com os N sinais de áudioão difusos M para formar os sinais de áudio de saída M.
16. Meio não transitório que tem um método armazenado nele, caracterizado pelo fato de que o método é para controlar pelo menos um aparelho para: receber (305) os sinais de áudio de entrada N, em que cada um dos N sinais de áudio corresponde a um local espacial; derivar (310) as porções difusas dos N sinais de áudio; detectar (315) os casos de condições de sinal de áudio transitório nos sinais de áudio de entrada; e processar (320) as porções difusas dos N sinais de áudio para derivar os M sinais de áudio difusos, em que M é maior que N e é maior que 2, e em que durante os casos de condições de sinal de áudio transitório, o processamento compreende distribuir as porções difusas dos N sinais de áudio em proporção maior para um ou mais dos M sinais de áudio difusos correspondentes às posições espaciais relativamente mais próximas às localizações espaciais dos N sinais de áudio e, em menor proporção, para um ou mais dos M sinais de áudio difusos correspondentes às posições espaciais relativamente mais distantes das localizações espaciais dos N sinais de áudio.
BR112016006832-7A 2013-10-03 2014-09-26 Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório BR112016006832B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361886554P 2013-10-03 2013-10-03
US61/886,554 2013-10-03
US201361907890P 2013-11-22 2013-11-22
US61/907,890 2013-11-22
PCT/US2014/057671 WO2015050785A1 (en) 2013-10-03 2014-09-26 Adaptive diffuse signal generation in an upmixer

Publications (2)

Publication Number Publication Date
BR112016006832A2 BR112016006832A2 (pt) 2017-08-01
BR112016006832B1 true BR112016006832B1 (pt) 2022-05-10

Family

ID=51660694

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016006832-7A BR112016006832B1 (pt) 2013-10-03 2014-09-26 Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório

Country Status (11)

Country Link
US (1) US9794716B2 (pt)
EP (1) EP3053359B1 (pt)
JP (1) JP6186503B2 (pt)
KR (1) KR101779731B1 (pt)
CN (1) CN105612767B (pt)
AU (1) AU2014329890B2 (pt)
BR (1) BR112016006832B1 (pt)
CA (1) CA2924833C (pt)
ES (1) ES2641580T3 (pt)
RU (1) RU2642386C2 (pt)
WO (1) WO2015050785A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
CN112584300B (zh) * 2020-12-28 2023-05-30 科大讯飞(苏州)科技有限公司 音频上混方法、装置、电子设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2393646C1 (ru) 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
ATE493731T1 (de) 2007-06-08 2011-01-15 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
BR122021003142B1 (pt) 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
TWI413109B (zh) * 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
CN102246543B (zh) * 2008-12-11 2014-06-18 弗兰霍菲尔运输应用研究公司 产生多信道音频信号的装置
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP6009547B2 (ja) 2011-05-26 2016-10-19 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・システム及びオーディオ・システムのための方法
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Also Published As

Publication number Publication date
KR101779731B1 (ko) 2017-09-18
EP3053359A1 (en) 2016-08-10
WO2015050785A1 (en) 2015-04-09
AU2014329890A1 (en) 2016-04-07
AU2014329890B2 (en) 2017-10-26
JP6186503B2 (ja) 2017-08-23
CA2924833A1 (en) 2015-04-09
ES2641580T3 (es) 2017-11-10
CN105612767A (zh) 2016-05-25
US20160241982A1 (en) 2016-08-18
JP2016537855A (ja) 2016-12-01
RU2642386C2 (ru) 2018-01-24
US9794716B2 (en) 2017-10-17
EP3053359B1 (en) 2017-08-30
KR20160048964A (ko) 2016-05-04
CA2924833C (en) 2018-09-25
CN105612767B (zh) 2017-09-22
BR112016006832A2 (pt) 2017-08-01
RU2016111711A (ru) 2017-10-04

Similar Documents

Publication Publication Date Title
JP6818841B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
KR101380167B1 (ko) 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용
TWI451772B (zh) 中央聲道音訊呈現技術
CN110832881B (zh) 立体声虚拟低音增强
CN118200841A (zh) 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
AU2015295518A1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
EP3745744A2 (en) Audio processing
BR112016006832B1 (pt) Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório
WO2018193163A1 (en) Enhancing loudspeaker playback using a spatial extent processed audio signal
Meyer-Kahlen et al. Perceptual roughness of spatially assigned sparse noise for rendering reverberation
US9794717B2 (en) Audio signal processing apparatus and audio signal processing method
Vilkamo Perceptually motivated time-frequency processing of spatial audio

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 26/09/2014, OBSERVADAS AS CONDICOES LEGAIS