BRPI0911729B1 - dispositivo e método para gerar um sinal binaural e para formar um conjunto de redução por intersemelhança - Google Patents

dispositivo e método para gerar um sinal binaural e para formar um conjunto de redução por intersemelhança Download PDF

Info

Publication number
BRPI0911729B1
BRPI0911729B1 BRPI0911729-6A BRPI0911729A BRPI0911729B1 BR PI0911729 B1 BRPI0911729 B1 BR PI0911729B1 BR PI0911729 A BRPI0911729 A BR PI0911729A BR PI0911729 B1 BRPI0911729 B1 BR PI0911729B1
Authority
BR
Brazil
Prior art keywords
channel
channels
signal
similarity
ambient
Prior art date
Application number
BRPI0911729-6A
Other languages
English (en)
Inventor
Mundt Harald
Neugebauer Bernhard
Hilpert Johannes
Silzle Andreas
Plogsties Jan
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V
Publication of BRPI0911729A2 publication Critical patent/BRPI0911729A2/pt
Publication of BRPI0911729B1 publication Critical patent/BRPI0911729B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

GERAÇÃO DE SINAL PARA SINAIS BIAURICULARES É descrito um dispositivo para gerar um sinal biauricular com base em um sinal de multicanais que representa uma pluralidade de canais e se destina à reprodução por meio de uma configuração de alto-falante, tendo uma posição de fonte de som virtual associada a cada canal. Ele compreende um redutor de correlação para processar de maneira diferente, e desse modo, reduzir uma correlação de pelo menos um canal do lado esquerdo e um do lado direito da pluralidade de canais, um canal frontal e um traseiro da pluralidade de canais, e um canal central e um não central da plurali-dade de canais, a fim de obter um conjunto reduzido por inter-semelhança de canais; uma pluralidade de filtros direcionais, um primeiro misturador for misturar as saídas dos filtros direcionais que modelam a transmissão acústica ao primeiro canal auditivo do ouvinte, e um segundo misturador para misturar as saídas dos filtros direcionais que modelam a transmissão acústica ao segundo canal auditivo do ouvinte. De acordo com um outro aspecto, é realizada uma redução de nível central para formar o downmix para um processador ambiente. De acordo ainda com um outro aspecto, é formado (...).

Description

DESCRIÇÃO
[0001] A presente invenção de refere à geração de uma reflexão e/ou reverberação ambiente relacionada à contribuição de um sinal biauricular, a geração de um sinal biauricular em si, e a formação de um conjunto de redução por inter-semelhança de funções de transferência relacionada à cabeça.
[0002] O sistema auditivo humano é capaz de determinar a direção ou direções de onde os sons percebidos vêm. Para essa finalidade, o sistema auditivo humano avalia determinadas diferenças entre o som recebido na orelha direita e o som recebido na orelha esquerda. As últimas informações compreendem, por exemplo, as chamadas pistas inter-auriculares que podem, por sua vez, se referirem à diferença de sinal de som entre os ouvidos. As pistas inter-auriculares são os meios mais importantes para localização. A diferença do nível de pressão entre os ouvidos, denominada diferença de nível inter-auricular (ILD) é a única pista mais importante para localização. Quando o som chega de um plano horizontal com um azimute não zero, ele tem um nível diferente em cada ouvido. O ouvido sombreado tem uma imagem de som suprimido naturalmente, comparado ao ouvido não sombreado. Uma outra propriedade muito importante que lida com a localização é a diferença de tempo inter-auricular (ITD). O ouvido sombreado tem uma distância maior da fonte de som, e, portanto, recebe a frente da onda sonora depois que o ouvido não sombreado. O propósito da ITD é enfatizar nas baixas frequências que não se atenuam muito quando alcançam o ouvido sombreado em comparação ao ouvido não sombreado. ITD é menos importante em altas frequências, pois a extensão da onda de som faz com que diminua a distância entre os ouvidos. Assim, em outras palavras, a localização explora o fato de que o som é sujeito a diferentes interações com a cabeça, ouvidos e ombros do ouvinte, percorrendo da fonte de som aos ouvido esquerdo e direito, respectivamente.
[0003] Os problemas ocorrem quando uma pessoa ouve um sinal estéreo que se destina a ser reproduzido por uma configuração de alto-falante por meio de fones de ouvidos. É muito provável que o ouvinte consideraria o som não natural, inadequado e perturbador, uma vez que o ouvinte sente que a fonte de som está localizada na cabeça. Esse fenômeno é geralmente mencionado na literatura como localização “na-cabeça”. Ouvir por um longo tempo o som “na-cabeça” pode levar à fadiga auditiva. Isso ocorre porque as informações sobre as quais sistema auditivo humano se baseia, quando posiciona as fontes de som, ou seja, as pistas inter- auriculares, estão ausentes ou são ambíguas.
[0004] A fim de tornar sinais estéreos, ou até sinais de multicanais com mais de dois canais para a reprodução em fone de ouvido, podem ser usados filtros direcionais a fim de modelar essas interações. Por exemplo, a geração de uma saída de fone de ouvido de um sinal de multicanais decodificado pode compreender a filtração de cada sinal após a decodificação por meio de um par de filtros direcionais. Esses filtros modelam de maneira típica a transmissão acústica de uma fonte de som virtual em uma ambiente ao canal auditivo do ouvinte, a chama função de transferência ambiente biauricular (BRTF). A BRTF realiza modificações de tempo, nível, espectral e modela reverberação e reflexões ambiente. Os filtros direcionais podem ser implementados no domínio de tempo ou de frequência.
[0005] Entretanto, uma vez que são exigidos muitos filtros, denominados Nx2 com N sendo número de canais decodificados, esses filtros direcionais são bastante extensos, como 20000 derivações de filtros a 44.1 kHz, e o processo de filtração é computacionalmente exigentes. Portanto, os filtros direcionais são algumas vezes reduzidos a um mínimo. As chamadas funções de transferência relacionadas à cabeça (HRTFs) contêm as informações direcionais incluindo as curas inter-auriculares. Um bloqueio de processamento comum é utilizado para modelar a reverberação/reflexões ambiente. O módulo de processamento ambiente pode se um algoritmo de reverberação no domínio de tempo ou de frequência, e pode operar em um ou dois sinais de entrada de canais obtidos do sinal de entrada de multicanais por meio de uma soma dos canais de sinal de entrada de multicanais. Essa estrutura é, por exemplo, descrita na WO 99/14983 A1. Conforme descrito agora, o bloqueio de processamento ambiente implementa reflexões e/ou reverberação ambiente. Reflexões e reverberação ambiente são essenciais para localizar sons, especialmente em relação à distância e externalização - significando sons que são percebidos fora da cabeça do ouvinte. O documento mencionado acima também sugere a implementação de filtros direcionais, como um conjunto de filtros FIR que operam em versões atrasadas de maneira diferente do respectivo canal, a fim de modelar o caminho direto da fonte de som ao respectivo ouvido e reflexões distintas. Outrossim, na descrição de várias medidas para fornecer uma experiência auditiva mais agradável em um par de fones de ouvido, esse documento também sugere atrasar uma mistura do canal central e do canal frontal esquerdo, e do canal central e o canal frontal direito, respectivamente, em relação à soma e à diferença dos canais traseiro esquerdo e traseiro direito, respectivamente.
[0006] Entretanto, os resultados auditivos atingidos, portanto, ainda falta muito para uma maior extensão de amplitude espacial reduzida do sinal de saída biauricular e falta de externalização. Ainda, percebeu-se que apesar das medidas mencionadas acima para a transmissão de sinais de multicanais por reprodução de fone de ouvido, porções de voz em diálogos de filme e música são geralmente percebidas reverberantes de maneira não natural e desigual de maneira espectral.
[0007] Assim, esse é o objeto da presente invenção, fornecer um esquema de geração de sinais biauriculares, produzindo uma reprodução por fone de ouvido mais estável e agradável.
[0008] Esse objeto é atingido por meio de dispositivos, de acordo com qualquer uma das reivindicações 1, 3, 4 e 7, e métodos, de acordo com qualquer uma das reivindicações de 16 a 19.
[0009] A primeira ideia de base do presente pedido é que possa ser atingida uma reprodução por fone de ouvido com sinais biauriculares mais estáveis e agradáveis por meio de processamento de maneira diferente e, sendo assim, reduzir a semelhança entre, pelo menos um canal do lado esquerdo e um do lado direito da pluralidade de canais de entrada, um canal frontal e um traseiro da pluralidade de canais de entrada, e um canal central e um não central da pluralidade de canais, obtendo, dessa forma, um conjunto reduzido por inter-semelhança de canais. Esse conjunto reduzido por inter-semelhança de canais é então alimentado a uma pluralidade de filtros direcionais, seguida por misturadores respectivos para o ouvido esquerdo e o direito, respectivamente. Ao reduzir por inter-semelhança os canais do sinal de entrada de multicanais, a amplitude espacial do sinal de saída biauricular pode ser aumentada e a externalização pode ser melhorada.
[00010] Uma ideia de base adicional do presente pedido é que possa ser atingido um sinal biauricular mais estável e agradável por meio da reprodução por fone de ouvido ao realizar - em um sentido que varia de maneira espectral - Uma modificação de fase e/ou magnitude de maneira diferente entre pelo menos dois canais da pluralidade de canais, obtendo assim o conjunto reduzido por inter-semelhança de amplitude de canais, que por sua vez, pode então ser alimentado a uma pluralidade de filtros direcionais seguida pelos respectivos misturadores para o ouvido esquerdo e direito, respectivamente. Novamente, ao reduzir por inter- semelhança de canais do sinal de entrada de multicanais, a amplitude espacial do sinal de saída biauricular pode ser aumentada e a externalização pode ser melhorada.
[00011] As vantagens mencionadas acima também são atingíveis ao se formar um conjunto de redução por inter- semelhança das funções de transferências relacionadas à cabeça ao causar as respostas de impulso de uma pluralidade original de funções de transferência relacionadas à cabeça a serem atrasadas de maneira relativa entre elas, ou - em um sentido que varia de maneira espectral - resposta de fase e/ou magnitude da pluralidade original de funções de transferência relacionadas à cabeça de maneira diferente relativamente entre elas. A formação pode ser feita offline, como uma etapa de projeto, ou online, durante a geração de sinal biauricular, ao utilizar as funções de transferência relacionadas à cabeça como filtros direcionais de maneira que, por exemplo, sejam responsivas a uma indicação de localizações de fonte de som virtual a ser utilizada.
[00012]Uma outra ideia de base do presente pedido é que algumasporçõesemfilmese músicaresultem em umareproduçãopor fone de ouvido percebidas de maneira natural, quando o downmix mono ouestéreodos canais do sinal de multicanaisfor sujeito ao processador ambiente para gerar reverberação/reflexões ambiente relacionadaàcontribuição do sinalbiauricular, sejam formadas de maneira queapluralidadedecanais contribua para o downmix mono ou estéreo a um nível diferente entre pelo menos dois canais do sinal de multicanais. Por exemplo, os inventores perceberam que as vozes em diálogos de filme e músicas são tipicamente misturadas principalmente ao canal central de um sinal de multicanais, e que o sinal do canal central, quando alimentado ao módulo de processamento ambiente,geralmente resulta em uma saída percebida reverberante não natural e desigual de maneira espectral. Os inventores descobriram, entretanto, que essas deficiências podem superadas ao alimentar o canal central ao módulo de processamento ambiente como uma redução de nível como, por exemplo, por meio de uma atenuação de 3-12 dB, ou especificamente, 6 dB.
[00013]A seguir, são descritas as configurações preferidas em mais detalhes em relação às figuras, entra as quais:
[00014]A Figura 1apresenta um diagrama em bloco de um dispositivo para geração de um sinal biauricular, de acordo com uma configuração;
[00015] A Figura 2 apresenta um diagrama em bloco de um dispositivo para a formação de um conjunto de redução por inter-semelhança das funções de transferência relacionadas à cabeça, de acordo com uma configuração adicional;
[00016] A Figura 3 apresenta um dispositivo para geração de reflexão e/ou reverberação ambiente relacionada á contribuição de um sinal biauricular, de acordo com uma configuração adicional.
[00017] As Figuras 4a e 4b apresentam diagramas em blocos do processador ambiente da Figura 3, de acordo com configurações diferentes;
[00018] A Figura 5 apresenta um diagrama em blocos do gerador de downmix da Figura 3, de acordo com uma configuração;
[00019] A Figura 6 apresenta um diagrama esquemático que ilustra uma representação de um sinal de multicanais utilizando codificação de áudio espacial, de acordo com uma configuração;
[00020] A Figura 7 apresenta um gerador de saída de sinal biauricular, de acordo com uma configuração;
[00021] A Figura 8 apresenta um diagrama em bloco de um gerador de saída de sinal biauricular, de acordo com uma configuração adicional;
[00022] A Figura 9 apresenta um diagrama em bloco de um gerador de saída de sinal biauricular, de acordo ainda com uma configuração adicional;
[00023] A Figura 10 apresenta um diagrama em bloco de um gerador de saída de sinal biauricular, de acordo com uma configuração adicional;
[00024] A Figura 11 apresenta um diagrama em bloco de um gerador de saída de sinal biauricular, de acordo com uma configuração adicional;
[00025] A Figura 12 apresenta um diagrama em bloco do decodificador de áudio espacial biauricular da Figura 11, de acordo com uma configuração; e
[00026] A Figura 13 apresenta um diagrama em bloco do decodificador de áudio espacial modificado da Figura 11, de acordo com uma configuração.
[00027] A Figura 1 apresenta um dispositivo para a geração de um sinal biauricular destinado, por exemplo, à reprodução por fone de ouvido com base em um sinal de multicanais que representam uma pluralidade de canais e destinado à reprodução por uma configuração de alto-falante, tendo uma posição de fonte de som virtual associada a cada canal. O dispositivo que é geralmente indicado em relação ao sinal 10 compreende um redutor por semelhança 12, uma pluralidade 14 de filtros direcionais 14a- 14h, um primeiro misturador 16a e um segundo misturador 16b.
[00028] O redutor por semelhança 12 é configurado para transformar o sinal de multicanais 18 que representa a pluralidade de canais 18a-18d, em um conjunto reduzido por inter-semelhança 20 de canais 20a-20d. O número de canais 18a-18d representado pelo sinal de multicanais 18 pode ser dois ou mais. Somente para fins de ilustração, quatro canais 18a-18d foram apresentados de maneira explícita na Figura 1. A pluralidade 18 de canais pode, por exemplo, compreender um canal central, um canal frontal esquerdo, um canal frontal direito, um canal traseiro esquerdo, e um canal traseiro direito. Os canais 18a-18d foram, por exemplo, misturados por um projetor de som de uma pluralidade de sinais de áudio individuais representando, por exemplo, instrumentos individuais, vocais, ou outras fontes individuais de som, presumindo que ou com a intenção que os canais 18a-18d sejam reproduzidos por uma configuração de alto-falante (não apresentado na Figura 1), tendo os alto-falantes posicionados nas posições de fonte de som virtual pré-definidas associadas a cada canal 18a-18d.
[00029] De acordo com a configuração da Figura 1, a pluralidade de canais 18a-18d compreende, pelo menos, um par de um canal do lado esquerdo e um do lado direito, um par de um canal frontal e um traseiro, ou um par de um canal central e um não central. É claro que, mais que um dos pares mencionados agora pode estar presente dentro da pluralidade 18 de canais 18a-18d. O redutor por semelhança 12 é configurado para processar de maneira diferente e, portanto, reduzir uma semelhança entre canais da pluralidade de canais, a fim de obter o conjunto reduzido por inter-semelhança 20 dos canais 20a-20d. De acordo com um primeiro aspecto, a semelhança entre pelo menos um canal do lado esquerdo e um do lado direito da pluralidade 18 de canais, um canal frontal e um traseiro de uma pluralidade 18 de canais, e um canal central e um não central da pluralidade 18 de canais pode ser reduzida pelo redutor por semelhança 12, a fim de obter o conjunto reduzido por inter-semelhança 20 dos canais 20a-20d. De acordo com um segundo aspecto, o redutor por semelhança (12) pode — adicional ou alternativamente - realizar - em um sentido que varia de maneira espectral - uma modificação de fase e/ou magnitude de maneira diferente entre pelo menos dois canais da pluralidade de canais, a fim de obter o conjunto reduzido por inter-semelhança 20 de canais.
[00030] Conforme será delineado em mais detalhes abaixo, o redutor por semelhança 12 pode, por exemplo, atingir o processamento diferente ao causar o atraso dos respectivos pares de maneira relativa entre eles, ou ao sujeitar os respectivos pares de canais a atrasos de diferentes quantidades em, por exemplo, cada pluralidade de bandas de frequência, obtendo assim um conjunto reduzido por inter-semelhança 20 de canais. É claro que existem outras possibilidades para diminuir a correlação entre os canais. Até em outras palavras, o redutor por correlação 12 pode ter uma função de transferência de acordo com qual distribuição de energia espectral de cada canal permanece a mesma, ou seja, a função de transferência como uma magnitude de um sobre a variação de espectro de áudio relevante, onde, entretanto, o redutor por semelhança 12 modifica de maneira diferente as fases de sub-bandas ou mesmo os componentes de frequência. Por exemplo, o redutor por correlação 12 poderia ser configurado de maneira que ele cause uma modificação de fase em todos ou em um ou em vários canais 18 de maneira que um sinal de um primeiro canal para uma determinada banda de frequência seja atrasada em relação a outros canais por pelo menos uma amostra. Ainda, o redutor por correlação 12 poderia se configurado de maneira que ele cause a modificação de fase para que o grupo atrase um primeiro canal em relação a um outro dos canais para uma pluralidade de bandas de frequência, apresente um desvio padrão de pelo menos um oitavo de uma amostra. As bandas de frequência consideradas poderiam ser bandas Bark ou um subconjunto delas ou qualquer outra sub-divisão de banda de frequência.
[00031] Reduzir a correlação não é a única maneira de prevenir o sistema auditivo humano da localização na-cabeça. Preferencialmente, a correlação é uma das várias medidas possíveis usando elas, o sistema auditivo humano mede a semelhança da chegada de som em ambos os ouvidos e, portanto, a direção de entrada do som. Dessa forma, o redutor por semelhança 12 também pode atingir o processamento diferente ao sujeitar os respectivos pares de canaisa reduções de nível em diferentes quantidadesem, por exemplo, cada pluralidade das bandas de frequência, obtendo assim umconjuntoreduzido por inter-semelhança20 de canais em um modo formado demaneira espectral. A formação espectral pode,por exemplo,exagerara redução formada de maneiraespectral relativa ocorrendo, por exemplo, para o som de canal traseiro em relação ao som de canal frontal, devido ao sombreamento da orelha. Sendo assim, o redutor por semelhança 12 pode sujeitar o(s) canal(is) traseiro(s) a reduções de nível que variam de maneira espectral em relação a outros canais. Nessa formação espectral, o redutor por semelhança 12 pode ter uma resposta de fase sendo constante durante a variação de espectro de áudio relevante onde, entretanto, o redutor por semelhança 12 modifica de maneira diferente magnitudes de sub-bandas ou de componente de frequência.
[00032]O modo no qual o sinal de multicanais 18 representa uma pluralidade de canais 18a-18d não é, a princípio, restrito a qualquer representaçãoespecífica.Por exemplo, o sinal de multicanais 18 representaria apluralidadede canais 18a-18d de maneiracomprimida, utilizando a codificaçãode áudioespacial. De acordo com a codificação de áudio espacial, a pluralidade de canais18a-18d poderia ser representada pormeio deum sinalque foi sujeito a um downmix ao qual os canais sofrem um downmix, acompanhados por informações downmix que revelam a proporção de mistura, de acordo com quais canais individuais 18a-18d foram misturados no canal de downmix canal ou canais de downmix, e parâmetros espaciais que descrevem a imagem espacial do sinal de multicanais por meio de, por exemplo, diferenças de nível/intensidade, diferenças de fase, diferenças de tempo e/ou medidas de correlação/coerência entre canais individuais 18a-18d. A saída do redutor por correlação 12 é dividida em canais individuais 20a-20d. Os últimos canais podem, por exemplo, serem retirados como sinais de tempo ou como espectrogramas como, por exemplo, decompostos de maneira espectral em sub-bandas.
[00033] Os filtros direcionais 14a-14h são configurados para modelar uma transmissão acústica de um respectivo canal dos canais 20a-20d de uma posição de fonte de som virtual associada ao respectivo canal a um respectivo canal auditivo do ouvinte. Na Figura 1, filtros direcionais 14a-14d modelam a transmissão acústica, por exemplo, canal do ouvido esquerdo, ao passo que filtros direcionais 14e-14h modelam a transmissão acústica ao canal do ouvido direito. Os filtros direcionais podem modelar a transmissão acústica de uma posição de fonte de som virtual em uma ambiente a um canal do ouvido do ouvinte e pode realizar essa modelagem ao realizar modificações de tempo, nível e espectral, e opcionalmente, modelando reflexões e reverberação ambiente. Os filtros direcionais 18a-18h podem ser implementados no domínio de tempo ou de frequência. Isso é, os filtros direcionais podem ser filtros de domínio de tempo tais como filtros, filtros FIR, ou podem operar em um domínio de frequência ao multiplicar valores de amostra de função de transferências respectivos com valores espectrais respectivos dos canais 20a-20d. Particularmente, os filtros direcionais 14a-14h podem ser selecionados para modelar a respectiva função de transferência relacionada à cabeça que descrevem a interação do respectivo sinal do canal 20a-20d da respectiva posição de fonte de som virtual ao respectivo canal auditivo, incluindo, por exemplo, as interações com a cabeça, ouvidos e ombros de uma pessoa. O primeiro misturador 16a é configurado para misturar as saídas dos filtros direcionais 14a- 14d para modelar a transmissão acústica ao canal auditivo esquerdo do ouvinte para obter um sinal 22a destinado a contribuir com, ou até ser o canal esquerdo do sinal de saída biauricular, enquanto o segundo misturador 16b é configurado para misturar as saídas dos filtros direcionais 14e-14h para modelar a transmissão acústica ao canal auditivo direito do ouvinte para obter um sinal 22b, destinado a contribuir com, ou até ser o canal direito do sinal de saída biauricular.
[00034] Conforme será descrito em mais detalhes abaixo em relação às respectivas configurações, contribuições adicionais podem ser adicionadas aos sinais 22a e 22b, a fim de levar em conta reflexões/reverberação ambiente. Por esse medida, a complexidade dos filtros direcionais 14a-14h pode ser reduzida.
[00035] No dispositivo da Figura 1, o redutor por semelhança 12 neutraliza os efeitos colaterais negativos da soma da entrada dos sinais correlacionados nos misturadores 16a e 16b, respectivamente, de acordo com o qual uma amplitude espacial muito reduzida do sinal de saída biauricular 22a e 22b e uma falta de resultados de externalização. A correlação atingida pelo redutor por semelhança 12 reduz esses efeitos colaterais negativos.
[00036] Antes de ir para a próxima configuração, a Figura 1 apresenta, em outras palavras, um fluxo de sinal para a geração de uma saída por fone de ouvido, por exemplo, de um sinal de multicanais decodificado. Cada sinal é filtrado por um par de pares de filtros direcionais. Por exemplo, o canal 18a é filtrado pelo par de filtros direcionais 14a-14e. Inoportunamente, uma quantidade significativa de semelhança, tal como uma correlação existe entre canais 18a-18d em produções de som de multicanais típica. Isso afetaria de maneira negativa o sinal de saída biauricular. Assim, após processar os sinais de multicanais com um filtro direcional 14a-14h, a saída de sinais intermediária pelos filtros direcionais 14a-14h é adicionada no misturador 16a e 16b para formar sinal de saída de fone de ouvido 20a e 20b. A soma de sinais de saída semelhantes/correlacionados resultaria em uma amplitude espacial muito reduzida e do sinal de saída 20a e 20b, e em uma falta de externalização. Isso é particularmente problemático para a semelhança/correlação do sinal do lado direito e do lado esquerdo e canal central. Dessa forma, o redutor por semelhança 12 é para reduzir a semelhança entre esses sinais quanto possível.
[00037] Deve-se observar que a maior parte das medidas realizadas pelo redutor por semelhança 12 para reduzir a semelhança entre os canais da pluralidade 18 de canais 18a-18d poderia também ser atingida ao remover o redutor por semelhança 12 modificando de maneira concomitante os filtros direcionais para realizar não somente a modelagem da transmissão acústica mencionada acima, mas também atingir a falta de semelhança de maneira a realizar a descorrelação mencionada agora. Dessa forma, os filtros direcionais poderiam, portanto, por exemplo, não modelar HRTFs, mas modificar as funções de transferência relacionadas à cabeça.
[00038] A Figura 2, por exemplo, apresenta um Dispositivo para formar um conjunto de redução por inter-semelhança das funções de transferência relacionadas à cabeça para modelar uma transmissão acústica de um conjunto de canais de uma posição de fonte de som virtual associada ao respectivo canal aos canais auditivos do ouvinte. O dispositivo que é geralmente indicado por 30 compreende um fornecedor HRTF 32, bem como um processador HRTF 34.
[00039] O fornecedor HRTF 32 é configurado para fornecer uma pluralidade original de HRTFs. A etapa 32 pode compreender medidas que usam uma cabeça padrão de simulação, para medir as funções de transferência relacionadas à cabeça de determinadas posições sonoras aos canais auditivos de um ouvinte padrão de simulação. De modo semelhante, o fornecedor HRTF 32 pode ser configurado para simplesmente buscar ou carregar as HRTFs originais de uma memória. OU de maneira alternativa, o fornecedor HRTF 32 pode ser configurado para computar as HRTFs, de acordo com uma fórmula pré-determinada, dependendo, por exemplo, das posições de fonte de som virtual de interesse. Dessa forma, o fornecedor HRTF 32 pode ser configurado para operar em um ambiente de projeto para a projeção de um gerador de sinal de saída biauricular, ou pode ser parte desse gerador de sinal de saída biauricular, a fim de fornecer as HRTFs originais online, por exemplo, de maneira responsiva à seleção ou alteração das posições de fonte de som virtual. Por exemplo, o dispositivo 30 pode ser parte de um gerador de sinal de saída biauricular que é capaz de acomodar sinais multicanais que são destinados a diferentes configurações de alto-falante, tendo diferentes posições de fonte de som virtual associadas a seus canais. Nesse caso, o fornecedor HRTF 32 pode ser configurado para fornecer os HRTFs originais em uma maneira adaptada às posições de fonte de som virtual destinadas atualmente.
[00040] O processador HRTF 34, por sua vez, é configurado para causar as respostas de impulso de pelo menos um par das HRTFs a serem deslocadas entre elas ou modificar - em um sentido que varia de maneira espectral - as respostas de fase e/ou magnitude de maneira diferente em relação a elas. O par de HRTFs pode modelar a transmissão acústica de um dos canais esquerdo e direito, canais frontais e traseiros, e canais centrais e não centrais. Por efeito, isso pode ser atingido por uma ou por uma combinação das seguintes técnicas aplicadas a um ou a vários canais do sinal de multicanais, atrasando assim a HRTF do respectivo canal, modificando a resposta de fase de uma respectiva HRTF e/ou aplicando um filtro de descorrelação de maneira que todos os filtros e passagem completa à respectiva HRTF, obtendo assim um conjunto reduzido por inter-correlação de HRTFs, e/ou modificando - em um sentido de modificação de maneira espectral - a resposta de magnitude de uma respectiva HRTF, obtendo assim pelo menos um conjunto reduzido por inter-semelhança de HRTFs. Em ambos os casos, a descorrelação/discrepância resultante entre os respectivos canais pode dar apoio ao sistema auditivo humano localizando de maneira externa a fonte de som e prevenindo, assim, a localização na-cabeça que ocorre. Por exemplo, o processador HRTF 34 poderia ser configurado de maneira que ele cause uma modificação da resposta de fase de todos ou um ou vários canais HRTFs de maneira que um grupo atrase uma primeira HRTF para que uma determinada banda de frequência seja introduzida - ou uma determinada banda de frequência de uma primeira HRTF seja atrasada - de maneira relativa entre a HRTFs em pelo menos uma amostra. Ainda, o processador HRTF 34 poderia ser configurado de maneira que ele cause a modificação da resposta de fase para que o grupo atrase uma primeira HRTF em relação a uma outra das HRTFs para uma pluralidade de bandas de frequência, revelar um desvio padrão de pelo menos um oitavo de uma amostra. As bandas de frequência consideradas poderiam ser bandas Bark ou um subconjunto delas ou qualquer outra sub-divisão de banda de frequência.
[00041] O conjunto de redução por inter-semelhança da HRTFs resultante do processador HRTF 34 pode ser utilizado para configurar as HRTFs dos filtros direcionais 14a-14h do dispositivo da Figura 1, onde o redutor por semelhança 12 pode estar presente ou ausente. Devido à propriedade de discrepância das HRTFs modificadas, as vantagens mencionadas acima em relação à amplitude espacial do sinal de saída biauricular e a externalização melhorada é semelhantemente atingido até quando o redutor por semelhança 12 está ausente.
[00042] Conforme já descrito acima, o dispositivo da Figura 1 pode ser acompanhado por uma passagem adicional configurada para obter reflexão e/ou reverberação ambiente relacionada à contribuição do sinal de saída biauricular com base em um downmix de pelo menos algum dos canais de entrada 18a-18d. Isso alivia a complexidade dos filtros direcionais 14a-14h. Um dispositivo para a geração dessa reflexão ambiente e/ou reverberação ambiente relacionada à contribuição de um sinal de saída biauricular apresentado na Figura 3. O dispositivo 40 compreende o gerador downmix 42 e um processador ambiente 44 conectado em série entre si com o processador ambiente 44 após o gerador downmix 42. O dispositivo 40 pode ser conectado entre a entrada do dispositivo da Figura 1 no qual o sinal de multicanais 18 é inserido, e sai do sinal de saída biauricular onde o canal de contribuição esquerdo 46a do processador ambiente 44 é adicionado à saída 22a, e o canal de saída direito 46b do processador ambiente 44 é adicionado à saída 22b. O gerador downmix 42 forma um downmix mono ou estéreo 48 dos canais do sinal de multicanais 18, e o processador 44 é configurado para gerar o canal esquerdo 46a e o canal direito 46b da reflexão e/ou reverberação ambiente relacionado às contribuições do sinal biauricular ao modelar reflexão e/ou reverberação ambiente com base no sinal mono ou estéreo 48.
[00043] A ideia de base do processador ambiente 44 é que a reflexão/reverberação ambiente que ocorre em, por exemplo, um ambiente, pode ser modelada de maneira transparente ao ouvinte, com base em um downmix tal como uma simples soma dos canais do sinal de multicanais 18. Uma vez que as reflexões/reverberação ambiente ocorrem depois que os sons passam no decorrer do caminho ou linha direta da visão da fonte de som aos canais auditivos, a resposta de impulso do processador ambiente é representativa para, e substitui, a extremidade das resposta de impulso dos filtros direcionais apresentados na Figura 1. As respostas de impulso dos filtros direcionais podem, por sua vez, serem restritas à modelagem do caminho direto e à reflexão e atenuações que ocorrem na cabeça, ouvidos e ombros do ouvinte, possibilitando assim o encurtamento das respostas de impulso dos filtros direcionais. É claro que, o limite entre o que é modelado pelo filtro direcional e o que é modelado pelo processador ambiente 44 pode variar livremente de maneira que o filtro direcional possa, por exemplo, também modelar as primeiras reflexões/reverberação ambiente.
[00044] As Figuras 4a e 4b apresentam possíveis implementações para estrutura interna do processador ambiente. De acordo com a Figura 1a, o processador ambiente 44 é alimentado com um sinal downmix mono 48 e compreende dois filtros de reverberação 50a e 50b. De maneira análoga aos filtros direcionais, os filtros de reverberação 50a e 50b podem ser implementados para operar no domínio de tempo ou domínio de frequência. As entradas deles recebem o sinal downmix mono 48. A saída do filtro de reverberação 50a fornece a saída de contribuição do canal esquerdo 46a, ao passo que o filtro de reverberação 50b tira o sinal de contribuição do canal direito 46b. A Figura 4b apresenta um exemplo da estrutura interna do processador ambiente 44, no caso do processador ambiente 44 ser provido com um sinal downmix estéreo 48. Nesse caso, o processador ambiente compreende quatro filtros de reverberação 50a-50d. As entradas dos filtros de reverberação 50a e 50b são conectadas ao primeiro canal 48a do downmix estéreo 48, ao passo que a entrada dos filtros de reverberação 50c e 50d são conectadas ao outro canal 48b do downmix estéreo 48. As saídas dos filtros de reverberação 50a e 50c são conectadas à entrada de um adicionador 52a, A saída desse ultimo fornece a contribuição de canal esquerdo 46a. As saídas dos filtros de reverberação 50b e 50d são conectadas às entradas adicionador 52b adicional, a saída desse último a contribuição de canal direito 46b.
[00045]Embora tenha sido descrito que o gerador downmix 42 pode simplesmente somar oscanais dosinal demulticanais 18- com a ponderação de cada canal por igual -, essenão é exatamente o caso da configuração da Figura 3. Em vez disso, o gerador downmix 42 da Figura 3 é configurado para formar o downmix mono ou estéreo 48, de maneira que a pluralidade de canais contribua para o downmix mono ou estéreo a um nível diferente entre pelo menos dois canais do sinal de multicanais 18. Por meio dessa medida, determinados conteúdos dos sinais de multicanais, como a fala ou música de fundo que são misturadas em um canal específico ou canais específicos do sinal de multicanais, pode ser evitado ou encorajado a ser sujeito ao processamento ambiente, evitando assim um som não natural.
[00046]Por exemplo, o gerador downmix 42 da Figura 3 pode ser configurado para formar o downmix mono ou estéreo 48 de maneira que um canal central da pluralidade de canais do sinal de multicanais 18 contribua para osinal dedownmix monoou estéreo 48 em uma maneira de nível reduzido em relação aos outros canais do sinal de multicanais 18. Porexemplo,a quantidadeda redução de nível pode estar entre 3 dBe 12 dB.A redução denível pode ser uniformemente distribuída sobre a variação espectral eficaz dos canais do sinal de multicanais 18, ou pode ser dependente da frequência, de maneira concentrada em uma parte espectral específica, tal como a porção espectral tipicamente ocupada pelos sinais de voz. A quantidade da redução de nível em relação a outros canais pode ser a mesma para todos os outros canais. Isto é, os outros canais podem ser misturados no sinal downmix 48 ao mesmo nível. De maneira alternativa, os outros canais podem ser misturados no sinal downmix 48 a um nível desigual. Então, a quantidade da redução de nível em relação aos outros canais pode ser medida em comparação ao valor médio dos outros canais ou o valor médio de todos os canais, incluindo o reduzido. Se assim for, o desvio padrão da ponderação de mistura dos outros canais ou o desvio padrão das ponderações de mistura de todos os canais pode ser menor que 66% da redução de nível da ponderação de mistura do canal de nível reduzido em relação ao valor médio mencionado agora.
[00047] O efeito da redução de nível em relação ao canal central é que o sinal de saída biauricular obtido por meio de contribuições 56a e 56b é - pelo menos em algumas circunstâncias que são discutidas em mais detalhes abaixo - mais percebido naturalmente pelos ouvintes do que sem o nível de redução. Em outras palavras, o gerador de downmix 42 forma uma soma ponderada dos canais do sinal de multicanais 18, com o valor de ponderação associado ao canal central sendo reduzido em relação aos valores de ponderação dos outros canais.
[00048] A redução de nível do canal central é especialmente vantajoso durante as porções de voz de diálogos de filme ou música. A melhora de impressão de áudio obtida durante essas porções de voz compensa mais desvantagens menores devido à redução de nível em fases sem voz. Entretanto, de acordo com uma configuração alternativa, a redução de nível não é constante. De preferência, o gerador downmix 42 pode ser configurado para trocar entre um modo onde a redução de nível é desativada, e um modo onde a redução de nível é ativada. Em outras palavras, o gerador de downmix 42 pode ser configurado para variar a quantidade da redução de nível em uma maneira que varia com mo tempo. A variação pode ser de uma natureza binária ou análoga, entre zero e um valor máximo. O gerador de downmix 42 pode ser configurado para realizar a troca de modo ou a variação da quantidade de redução de nível dependendo das informações contidas no sinal de multicanais 18. Por exemplo, o gerador downmix 42 pode ser configurado para detectar fases de voz ou distinguir essas fases de voz de fases sem voz, ou pode atribuir uma medida de conteúdo de voz medindo o conteúdo de voz, sendo pelo menos da escala ordinal, para estruturas consecutivas do canal central. Por exemplo, o gerador downmix 42 detecta a presença de voz no canal central por meio de um filtro de voz e determina se o nível de saída desse filtro excede o limite de soma. Entretanto, a detecção das fases de voz no canal central pelo gerador de downmix 42 não é a única maneira de realizar a troca de modo da variação dependente do tempo da quantidade da redução de nível mencionada acima. Por exemplo, o sinal de multicanais 18 poderia ter informações colaterais associadas após isso, que é especialmente destinado a distinguir entre as fases de voz e as fases sem voz, ou a medir o conteúdo de maneira quantitativa. Nesse caso, o gerador de downmix 42 operaria de maneira responsiva a essas informações colaterais. Uma outra probabilidade seria que o gerador de downmix 42 realiza a troca de modo mencionada acima ou as variações da quantidade de redução de nível dependendo de uma comparação entre, por exemplo, os níveis atuais do canal central, do canal esquerdo e do canal direito. Casoocanal central sejamaior que oscanaisesquerdo edireito, sejade maneira individual ou relativaà somaem si, pormais que uma determinada proporção de limite, então o gerador de downmix 42 pode presumir que a fase de voz está atualmente presente e age de acordo, ou seja,ao realizar a redução de nível. De modo semelhante, o gerador de downmix 42 pode utilizar as diferenças de nível entre os canais central, esquerdo e direito a fim de perceber as dependências mencionadas acima.
[00049]Além disso, o gerador downmix 42 pode ser responsivo aos parâmetros espaciais utilizados para descrever a imagem espacial dos canais múltiplos do sinal de multicanais 18. Isso éapresentado na Figura 5. A Figura5 apresenta um exemplo do gerador de downmix 42, caso o sinal de multicanais 18 represente uma pluralidade de canais pelo uso da codificação de áudio espacial, ou seja, ao utilizar um sinal downmix 62 no qual a pluralidade de canais foram submetidas a downmix e parâmetros espaciais 64 que descrevem a imagem espacial da pluralidade de canais. De modo opcional, o sinal de multicanais 18 Também pode compreender informações de downmix que descrevem as proporções pelas quais os canais individuais foram misturados no sinal de downmix 62, ou os canais individuais do sinal de downmix 62, uma vez que o canal de downmix 62 pode, por exemplo, ser um sinal de downmix 62 ou um sinal de downmix estéreo 62. O gerador de downmix 42 da Figura 5 compreende um decodificador 64 e um misturador 66. O decodificador 64 decodifica, de acordo com a decodificação de áudio espacial, o sinal de multicanais 18, a fim de obter a pluralidade de canais incluindo, entre outros, o canal central 66, e outros canais 68. O misturador 66 é configurado para misturar o canal central 66 e os outros canais não centrais 68 para derivar o sinal mono ou estéreo 48 ao realizar a redução de nível mencionada acima. Conforme indicado pela linha tracejada 70, o misturador 66 pode ser configurado para utilizar o parâmetro espacial 64 a fim de trocar entre o modo de redução de nível e o modo sem redução de nível da quantidade variada da redução de nível, conforme mencionado acima. O parâmetro espacial 64 utilizado pelo misturador 66 pode, por exemplo, ser os coeficientes de previsão de canal que descrevem como o canal central 66, um canal esquerdo ou o canal direito podem ser derivados do sinal de downmix 62, onde o misturador 66 pode utilizar de maneira adicional parâmetros de correlação de coerência/cruzada inter-canal que representa a correlação de coerência ou cruzada entre os canais esquerdo e direito mencionados agora que, por sua vez, podem ser downmixes dos canais frontal esquerdo e traseiro esquerdo, e canais frontal direito e traseiro direito, respectivamente. Por exemplo, o canal central pode ser misturado a uma proporção fixa no canal esquerdo e no canal direito do sinal de downmix estéreo 62 mencionado acima. Nesse caso, dois coeficientes de previsão de canal são suficientes a fim de determinar como os canais central, esquerdo e direito podem ser derivados de uma respectiva combinação linear de dois canais do sinal de downmix estéreo 62. Por exemplo, o misturador 66 pode utilizar uma proporção entre a soma e a diferença dos coeficientes de previsão de canal, a fim de diferenciar as fases de voz e as fases sem voz.
[00050] Embora a redução de nível em relação ao canal central tenha sido descrita a fim de exemplificar a soma ponderada da pluralidade de canais, de maneira que ela contribua para o downmix mono ou estéreo a um nível diferente entre pelo menos dois canais do sinal de multicanais 18, também há outros exemplos onde outros canais têm o nível reduzido ou amplificado de maneira vantajosa em relação a um outro canal ou a outros canais, pois algum conteúdo de fonte de som presente nesse ou nesses canais é ou não sujeito ao processamento ambiente no mesmo nível que os outros conteúdos no sinal de multicanais, mas a um nível reduzido/aumentado.
[00051] A Figura 5 foi bem explicada de maneira geral em relação a uma possibilidade para representar a pluralidade de canais de entrada por meio de um sinal de downmix 62 e parâmetros espaciais 64. Em relação à Figura 6, essa descrição é intensificada. A descrição em relação à Figura 6 também é utilizada para o entendimento das seguintes configurações descritas em relação às Figuras 10 a 13. A Figura 6 apresenta o sinal downmix 62 decomposto de maneira espectral em uma pluralidade de sub-bandas 82. Na Figura 6, as sub-bandas 82 são apresentadas de maneira exemplar conforme se estende horizontalmente, com as sub-bandas 82 sendo conciliadas à frequência de sub-banda que aumenta de baixo para cima, conforme indicado pela seta de domínio de frequência 84. A extensão da direção horizontal deve denotar o eixo do tempo 86. Por exemplo, o sinal de downmix 62 compreende uma sequência de valores espectrais 88 de acordo com a sub-banda 82. A resolução de tempo, na qual as sub-bandas 82 são amostradas pelos valores de amostra 88, pode ser definida por fendas do banco de filtros 90. Portanto, as fendas de tempo 90 e as sub-bandas 82 definem alguma resolução ou rede de tempo/frequência. Uma rede de tempo/frequência grosseira é definida pelos valores de unidades de amostras próximas 88 aos cortes de tempo/frequência 92, conforme indicado pelas linhas tracejadas na Figura 6, esses cortes que definem a resolução ou rede de parâmetrodetempo/frequência.Os parâmetrosespaciais62 mencionados acimasão definidos naquela resolução deparâmetrode tempo/frequência 92. A resolução de parâmetro de tempo/frequência 92 pode se modificar no tempo. Para esse fim, o sinal de multicanais 62 pode ser dividido em duas estruturas consecutivas 94. Para cada estrutura, a rede de resolução de tempo/frequência 92 é capaz de ser ajustada de maneira individual. Caso o decodificador 64 receba o sinal de downmix 62 no domínio de tempo, o decodificador 64 podecompreenderum banco de filtrode análise interna para derivar a representação do sinal de downmix 62, conforme apresentado naFigura 6. De modo alternativo,o sinal de downmix 62 insere o decodificador 64 na forma apresentada na Figura 6, sendo que nesse caso não é necessário banco de filtro de análise no decodificador 64. Conforme já foi mencionado na Figura 5, para cada corte 92dois coeficientes de previsão de canalpodem ser apresentados pararevelar como, emrelação ao respectivocorte de tempo/frequência 92, os canais direito e esquerdo podem ser derivados dos canais esquerdo e direito do sinal de downmix estéreo 62. Além disso, um parâmetro de correlação de coerência/cruzada inter-canal (ICC) pode estar presente para o corte 92 indicando as semelhanças ICC entre o canal esquerdo e o direito a serem derivados do sinal de downmix estéreo 62, onde um canal foi completamente misturado no canal do sinal de downmix estéreo 62, enquanto o outro foi completamente misturado no outro canal do sinal de downmix estéreo 62. Entretanto, um parâmetro de diferença de nível de canal (CLD) também pode estar presente para cada corte 92 que indica a diferença de nível entre os canais esquerdo e direito mencionados agora. Pode ser aplicada uma quantificação não uniforme sobre uma escala de logaritmo aos parâmetros CLD, onde a quantificação tem uma alta precisão próxima a zero dB e uma resolução grosseira quando há uma diferença grande no nível entre os canais. Além disso, parâmetros adicionais podem estar presentes dentro do parâmetro espacial 64. Esses parâmetros podem, entre outros, definir a CLD e a ICC relacionadas aos canais que servem para formar, ao misturar, os canais esquerdo e direito mencionados agora, tal como canais traseiro esquerdo, frontal esquerdo, traseiro direito e frontal direito.
[00052] Deve-se observar que as configurações mencionadas acima podem ser combinadas entre elas. Algumas possibilidades de combinação já foram mencionadas acima. Possibilidades adicionais serão mencionadas a seguir, em relação às configurações das Figuras 7 a 13. Além disso, as configurações mencionadas acima das Figuras 1 e 5 presumem que os canais intermediários 20, 66 e 68, respectivamente, estão realmente presentes dentro dispositivo. Entretanto, esse não é necessariamente o caso. Por exemplo, as HRTFs modificadas, conforme derivadas pelo Dispositivo da Figura 2 podem ser utilizadas para definir os filtros direcionais da Figura 1 ao deixar de fora o redutor por semelhança 12 e, nesse caso, o dispositivo da Figura 1 pode operar sobre um sinal de downmix tal como o sinal de downmix 62 apresentado na Figura 5, que representa a pluralidade de canais 18a-18d, ao combinar de maneira adequada os parâmetros espaciais e as HRTFs modificadas na resolução de parâmetro de tempo/frequência 92, e aplicando de acordo os coeficientes de combinação linear obtidos, a fim de formar sinais biauriculares 22a e 22b.
[00053] De maneira semelhante, o gerador de downmix 42 pode ser configurado para combinar de maneira adequada os parâmetros espaciais 64 a quantidade de redução de nível a ser atingida para o canal central a fim de derivar o downmix mono ou estéreo 48 destinado para o processador ambiente 44. A Figura 7 apresenta um gerador de sinal de saída biauricular de acordo com uma configuração. Um gerador que é geralmente indicado em relação ao sinal 100 compreende decodificador de multicanais 102, uma saída biauricular 104 e dois caminhos que se estendem entre a saída do decodificador de multicanais 102 e a saída biauricular 104, respectivamente, ou seja, um caminho direto 106 e um caminho de reverberação 108. No caminho direto, os filtros direcionais 110 são conectados à saída do decodificador de multicanais 102. O caminho direto compreende ainda um primeiro grupo adicionadores 112 e um segundo grupo de adicionadores 114. Os adicionadores 112 somam o sinal de saída da primeira metade dos filtros direcionais 110, e os segundos adicionadores 114 somam o sinal de saída de uma segunda metade dos filtros direcionais 110. As saídas somadas do primeiro e do segundo adicionadores 112 e 114 representam contribuição do caminho direto mencionado acima do sinal de saída biauricular 22a e 22b. Os adicionadores 116 e 118 são fornecidos para combinar os sinais de contribuição 22a e 22b aos sinais de contribuição biauriculares fornecidos pelo caminho de reverberação 108, ou seja, sinais 46a e 46b. No caminho de reverberação 108, um misturador 120 e um processador ambiente 122 são conectados em série entre a saída do decodificador de multicanais 102 e a respectiva entrada dos adicionadores 16 e 118, saídas essas que definem a saída do sinal de saída biauricular na saída 104.
[00054] Para entender de modo mais fácil a seguinte descrição do dispositivo da Figura 7, os sinais de referência utilizados nas Figuras 1 a 6 foram parcialmente utilizados para denotar elementos na Figura 7, que se correspondem, ou assumem a responsabilidade para a funcionalidade de elementos constantes nas Figuras 1 a 6. A descrição correspondente tornar-se-á mais clara na seguinte descrição. Entretanto, observa-se que, para facilitar a seguinte descrição, as seguintes configurações foram descritas assumindo que o redutor por semelhança realiza uma redução por correlação. Dessa forma, o último é denotado como um redutor por correlação, a seguir. Entretanto, para tornar claro o que foi dito acima, as configurações delineadas abaixo são facilmente transferíveis a casos em que o redutor por semelhança realiza uma redução em semelhança ao invés de ser em termos de correlação. Ainda, as configurações delineadas abaixo foram redigidas assumindo que o misturador para geração de downmix para p processamento ambiente gera uma redução de nível do canal central apesar de que, conforme descrito acima, uma transferência para as configurações alternativas seria rapidamente atingível.
[00055] O dispositivo da Figura 7 utiliza um fluxo de sinal para a geração de uma saída de fone de ouvido na saída 104 de um sinal de multicanais decodificado 124. Os multicanais decodificados 124 são derivados pelo decodificador de multicanais 102 da entrada da corrente de bits a uma entrada de corrente de bits 126, tal como, por exemplo, pela decodificação de áudio espacial. Após decodificar, cada sinal ou canal do sinal de multicanais decodificado 124 é filtrado por um par de filtros direcionais 110. Por exemplo, o primeiro (superior) canal do sinal de multicanais decodificado 124 é filtrado pelos filtros direcionais 20 DirFilter(1,L) e DirFilter(1,R), e um segundo (segundo a partir de cima) sinal ou canal é filtrado pelo filtro direcional DirFilter(2,L) e DirFilter(2,R), e assim por diante. Esses filtros 110 podem modelar a transmissão acústica de uma fonte de som virtual em um ambiente ao canal auditivo de um ouvinte, a chamada função de transferência ambiente biauricular (BRTF). Ela pode realizar modificações de tempo, nível e espectral, e também pode modelar a reflexão e reverberação ambiente. Os filtros direcionais 110 podem ser implementados em domínios de tempo ou de frequência. Uma vez que há muitos filtros 110 necessários (Nx2, com N sendo o número de canais decodificados), esses filtros direcionais poderiam, se devessem modelar a reflexão e reverberação ambiente por completo, ser bastante extensos, ou seja, 20000 derivações de filtros a 44.1 kHz, sendo que nesse caso o processo de filtração seria computacionalmente exigente. Os filtros direcionais 110 são reduzidos de maneira vantajosa ao mínimo, as chamadas funções de transferência relacionadas à cabeça (HRTFs), e o bloqueio de processamento comum 122 é utilizado para modelar as reflexões e reverberações ambiente. O módulo de processamento ambiente 122 pode implementar um algoritmo de reverberação em um domínio de tempo ou defrequênciae pode operara partir deum oudois sinais de entrada de canal 48, que é calculado a partir do sinal de entrada demulticanaisdecodificado124 por umamatriz de mistura dentro do misturador 120. O bloqueio de processamento ambiente implementa reflexões e/ou reverberação ambiente. Reflexões e reverberação ambiente são essenciais para localizar sons, especialmente em relação à distância e externalização - significando sons que são percebidos fora da cabeça do ouvinte.
[00056] De modo típico, um som de multicanais é produzido de modo que a energia do som dominante é contida nos canais frontais, ou seja, frontal esquerdo, frontal direito, central. Vozes em diálogos de filme e música são tipicamente misturadas principalmente ao canal central. Se os sinais do canal central foram alimentados ao módulo de processamento ambiente 122, a saída resultante é geralmente percebida reverberante não natural e desigual espectralmente. Portanto, de acordo com a configuração da Figura 7, o canal central é alimentado ao módulo de processamento ambiente 122 como uma redução de nível significativa, atenuada em 6 dB, na qual a redução de nível é realizada, conforme já denotado acima, dentro do misturador 120. Enquanto a configuração da Figura 7 compreende uma configuração de acordo com as Figuras 3 e 5, onde os sinais de referência 102, 124, 120, e 122 da Figura 7 correspondem aos sinais de referência 18, 64, a combinação dos sinais de referência 66 e 68, sinal de referência 66 e sinal de referência 44 das Figuras 3 e 5, respectivamente.
[00057] A Figura 8 apresenta um outro gerador de sinal de saída biauricular, de acordo com uma configuração adicional. O gerador é geralmente indicado com referência ao sinal 140. Para facilitar a descrição da Figura 8, foram utilizados os mesmos sinais de referência da Figura 7. Para denotar que o misturador 120 não tem necessariamente a funcionalidade indicada nas configurações das Figuras 3, 5 e 7, ou seja, a realização da redução de nível em relação ao canal central, o sinal de referência 40’ foi utilizado para denotar a disposição dos bloqueios 102, 120 e 122, respectivamente. Em outras palavras, a redução de nível dentro do misturador 122 is opcional no caso da Figura 8. Diferente da Figura 7, entretanto, descorrelatores são conectados entre cada par de filtros direcionais 110 e a saída do decodificador 102 para o canal associado do sinal de multicanais decodificado 124, respectivamente. Os descorrelatores são indicados em relação aos sinais 1421, 1422, e assim por diante. Os descorrelatores 1421-1424 funciona como o redutor por correlação 12 indicado na Figura 1. Embora apresentado na Figura 8, não é necessário que um descorrelator 1421-1424 seja fornecido para cada um dos canais do sinal de multicanais decodificado 124. Preferencialmente, um descorrelator seria suficiente. Os descorrelatores 142 poderiam ser simplesmente um atraso. Preferivelmente, a quantidade de atraso causado por cada um dos atrasos 1421-1424 seria diferente entre eles. Uma outra possibilidade seria que os descorrelatores 1421-1424 sejam filtros de passagem total, ou seja, filtros que possuem uma função de transferência de uma magnitude constantemente, entretanto, alterando as fases dos componentes espectrais ao respectivo canal. As modificações de fase causadas pelos descorrelatores 1421-1424 seriam preferivelmente diferentes para cada canal. É claro que também existiram outras possibilidades. Por exemplo, o descorrelator 1421-1424 poderiam ser implementado como filtros FIR, ou similares.
[00058] Assim, de acordo com a configuração da Figura 8, os elementos 1421-1424, 110, 112 e 114 atuam de acordo com o dispositivo 10 da Figura 1.
[00059] Semelhantemente à Figura 8, a Figura 9 apresenta uma variação do gerador de sinal de saída biauricular da Figura 7. Portanto, a Figura 9 também é explicada abaixo utilizando os mesmos sinais de referência utilizados na Figura 7. Semelhantemente à configuração da Figura 8, a redução de nível do misturador 122 é meramente opcional no caso da Figura 9 e, portanto, o sinal de referência 40’ esteve na Figura 9 ao invés de ’40, como foi o caso na Figura 7. A configuração da Figura 9 se direciona ao problema da existência de correlação significativa entre todos os canais nas produções sonoras de multicanais. Após processar os sinais de multicanais com os filtros direcionais 110, os sinais intermediados por dois canais de cada par de filtro são adicionados pelos adicionadores 112 e 114, para formar o sinal de saída de fone de ouvido na saída 104. A soma dos sinais de saída correlacionados pelos adicionadores 112 e 114 resulta em uma amplitude espacial muito reduzida do sinal de saída na saída 104, e uma falta de externalização. Isso é particularmente problemático para a correlação do sinal esquerdo e direito e o canal central dentro do sinal de multicanais decodificado 124. De acordo com a configuração da Figura 9, os filtros direcionais são configurados para ter uma saída a mais descorrelacionada possível. Para esse fim, o dispositivo da Figura 9 compreende o dispositivo 30 para a formação de um conjunto reduzido por inter-correlação de HRTFs a serem utilizadas pelos filtros direcionais 110 na base de algum conjunto original de HRTFs. Conforme descrito acima, o dispositivo 30 pode utilizar uma ou uma combinação das seguintes técnicas em relação às HRTFs do par de filtros direcionais associado a um ou vários canais do sinal de multicanais decodificado 124:
[00060] atrasar o filtro direcional ou o respectivo par de filtros direcionais, tal como, por exemplo, ao deslocar a resposta de impulso que poderia ter sido realizada, por exemplo, ao deslocar as derivações de filtro;
[00061] modificando a fase de resposta dos respectivos filtros direcionais; e
[00062] aplicando um filtro de descorrelação, tal como um filtro de passagem total aos respectivos filtros direcionais do respectivo canal. De maneira que o filtro de passagem total poderia ser implementado como um filtro FIR.
[00063] Conforme descrito acima, o dispositivo 30 poderia operar de maneira responsiva à alteração na configuração de alto- falante para a qual é destinada corrente de bits na entrada de corrente de bits 126.
[00064] As configurações das Figuras 7 a 9 se relacionam a um sinal de multicanais decodificado. As seguintes configurações são relacionadas á decodificação de multicanais paramétrica para fones de ouvido. Falando de modo geral, a codificação de áudio espacial é uma técnica de compressão de multicanais que explora a irrelevância inter-canal perceptual em sinais de áudio de multicanais para atingir taxas de compressão maiores. Isso pode ser capturado em termos de disposições espaciais ou parâmetros espaciais, ou seja, parâmetros que descrevem a imagem espacial de um sinal de áudio de multicanais. Disposições espaciais incluem tipicamente diferenças de nível/intensidade, diferenças de fase e medidas de correlações/coerência entre canais, e podem ser representadas de maneira extremamente compacta. O conceito de codificação de áudio espacial foi adotado pelo MPEG que resultou no padrão de surround MPEG, ou seja, ISO/IEC23003-1. Os parâmetros espaciais, tais como os empregados na codificação de áudio espacial, também podem ser empregados para descreve filtros direcionais. Ao se realizar isso, a etapa de decodificação de dados de áudio espaciais e a aplicação de filtros direcionais pode ser combinada para decodificar de maneira eficiente e render um áudio de multicanais para reprodução por fone de ouvido.
[00065] A estrutura geral do decodificador de áudio espacial para saída de fone de ouvido é mostrada na Figura 10. O decodificador da Figura 10 é geralmente indicado em relação ao sinal 200, e compreende um modificador de sub-banda espacial biauricular 202, compreendendo uma entrada para um sinal downmix mono ou estéreo 204, uma outra entrada para parâmetros espaciais 206, e uma saída para o sinal de saída biauricular 208. O sinal de downmix junto aos parâmetros espaciais 206 formam o sinal de multicanais 18 mencionado acima e representam a pluralidade de canais.
[00066] Internamente, o modificador de sub-banda 202 compreende um banco de filtro de análise 208, uma unidade matriz ou um combinador linear 210 e um banco de filtro de síntese 212 conectados, na ordem mencionada, entre a entrada do sinal de downmix e a saída do modificador de sub-banda 202. Ainda, o modificador de sub-banda 202 compreende um conversor de parâmetro 214 que é alimentado pelos parâmetros espaciais 206 e um conjunto modificado de HRTFs, conforme obtidos pelo dispositivo 30.
[00067] Na Figura 10, presume-se que o sinal de sinal de downmix já tenha sido decodificado antecipadamente, incluindo, por exemplo, codificação de entropia. O decodificador de áudio espacial biauricular é alimentado com o sinal de downmix 204. O conversor de parâmetro 214 utiliza os parâmetros espaciais 206 e a descrição paramétrica dos filtros direcionais na forma do parâmetro HRTF 216 para formar parâmetros biauriculares 218. Esses parâmetros 218 são aplicados pela unidade de matriz 210 na forma de matriz dois por dois (no caso de um sinal de downmix estéreo) e na forma de uma matriz de um por um (no caso de um sinal de downmix modo 204), no domínio de frequência, à saída dos valores espectrais 88 pelo banco de filtro de análise 208 (vide Figura 6). Em outras palavras, os parâmetros biauriculares 218 variam na resolução de parâmetro de tempo/frequência 92 apresentada na Figura 6 e são aplicados a cada valor de amostra 88. Pode-se utilizar a interpolação para suavizar os coeficientes de matriz e os parâmetros biauriculares 218, respectivamente, do domínio de parâmetro de tempo/frequência grosseiros 92 à resolução de tempo/frequência do banco de filtro de análise 208. Isto é, no caso de um downmix estéreo 204, a formação de matriz realizada pela unidade 210 resulta em dois valores de amostra de acordo com o par de valor de amostra do canal esquerdo do sinal de downmix 204 e o valor de amostra correspondente do canal direito do sinal de downmix 204. Os dois valores de amostra resultantes são parte dos canais esquerdo e direito do sinal de saída biauricular 208, respectivamente. No caso de um sinal de downmix mono 204, a formação de matriz pela unidade 210 resulta em dois valores de amostra de acordo com o valor de amostra do sinal de downmix mono 204, ou seja, um para o canal esquerdo e um para o canal direito do sinal de saída biauricular 208. Os parâmetros biauriculares 218 definem a principal operação de matriz de um ou dois valores de amostra do sinal de downmix 204 aos respectivos valores de amostra do canal esquerdo e direito do sinal de saída biauricular 208. Os parâmetros biauriculares 218 já refletem os parâmetros HRTF modificados. Assim, eles descorrelacionam os canais de entrada do sinal de multicanais 18, conforme indicado acima.
[00068] Portanto, a saída da unidade de formação de matriz 210 é um espectrograma modificado, conforme apresentado na Figura 6. O banco de filtro de síntese 212 reconstrói disso o sinal de saída 208. Em outras palavras, o banco de filtro de síntese 212 converte as duas saídas de sinal de canal resultante pela unidade formadora de matriz 210 no domínio de tempo. É claro que isso é opcional.
[00069] No caso da Figura 10, os efeitos da reflexão e reverberação ambiente não são direcionados separadamente. Se alguma vez esses efeitos forem levados em conta nas HRTFs 216. A Figura 11 apresenta um gerador de sinal de saída biauricular combinando um decodificador de áudio espacial biauricular 200’ com o processamento separado de reflexão/reverberação ambiente. O ‘ do sinal de referência 200’ na Figura 11 deve denotar que o decodificador de áudio espacial biauricular 200’ da Figura 11 pode utilizar HRTFs não modificadas, ou seja, as HRTFs originais, conforme indicadas na Figura 2. Opcionalmente, entretanto, o decodificador de áudio espacial biauricular 200’ da Figura 11 pode ser o apresentado na Figura 10. Em qualquer caso, o gerador de sinal de saída biauricular da Figura 11, que é geralmente indicado com o sinal de referência 230, compreende além do decodificador espacial biauricular decodificador 200’, um decodificador de áudio downmix 232, um modificador de sub-banda de áudio espacial modificado 234, um processador ambiente 122, e dois adicionadores 116 e 118. O decodificador de áudio downmix 232 é conectado entre a entrada de corrente de bits 126 e um modificador de sub-banda de áudio espacial biauricular 202 do decodificador de áudio espacial biauricular 200’. O decodificador de áudio downmix 232 é configurado para decodificar a entrada de corrente de bits na entrada 126 para derivar o sinal de downmix 214 e os parâmetros espaciais 206. Ambos, o modificador de sub-banda de áudio espacial biauricular 202, bem como o modificador de sub-banda de áudio espacial modificado 234 é fornecido com um sinal de downmix 204 além dos parâmetros espaciais 206. O modificador de sub-banda de áudio espacial modificado 234 computa do sinal de downmix 204 - pelo uso dos parâmetros espaciais 206 bem como dos parâmetros modificados 236 refletindo a quantidade de redução de nível do canal central mencionada acima - o downmix mono ou estéreo 48 servindo como uma entrada para o processador ambiente 122. A saída de contribuições tanto do modificador de sub-banda de áudio espacial biauricular 202 quanto do processador ambiente 122, respectivamente, é somada por canal nos adicionadores 116 e 118 para resultar em sinal de saída biauricular na saída 238.
[00070] A Figura 12 apresenta um diagrama em blocos que ilustra a funcionalidade do decodificador de áudio biauricular 200’ da Figura 11. Deve-se observar que a Figura 12 não apresenta a estrutura interna real do decodificador de áudio espacial biauricular 200’ da Figura 11, mas ilustra as modificações de sinal obtidas pelo decodificador de áudio espacial biauricular 200’. Recorda-se novamente que a estrutura interna do decodificador de áudio espacial biauricular 200’ geralmente é de acordo com a estrutura apresentada na Figura 10, com exceção de que o dispositivo 30 pode ser deixado para trás caso ele opere da mesma forma que as HRTFs originais. Além disso, a Figura 12 apresenta a funcionalidade do decodificador de áudio espacial biauricular 200’ de maneira exemplar caso apenas três canais representados pelo sinal de multicanais 18 sejam utilizados pelo decodificador de áudio espacial biauricular 200’ para formar o sinal de saída biauricular 208. Em especial, um “2 para 3”, ou seja, TTT, a caixa é utilizada para derivar um canal central 242, um canal direito 244, e um canal esquerdo 246 do dois canais do downmix estéreo 204. Em outras palavras, a Figura 12 presume de maneira exemplar que o downmix 204 seja um downmix estéreo. Os parâmetros espaciais 206 utilizados pela caixa TTT 248 compreendem os coeficientes de previsão de canal mencionados acima. A redução por correlação é atingida por três descorrelatores, denotados DelayL, DelayR e DelayC na Figura 12. Eles correspondem à descorrelação introduzida no caso, por exemplo, das Figuras 1 e 7. Entretanto, novamente se recorda que a Figura 12 apresenta meramente as modificações de sinal atingidas pelo decodificador de áudio espacial biauricular 200’, apesar da estrutura real se corresponder àquela apresentada na Figura 10. Assim, apesar dos atrasos que formam o redutor por correlação 12 terem sido apresentados como características separadas em relação às HRTFs que formam os filtros direcionais 14, a existência dos atrasos no redutor por correlação 12 podem ser vistos como uma modificação aos parâmetros HRTF que formam as HRTFs originais dos filtros direcionais 14 da Figura 12. Primeiro, a Figura 12 apresenta meramente que o decodificador de áudio espacial biauricular 200’ descorrelaciona os canais para a reprodução por fone de ouvido. A descorrelação é atingida por meios simples, ou seja, ao adicionar um bloqueio de atraso no processamento paramétrico para a matriz M e o decodificador de áudio espacial biauricular 200’. Assim, o decodificador de áudio espacial biauricular 200’ pode aplicar as seguintes modificações aos canais individuais, ou seja
[00071]atrasando o canal central preferivelmente de pelo menos uma amostra,
[00072]atrasando o canal central por intervalos diferentes em cada banda de frequência,
[00073]atrasando os canais esquerdo e direito preferivelmente de pelo menos uma amostra e/ou
[00074]atrasando os canais esquerdo e direito por intervalos diferentes em cada banda de frequência.
[00075]A Figura 13 apresenta um exemplo para uma estrutura do modificador de sub-banda de áudio espacial modificado da Figura 11. O modificador de sub-banda 234 da Figura 13 compreende uma caixa de dois-a-três ou TTT 262, estágios de ponderação 264a-264e, primeiros adicionadores 266a e 266b, segundos adicionadores 268a e 268b, uma entrada para o downmix estéreo 204, uma entrada para os parâmetros espaciais 206, uma entrada adicional para um sinal residual 270 e uma saída para o downmix 48 destinado a ser processado pelo processador ambiente, sendo, de acordo com a Figura 13, um sinal estéreo.
[00076]Conforme a Figura 13 define em um sentido estrutural uma configuração para o modificador de sub-banda de áudio espacial modificado 234, a caixa TTT 262 da Figura 13 meramente reconstrói o canal central, o canal direito 244 e o canal esquerdo 246 do downmix estéreo 204 ao utilizar os parâmetros espaciais 206. Relembra-se novamente mais uma vez que no caso da Figura 12, os canais 242-246 não são verdadeiramente computados. Preferivelmente, o modificador de sub-banda de áudio espacial modificado modifica a matriz M de tal maneira que o sinal de downmix estéreo 204 seja diretamente transformado na contribuição biauricular que refletem as HRTFs. A caixa TTT 262 da Figura 13, entretanto, realiza verdadeiramente a reconstrução. Opcionalmente, conforme apresentado na Figura 13, a caixa TTT 262 pode utilizar um sinal residual 270 que reflete a previsão residual ao reconstruir os canais 242-246 com base no downmix estéreo 204 e nos parâmetros espaciais 206 que, conforme denotados acima, compreendem os coeficientes de previsão de canal e, opcionalmente, os valores ICC. Os primeiros adicionadores 266a são configurados para adicionar os canais 242-246 para formar o canal esquerdo do downmix estéreo 48. Em especial, é formada uma soma ponderada por adicionadores 266a e 266b, onde os valores de ponderação são definidos pelos estágios de ponderação 264a, 264b, 264c e 264e que podem aplicar ao respectivo canal 246 a 242, um respectivo valor de ponderação EQLL, EQRL e EQCL. Semelhantemente, os adicionadores 268a e 268b formam uma soma ponderada dos canais 246 a 242 com estágios de ponderação 264b, 264d e 264e que formam os valores de ponderação, a soma ponderada que forma o canal direito do downmix estéreo 48.
[00077] Os parâmetros 270 para os estágios de ponderação 264a-264e são, conforme descrito acima, selecionados de maneira que a redução de nível do canal central em downmix estéreo 48 mencionada acima seja atingida, resultando, conforme descrito acima, em vantagens no que diz respeito à percepção de som natural.
[00078]Portanto, em outras palavras, a Figura 13 apresenta um módulo de processamento ambiente que pode ser aplicado em combinação com o decodificador paramétrico biauricular 200’ da Figura 12. Na Figura 13, o sinal de downmix 204 é utilizado para alimentar o módulo. O sinal de downmix 204 contém todos os sinais do sinal de multicanais capazes de fornecer compatibilidade de estéreo. Conforme mencionado acima, é desejável alimentar o módulo de processamento ambiente com o sinal que contém somente um sinal central reduzido. O modificador de subbanda de áudio espacial modificado da Figura 13 serve para realizar essa redução de nível. Em especial, de acordo com a Figura 13, um sinal residual 270 pode ser utilizado a fim de reconstruir os canais central, esquerdo e direito 242-246. O sinal residual dos canais central, esquerdo e direito 242-246 pode ser decodificado pelo decodificador de áudio downmix 232, embora não apresentado na Figura 11. Os parâmetros EQ ou os valores de ponderação aplicados pelos estágios de ponderação 264a-264e podem ser valorizados de maneira real para os canais central, esquerdo e direito 242-246. Um único conjunto de parâmetro para o canal central 242 pode ser armazenado e aplicado, e o canal central é, de acordo com a Figura 13, misturado igualmente de maneira exemplar tanto para a saída esquerda como para a direita do downmix estéreo 48.
[00079]Os parâmetros EQ 270 alimentados no modificador desub-bandade áudio espacial modificado 234 podem ter as seguintes propriedades. Primeiramente, o sinal de canal central pode ser atenuado preferivelmente por pelo menos 6 dB. Ainda, o sinal de canal central pode ter uma característica de baixa passagem. Ainda mais, o sinal de diferença dos canais remanescentes pode ser impulsionado a baixas frequências. A fim de compensar oi nível inferior do canal central 242 em relação aos outros canais 244 e 246, o ganho dos parâmetros HRTF para o canal central utilizado no modificador de sub-banda de áudio espacial biauricular 202 devem aumentar de acordo.
[00080] O objetivo principal da definição dos parâmetros EQ é a redução do sinal do canal central na saída para o módulo de processamento ambiente. Entretanto, o sinal do canal central somente deve ser suprimido a uma forma limitada: o sinal do canal central é subtraído dos canais de downmix esquerdo e direito dentro da caixa TTT. Se o nível central for reduzido, podem se tornar audíveis artefatos no canal esquerdo e direito. Portanto, a redução de nível central no estágio EQ é uma alternância entre supressão e artefatos. É possível encontrar uma definição fixa dos parâmetros EQ, mas pode não ser ideal para todos os sinais. Dessa forma, de acordo com uma configuração, um algoritmo ou módulo adaptativo 274 pode ser utilizado para controlar a quantidade da redução de nível central por um ou por uma combinação dos seguintes parâmetros:
[00081] Os parâmetros espaciais 206 utilizados para decodificar o canal central 242 do canal de downmix esquerdo e direito 204 dentro da caixa TTT 262 podem ser utilizados, conforme indicado pela linha tracejada 276.
[00082] O nível dos canais central, esquerdo e direito pode ser utilizado, conforme indicado pela linha tracejada 278.
[00083] As diferenças de nível entre os canais central, esquerdo e direito 242-246 podem ser utilizadas, conforme também indicado pela linha tracejada 278.
[00084] A saída de um algoritmo de detecção de um único tipo, tal como um detector de atividade da voz, pode ser utilizada, conforme também indicado pela linha tracejada 278.
[00085] E por último, a estática dos metadados dinâmicos que descrevem o conteúdo de áudio pode ser utilizada para determinar a quantidade da redução de nível central, conforme indicado pela linha tracejada 280.
[00086] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, onde um bloqueio ou dispositivo corresponde a uma etapa do método ou a uma característica de uma etapa do método. De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloqueio correspondente ou item ou característica de um aparelho correspondente, tal como uma parte de um ASIC, uma sub-rotina de um código de programa ou uma parte de uma lógica programável programada.
[00087] O sinal de áudio codificado inventivo também pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
[00088] Dependendo de determinadas exigências de implementação, configurações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, que tenham em si sinais de controles que podem ser lidos eletronicamente, que coopera (ou são capazes de cooperar) com um sistema de computador programável para que o respectivo método seja realizado.
[00089] Algumas configurações, de acordo com a invenção, compreendem um carregador de dados que tem sinais de controle que podem ser lidos eletronicamente, que são capazes de cooperar com um sistema de computador programável, para que um dos métodos aqui descritos possa ser realizado.
[00090] Geralmente, configurações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operado para realizar um dos métodos quando o produto de programa de computador rodar em um computador. O código do programa pode, por exemplo, ser armazenado em um carregador de máquina que pode ser lido.
[00091] Outras configurações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados em um carregador de máquina que pode ser lido.
[00092] Em outras palavras, uma configuração do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador rodar em um computador.
[00093] Uma configuração adicional dos métodos inventivos é, portanto, um carregador de dados (ou um meio de armazenagem digital, ou um meio de computador que possa ser lido) compreendendo, gravado em si, o programa de computador para realizar um dos métodos aqui descritos.
[00094] Uma configuração adicional do método inventivo é, portanto, uma corrente de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo, via Internet.
[00095] Uma configuração adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos aqui descritos.
[00096] Uma configuração adicional compreende um computador que tem instalado em si o programa de computador para realizar um dos métodos aqui descritos.
[00097] Em algumas configurações, um dispositivo de lógica programável (por exemplo, uma matriz de porta de controlador de memória) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas configurações, uma matriz de porta de controlador de memória pode cooperar com um microprocessador a fim de realizar um dos métodos aqui descritos. Geralmente, os métodos são preferivelmente realizados por um aparelho de hardware.
[00098] As configurações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e detalhes aqui descritos sejam evidentes a outros técnicos no assunto. Destina- se, portanto, limitar-se somente ao escopo das iminentes reivindicações da patente e não aos detalhes específicos apresentados como modo de descrição e explicação das configurações.

Claims (11)

1.“DISPOSITIVO PARA A GERAÇÃO DE UM SINAL BIAURICULAR” com base em um sinal de multicanais que representa uma pluralidade de canais e destinado à reprodução por meio de uma configuração de alto-falante, tendo uma posição de fonte de som virtual associada a cada canal é caracterizado por compreender: um redutor por semelhança (12) para processar de maneira diferente, e, assim, reduzir uma semelhança entre pelo menos um canal do lado direito e um do lado esquerdo da pluralidade de canais, um canal frontal e um traseiro da pluralidade de canais, e um central e um não central da pluralidade de canais, a fim de obter um conjunto reduzido por inter-semelhança (20) de canais; uma pluralidade (14) de filtros direcionais para modelar a transmissão acústica de um respectivo canal do conjunto reduzido por inter-semelhança (20) de canais de uma posição de fonte de som virtual associada ao respectivo canal do conjunto reduzido por inter-semelhança de canais a um respectivo canal auditivo de um ouvinte; um primeiro misturador (16a) para misturar as saídas dos filtros direcionais que modelam a transmissão acústica ao primeiro canal auditivo do ouvinte para obter um primeiro canal (22a) do sinal biauricular; um segundo misturador (16b) para misturar as saídas dos filtros direcionais que modelam a transmissão acústica ao segundo canal auditivo do ouvinte para obter um segundo canal (22b) do sinal biauricular; um gerador de downmix (42) para formar um downmix mono ou estéreo da pluralidade de canais, representado pelo sinal de multicanais; e um processador ambiente (44) para gerar reverberação/reflexões ambientes relacionadas à contribuição do sinal biauricular, incluindo uma primeira saída de canal e uma segunda saída de canal, ao modelar reverberação/reflexões ambientes com base no sinal mono ou estéreo, um primeiro adicionador (116) configurado para adicionar a primeira saída de canal do processador ambiente ao primeiro canal (22a) do sinal biauricular; e um segundo adicionador (118) configurado para adicionar a segunda saída de canal do processador ambiente ao segundo canal (22a) do sinal biauricular.
2.Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o redutor por semelhança (12) é configurado para realizar o processamento diferente ao: causar um atraso relativo entre, e/ou realizar - em um sentido que varia de maneira espectral - a modificação de fase de maneira diferente entre pelo menos um dos canais do lado esquerdo e do lado direito da pluralidade de canais, canais frontais e traseiros da pluralidade de canais, e canais centrais e não centrais da pluralidade de canais, e/ou realizar - em um sentido que varia de maneira espectral - uma modificação de magnitude de maneira diferente entre pelo menos um dos canais do lado esquerdo e do lado direito da pluralidade de canais, canais frontais e traseiros da pluralidade de canais, e canais centrais e não centrais da pluralidade de canais.
3.Dispositivo para gerar um sinal biauricular, de acordo com a reivindicação 1, com base em um sinal de multicanais que representa uma pluralidade de canais e destinado à reprodução por meio de uma configuração de alto-falante, tendo uma posição fonte de som virtual associada a cada canal, caracterizado por compreender: um redutor por semelhança (12) para causar um atraso relativo entre, e/ou realizar - em um sentido que varia de maneira espectral - uma modificação de fase e/ou magnitude de maneira diferente entre pelo menos dois canais da pluralidadede canais, a fim de obter um conjunto reduzido por inter-semelhança (20) de canais; uma pluralidade (14) de filtros direcionais para modelar uma transmissão acústica de um respectivo canal do conjunto reduzido por inter-semelhança (20) de canais de uma posição de fonte de som virtual associada ao respectivo canal do conjunto reduzido por inter-semelhança de canais a um respectivo canal auditivo de um ouvinte; um primeiro misturador (16a) para misturar as saídas dos filtros direcionais que modelam a transmissão acústica ao primeiro canal auditivo do ouvinte para obter um primeiro canal (22a) do sinal biauricular; um segundo misturador (16b) para misturara as saídas dos filtros direcionais que modelam a transmissão acústica ao segundo canal auditivo do ouvinte para obter um segundo canal (22b) do sinal biauricular; um gerador de downmix (42) for para gerar um downmix mono ou estéreo da pluralidade de canais, representado pelo sinal de multicanais; processador ambiente (44) para gerar reverberação/reflexões ambiente relacionadas à contribuição do sinal biauricular, incluindo uma primeira saída de canal e uma segunda saída de canal, ao modelar reverberação/reflexões ambiente com base no sinal mono ou estéreo; um primeiro adicionador (116) configurado para adicionar a primeira saída de canal do processador ambiente ao primeiro canal (22a) do sinal biauricular; e um segundo adicionador (118) configurado para adicionar uma segunda saída de canal do processador ambiente ao segundo canal (22a) do sinal biauricular.
4.Dispositivo para a formação de um conjunto de redução por inter-semelhança de HRTFs para modelar uma transmissão acústica de uma pluralidade de canais de uma posição de fonte de som virtual associada ao respectivo canal para os canais auditivos de um ouvinte, caracterizado por compreender: um fornecedor HRTF (32) para fornecer uma pluralidade original de HRTFs implementada como filtros FIR, por meio de derivações de filtro de procura ou de computação para cada pluralidade original de HRTFs responsiva à seleção ou alteração das posições de fonte de som virtual; e um processador HRTF (34) para causar respostas de impulso dos HRTFs que modelam as transmissões acústicas de um par de canais pré-determinados a serem atrasados em relação ao outro, ou que modificam de maneira diferente - em um sentido que varia de maneira espectral - as respostas de fase e/ou magnitude, o par de canais sendo um canal do lado esquerdo e um do lado direito da pluralidade de canais, um canal frontal e um traseiro da pluralidade de canais, e um canal central e um não central da pluralidade de canais.
5.Dispositivo, de acordo com a reivindicação 4, caracterizado pelo fato de que o processador HRTF (34) é configurado para causar as respostas de impulso dos HRTFs que modelam as transmissões acústicas de um par de canais pré- determinado para ser atrasado em relação ao outro, ao deslocar as derivações de filtros.
6.Dispositivo, de acordo com a reivindicação 4 ou 5, caracterizado pelo fato de que o processador HRTF (34) é configurado para causar as respostas de impulso dos HRTFs que modelam as transmissões acústicas de um par de canais pré- determinado para ser atrasado em relação ao outro, ou modificar de maneira diferente - em um sentido que varia de maneira espectral - as respostas de fase e/ou magnitude, de maneira que esse grupo atrase o primeiro dos HRTFs em relação a um outro dos HRTFs, revela, por bandas bark, um desvio padrão de pelo menos um oitavo de uma amostra.
7.Dispositivo, de acordo com qualquer uma das reivindicações de 4 a 6, caracterizado pelo fato de que o fornecedor HRTF (32) é configurado para fornecer uma pluralidade original de HRTFs com base nas posições de fonte de som virtual e parâmetros HRTF.
8.Dispositivo , de acordo com qualquer uma das reivindicações de 4 a 7, caracterizado pelo fato de que o processador HRTF (34) é configurado para filtrar de passagem total de maneira diferente as respostas de impulso do par de canais pré- determinado.
9.Método para a geração de um sinal biauricular com base em um sinal de multicanais que representa uma pluralidade de canais e se destina à reprodução por meio de uma configuração de auto-falante, tendo uma posição de fonte de som virtual associada a cada canal, caracterizado por compreender: processar de maneira diferente, e, desse modo, reduzindo uma correlação entre pelo menos um canal do lado esquerdo e um do lado direito da pluralidade de canais, um canal frontal e um traseiro da pluralidade de canais, e um canal central e um não central da pluralidade de canais, a fim de obter um conjunto reduzido por inter-semelhança(20) de canais; sujeitar o conjunto reduzido por inter-semelhança (20) de canais a uma pluralidade (14) de filtros direcionais para modelar uma transmissão acústica de um respectivo canal do conjunto reduzido por inter-semelhança(20) de canais de uma posição de fonte de som virtual associada ao respectivo canal do conjunto reduzido por inter-semelhança de canais a um respectivo canal auditivo de um ouvinte; misturar as saídas dos filtros direcionais que modelam transmissão acústica ao primeiro canal auditivo do ouvinte para obter um primeiro canal (22a) do sinal biauricular; misturar as saídas dos filtros direcionais que modelam transmissão acústica ao segundo canal auditivo do ouvinte para obter um segundo canal (22b) do sinal biauricular; formar um downmix mono ou estéreo da pluralidade de canais representada pelo sinal de multicanais; gerar reverberação/reflexões ambientes relacionadas à contribuição do sinal biauricular, incluindo uma primeira saída de canal e uma segunda saída de canal, ao modelar reverberação/reflexões ambientes com base no sinal mono ou estéreo, adicionar a primeira saída de canal do processador ambiente ao primeiro canal (22a) do sinal biauricular; e adicionar a segunda saída de canal do processador ambiente ao segundo canal (22a) do sinal biauricular.
10.Método para geração de um sinal biauricular, de acordo com a reivindicação 9, com base em um sinal de multicanais que representa uma pluralidade de canais e se destina à reprodução por meio de uma configuração de alto-falante, tendo uma posição de fonte de som virtual associada a cada canal, caracterizado por compreender: realizar - em um sentido que varia de maneira espectral - uma modificação de fase e/ou magnitude de maneira diferente entre pelo menos dois canais da pluralidade de canais, a fim de obter um conjunto reduzido por inter-semelhança(20) de canais; sujeitar o conjunto reduzido por semelhança [SIC](20) de canais a uma pluralidade (14) de filtros direcionais que modelam uma transmissão acústica de um respectivo canal do conjunto reduzido por inter-semelhança(20) de canais de uma posição de fonte de som virtual associada ao respectivo canal do conjunto reduzido por inter-semelhança de canais a um respectivo canal auditivo de um ouvinte; misturar saídas dos filtros direcionais que modelam a transmissão acústica ao primeiro canal auditivo do ouvinte para obter um primeiro canal (22a) do sinal biauricular; e misturar saídas dos filtros direcionais que modelam a transmissão acústica ao segundo canal auditivo do ouvinte para obter um segundo canal (22b) do sinal biauricular; formar um downmix mono ou estéreo da pluralidade de canais representada pelo sinal de multicanais; gerar reverberação/reflexões ambiente relacionadas à contribuição do sinal biauricular, incluindo uma primeira saída de canal e uma segunda saída de canal, ao modelar reverberação/reflexões ambiente com base no sinal mono ou estéreo, adicionar a primeira saída de canal do processador ambiente ao primeiro canal (22a) do sinal biauricular; e adicionar a segunda saída de canal do processador ambiente ao segundo canal (22a) do sinal biauricular.
11.Método para formar um conjunto de redução por inter-semelhança de funções de transferência relacionadas à cabeça para modelar uma transmissão acústica de uma pluralidade de canais de uma posição de fonte de som virtual associada ao respectivo canal aos canais auditivos de um ouvinte, caracterizado por compreender: fornecer uma pluralidade original de HRTFs implementada como filtros FIR, por meio de derivações de filtros de procura ou de computação para cada pluralidade original dos HRTFs responsiva a uma seleção ou alteração das posições de fonte de som virtual; e modificar de maneira diferente - em um sentido que varia de maneira espectral - as respostas de fase e/ou magnitude das respostas de impulso dos HRTFs que modelam as transmissões acústicas de um par de canais pré-determinado, de maneira que esse grupo atrase o primeiro dos HRTFs em relação a um outro dos HRTFs, revela, por bandas bark, um desvio padrão de pelo menos um oitavo de uma amostra, o par de canais sendo um canal do lado esquerdo e um do lado direito da pluralidade de canais, um canal frontal e um traseiro da pluralidade de canais, e um canal central e um não central da pluralidade de canais.
BRPI0911729-6A 2008-07-31 2009-07-30 dispositivo e método para gerar um sinal binaural e para formar um conjunto de redução por intersemelhança BRPI0911729B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8528608P 2008-07-31 2008-07-31
US61/085,286 2008-07-31
PCT/EP2009/005548 WO2010012478A2 (en) 2008-07-31 2009-07-30 Signal generation for binaural signals

Publications (2)

Publication Number Publication Date
BRPI0911729A2 BRPI0911729A2 (pt) 2019-06-04
BRPI0911729B1 true BRPI0911729B1 (pt) 2021-03-02

Family

ID=41107586

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0911729-6A BRPI0911729B1 (pt) 2008-07-31 2009-07-30 dispositivo e método para gerar um sinal binaural e para formar um conjunto de redução por intersemelhança

Country Status (13)

Country Link
US (1) US9226089B2 (pt)
EP (3) EP2304975B1 (pt)
JP (2) JP5746621B2 (pt)
KR (3) KR101366997B1 (pt)
CN (3) CN102172047B (pt)
AU (1) AU2009275418B9 (pt)
BR (1) BRPI0911729B1 (pt)
CA (3) CA2820199C (pt)
ES (3) ES2524391T3 (pt)
HK (3) HK1156139A1 (pt)
PL (3) PL2304975T3 (pt)
RU (1) RU2505941C2 (pt)
WO (1) WO2010012478A2 (pt)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
WO2010073187A1 (en) * 2008-12-22 2010-07-01 Koninklijke Philips Electronics N.V. Generating an output signal by send effect processing
EP2661912B1 (en) * 2011-01-05 2018-08-22 Koninklijke Philips N.V. An audio system and method of operation therefor
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
US9622006B2 (en) 2012-03-23 2017-04-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
PL2939443T3 (pl) 2012-12-27 2018-07-31 Dts, Inc. Układ i sposób zmiennej dekorelacji sygnałów audio
JP2014175670A (ja) * 2013-03-05 2014-09-22 Nec Saitama Ltd 情報端末装置及び音響制御方法並びにプログラム
WO2014164361A1 (en) * 2013-03-13 2014-10-09 Dts Llc System and methods for processing stereo audio content
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN105308988B (zh) * 2013-05-02 2017-12-19 迪拉克研究公司 配置成转换音频输入通道用于头戴受话器收听的音频解码器
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015032009A1 (es) * 2013-09-09 2015-03-12 Recabal Guiraldes Pablo Método y sistema de tamaño reducido para la decodificación de señales de audio en señales de audio binaural
EP3806498B1 (en) 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
CN108922552B (zh) 2013-12-23 2023-08-29 韦勒斯标准与技术协会公司 生成用于音频信号的滤波器的方法及其参数化装置
EP3090573B1 (en) * 2014-04-29 2018-12-05 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
MX365162B (es) 2014-01-03 2019-05-24 Dolby Laboratories Licensing Corp Generacion de audio binaural en respuesta a audio multicanal utilizando al menos una red de retardo realimentada.
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9832585B2 (en) * 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
EP3183892B1 (en) * 2014-08-21 2020-02-05 Dirac Research AB Personal multichannel audio precompensation controller design
CN104581602B (zh) * 2014-10-27 2019-09-27 广州酷狗计算机科技有限公司 录音数据训练方法、多轨音频环绕方法及装置
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
US10149082B2 (en) 2015-02-12 2018-12-04 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
US9860666B2 (en) * 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
JPWO2017061218A1 (ja) * 2015-10-09 2018-07-26 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
JP6658026B2 (ja) * 2016-02-04 2020-03-04 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及び音像定位処理方法
KR102513586B1 (ko) * 2016-07-13 2023-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 출력 방법
KR102531886B1 (ko) 2016-08-17 2023-05-16 삼성전자주식회사 전자장치 및 그 제어방법
WO2018182274A1 (ko) * 2017-03-27 2018-10-04 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
WO2018186779A1 (en) * 2017-04-07 2018-10-11 Dirac Research Ab A novel parametric equalization for audio applications
CN107205207B (zh) * 2017-05-17 2019-01-29 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
CN109036446B (zh) * 2017-06-08 2022-03-04 腾讯科技(深圳)有限公司 一种音频数据处理方法以及相关设备
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11395083B2 (en) * 2018-02-01 2022-07-19 Qualcomm Incorporated Scalable unified audio renderer
CN111886882A (zh) * 2018-03-19 2020-11-03 OeAW奥地利科学院 用于确定特定于收听者的头部相关传递函数的方法
KR20190124631A (ko) 2018-04-26 2019-11-05 제이엔씨 주식회사 액정 조성물 및 액정 표시 소자
EP3827599A1 (en) 2018-07-23 2021-06-02 Dolby Laboratories Licensing Corporation Rendering binaural audio over multiple near field transducers
CN109005496A (zh) * 2018-07-26 2018-12-14 西北工业大学 一种hrtf中垂面方位增强方法
KR102531634B1 (ko) * 2018-08-10 2023-05-11 삼성전자주식회사 오디오 장치 및 그 제어방법
DE102019107302A1 (de) * 2018-08-16 2020-02-20 Rheinisch-Westfälische Technische Hochschule (Rwth) Aachen Verfahren zum Erzeugen und Wiedergeben einer binauralen Aufnahme
CN110881164B (zh) * 2018-09-06 2021-01-26 宏碁股份有限公司 增益动态调节的音效控制方法及音效输出装置
CN109327766B (zh) * 2018-09-25 2021-04-30 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN113316943B (zh) 2018-12-19 2023-06-06 弗劳恩霍夫应用研究促进协会 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法
US12003945B2 (en) 2018-12-28 2024-06-04 Sony Group Corporation Audio reproduction device
WO2020151837A1 (en) * 2019-01-25 2020-07-30 Huawei Technologies Co., Ltd. Method and apparatus for processing a stereo signal
JP7270186B2 (ja) 2019-03-27 2023-05-10 パナソニックIpマネジメント株式会社 信号処理装置、音響再生システム、及び音響再生方法
CN111988703A (zh) * 2019-05-21 2020-11-24 北京中版超级立体信息科技有限公司 音频处理器及音频处理方法
JP7383942B2 (ja) * 2019-09-06 2023-11-21 ヤマハ株式会社 車載音響システムおよび車両
CN110853658B (zh) * 2019-11-26 2021-12-07 中国电影科学技术研究所 音频信号的下混方法、装置、计算机设备及可读存储介质
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
GB2590913A (en) * 2019-12-31 2021-07-14 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN115280411A (zh) * 2020-03-09 2022-11-01 日本电信电话株式会社 声音信号缩混方法、声音信号编码方法、声音信号缩混装置、声音信号编码装置、程序及记录介质
CN111787465A (zh) * 2020-07-09 2020-10-16 瑞声科技(新加坡)有限公司 双声道设备的立体声效果检测方法
CN112019994B (zh) * 2020-08-12 2022-02-08 武汉理工大学 一种基于虚拟扬声器构建车内扩散声场环境的方法及装置
CN112731289B (zh) * 2020-12-10 2024-05-07 深港产学研基地(北京大学香港科技大学深圳研修院) 一种基于加权模板匹配的双耳声源定位方法和装置
JP2022152984A (ja) * 2021-03-29 2022-10-12 ヤマハ株式会社 オーディオミキサ及び音響信号の処理方法
CN113365189B (zh) * 2021-06-04 2022-08-05 上海傅硅电子科技有限公司 多声道无缝切换方法
GB2609667A (en) * 2021-08-13 2023-02-15 British Broadcasting Corp Audio rendering
WO2023059838A1 (en) * 2021-10-08 2023-04-13 Dolby Laboratories Licensing Corporation Headtracking adjusted binaural audio
CN114630240B (zh) * 2022-03-16 2024-01-16 北京小米移动软件有限公司 方向滤波器的生成方法、音频处理方法、装置及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3040896C2 (de) * 1979-11-01 1986-08-28 Victor Company Of Japan, Ltd., Yokohama, Kanagawa Schaltungsanordnung zur Erzeugung und Aufbereitung stereophoner Signale aus einem monophonen Signal
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP4306815B2 (ja) 1996-03-04 2009-08-05 富士通株式会社 線形予測係数を用いた立体音響処理装置
US6236730B1 (en) * 1997-05-19 2001-05-22 Qsound Labs, Inc. Full sound enhancement using multi-input sound signals
EP1025743B1 (en) * 1997-09-16 2013-06-19 Dolby Laboratories Licensing Corporation Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JPH11275696A (ja) 1998-01-22 1999-10-08 Sony Corp ヘッドホン、ヘッドホンアダプタおよびヘッドホン装置
JP2000069598A (ja) * 1998-08-24 2000-03-03 Victor Co Of Japan Ltd マルチチャンネルサラウンド再生装置及びマルチチヤンネルサラウンド再生における残響音生成方法
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
WO2003022003A2 (en) * 2001-09-06 2003-03-13 Koninklijke Philips Electronics N.V. Audio reproducing device
JP3682032B2 (ja) 2002-05-13 2005-08-10 株式会社ダイマジック オーディオ装置並びにその再生用プログラム
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
RU2323551C1 (ru) * 2004-03-04 2008-04-27 Эйджир Системс Инк. Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
US8793125B2 (en) * 2004-07-14 2014-07-29 Koninklijke Philips Electronics N.V. Method and device for decorrelation and upmixing of audio channels
KR100608024B1 (ko) * 2004-11-26 2006-08-02 삼성전자주식회사 다중 채널 오디오 입력 신호를 2채널 출력으로 재생하기위한 장치 및 방법과 이를 수행하기 위한 프로그램이기록된 기록매체
JP4414905B2 (ja) * 2005-02-03 2010-02-17 アルパイン株式会社 オーディオ装置
KR100619082B1 (ko) 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
EP1927265A2 (en) * 2005-09-13 2008-06-04 Koninklijke Philips Electronics N.V. A method of and a device for generating 3d sound
KR101358700B1 (ko) * 2006-02-21 2014-02-07 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
WO2007106553A1 (en) * 2006-03-15 2007-09-20 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
WO2007110103A1 (en) * 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization

Also Published As

Publication number Publication date
HK1163416A1 (en) 2012-09-07
EP2384029A3 (en) 2012-10-24
EP2384029A2 (en) 2011-11-02
CA2732079A1 (en) 2010-02-04
KR101366997B1 (ko) 2014-02-24
CN103561378B (zh) 2015-12-23
ES2528006T3 (es) 2015-02-03
AU2009275418A1 (en) 2010-02-04
WO2010012478A3 (en) 2010-04-08
JP2014090464A (ja) 2014-05-15
ES2531422T3 (es) 2015-03-13
PL2384029T3 (pl) 2015-04-30
RU2505941C2 (ru) 2014-01-27
JP5860864B2 (ja) 2016-02-16
EP2384028B1 (en) 2014-11-05
CA2820199A1 (en) 2010-02-04
RU2011105972A (ru) 2012-08-27
CN103634733A (zh) 2014-03-12
KR20130004372A (ko) 2013-01-09
JP5746621B2 (ja) 2015-07-08
US9226089B2 (en) 2015-12-29
CN102172047A (zh) 2011-08-31
WO2010012478A2 (en) 2010-02-04
HK1156139A1 (en) 2012-06-01
CA2820208C (en) 2015-10-27
JP2011529650A (ja) 2011-12-08
EP2384028A3 (en) 2012-10-24
HK1164009A1 (en) 2012-09-14
ES2531422T8 (es) 2015-09-03
KR101313516B1 (ko) 2013-10-01
AU2009275418B2 (en) 2013-12-19
CN103634733B (zh) 2016-05-25
CN102172047B (zh) 2014-01-29
EP2304975A2 (en) 2011-04-06
KR20130004373A (ko) 2013-01-09
PL2384028T3 (pl) 2015-05-29
PL2304975T3 (pl) 2015-03-31
US20110211702A1 (en) 2011-09-01
EP2304975B1 (en) 2014-08-27
AU2009275418B9 (en) 2014-01-09
EP2384029B1 (en) 2014-09-10
EP2384028A2 (en) 2011-11-02
CA2820199C (en) 2017-02-28
CA2732079C (en) 2016-09-27
ES2524391T3 (es) 2014-12-09
CA2820208A1 (en) 2010-02-04
BRPI0911729A2 (pt) 2019-06-04
KR20110039545A (ko) 2011-04-19
KR101354430B1 (ko) 2014-01-22
CN103561378A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
BRPI0911729B1 (pt) dispositivo e método para gerar um sinal binaural e para formar um conjunto de redução por intersemelhança
JP5698189B2 (ja) オーディオ符号化
TWI555011B (zh) 處理音源訊號之方法、訊號處理單元、二進制轉譯器、音源編碼器以及音源解碼器
JP4850948B2 (ja) 空間効果を考慮に入れたバイノーラル合成のための方法
JP5298199B2 (ja) モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
BRPI0816618B1 (pt) método e aparelho para gerar sinal de áudio binaural
KR20080078882A (ko) 입체 오디오 신호 디코딩
BRPI0707969B1 (pt) codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
BRPI0812669B1 (pt) método e processador de áudio para gerar um sinal estéreo com qualidade perceptual
BRPI0608036B1 (pt) Dispositivo e método para a geração de um sinal estéreo codificado de uma peça de áudio ou fluxo de dados de áudio
AU2013263871B2 (en) Signal generation for binaural signals
AU2015207815B2 (en) Signal generation for binaural signals

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 02/03/2021, OBSERVADAS AS CONDICOES LEGAIS.