BR122020025280B1 - Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes - Google Patents

Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes Download PDF

Info

Publication number
BR122020025280B1
BR122020025280B1 BR122020025280-4A BR122020025280A BR122020025280B1 BR 122020025280 B1 BR122020025280 B1 BR 122020025280B1 BR 122020025280 A BR122020025280 A BR 122020025280A BR 122020025280 B1 BR122020025280 B1 BR 122020025280B1
Authority
BR
Brazil
Prior art keywords
audio
dominant
fact
component
representation
Prior art date
Application number
BR122020025280-4A
Other languages
English (en)
Inventor
Dirk Jeroen Breebaart
David Matthew Cooper
Mark F. Davis
David S. Mcgrath
Kristopher KJOERLING
Harald MUNDT
Rhonda J. Wilson
Original Assignee
Dolby International Ab
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab, Dolby Laboratories Licensing Corporation filed Critical Dolby International Ab
Publication of BR122020025280B1 publication Critical patent/BR122020025280B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Golf Clubs (AREA)
  • Massaging Devices (AREA)
  • Stereophonic Arrangements (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes. a presente invenção refere-se a um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial; (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução.

Description

CAMPO DA INVENÇÃO
[001] A presente invenção refere-se a sistemas e métodos para a forma melhorada de saída binaural paramétrica ao opcionalmente utilizar monitoramento de cabeça.
REFERÊNCIAS
[002] Gundry, K., “A New Matrix Decoder for Surround Sound,” AES 19th International Conf., Schloss Elmau, Germany, 2001.
[003] Vinton, M., McGrath, D., Robinson, C., Brown, P., “Next generation surround decoding and up-mixing for consumer and professional applications”, AES 57th International Conf, Hollywood, CA, USA, 2015.
[004] Wightman, F. L., and Kistler, D. J. (1989). “Headphone simulation of free- field listening. I. Stimulus synthesis,” J. Acoust. Soc. Am. 85, 858-867.
[005] ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.
[006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.
[007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.
[008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.
FUNDAMENTO DA INVENÇÃO
[009] Qualquer discussão do fundamento da técnica ao longo da especificação não deve de modo algum ser considerada como uma admissão de que tal técnica é amplamente conhecida ou faz parte do conhecimento geral comum no campo.
[010] A criação, codificação, distribuição e reprodução de conteúdo de áudio é tradicionalmente baseada em canal. Ou seja, um sistema de reprodução alvo específico é previsto para o conteúdo em todo o ecossistema de conteúdo. Exemplos de tais sistemas de reprodução alvo são mono, estéreo, 5.1, 7.1, 7.1.4 e semelhantes.
[011] Se o conteúdo tiver que ser reproduzido em um sistema de reprodução diferente do pretendido, pode ser aplicada mixagem descendente ou mixagem ascendente. Por exemplo, o conteúdo 5.1 pode ser reproduzido em um sistema de reprodução estéreo empregando equações específicas conhecidas de mixagem descendente. Outro exemplo é a reprodução de conteúdo estéreo em uma configuração de alto-falante 7.1, que pode incluir um chamado processo de mixagem ascendente que poderia ou não ser guiado por informações presentes no sinal estéreo, tal como usado pelos chamados codificadores de matriz, tais como Dolby Pro Logic. Para guiar o processo de mixagem ascendente, informações sobre a posição original dos sinais antes da mixagem descendente podem ser sinalizadas implicitamente incluindo relações de fase específicas nas equações de mixagem descendente, ou dito de forma diferente, pela aplicação de equações de mixagem descendente de valor complexo. Um exemplo bem conhecido desse método de mixagem descendente usando coeficientes de mixagem descendente de valor complexo para conteúdo com alto-falantes colocados em duas dimensões é LtRt (Vinton et al. 2015).
[012] O sinal de mixagem descendente resultante (estéreo) pode ser reproduzido em um sistema de alto-falante estéreo ou pode ser mixado de forma ascendente para configurações de alto-falante com alto-falantes surround e/ou de altura. A localização pretendida do sinal pode ser derivada por um mixador ascendente a partir das relações de fase intercanal. Por exemplo, em uma representação estéreo LtRt, um sinal que esteja fora de fase (por exemplo, que tenha um coeficiente de correlação cruzada normalizado de forma de onda intercanal próximo a -1) deve idealmente ser reproduzido por um ou mais alto-falantes surround, enquanto um coeficiente de correlação positivo (próximo a +1) indica que o sinal deve ser reproduzido por alto-falantes em frente ao ouvinte.
[013] Foi desenvolvida uma variedade de algoritmos e estratégias de mixagem ascendente que diferem em suas estratégias para recriar um sinal multicanal a partir da mixagem descendente estéreo. Em mixadores ascendentes relativamente simples, o coeficiente de correlação cruzada normalizado dos sinais de forma de onda estéreo é rastreado como uma função de tempo, enquanto o(s) sinal(is) é(são) direcionado(s) para os alto-falantes traseiros ou frontais dependendo do valor do coeficiente de correlação cruzada normalizado. Essa abordagem funciona bem para um conteúdo relativamente simples em que apenas um objeto auditivo está presente simultaneamente. Mixadores ascendentes mais avançados baseiam-se em informações estatísticas derivadas de regiões de frequência específicas para controlar o fluxo de sinal da entrada estéreo para a saída multicanal (Gundry 2001, Vinton et al. 2015). Especificamente, um modelo de sinal com base em um componente orientado ou dominante e um sinal residual estéreo (difuso) pode ser empregado em blocos individuais de tempo/frequência. Além da estimativa do componente residual e sinais residuais, um ângulo de direção (em azimute, possivelmente aumentado com elevação) é também estimado e, posteriormente, o sinal de componente dominante é direcionado para um ou mais alto-falantes para reconstruir a posição (estimada) durante a reprodução.
[014] O uso de codificadores de matriz e decodificadores/mixadores ascendentes não é limitado a um conteúdo com base em canal. Desenvolvimentos recentes na indústria de áudio são baseados em objetos de áudio em vez de canais, em que um dos mais consistem em um sinal de áudio e metadados associados indicando, entre outras coisas, sua posição pretendida como uma função de tempo. Para esse conteúdo de áudio baseado em objeto, codificadores de matriz também podem ser usados, conforme descrito em Vinton et al. 2015. Em tal sistema, os sinais de objeto são misturados de forma descendente em uma representação de sinal estéreo com coeficientes de mixagem descente que são dependentes dos metadados posicionais de objeto.
[015] A mixagem ascendente e reprodução de conteúdo codificado por matriz não são necessariamente limitadas a uma reprodução em alto-falantes. A representação de um componente dirigido ou dominante consiste em um sinal de componente dominante e a posição (pretendida) permite a reprodução em alto- falantes por meio de convolução com respostas de impulso relacionadas à cabeça (HRIRs) (Wightman et al., 1989). Um esquema simples de um sistema implementando este método é mostrado 1 na Figura 1. O sinal de entrada 2, em um formato codificado por matriz, é primeiramente analisado 3 para determinar uma direção e magnitude do componente dominante. O sinal de componente dominante é convoluído 4, 5 por meio de um par de HRIRs derivadas de uma visualização (lookup) 6 com base na direção de componente dominante, para computar um sinal de saída para a reprodução de fones de ouvido 7, tal que o sinal de reprodução seja percebido como oriundo da direção que foi determinada pelo estágio de análise de componente dominante 3. Este esquema pode ser aplicado em sinais de banda larga, bem como em sub-bandas individuais e pode ser incrementado com o processamento dedicado de sinais residuais (ou difusos) de várias maneiras.
[016] O uso de codificadores de matriz é muito adequado para distribuição e reprodução em receptores AV, mas pode ser problemático para aplicações móveis que requerem baixas taxas de dados de transmissão e baixo consumo de energia.
[017] Independentemente da utilização de conteúdo baseado em canal ou objeto, os decodificadores e codificadores de matriz dependem de relações de fase intercanal razoavelmente precisas dos sinais que são distribuídos do codificador de matriz para o decodificador. Em outras palavras, o formato de distribuição deve ser, em grande parte, preservador da forma de onda. Tal dependência na preservação da forma de onda pode ser problemática em condições restritas de taxa de bits, em que os codecs de áudio empregam métodos paramétricos em vez de ferramentas de codificação de forma de onda para obter uma melhor qualidade de áudio. Exemplos de tais ferramentas paramétricas que são geralmente conhecidas como não sendo de preservação de formas de onda são frequentemente chamadas de replicação de banda espectral, estéreo paramétrico, codificação de áudio espacial e similares, conforme implementado em codecs de áudio MPEG-4 (ISO/IEC 14496-3:2009).
[018] Conforme delineado na seção anterior, o mixador ascendente consiste em análise e direcionamento (ou convolução de HRIR) de sinais. Para dispositivos alimentados, tais como receptores AV, isso geralmente não causa problemas, mas para dispositivos operados por bateria, tais como telefones celulares e tablets, a complexidade computacional e os requisitos de memória correspondentes associados a esses processos são geralmente indesejáveis devido a seu impacto negativo na vida da bateria.
[019] A análise acima geralmente também introduz latência de áudio adicional. Essa latência de áudio é indesejável porque (1) requer atrasos de vídeo para manter a sincronia labial de áudio-vídeo exigindo uma quantidade significativa de memória e capacidade de processamento, e (2) pode causar assincronia/latência entre movimentos da cabeça e renderização de áudio no caso de monitoramento da cabeça.
[020] A mixagem descendente codificada por matriz também pode não soar ideal em alto-falantes ou fones de ouvido estéreo devido à presença potencial de componentes de sinal fora de fase potentes.
SUMÁRIO DA INVENÇÃO
[021] É um objeto da invenção prover uma forma melhorada de saída binaural paramétrica.
[022] De acordo com um primeiro aspecto da presente invenção, é provido um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial (por exemplo, representação de saída inicial); (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução. Prover a série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante pode permitir utilizar os fatores de ponderação de componente de áudio dominante e a apresentação de saída inicial para determinar a estimativa do componente dominante.
[023] Em algumas modalidades, o método ainda inclui determinar uma estimativa de uma mixagem residual sendo a apresentação de saída inicial menos uma renderização do componente de áudio dominante ou sua estimativa. O método pode também incluir a geração de uma mixagem binaural anecoica do áudio de entrada com base em objeto ou canal, e determinar uma estimativa de uma mixagem residual, em que a estimativa da mixagem residual pode ser a mixagem binaural anecoica menos uma renderização do componente de áudio dominante ou sua estimativa. Além disso, o método pode incluir determinar uma série de coeficientes de matriz residuais para mapear a apresentação de saída inicial para a estimativa da mixagem residual.
[024] A apresentação de saída inicial pode compreender uma apresentação de alto-falante ou fone de ouvido. O áudio de entrada com base em objeto ou canal pode ser em blocos de tempo e frequência e a etapa de codificação pode ser repetida por uma série de etapas de tempo e uma série de bandas de frequência. A apresentação de saída inicial pode compreender uma mixagem de alto-falante estéreo.
[025] De acordo com um aspecto adicional da presente invenção, é provido um método de decodificação de um sinal de áudio codificado, o sinal de áudio codificado incluindo: uma primeira (por exemplo, inicial) apresentação de saída (por exemplo, representação de saída primeira/inicial); uma direção de componente de áudio dominante e fatores de ponderação de componente de áudio dominante; o método compreendendo as etapas de: (a) utilizar os fatores de ponderação de componente de áudio dominante e apresentação de saída inicial para determinar um componente dominante estimado; (b) renderizar o componente dominante estimado com uma binauralização em um local espacial em relação a um ouvinte pretendido de acordo com a direção do componente de áudio dominante para formar um componente dominante estimado binauralizado renderizado; (c) reconstruir uma estimativa de componente residual a partir da primeira (por exemplo, inicial) apresentação de saída; e (d) combinar o componente dominante estimado binauralizado renderizado e a estimativa de componente residual para formar um sinal codificado de áudio espacializado de saída.
[026] O sinal de áudio codificado ainda pode incluir uma série de coeficientes de matriz residuais representando um sinal de áudio residual e a etapa (c) ainda pode compreender (c1) aplicar os coeficientes de matriz residuais à primeira (por exemplo, inicial) apresentação de saída para reconstruir a estimativa de componente residual.
[027] Em algumas modalidades, a estimativa de componente residual pode ser reconstruída subtraindo o componente dominante estimado binauralizado renderizado da primeira (por exemplo, inicial) apresentação de saída. A etapa (b) pode incluir uma rotação inicial do componente dominante estimado de acordo com um sinal de monitoramento de cabeça de entrada indicando a orientação da cabeça de um ouvinte pretendido.
[028] De acordo com um aspecto adicional da presente invenção, é provido um método para decodificação e reprodução de um fluxo de áudio para um ouvinte usando alto-falantes, o método compreendendo: (a) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (b) receber dados de orientação de cabeça representando a orientação do ouvinte; (c) criar um ou mais sinais auxiliares com base na primeira representação de áudio e dados de transformação recebidos; (d) criar uma segunda representação de áudio consistindo em uma combinação da primeira representação de áudio e os sinais auxiliares, em que um ou mais dos sinais auxiliares foram modificados em resposta aos dados de orientação da cabeça; e (e) emitir a segunda representação de áudio como um fluxo de áudio de saída.
[029] Em algumas modalidades, pode-se ainda incluir a modificação dos sinais auxiliares, que consiste em uma simulação do percurso acústico de uma posição de fonte sonora para as orelhas do ouvinte. Os dados de transformação podem consistir em coeficientes de matrizes e pelo menos uma de: uma posição de fonte sonora ou direção de fonte sonora. O processo de transformação pode ser aplicado como uma função de tempo ou frequência. Os sinais auxiliares podem representar pelo menos um componente dominante. A direção ou posição de fonte sonora pode ser recebida como parte dos dados de transformação e pode ser rotacionada em resposta aos dados de orientação da cabeça. Em algumas modalidades, a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação. A representação secundária pode ser obtida da primeira representação por matrização em um domínio de banco de filtro (“filterbank”) ou transformada. Os dados de transformação ainda podem compreender coeficientes de matrizes adicionais, e a etapa (d) ainda pode compreender modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es).
BREVE DESCRIÇÃO DOS DESENHOS
[030] Modalidades da invenção serão agora descritas, para fins de exemplo apenas, com referência aos desenhos anexos, em que:
[031] A Figura 1 ilustra esquematicamente um decodificador de fone de ouvido para conteúdo codificado por matriz;
[032] A Figura 2 ilustra esquematicamente um codificador de acordo com uma modalidade;
[033] A Figura 3 é um diagrama de blocos esquemático do decodificador;
[034] A Figura 4 é uma visualização detalhada de um codificador; e
[035] A Figura 5 ilustra uma forma do decodificador em maiores detalhes.
DESCRIÇÃO DETALHADA
[036] Modalidades proveem um sistema e método para representar conteúdo de áudio com base em canal ou objeto que é (1) compatível com reprodução estéreo, (2) permite reprodução binaural incluindo monitoramento de cabeça, (3) tem baixa complexidade de decodificador, e (4) não depende, mas é, no entanto, compatível com codificação de matriz.
[037] Isso é alcançado combinando análise do lado de codificador de um ou mais componentes dominantes (ou objeto dominante ou combinação destes) incluindo pesos para prever esses componentes dominantes a partir de uma mixagem descendente, em combinação com parâmetros adicionais que minimizam o erro entre uma renderização binaural com base apenas nos componentes dominantes ou direcionados e a apresentação binaural do conteúdo completo.
[038] In uma modalidade, uma análise do componente dominante (ou vários componentes dominantes) é provida no codificador em vez de no decodificador/renderizador. O fluxo de áudio é, então, aumentado com metadados indicando a direção do componente dominante, e informações sobre como o(s) componente(s) dominante(s) podem ser obtidos de um sinal de mixagem descendente associado.
[039] A Figura 2 ilustra uma forma de um codificador 20 da modalidade preferida. Conteúdo com base em objeto ou canal 21 é submetido a uma análise 23 para determinar um componente(s) dominante(s). Essa análise pode ocorrer como uma função de tempo e frequência (assumindo que o conteúdo de áudio é quebrado em blocos de tempo e sub-blocos de frequência). O resultado deste processo é um sinal de componente dominante 26 (ou vários sinais de componente dominante), e informações de direção(ões) ou posição(ões) associadas 25. Subsequentemente, os pesos são estimados 24 e emitidos 27 para permitir reconstrução do(s) sinal(is) de componente dominante a partir de uma mixagem descendente transmitida. Esse gerador de mixagem descendente 22 não necessariamente tem que aderir a regras de mixagem descendente de LtRt, mas pode ser uma mixagem descendente ITU (LoRo) padrão usando coeficientes de mixagem descendente de valor real não negativo. Por fim, o sinal de mixagem descendente emitido 29, os pesos 27 e os dados de posição 25 são empacotados por um codificador de áudio 28 e preparados para distribuição.
[040] Referindo-se agora à Figura 3, é ilustrado um decodificador correspondente 30 da modalidade preferida. O decodificador de áudio reconstrói o sinal de mixagem descendente. O sinal é recebido 31 e desempacotado pelo decodificador de áudio 32 em sinal de mixagem descendente, pesos e direção dos componentes dominantes. Subsequentemente, os pesos de estimativa de componente dominante são usados para reconstruir 34 o(s) componente(s) direcionado(s), que são renderizados 36 usando dados de direção ou posição transmitidos. Os dados de posição podem ser opcionalmente modificados 33 dependendo das informações de translação ou rotação da cabeça 38. Adicionalmente, o(s) componente(s) dominante(s) reconstruído(s) podem ser subtraídos 35 da mixagem descendente. Opcionalmente, há uma subtração do(s) componente(s) dominante(s) dentro do percurso de mixagem descendente, mas alternativamente, essa subtração pode também ocorrer no codificador, conforme descrito abaixo.
[041] A fim de melhorar a remoção ou cancelamento do componente dominante reconstruído no subtrator 35, a saída do componente dominante pode ser primeiramente renderizada usando os dados de direção ou posição transmitidos antes da subtração. Esse estágio de renderização opcional 39 é mostrado na Figura 3.
[042] Retornando agora para inicialmente descrever o codificador em mais detalhes, a Figura 4 mostra uma forma de codificador 40 para o processamento de conteúdo de áudio com base em objeto (por exemplo, Dolby Atmos). Os objetos de áudio são originalmente armazenados como objetos Atmos 41 e são inicialmente divididos em blocos de tempo e frequência usando um bando de filtro (HCQMF) de espelho de quadratura com valor complexo híbrido 42. Os sinais de objeto de entrada podem ser representados por xi[n] ao omitir os índices de tempo e frequência correspondentes; a posição correspondente dentro do quadro de corrente é dada pelo vetor unitário pi, e o índice i refere-se ao número de objeto, e o índice n refere-se a tempo (por exemplo, índice de amostra de sub-banda). Os sinais de objeto de entrada xi [n] são um exemplo para áudio de entrada com base em objeto ou canal.
[043] Uma mixagem binaural, de sub-banda, anecoica Y (yl, yr) é criada 43 usando grandezas escalares de valor complexo Hl,i, Hr,i (por exemplo, HRTFs de um toque 48) que representam a representação de sub-banda das HRIRs correspondentes à posição pi:
[044] Alternativamente, a mixagem binaural Y (yl, yr) pode ser criada por convolução usando respostas de impulso relacionadas à cabeça (HRIRs). Adicionalmente, uma mixagem descendente estéreo zl, zr (incorporando exemplificativamente uma apresentação de saída inicial) é criada 44 usando coeficientes de ganho de rotação de amplitude gl,i, gr,i:
[045] O vetor de direção do componente dominante pD (incorporando exemplificativamente uma posição ou direção de componente de áudio dominante) pode ser estimado computando o componente dominante 45 inicialmente calculando uma soma ponderada de vetores de direção unitários para cada objeto: com o2 sendo a energia de sinal xi[n]: e com (. )* sendo o operador de conjugação complexo.
[046] O sinal direcionado/dominante, d[n] (incorporando exemplificativamente um componente de áudio dominante) é subsequentemente dado por: com T(p1, p2) sendo uma função que produz um ganho que diminui com a distância crescente entre vetores unitários p1, p2. Por exemplo, para criar um microfone virtual com um padrão de direcionalidade com base em harmônicos esféricos de ordem superior, uma implementação corresponderia a: com p representando um vetor de direção unitário em um sistema de coordenadas bi ou tridimensional, (.) o operador de produto de pontos para dois vetores, e com a, b, c sendo parâmetros exemplificativos (por exemplo a=b=0.5; c=1).
[047] Os pesos ou coeficientes de previsão wl,d, wr,d são calculados 46 e usados para computar 47 um sinal direcionado estimado d[n]: com pesos wl,d, wr,d minimizando o erro médio quadrático entre d[n] e d[n] dados os sinais de mixagem descendente Zi, Zr. Os pesos wi,d, wr,d são um exempio para fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída iniciai (por exempio, zi, zr) para o componente de áudio dominante (por exemplo, d[n]). Um método conhecido para derivar esses pesos é a apiicação de um indicador de erro médio quadrático mínimo (MMSE): com Rab a matriz de covariância entre sinais para sinais a e sinais b, e e um parâmetro de regularização.
[048] Pode-se subsequentemente subtrair 49 a estimativa renderizada do sinal de componente dominante d[n] a partir da mixagem binaural anecoica yl,yr para criar uma mixagem binaural residual yl, y r usando HRTFs (HRIRs) Hl,D, Hr,D 50 associada com a direção/posição pD do sinal de componente dominante d:
[049] Por fim, outro conjunto de coeficientes de previsão ou pesos wi,j é estimado 51, o qual permite reconstrução da mixagem binaural residual y l, yr a partir da mixagem estéreo zl, zr usando estimativas de erro quadrático médio mínimo: com Rab sendo a matriz de covariância entre sinais para a representação a e representação b, e e um parâmetro de regularização. Os coeficientes de previsão ou pesos wi,j são um exemplo de coeficientes de matriz residuais para mapear a apresentação de saída inicial (por exemplo, zl, zr) para a estimativa da mixagem binaural residual y l, yr. A expressão acima pode ser submetida a restrições de nível adicionais para superar quaisquer perdas de previsão. O codificador emite as seguinte informações: - A mixagem estéreo zl, zr (incorporando exemplificativamente a apresentação de saída inicial); - Os coeficientes para estimar o componente dominante wl,d, wr,d (incorporando exemplificativamente os fatores de ponderação de componente de áudio dominante); - A posição ou direção do componente dominante pD;
[050] E, opcionalmente, os pesos residuais wi,j (incorporando exemplificativamente os coeficientes de matriz residuais).
[051] Embora a descrição acima refira-se à renderização com base em um único componente dominante, em algumas modalidades, o codificador pode ser adaptado para detectar vários componentes dominantes, determinar pesos e direções para cada um dos vários componentes dominantes, renderizar e subtrair cada um dos vários componentes dominantes da mixagem binaural anecoica Y e, então, determinar os pesos residuais após cada um dos vários componentes dominantes ter sido subtraído da mixagem binaural anecoica Y.
Decodificador/renderizador
[052] A Figura 5 ilustra uma forma de decodificador/renderizador 60 em mais detalhes. O decodificador/renderizador 60 aplica um processo que visa reconstruir a mixagem binaural yl, yr para saída ao ouvinte 71 a partir das informações de entrada desempacotadas zl, zr; wl,d, wr,d; pD; wi,j. Aqui, a mixagem estéreo zl, zr é um exemplo de uma primeira representação de áudio, e os coeficientes de previsão ou pesos wi,j e/ou a direção/posição pD do sinal de componente dominante d são exemplos de dados de transformação de áudio adicionais.
[053] Inicialmente, a mixagem descendente estéreo é dividida em blocos de tempo/frequência usando uma transformada ou banco de filtro adequado 61, tal como o banco de análise HCQMF 61. Outras transformadas, tais como uma transformada de Fourier discreta, transformada de seno ou cosseno (modificada), banco de filtro de tempo-domínio ou transformadas de ondas pequenas, podem ser igualmente aplicadas. Subsequentemente, o sinal de componente dominante estimado d[n] é computado 63 usando pesos de coeficiente de previsão wl,d, wr,d:
[054] O sinal de componente dominante estimado d[n] é um exemplo de um sinal auxiliar. Portanto, pode-se diZer que esta etapa corresponde à criação de um ou mais sinais auxiliares com base na referida primeira representação de áudio e dados de transformação recebidos.
[055] Esse sinal de componente dominante é subsequentemente renderiZado 65 e modificado 68 com HRTFs 69 com base nos dados de posição/direção transmitidos pD, possivelmente modificados (rotacionados) com base em informações obtidas de um monitorador de cabeça 62. Finalmente, a saída binaural anecoica total consiste no sinal de componente dominante renderiZado somado 66 com os residuais reconstruídos yl, y r com base em pesos de coeficiente de previsão wi,j: A saída binaural anecoica total é um exemplo de uma segunda representação de áudio. Portanto, pode-se diZer que essa etapa corresponde à criação de uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e referidos sinais auxiliares, em que um ou mais de referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça.
[056] Deve-se notar ainda que, se as informações sobre mais de um sinal dominante forem recebidas, cada sinal dominante pode ser renderizado e adicionado ao sinal residual reconstruído.
[057] Desde que nenhuma rotação ou translação de cabeça seja aplicada, os sinais de saída yl, yr devem ser muito próximos (em termos de erro quadrático médio de raiz) aos sinais binaurais de referência yl, yr desde que
Propriedades-chave
[058] Como pode ser observado a partir da formulação de equação acima, a operação efetiva para construir a apresentação binaural anecoica a partir da apresentação estéreo consiste em uma matriz 2x2 70, em que os coeficientes de matriz são dependentes das informações transmitidas wl,d, wr,d; pD; wij e rotação e/ou translação do monitorador de cabeça. Isso indica que a complexidade de o processo é relativamente baixa, uma vez que a análise do componente dominantes é aplicada no codificador em vez de no decodificador.
[059] Se nenhum componente dominante for estimado (por exemplo, wl,d, wr,d = 0), a solução descrita é equivalente a um método binaural paramétrico.
[060] EM casos em que se deseja excluir determinados objetos do monitoramento de cabeça/rotação de cabeça, esses objetos podem ser excluídos de (1) análise de direção de componente dominante e (2) previsão de sinal de componente dominante. Como resultado, esses objetos serão convertidos de estéreo em binaural através dos coeficientes wi,j e, portanto, não serão afetados por nenhuma rotação ou translação de cabeça.
[061] Em uma linha de pensamento similar, os objetos podem ser configurados para um modo de ‘passagem’, que significa que, na apresentação binaural, eles serão submetidos à rotação por amplitude em vez de convolução HRIR. Isso pode ser obtido usando simplesmente ganhos de rotação por amplitude para os coeficientes H.,i em vez de HRTFs de um toque ou qualquer outro processamento binaural adequado.
Extensões
[062] As modalidades não são limitadas ao uso de mixagens descendentes estéreo, uma vez que outras contagens de canal também podem ser empregadas.
[063] O decodificador 60 descrito com referência à Figura 5 tem um sinal de saída que consiste em uma direção de componente dominante renderizado mais sinal de entrada matrizado por coeficientes de matriz wi,j. Os últimos coeficientes podem ser derivados de várias formas, por exemplo:
[064] 1. Os coeficientes wi,j podem ser determinados no codificador pode meio de reconstrução paramétrica dos sinais yl, yr. Em outras palavras, nesta implementação, os coeficientes wi,j visam à reconstrução fiel dos sinais binaurais yl, yr que seriam obtidos ao renderizar os objetos/canais de entrada originais de forma binaural; em outras palavras, os coeficientes wi,j são acionados por conteúdo.
[065] 2. Os coeficientes wi,j podem ser enviados do codificador para o decodificador para representar HRTFs para posições espaciais fixas, por exemplo, em ângulos de azimute de +/- 45 graus. Em outras palavras, o sinal residual é processado para simular a reprodução em dois alto-falantes virtuais em determinados locais. Como esses coeficientes representando HRTFs são transmitidos do codificador para o decodificador, os locais dos alto-falantes virtuais podem mudar ao longo do tempo e frequência. Se esta abordagem for empregada usando alto-falantes virtuais estáticos para representar o sinal residual, os coeficientes wi,j não precisam de transmissão do codificador para o decodificador e podem, em vez disso, ser conectados por cabo no decodificador. Uma variação dessa abordagem consistiria em um conjunto limitado de posições estáticas que estão disponíveis no decodificador, com seus coeficientes correspondentes wi,j, e a seleção de qual posição estática é usada para o processamento do sinal residual é sinalizada do codificador para o decodificador.
[066] Os sinais yl, y r podem ser submetidos a um assim chamado mixador ascendente, reconstruindo mais de 2 sinais pode meio de análise estatística desses sinais no decodificador, segui de renderização binaural dos sinais mixados de forma ascendente resultantes.
[067] Os métodos descritos podem também ser aplicados em um sistema em que o sinal transmitido Z é um sinal binaural. Neste caso particular, o decodificador 60 da Figura 5 permanece conforme está, enquanto o bloco rotulado ‘Gerar mixagem estéreo (LoRo)’ 44 na Figura 4 deve ser substituído por ‘Gerar mixagem binaural anecoica’ 43 (A Figura 4) que é o mesmo bloco que produz o par de sinais Y. Adicionalmente, outras formas de mixagem podem ser geradas de acordo com a necessidade.
[068] Essa abordagem pode ser estendida com métodos para reconstruir um ou mais sinal(is) de entrada FDN da mixagem estéreo transmitida que consiste em um subconjunto específico de objetos ou canais.
[069] A abordagem pode ser estendida com vários componentes dominantes sendo previstos a partir da mixagem estéreo transmitida e sendo renderizados no lado do decodificador. Não existe limitação fundamental de previsão de apenas um componente dominante para cada bloco de tempo/frequência. Em particular, o número de componentes dominantes pode diferir em cada bloco de tempo/frequência.
Interpretação
[070] Referência ao longo desta especificação a “uma modalidade” ou “algumas modalidades” significa que um recurso, estrutura ou característica particular descrita em conexão com a modalidade é incluída em pelo menos uma modalidade da presente invenção. Assim, as ocorrências das frases “em uma modalidade” ou “em algumas modalidades” em vários lugares ao longo desta especificação não são necessariamente todas referentes à mesma modalidade, mas podem ser. Além disso, os recursos, estruturas ou características particulares podem ser combinados de qualquer maneira adequada, como seria evidente para um versado na técnica desta divulgação, em uma ou mais modalidades.
[071] Como aqui utilizado, salvo indicação em contrário, o uso dos adjetivos ordinais “primeiro”, “segundo”, “terceiro” etc., para descrever um objeto comum meramente indica que diferentes instâncias de tais objetos são referidas e não se pretende implicar que os objetos assim descritos devam estar em uma sequência determinada, seja temporalmente, espacialmente, em classificação ou de qualquer outra maneira.
[072] Nas reivindicações abaixo e na descrição presente, qualquer um dos termos “compreendendo”, “composto por” ou “que compreende” é um termo aberto que significa incluir pelo menos os elementos/características que seguem, mas não excluindo outros. Assim, o termo “compreendendo”, quando usado nas reivindicações, não deve ser interpretado como sendo limitativo aos meios ou elementos ou etapas listados a seguir. Por exemplo, o escopo da expressão “um dispositivo compreendendo A e B” não deve ser limitado a dispositivos que compreendem apenas os elementos A e B. Qualquer um dos termos “incluindo” ou “que inclui”, como aqui utilizado, também é um termo aberto que também significa incluindo pelo menos os elementos/características que seguem o termo, mas não excluindo outros. Assim, “incluindo” é sinônimo e significa “compreendendo”.
[073] Como aqui utilizado, o termo “exemplificativo” é usado no sentido de fornecer exemplos, em oposição a indicar qualidade. Ou seja, uma “modalidade exemplificativa” é uma modalidade fornecida como um exemplo, ao contrário de ser necessariamente uma modalidade de qualidade exemplar.
[074] Deve ser apreciado que, na descrição acima de modalidades exemplificativas da invenção, várias características da invenção são, às vezes, agrupadas em uma única modalidade, figura ou descrição da mesma para o propósito de simplificar a divulgação e auxiliar no entendimento de um ou mais dos vários aspectos da invenção. Este método de divulgação, no entanto, não deve ser interpretado como refletindo a intenção de que a invenção reivindicada requer mais recursos do que aqueles expressamente recitados em cada reivindicação. Em vez disso, como as seguintes afirmações refletem, os aspectos da invenção estão em menos de todos os recursos de uma única modalidade divulgada anteriormente. Assim, as reivindicações seguintes à Descrição Detalhada são expressamente incorporadas nesta Descrição Detalhada, com cada reivindicação permanecendo por si só como uma modalidade separada desta invenção.
[075] Além disso, embora algumas modalidades aqui descritas incluam algumas, mas não outras características incluídas em outras modalidades, combinações de características de diferentes modalidades devem estar dentro do escopo da invenção, e formar modalidades diferentes, como seria entendido pelos versados na técnica. Por exemplo, nas seguintes reivindicações, qualquer uma das modalidades reivindicadas pode ser usada em qualquer combinação.
[076] Além disso, algumas das modalidades são descritas aqui como um método ou combinação de elementos de um método que pode ser implementado por um processador de um sistema de computador ou por outros meios de realizar a função. Assim, um processador com as instruções necessárias para executar tal método ou elemento de um método constitui um meio para executar o método ou elemento de um método. Além disso, um elemento aqui descrito de uma modalidade de aparelho é um exemplo de um meio para executar a função desempenhada pelo elemento com o propósito de realizar a invenção.
[077] Na descrição aqui fornecida, vários detalhes específicos são estabelecidos. No entanto, entende-se que as modalidades podem ser praticadas sem esses detalhes específicos. Em outros casos, métodos, estruturas e técnicas bem conhecidos não foram mostrados em detalhes para não obscurecer um entendimento desta descrição.
[078] Da mesma forma, deve-se notar que o termo acoplado, quando usado nas reivindicações, não deve ser interpretado como sendo limitado apenas a conexões diretas. Os termos “acoplado” e “conectado”, juntamente com seus derivados, podem ser utilizados. Deve ser entendido que esses termos não são entendidos como sinônimos uns dos outros. Dessa forma, o escopo da expressão “um dispositivo A acoplado a um dispositivo B” não deve ser limitado a dispositivos ou sistemas em que uma saída do dispositivo A é diretamente conectada a uma entrada do dispositivo B. Isso significa que existe um percurso entre uma saída de A e uma entrada de B que pode ser um percurso incluindo outros dispositivos ou meios. “Acoplado” pode significar que dois ou mais elementos estão em contato físico ou elétrico direto, ou que dois ou mais elementos não estão em contato direto entre si, mas ainda assim cooperam ou interagem entre si.
[079] Assim, embora tenham sido descritas modalidades da invenção, os versados na técnica reconhecerão que outras modificações ainda podem ser feitas a sem se afastar do espírito da invenção, e pretende-se reivindicar todas essas mudanças e modificações como pertencentes ao escopo da invenção. Por exemplo, quaisquer fórmulas dadas acima são meramente representativas de procedimentos que podem ser utilizados. Funcionalidade pode ser adicionada ou excluída dos diagramas de bloco e operações podem ser trocadas entre blocos funcionais. Etapas podem ser adicionadas ou excluídas dos métodos descritos dentro do escopo da presente invenção.
[080] Vários aspectos da presente invenção podem ser apreciados a partir as seguintes modalidades exemplificativas enumeradas (EEESs):
[081] EEE 1. Um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial; (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução.
[082] EEE 2. O método da EEE 1, ainda compreendendo determinar uma estimativa de uma mixagem residual sendo a apresentação de saída inicial menos uma renderização do componente de áudio dominante ou sua estimativa.
[083] EEE 3. O método da EEE 1, ainda compreendendo gerar uma mixagem binaural anecoica do áudio de entrada com base em objeto ou canal e determinar uma estimativa de uma mixagem residual, em que a estimativa da mixagem residual é a mixagem binaural anecoica menos uma renderização do componente de áudio dominante ou sua estimativa.
[084] EEE 4. O método da EEE 2 ou 3, ainda compreendendo determinar uma série de coeficientes de matriz residuais para mapear a apresentação de saída inicial para a estimativa da mixagem residual.
[085] EEE 5. O método de qualquer EEE anterior, em que a referida apresentação de saída inicial compreende uma apresentação de alto-falante ou fone de ouvido.
[086] EEE 6. O método de qualquer EEE anterior, em que o referido áudio de entrada com base em objeto ou canal é em bloco de tempo e frequência e a referida etapa de codificação é repetida por uma série de etapas de tempo e uma série de bandas de frequência.
[087] EEE 7. O método de qualquer EEE anterior, em que a referida apresentação de saída inicial compreende uma mixagem de alto-falante estéreo.
[088] EEE 8. Um método de decodificação de um sinal de áudio codificado, o sinal de áudio codificado incluindo: - uma primeira apresentação de saída; - uma direção de componente de áudio dominante e fatores de ponderação de componente de áudio dominante; o método compreendendo as etapas de: (a) utilizar os fatores de ponderação de componente de áudio dominante e apresentação de saída inicial para determinar um componente dominante estimado; (b) renderizar o componente dominante estimado com uma binauralização em um local espacial em relação a um ouvinte pretendido de acordo com a direção do componente de áudio dominante para formar um componente dominante estimado binauralizado renderizado; (c) reconstruir uma estimativa de componente residual a partir da primeira apresentação de saída; e (d) combinar o componente dominante estimado binauralizado renderizado e a estimativa de componente residual para formar um sinal codificado de áudio espacializado de saída.
[089] EEE 9. O método da EEE 8, em que o referido sinal de áudio codificado ainda inclui uma série de coeficientes de matriz residuais representando um sinal de áudio residual e a referida etapa (c) ainda compreende: (c1) aplicar os referidos coeficientes de matriz residuais à primeira apresentação de saída para reconstruir a estimativa de componente residual.
[090] EEE 10. O método da EEE 8, em que a estimativa de componente residual é reconstruída subtraindo o componente dominante estimado binauralizado renderizado a partir da primeira apresentação de saída.
[091] EEE 11. O método da EEE 8, em que a referida etapa (b) inclui uma rotação inicial do componente dominante estimado de acordo com um sinal de monitoramento de cabeça de entrada indicando a orientação da cabeça de um ouvinte pretendido.
[092] EEE 12. Um método para decodificação e reprodução de um fluxo de áudio para um ouvinte usando alto-falantes, o método compreendendo: (e) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (f) receber dados de orientação de cabeça representando a orientação do ouvinte; (g) criar um ou mais sinais auxiliares com base na referida primeira representação de áudio e dados de transformação recebidos; (h) criar uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e referidos sinais auxiliares, em que um ou mais de referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça; e (i) emitir a segunda representação de áudio como um fluxo de áudio de saída.
[093] EEE 13. Um método, de acordo com a EEE 12, em que a modificação dos sinais auxiliares consiste em uma simulação do percurso acústico de uma posição de fonte sonora para as orelhas do ouvinte.
[094] EEE 14. Um método, de acordo com a EEE 12 ou 13, em que os referidos dados de transformação consistem em coeficientes de matrizes e pelo menos uma de: uma posição de fonte sonora ou direção de fonte sonora.
[095] EEE 15. Um método, de acordo com qualquer uma das EEEs 12 a 14, em que o processo de transformação é aplicado como uma função de tempo ou frequência.
[096] EEE 16. Um método, de acordo com qualquer uma das EEEs 12 a 15, em que os sinais auxiliares representam pelo menos um componente dominante.
[097] EEE 17. Um método, de acordo com qualquer uma das EEEs 12 a 16, em que a direção ou posição de fonte sonora recebida como parte dos dados de transformação é rotacionada em resposta aos dados de orientação da cabeça.
[098] EEE 18. Um método, de acordo com a EEE 17, em que a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação.
[099] EEE 19. Um método, de acordo com qualquer uma das EEEs 12 a 18, em que a representação secundária é obtida da primeira representação por matrização em um domínio de banco de filtro ou transformada.
[0100] EEE 20. Um método, de acordo com qualquer uma das EEEs 12 a 19, em que os dados de transformação ainda compreendem coeficientes de matrizes adicionais, e a etapa (d) ainda compreende modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es).
[0101] EEE 21. Um aparelho, compreendendo um ou mais dispositivos, configurado para executar o método de qualquer uma das EEEs 1 a 20.
[0102] EEE 22. Um meio de armazenamento legível por computador compreendendo um programa de instruções que, quando executado por um ou mais processadores, fazem com que um ou mais dispositivos executem o método de qualquer uma das EEEs 1 a 20.

Claims (9)

1. Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes, CARACTERIZADO pelo fato de que compreende: (a) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (b) receber dados de orientação de cabeça representando a orientação do ouvinte; (c) criar um ou mais sinais auxiliares com base na referida primeira representação de áudio e em dados de transformação recebidos; (d) criar uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e dos referidos sinais auxiliares, na qual um ou mais dos referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça; e (e) emitir a segunda representação de áudio como um fluxo de áudio de saída.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que modificar os sinais auxiliares consiste em uma simulação do percurso acústico a partir de uma posição de fonte sonora até as orelhas do ouvinte.
3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que os referidos dados de transformação consistem em coeficientes de matrizes e pelo menos uma dentre: uma posição de fonte sonora ou direção de fonte sonora.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que o processo de transformação é aplicado como uma função de tempo ou frequência.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que os sinais auxiliares representam pelo menos um componente dominante.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que a direção ou posição de fonte sonora recebida como parte dos dados de transformação é rotacionada em resposta aos dados de orientação de cabeça.
7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação.
8. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que a representação secundária é obtida a partir da primeira representação por matrização em um domínio de banco de filtro ou transformada.
9. Método, de acordo com qualquer uma das reivindicações 1 a 8, CARACTERIZADO pelo fato de que os dados de transformação compreendem ainda coeficientes de matrizes adicionais, e a etapa (d) compreende ainda modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es)..
BR122020025280-4A 2015-11-17 2016-11-17 Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes BR122020025280B1 (pt)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562256462P 2015-11-17 2015-11-17
US62/256,462 2015-11-17
EP15199854 2015-12-14
EP15199854.9 2015-12-14
PCT/US2016/062497 WO2017087650A1 (en) 2015-11-17 2016-11-17 Headtracking for parametric binaural output system and method
BR112018010073-0A BR112018010073B1 (pt) 2015-11-17 2016-11-17 Método para codificar áudio de entrada com base em objeto ou canal para reprodução e método para decodificar um sinal de áudio codificado

Publications (1)

Publication Number Publication Date
BR122020025280B1 true BR122020025280B1 (pt) 2024-03-05

Family

ID=55027285

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112018010073-0A BR112018010073B1 (pt) 2015-11-17 2016-11-17 Método para codificar áudio de entrada com base em objeto ou canal para reprodução e método para decodificar um sinal de áudio codificado
BR122020025280-4A BR122020025280B1 (pt) 2015-11-17 2016-11-17 Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BR112018010073-0A BR112018010073B1 (pt) 2015-11-17 2016-11-17 Método para codificar áudio de entrada com base em objeto ou canal para reprodução e método para decodificar um sinal de áudio codificado

Country Status (15)

Country Link
US (2) US10362431B2 (pt)
EP (3) EP3716653B1 (pt)
JP (1) JP6740347B2 (pt)
KR (2) KR20230145232A (pt)
CN (2) CN108476366B (pt)
AU (2) AU2016355673B2 (pt)
BR (2) BR112018010073B1 (pt)
CA (2) CA3080981C (pt)
CL (1) CL2018001287A1 (pt)
ES (1) ES2950001T3 (pt)
IL (1) IL259348B (pt)
MY (1) MY188581A (pt)
SG (1) SG11201803909TA (pt)
UA (1) UA125582C2 (pt)
WO (1) WO2017087650A1 (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio
WO2019067620A1 (en) 2017-09-29 2019-04-04 Zermatt Technologies Llc SPEECH REDUCTION AUDIO MIXING
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US11032662B2 (en) 2018-05-30 2021-06-08 Qualcomm Incorporated Adjusting audio characteristics for augmented reality
TWI683582B (zh) * 2018-09-06 2020-01-21 宏碁股份有限公司 增益動態調節之音效控制方法及音效輸出裝置
CN111615044B (zh) * 2019-02-25 2021-09-14 宏碁股份有限公司 声音信号的能量分布修正方法及其系统
US20220167111A1 (en) * 2019-06-12 2022-05-26 Google Llc Three-dimensional audio source spatialization
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
GB2611733A (en) * 2020-08-27 2023-04-12 Apple Inc Stereo-based immersive coding (STIC)
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
WO2022173980A1 (en) 2021-02-11 2022-08-18 Nuance Communications, Inc. Multi-channel speech compression system and method
CN113035209B (zh) * 2021-02-25 2023-07-04 北京达佳互联信息技术有限公司 三维音频获取方法和三维音频获取装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO316296A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Dithered binaural system
KR20010030608A (ko) 1997-09-16 2001-04-16 레이크 테크놀로지 리미티드 청취자 주변의 음원의 공간화를 향상시키기 위한 스테레오헤드폰 디바이스에서의 필터링 효과의 이용
JPH11220797A (ja) * 1998-02-03 1999-08-10 Sony Corp ヘッドホン装置
JP4088725B2 (ja) * 1998-03-30 2008-05-21 ソニー株式会社 オーディオ再生装置
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6839438B1 (en) 1999-08-31 2005-01-04 Creative Technology, Ltd Positional audio rendering
DE60036958T2 (de) 1999-09-29 2008-08-14 1...Ltd. Verfahren und vorrichtung zur ausrichtung von schall mit einer gruppe von emissionswandlern
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7076204B2 (en) 2001-10-30 2006-07-11 Unwired Technology Llc Multiple channel wireless communication system
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
JP2006270649A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声・音響信号処理装置およびその方法
JP4944902B2 (ja) 2006-01-09 2012-06-06 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
EP2005793A2 (en) 2006-04-04 2008-12-24 Aalborg Universitet Binaural technology method with position tracking
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
KR100917843B1 (ko) 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
EP2054875B1 (en) 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
KR101312470B1 (ko) 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
CN101889307B (zh) * 2007-10-04 2013-01-23 创新科技有限公司 相位-幅度3d立体声编码器和解码器
KR101567461B1 (ko) 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
US8587631B2 (en) 2010-06-29 2013-11-19 Alcatel Lucent Facilitating communications using a portable communication device and directed sound output
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9729993B2 (en) 2012-10-01 2017-08-08 Nokia Technologies Oy Apparatus and method for reproducing recorded audio with correct spatial directionality
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP3005344A4 (en) 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
CN117376809A (zh) * 2013-10-31 2024-01-09 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
US9794721B2 (en) * 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码

Also Published As

Publication number Publication date
CA3005113C (en) 2020-07-21
CL2018001287A1 (es) 2018-07-20
KR20180082461A (ko) 2018-07-18
US10893375B2 (en) 2021-01-12
JP2018537710A (ja) 2018-12-20
AU2020200448A1 (en) 2020-02-13
IL259348B (en) 2020-05-31
US10362431B2 (en) 2019-07-23
CA3005113A1 (en) 2017-05-26
JP6740347B2 (ja) 2020-08-12
CA3080981C (en) 2023-07-11
AU2016355673B2 (en) 2019-10-24
CN113038354A (zh) 2021-06-25
BR112018010073B1 (pt) 2024-01-23
CA3080981A1 (en) 2017-05-26
AU2016355673A1 (en) 2018-05-31
US20190342694A1 (en) 2019-11-07
MY188581A (en) 2021-12-22
UA125582C2 (uk) 2022-04-27
EP3716653A1 (en) 2020-09-30
EP4236375A3 (en) 2023-10-11
IL259348A (en) 2018-07-31
WO2017087650A1 (en) 2017-05-26
EP3378239A1 (en) 2018-09-26
KR102586089B1 (ko) 2023-10-10
KR20230145232A (ko) 2023-10-17
ES2950001T3 (es) 2023-10-04
CN108476366A (zh) 2018-08-31
SG11201803909TA (en) 2018-06-28
CN108476366B (zh) 2021-03-26
AU2020200448B2 (en) 2021-12-23
EP3378239B1 (en) 2020-02-19
EP3716653B1 (en) 2023-06-07
EP4236375A2 (en) 2023-08-30
BR112018010073A2 (pt) 2018-11-13
US20180359596A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
US10893375B2 (en) Headtracking for parametric binaural output system and method
JP5698189B2 (ja) オーディオ符号化
US8374365B2 (en) Spatial audio analysis and synthesis for binaural reproduction and format conversion
EP3444815A1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
US10978079B2 (en) Audio encoding and decoding using presentation transform parameters
BRPI0913460B1 (pt) Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
BR112015019526B1 (pt) MÉTODO E APARELHO PARA APRIMORAR A DIRETIVIDADE DE UM SINAL AMBISONICS DE 1ª ORDEM E MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO.
JP2018529121A (ja) オーディオ・デコーダおよびデコード方法
JP6964703B2 (ja) パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
RU2818687C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала

Legal Events

Date Code Title Description
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/11/2016, OBSERVADAS AS CONDICOES LEGAIS