BR122020025280B1

BR122020025280B1 - Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes

Info

Publication number: BR122020025280B1
Application number: BR122020025280-4A
Authority: BR
Inventors: Dirk Jeroen Breebaart; David Matthew Cooper; Mark F. Davis; David S. Mcgrath; Kristopher KJOERLING; Harald MUNDT; Rhonda J. Wilson
Original assignee: Dolby International Ab; Dolby Laboratories Licensing Corporation
Priority date: 2015-11-17
Filing date: 2016-11-17
Publication date: 2024-03-05
Also published as: CA3005113C; CL2018001287A1; KR20180082461A; US10893375B2; JP2018537710A; AU2020200448A1; IL259348B; US10362431B2; CA3005113A1; JP6740347B2; CA3080981C; AU2016355673B2; CN113038354A; BR112018010073B1; CA3080981A1; AU2016355673A1; US20190342694A1; MY188581A; UA125582C2; EP3716653A1

Abstract

método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes. a presente invenção refere-se a um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial; (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução.

Description

CAMPO DA INVENÇÃO

[001] A presente invenção refere-se a sistemas e métodos para a forma melhorada de saída binaural paramétrica ao opcionalmente utilizar monitoramento de cabeça.

REFERÊNCIAS

[002] Gundry, K., “A New Matrix Decoder for Surround Sound,” AES 19th International Conf., Schloss Elmau, Germany, 2001.

[003] Vinton, M., McGrath, D., Robinson, C., Brown, P., “Next generation surround decoding and up-mixing for consumer and professional applications”, AES 57th International Conf, Hollywood, CA, USA, 2015.

[004] Wightman, F. L., and Kistler, D. J. (1989). “Headphone simulation of free- field listening. I. Stimulus synthesis,” J. Acoust. Soc. Am. 85, 858-867.

[005] ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.

[006] Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.

[007] Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.

[008] Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.

FUNDAMENTO DA INVENÇÃO

[009] Qualquer discussão do fundamento da técnica ao longo da especificação não deve de modo algum ser considerada como uma admissão de que tal técnica é amplamente conhecida ou faz parte do conhecimento geral comum no campo.

[010] A criação, codificação, distribuição e reprodução de conteúdo de áudio é tradicionalmente baseada em canal. Ou seja, um sistema de reprodução alvo específico é previsto para o conteúdo em todo o ecossistema de conteúdo. Exemplos de tais sistemas de reprodução alvo são mono, estéreo, 5.1, 7.1, 7.1.4 e semelhantes.

[011] Se o conteúdo tiver que ser reproduzido em um sistema de reprodução diferente do pretendido, pode ser aplicada mixagem descendente ou mixagem ascendente. Por exemplo, o conteúdo 5.1 pode ser reproduzido em um sistema de reprodução estéreo empregando equações específicas conhecidas de mixagem descendente. Outro exemplo é a reprodução de conteúdo estéreo em uma configuração de alto-falante 7.1, que pode incluir um chamado processo de mixagem ascendente que poderia ou não ser guiado por informações presentes no sinal estéreo, tal como usado pelos chamados codificadores de matriz, tais como Dolby Pro Logic. Para guiar o processo de mixagem ascendente, informações sobre a posição original dos sinais antes da mixagem descendente podem ser sinalizadas implicitamente incluindo relações de fase específicas nas equações de mixagem descendente, ou dito de forma diferente, pela aplicação de equações de mixagem descendente de valor complexo. Um exemplo bem conhecido desse método de mixagem descendente usando coeficientes de mixagem descendente de valor complexo para conteúdo com alto-falantes colocados em duas dimensões é LtRt (Vinton et al. 2015).

[012] O sinal de mixagem descendente resultante (estéreo) pode ser reproduzido em um sistema de alto-falante estéreo ou pode ser mixado de forma ascendente para configurações de alto-falante com alto-falantes surround e/ou de altura. A localização pretendida do sinal pode ser derivada por um mixador ascendente a partir das relações de fase intercanal. Por exemplo, em uma representação estéreo LtRt, um sinal que esteja fora de fase (por exemplo, que tenha um coeficiente de correlação cruzada normalizado de forma de onda intercanal próximo a -1) deve idealmente ser reproduzido por um ou mais alto-falantes surround, enquanto um coeficiente de correlação positivo (próximo a +1) indica que o sinal deve ser reproduzido por alto-falantes em frente ao ouvinte.

[013] Foi desenvolvida uma variedade de algoritmos e estratégias de mixagem ascendente que diferem em suas estratégias para recriar um sinal multicanal a partir da mixagem descendente estéreo. Em mixadores ascendentes relativamente simples, o coeficiente de correlação cruzada normalizado dos sinais de forma de onda estéreo é rastreado como uma função de tempo, enquanto o(s) sinal(is) é(são) direcionado(s) para os alto-falantes traseiros ou frontais dependendo do valor do coeficiente de correlação cruzada normalizado. Essa abordagem funciona bem para um conteúdo relativamente simples em que apenas um objeto auditivo está presente simultaneamente. Mixadores ascendentes mais avançados baseiam-se em informações estatísticas derivadas de regiões de frequência específicas para controlar o fluxo de sinal da entrada estéreo para a saída multicanal (Gundry 2001, Vinton et al. 2015). Especificamente, um modelo de sinal com base em um componente orientado ou dominante e um sinal residual estéreo (difuso) pode ser empregado em blocos individuais de tempo/frequência. Além da estimativa do componente residual e sinais residuais, um ângulo de direção (em azimute, possivelmente aumentado com elevação) é também estimado e, posteriormente, o sinal de componente dominante é direcionado para um ou mais alto-falantes para reconstruir a posição (estimada) durante a reprodução.

[014] O uso de codificadores de matriz e decodificadores/mixadores ascendentes não é limitado a um conteúdo com base em canal. Desenvolvimentos recentes na indústria de áudio são baseados em objetos de áudio em vez de canais, em que um dos mais consistem em um sinal de áudio e metadados associados indicando, entre outras coisas, sua posição pretendida como uma função de tempo. Para esse conteúdo de áudio baseado em objeto, codificadores de matriz também podem ser usados, conforme descrito em Vinton et al. 2015. Em tal sistema, os sinais de objeto são misturados de forma descendente em uma representação de sinal estéreo com coeficientes de mixagem descente que são dependentes dos metadados posicionais de objeto.

[015] A mixagem ascendente e reprodução de conteúdo codificado por matriz não são necessariamente limitadas a uma reprodução em alto-falantes. A representação de um componente dirigido ou dominante consiste em um sinal de componente dominante e a posição (pretendida) permite a reprodução em alto- falantes por meio de convolução com respostas de impulso relacionadas à cabeça (HRIRs) (Wightman et al., 1989). Um esquema simples de um sistema implementando este método é mostrado 1 na Figura 1. O sinal de entrada 2, em um formato codificado por matriz, é primeiramente analisado 3 para determinar uma direção e magnitude do componente dominante. O sinal de componente dominante é convoluído 4, 5 por meio de um par de HRIRs derivadas de uma visualização (lookup) 6 com base na direção de componente dominante, para computar um sinal de saída para a reprodução de fones de ouvido 7, tal que o sinal de reprodução seja percebido como oriundo da direção que foi determinada pelo estágio de análise de componente dominante 3. Este esquema pode ser aplicado em sinais de banda larga, bem como em sub-bandas individuais e pode ser incrementado com o processamento dedicado de sinais residuais (ou difusos) de várias maneiras.

[016] O uso de codificadores de matriz é muito adequado para distribuição e reprodução em receptores AV, mas pode ser problemático para aplicações móveis que requerem baixas taxas de dados de transmissão e baixo consumo de energia.

[017] Independentemente da utilização de conteúdo baseado em canal ou objeto, os decodificadores e codificadores de matriz dependem de relações de fase intercanal razoavelmente precisas dos sinais que são distribuídos do codificador de matriz para o decodificador. Em outras palavras, o formato de distribuição deve ser, em grande parte, preservador da forma de onda. Tal dependência na preservação da forma de onda pode ser problemática em condições restritas de taxa de bits, em que os codecs de áudio empregam métodos paramétricos em vez de ferramentas de codificação de forma de onda para obter uma melhor qualidade de áudio. Exemplos de tais ferramentas paramétricas que são geralmente conhecidas como não sendo de preservação de formas de onda são frequentemente chamadas de replicação de banda espectral, estéreo paramétrico, codificação de áudio espacial e similares, conforme implementado em codecs de áudio MPEG-4 (ISO/IEC 14496-3:2009).

[018] Conforme delineado na seção anterior, o mixador ascendente consiste em análise e direcionamento (ou convolução de HRIR) de sinais. Para dispositivos alimentados, tais como receptores AV, isso geralmente não causa problemas, mas para dispositivos operados por bateria, tais como telefones celulares e tablets, a complexidade computacional e os requisitos de memória correspondentes associados a esses processos são geralmente indesejáveis devido a seu impacto negativo na vida da bateria.

[019] A análise acima geralmente também introduz latência de áudio adicional. Essa latência de áudio é indesejável porque (1) requer atrasos de vídeo para manter a sincronia labial de áudio-vídeo exigindo uma quantidade significativa de memória e capacidade de processamento, e (2) pode causar assincronia/latência entre movimentos da cabeça e renderização de áudio no caso de monitoramento da cabeça.

[020] A mixagem descendente codificada por matriz também pode não soar ideal em alto-falantes ou fones de ouvido estéreo devido à presença potencial de componentes de sinal fora de fase potentes.

SUMÁRIO DA INVENÇÃO

[021] É um objeto da invenção prover uma forma melhorada de saída binaural paramétrica.

[022] De acordo com um primeiro aspecto da presente invenção, é provido um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial (por exemplo, representação de saída inicial); (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução. Prover a série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante pode permitir utilizar os fatores de ponderação de componente de áudio dominante e a apresentação de saída inicial para determinar a estimativa do componente dominante.

[023] Em algumas modalidades, o método ainda inclui determinar uma estimativa de uma mixagem residual sendo a apresentação de saída inicial menos uma renderização do componente de áudio dominante ou sua estimativa. O método pode também incluir a geração de uma mixagem binaural anecoica do áudio de entrada com base em objeto ou canal, e determinar uma estimativa de uma mixagem residual, em que a estimativa da mixagem residual pode ser a mixagem binaural anecoica menos uma renderização do componente de áudio dominante ou sua estimativa. Além disso, o método pode incluir determinar uma série de coeficientes de matriz residuais para mapear a apresentação de saída inicial para a estimativa da mixagem residual.

[024] A apresentação de saída inicial pode compreender uma apresentação de alto-falante ou fone de ouvido. O áudio de entrada com base em objeto ou canal pode ser em blocos de tempo e frequência e a etapa de codificação pode ser repetida por uma série de etapas de tempo e uma série de bandas de frequência. A apresentação de saída inicial pode compreender uma mixagem de alto-falante estéreo.

[025] De acordo com um aspecto adicional da presente invenção, é provido um método de decodificação de um sinal de áudio codificado, o sinal de áudio codificado incluindo: uma primeira (por exemplo, inicial) apresentação de saída (por exemplo, representação de saída primeira/inicial); uma direção de componente de áudio dominante e fatores de ponderação de componente de áudio dominante; o método compreendendo as etapas de: (a) utilizar os fatores de ponderação de componente de áudio dominante e apresentação de saída inicial para determinar um componente dominante estimado; (b) renderizar o componente dominante estimado com uma binauralização em um local espacial em relação a um ouvinte pretendido de acordo com a direção do componente de áudio dominante para formar um componente dominante estimado binauralizado renderizado; (c) reconstruir uma estimativa de componente residual a partir da primeira (por exemplo, inicial) apresentação de saída; e (d) combinar o componente dominante estimado binauralizado renderizado e a estimativa de componente residual para formar um sinal codificado de áudio espacializado de saída.

[026] O sinal de áudio codificado ainda pode incluir uma série de coeficientes de matriz residuais representando um sinal de áudio residual e a etapa (c) ainda pode compreender (c1) aplicar os coeficientes de matriz residuais à primeira (por exemplo, inicial) apresentação de saída para reconstruir a estimativa de componente residual.

[027] Em algumas modalidades, a estimativa de componente residual pode ser reconstruída subtraindo o componente dominante estimado binauralizado renderizado da primeira (por exemplo, inicial) apresentação de saída. A etapa (b) pode incluir uma rotação inicial do componente dominante estimado de acordo com um sinal de monitoramento de cabeça de entrada indicando a orientação da cabeça de um ouvinte pretendido.

[028] De acordo com um aspecto adicional da presente invenção, é provido um método para decodificação e reprodução de um fluxo de áudio para um ouvinte usando alto-falantes, o método compreendendo: (a) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (b) receber dados de orientação de cabeça representando a orientação do ouvinte; (c) criar um ou mais sinais auxiliares com base na primeira representação de áudio e dados de transformação recebidos; (d) criar uma segunda representação de áudio consistindo em uma combinação da primeira representação de áudio e os sinais auxiliares, em que um ou mais dos sinais auxiliares foram modificados em resposta aos dados de orientação da cabeça; e (e) emitir a segunda representação de áudio como um fluxo de áudio de saída.

[029] Em algumas modalidades, pode-se ainda incluir a modificação dos sinais auxiliares, que consiste em uma simulação do percurso acústico de uma posição de fonte sonora para as orelhas do ouvinte. Os dados de transformação podem consistir em coeficientes de matrizes e pelo menos uma de: uma posição de fonte sonora ou direção de fonte sonora. O processo de transformação pode ser aplicado como uma função de tempo ou frequência. Os sinais auxiliares podem representar pelo menos um componente dominante. A direção ou posição de fonte sonora pode ser recebida como parte dos dados de transformação e pode ser rotacionada em resposta aos dados de orientação da cabeça. Em algumas modalidades, a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação. A representação secundária pode ser obtida da primeira representação por matrização em um domínio de banco de filtro (“filterbank”) ou transformada. Os dados de transformação ainda podem compreender coeficientes de matrizes adicionais, e a etapa (d) ainda pode compreender modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es).

BREVE DESCRIÇÃO DOS DESENHOS

[030] Modalidades da invenção serão agora descritas, para fins de exemplo apenas, com referência aos desenhos anexos, em que:

[031] A Figura 1 ilustra esquematicamente um decodificador de fone de ouvido para conteúdo codificado por matriz;

[032] A Figura 2 ilustra esquematicamente um codificador de acordo com uma modalidade;

[033] A Figura 3 é um diagrama de blocos esquemático do decodificador;

[034] A Figura 4 é uma visualização detalhada de um codificador; e

[035] A Figura 5 ilustra uma forma do decodificador em maiores detalhes.

DESCRIÇÃO DETALHADA

[036] Modalidades proveem um sistema e método para representar conteúdo de áudio com base em canal ou objeto que é (1) compatível com reprodução estéreo, (2) permite reprodução binaural incluindo monitoramento de cabeça, (3) tem baixa complexidade de decodificador, e (4) não depende, mas é, no entanto, compatível com codificação de matriz.

[037] Isso é alcançado combinando análise do lado de codificador de um ou mais componentes dominantes (ou objeto dominante ou combinação destes) incluindo pesos para prever esses componentes dominantes a partir de uma mixagem descendente, em combinação com parâmetros adicionais que minimizam o erro entre uma renderização binaural com base apenas nos componentes dominantes ou direcionados e a apresentação binaural do conteúdo completo.

[038] In uma modalidade, uma análise do componente dominante (ou vários componentes dominantes) é provida no codificador em vez de no decodificador/renderizador. O fluxo de áudio é, então, aumentado com metadados indicando a direção do componente dominante, e informações sobre como o(s) componente(s) dominante(s) podem ser obtidos de um sinal de mixagem descendente associado.

[039] A Figura 2 ilustra uma forma de um codificador 20 da modalidade preferida. Conteúdo com base em objeto ou canal 21 é submetido a uma análise 23 para determinar um componente(s) dominante(s). Essa análise pode ocorrer como uma função de tempo e frequência (assumindo que o conteúdo de áudio é quebrado em blocos de tempo e sub-blocos de frequência). O resultado deste processo é um sinal de componente dominante 26 (ou vários sinais de componente dominante), e informações de direção(ões) ou posição(ões) associadas 25. Subsequentemente, os pesos são estimados 24 e emitidos 27 para permitir reconstrução do(s) sinal(is) de componente dominante a partir de uma mixagem descendente transmitida. Esse gerador de mixagem descendente 22 não necessariamente tem que aderir a regras de mixagem descendente de LtRt, mas pode ser uma mixagem descendente ITU (LoRo) padrão usando coeficientes de mixagem descendente de valor real não negativo. Por fim, o sinal de mixagem descendente emitido 29, os pesos 27 e os dados de posição 25 são empacotados por um codificador de áudio 28 e preparados para distribuição.

[040] Referindo-se agora à Figura 3, é ilustrado um decodificador correspondente 30 da modalidade preferida. O decodificador de áudio reconstrói o sinal de mixagem descendente. O sinal é recebido 31 e desempacotado pelo decodificador de áudio 32 em sinal de mixagem descendente, pesos e direção dos componentes dominantes. Subsequentemente, os pesos de estimativa de componente dominante são usados para reconstruir 34 o(s) componente(s) direcionado(s), que são renderizados 36 usando dados de direção ou posição transmitidos. Os dados de posição podem ser opcionalmente modificados 33 dependendo das informações de translação ou rotação da cabeça 38. Adicionalmente, o(s) componente(s) dominante(s) reconstruído(s) podem ser subtraídos 35 da mixagem descendente. Opcionalmente, há uma subtração do(s) componente(s) dominante(s) dentro do percurso de mixagem descendente, mas alternativamente, essa subtração pode também ocorrer no codificador, conforme descrito abaixo.

[041] A fim de melhorar a remoção ou cancelamento do componente dominante reconstruído no subtrator 35, a saída do componente dominante pode ser primeiramente renderizada usando os dados de direção ou posição transmitidos antes da subtração. Esse estágio de renderização opcional 39 é mostrado na Figura 3.

[042] Retornando agora para inicialmente descrever o codificador em mais detalhes, a Figura 4 mostra uma forma de codificador 40 para o processamento de conteúdo de áudio com base em objeto (por exemplo, Dolby Atmos). Os objetos de áudio são originalmente armazenados como objetos Atmos 41 e são inicialmente divididos em blocos de tempo e frequência usando um bando de filtro (HCQMF) de espelho de quadratura com valor complexo híbrido 42. Os sinais de objeto de entrada podem ser representados por xi[n] ao omitir os índices de tempo e frequência correspondentes; a posição correspondente dentro do quadro de corrente é dada pelo vetor unitário pi, e o índice i refere-se ao número de objeto, e o índice n refere-se a tempo (por exemplo, índice de amostra de sub-banda). Os sinais de objeto de entrada xi [n] são um exemplo para áudio de entrada com base em objeto ou canal.

[043] Uma mixagem binaural, de sub-banda, anecoica Y (yl, yr) é criada 43 usando grandezas escalares de valor complexo Hl,i, Hr,i (por exemplo, HRTFs de um toque 48) que representam a representação de sub-banda das HRIRs correspondentes à posição pi:

[044] Alternativamente, a mixagem binaural Y (yl, yr) pode ser criada por convolução usando respostas de impulso relacionadas à cabeça (HRIRs). Adicionalmente, uma mixagem descendente estéreo zl, zr (incorporando exemplificativamente uma apresentação de saída inicial) é criada 44 usando coeficientes de ganho de rotação de amplitude gl,i, gr,i:

[045] O vetor de direção do componente dominante pD (incorporando exemplificativamente uma posição ou direção de componente de áudio dominante) pode ser estimado computando o componente dominante 45 inicialmente calculando uma soma ponderada de vetores de direção unitários para cada objeto: com o2 sendo a energia de sinal xi[n]: e com (. )* sendo o operador de conjugação complexo.

[046] O sinal direcionado/dominante, d[n] (incorporando exemplificativamente um componente de áudio dominante) é subsequentemente dado por: com T(p1, p2) sendo uma função que produz um ganho que diminui com a distância crescente entre vetores unitários p1, p2. Por exemplo, para criar um microfone virtual com um padrão de direcionalidade com base em harmônicos esféricos de ordem superior, uma implementação corresponderia a: com p representando um vetor de direção unitário em um sistema de coordenadas bi ou tridimensional, (.) o operador de produto de pontos para dois vetores, e com a, b, c sendo parâmetros exemplificativos (por exemplo a=b=0.5; c=1).

[047] Os pesos ou coeficientes de previsão wl,d, wr,d são calculados 46 e usados para computar 47 um sinal direcionado estimado d[n]: com pesos wl,d, wr,d minimizando o erro médio quadrático entre d[n] e d[n] dados os sinais de mixagem descendente Zi, Zr. Os pesos wi,d, wr,d são um exempio para fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída iniciai (por exempio, zi, zr) para o componente de áudio dominante (por exemplo, d[n]). Um método conhecido para derivar esses pesos é a apiicação de um indicador de erro médio quadrático mínimo (MMSE): com Rab a matriz de covariância entre sinais para sinais a e sinais b, e e um parâmetro de regularização.

[048] Pode-se subsequentemente subtrair 49 a estimativa renderizada do sinal de componente dominante d[n] a partir da mixagem binaural anecoica yl,yr para criar uma mixagem binaural residual yl, y r usando HRTFs (HRIRs) Hl,D, Hr,D 50 associada com a direção/posição pD do sinal de componente dominante d:

[049] Por fim, outro conjunto de coeficientes de previsão ou pesos wi,j é estimado 51, o qual permite reconstrução da mixagem binaural residual y l, yr a partir da mixagem estéreo zl, zr usando estimativas de erro quadrático médio mínimo: com Rab sendo a matriz de covariância entre sinais para a representação a e representação b, e e um parâmetro de regularização. Os coeficientes de previsão ou pesos wi,j são um exemplo de coeficientes de matriz residuais para mapear a apresentação de saída inicial (por exemplo, zl, zr) para a estimativa da mixagem binaural residual y l, yr. A expressão acima pode ser submetida a restrições de nível adicionais para superar quaisquer perdas de previsão. O codificador emite as seguinte informações: - A mixagem estéreo zl, zr (incorporando exemplificativamente a apresentação de saída inicial); - Os coeficientes para estimar o componente dominante wl,d, wr,d (incorporando exemplificativamente os fatores de ponderação de componente de áudio dominante); - A posição ou direção do componente dominante pD;

[050] E, opcionalmente, os pesos residuais wi,j (incorporando exemplificativamente os coeficientes de matriz residuais).

[051] Embora a descrição acima refira-se à renderização com base em um único componente dominante, em algumas modalidades, o codificador pode ser adaptado para detectar vários componentes dominantes, determinar pesos e direções para cada um dos vários componentes dominantes, renderizar e subtrair cada um dos vários componentes dominantes da mixagem binaural anecoica Y e, então, determinar os pesos residuais após cada um dos vários componentes dominantes ter sido subtraído da mixagem binaural anecoica Y.

Decodificador/renderizador

[052] A Figura 5 ilustra uma forma de decodificador/renderizador 60 em mais detalhes. O decodificador/renderizador 60 aplica um processo que visa reconstruir a mixagem binaural yl, yr para saída ao ouvinte 71 a partir das informações de entrada desempacotadas zl, zr; wl,d, wr,d; pD; wi,j. Aqui, a mixagem estéreo zl, zr é um exemplo de uma primeira representação de áudio, e os coeficientes de previsão ou pesos wi,j e/ou a direção/posição pD do sinal de componente dominante d são exemplos de dados de transformação de áudio adicionais.

[053] Inicialmente, a mixagem descendente estéreo é dividida em blocos de tempo/frequência usando uma transformada ou banco de filtro adequado 61, tal como o banco de análise HCQMF 61. Outras transformadas, tais como uma transformada de Fourier discreta, transformada de seno ou cosseno (modificada), banco de filtro de tempo-domínio ou transformadas de ondas pequenas, podem ser igualmente aplicadas. Subsequentemente, o sinal de componente dominante estimado d[n] é computado 63 usando pesos de coeficiente de previsão wl,d, wr,d:

[054] O sinal de componente dominante estimado d[n] é um exemplo de um sinal auxiliar. Portanto, pode-se diZer que esta etapa corresponde à criação de um ou mais sinais auxiliares com base na referida primeira representação de áudio e dados de transformação recebidos.

[055] Esse sinal de componente dominante é subsequentemente renderiZado 65 e modificado 68 com HRTFs 69 com base nos dados de posição/direção transmitidos pD, possivelmente modificados (rotacionados) com base em informações obtidas de um monitorador de cabeça 62. Finalmente, a saída binaural anecoica total consiste no sinal de componente dominante renderiZado somado 66 com os residuais reconstruídos yl, y r com base em pesos de coeficiente de previsão wi,j: A saída binaural anecoica total é um exemplo de uma segunda representação de áudio. Portanto, pode-se diZer que essa etapa corresponde à criação de uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e referidos sinais auxiliares, em que um ou mais de referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça.

[056] Deve-se notar ainda que, se as informações sobre mais de um sinal dominante forem recebidas, cada sinal dominante pode ser renderizado e adicionado ao sinal residual reconstruído.

[057] Desde que nenhuma rotação ou translação de cabeça seja aplicada, os sinais de saída yl, yr devem ser muito próximos (em termos de erro quadrático médio de raiz) aos sinais binaurais de referência yl, yr desde que

Propriedades-chave

[058] Como pode ser observado a partir da formulação de equação acima, a operação efetiva para construir a apresentação binaural anecoica a partir da apresentação estéreo consiste em uma matriz 2x2 70, em que os coeficientes de matriz são dependentes das informações transmitidas wl,d, wr,d; pD; wij e rotação e/ou translação do monitorador de cabeça. Isso indica que a complexidade de o processo é relativamente baixa, uma vez que a análise do componente dominantes é aplicada no codificador em vez de no decodificador.

[059] Se nenhum componente dominante for estimado (por exemplo, wl,d, wr,d = 0), a solução descrita é equivalente a um método binaural paramétrico.

[060] EM casos em que se deseja excluir determinados objetos do monitoramento de cabeça/rotação de cabeça, esses objetos podem ser excluídos de (1) análise de direção de componente dominante e (2) previsão de sinal de componente dominante. Como resultado, esses objetos serão convertidos de estéreo em binaural através dos coeficientes wi,j e, portanto, não serão afetados por nenhuma rotação ou translação de cabeça.

[061] Em uma linha de pensamento similar, os objetos podem ser configurados para um modo de ‘passagem’, que significa que, na apresentação binaural, eles serão submetidos à rotação por amplitude em vez de convolução HRIR. Isso pode ser obtido usando simplesmente ganhos de rotação por amplitude para os coeficientes H.,i em vez de HRTFs de um toque ou qualquer outro processamento binaural adequado.

Extensões

[062] As modalidades não são limitadas ao uso de mixagens descendentes estéreo, uma vez que outras contagens de canal também podem ser empregadas.

[063] O decodificador 60 descrito com referência à Figura 5 tem um sinal de saída que consiste em uma direção de componente dominante renderizado mais sinal de entrada matrizado por coeficientes de matriz wi,j. Os últimos coeficientes podem ser derivados de várias formas, por exemplo:

[064] 1. Os coeficientes wi,j podem ser determinados no codificador pode meio de reconstrução paramétrica dos sinais yl, yr. Em outras palavras, nesta implementação, os coeficientes wi,j visam à reconstrução fiel dos sinais binaurais yl, yr que seriam obtidos ao renderizar os objetos/canais de entrada originais de forma binaural; em outras palavras, os coeficientes wi,j são acionados por conteúdo.

[065] 2. Os coeficientes wi,j podem ser enviados do codificador para o decodificador para representar HRTFs para posições espaciais fixas, por exemplo, em ângulos de azimute de +/- 45 graus. Em outras palavras, o sinal residual é processado para simular a reprodução em dois alto-falantes virtuais em determinados locais. Como esses coeficientes representando HRTFs são transmitidos do codificador para o decodificador, os locais dos alto-falantes virtuais podem mudar ao longo do tempo e frequência. Se esta abordagem for empregada usando alto-falantes virtuais estáticos para representar o sinal residual, os coeficientes wi,j não precisam de transmissão do codificador para o decodificador e podem, em vez disso, ser conectados por cabo no decodificador. Uma variação dessa abordagem consistiria em um conjunto limitado de posições estáticas que estão disponíveis no decodificador, com seus coeficientes correspondentes wi,j, e a seleção de qual posição estática é usada para o processamento do sinal residual é sinalizada do codificador para o decodificador.

[066] Os sinais yl, y r podem ser submetidos a um assim chamado mixador ascendente, reconstruindo mais de 2 sinais pode meio de análise estatística desses sinais no decodificador, segui de renderização binaural dos sinais mixados de forma ascendente resultantes.

[067] Os métodos descritos podem também ser aplicados em um sistema em que o sinal transmitido Z é um sinal binaural. Neste caso particular, o decodificador 60 da Figura 5 permanece conforme está, enquanto o bloco rotulado ‘Gerar mixagem estéreo (LoRo)’ 44 na Figura 4 deve ser substituído por ‘Gerar mixagem binaural anecoica’ 43 (A Figura 4) que é o mesmo bloco que produz o par de sinais Y. Adicionalmente, outras formas de mixagem podem ser geradas de acordo com a necessidade.

[068] Essa abordagem pode ser estendida com métodos para reconstruir um ou mais sinal(is) de entrada FDN da mixagem estéreo transmitida que consiste em um subconjunto específico de objetos ou canais.

[069] A abordagem pode ser estendida com vários componentes dominantes sendo previstos a partir da mixagem estéreo transmitida e sendo renderizados no lado do decodificador. Não existe limitação fundamental de previsão de apenas um componente dominante para cada bloco de tempo/frequência. Em particular, o número de componentes dominantes pode diferir em cada bloco de tempo/frequência.

Interpretação

[070] Referência ao longo desta especificação a “uma modalidade” ou “algumas modalidades” significa que um recurso, estrutura ou característica particular descrita em conexão com a modalidade é incluída em pelo menos uma modalidade da presente invenção. Assim, as ocorrências das frases “em uma modalidade” ou “em algumas modalidades” em vários lugares ao longo desta especificação não são necessariamente todas referentes à mesma modalidade, mas podem ser. Além disso, os recursos, estruturas ou características particulares podem ser combinados de qualquer maneira adequada, como seria evidente para um versado na técnica desta divulgação, em uma ou mais modalidades.

[071] Como aqui utilizado, salvo indicação em contrário, o uso dos adjetivos ordinais “primeiro”, “segundo”, “terceiro” etc., para descrever um objeto comum meramente indica que diferentes instâncias de tais objetos são referidas e não se pretende implicar que os objetos assim descritos devam estar em uma sequência determinada, seja temporalmente, espacialmente, em classificação ou de qualquer outra maneira.

[072] Nas reivindicações abaixo e na descrição presente, qualquer um dos termos “compreendendo”, “composto por” ou “que compreende” é um termo aberto que significa incluir pelo menos os elementos/características que seguem, mas não excluindo outros. Assim, o termo “compreendendo”, quando usado nas reivindicações, não deve ser interpretado como sendo limitativo aos meios ou elementos ou etapas listados a seguir. Por exemplo, o escopo da expressão “um dispositivo compreendendo A e B” não deve ser limitado a dispositivos que compreendem apenas os elementos A e B. Qualquer um dos termos “incluindo” ou “que inclui”, como aqui utilizado, também é um termo aberto que também significa incluindo pelo menos os elementos/características que seguem o termo, mas não excluindo outros. Assim, “incluindo” é sinônimo e significa “compreendendo”.

[073] Como aqui utilizado, o termo “exemplificativo” é usado no sentido de fornecer exemplos, em oposição a indicar qualidade. Ou seja, uma “modalidade exemplificativa” é uma modalidade fornecida como um exemplo, ao contrário de ser necessariamente uma modalidade de qualidade exemplar.

[074] Deve ser apreciado que, na descrição acima de modalidades exemplificativas da invenção, várias características da invenção são, às vezes, agrupadas em uma única modalidade, figura ou descrição da mesma para o propósito de simplificar a divulgação e auxiliar no entendimento de um ou mais dos vários aspectos da invenção. Este método de divulgação, no entanto, não deve ser interpretado como refletindo a intenção de que a invenção reivindicada requer mais recursos do que aqueles expressamente recitados em cada reivindicação. Em vez disso, como as seguintes afirmações refletem, os aspectos da invenção estão em menos de todos os recursos de uma única modalidade divulgada anteriormente. Assim, as reivindicações seguintes à Descrição Detalhada são expressamente incorporadas nesta Descrição Detalhada, com cada reivindicação permanecendo por si só como uma modalidade separada desta invenção.

[075] Além disso, embora algumas modalidades aqui descritas incluam algumas, mas não outras características incluídas em outras modalidades, combinações de características de diferentes modalidades devem estar dentro do escopo da invenção, e formar modalidades diferentes, como seria entendido pelos versados na técnica. Por exemplo, nas seguintes reivindicações, qualquer uma das modalidades reivindicadas pode ser usada em qualquer combinação.

[076] Além disso, algumas das modalidades são descritas aqui como um método ou combinação de elementos de um método que pode ser implementado por um processador de um sistema de computador ou por outros meios de realizar a função. Assim, um processador com as instruções necessárias para executar tal método ou elemento de um método constitui um meio para executar o método ou elemento de um método. Além disso, um elemento aqui descrito de uma modalidade de aparelho é um exemplo de um meio para executar a função desempenhada pelo elemento com o propósito de realizar a invenção.

[077] Na descrição aqui fornecida, vários detalhes específicos são estabelecidos. No entanto, entende-se que as modalidades podem ser praticadas sem esses detalhes específicos. Em outros casos, métodos, estruturas e técnicas bem conhecidos não foram mostrados em detalhes para não obscurecer um entendimento desta descrição.

[078] Da mesma forma, deve-se notar que o termo acoplado, quando usado nas reivindicações, não deve ser interpretado como sendo limitado apenas a conexões diretas. Os termos “acoplado” e “conectado”, juntamente com seus derivados, podem ser utilizados. Deve ser entendido que esses termos não são entendidos como sinônimos uns dos outros. Dessa forma, o escopo da expressão “um dispositivo A acoplado a um dispositivo B” não deve ser limitado a dispositivos ou sistemas em que uma saída do dispositivo A é diretamente conectada a uma entrada do dispositivo B. Isso significa que existe um percurso entre uma saída de A e uma entrada de B que pode ser um percurso incluindo outros dispositivos ou meios. “Acoplado” pode significar que dois ou mais elementos estão em contato físico ou elétrico direto, ou que dois ou mais elementos não estão em contato direto entre si, mas ainda assim cooperam ou interagem entre si.

[079] Assim, embora tenham sido descritas modalidades da invenção, os versados na técnica reconhecerão que outras modificações ainda podem ser feitas a sem se afastar do espírito da invenção, e pretende-se reivindicar todas essas mudanças e modificações como pertencentes ao escopo da invenção. Por exemplo, quaisquer fórmulas dadas acima são meramente representativas de procedimentos que podem ser utilizados. Funcionalidade pode ser adicionada ou excluída dos diagramas de bloco e operações podem ser trocadas entre blocos funcionais. Etapas podem ser adicionadas ou excluídas dos métodos descritos dentro do escopo da presente invenção.

[080] Vários aspectos da presente invenção podem ser apreciados a partir as seguintes modalidades exemplificativas enumeradas (EEESs):

[081] EEE 1. Um método de codificação áudio de entrada com base em objeto ou canal para reprodução, o método incluindo as etapas de: (a) inicialmente renderizar o áudio de entrada com base em objeto ou canal em uma apresentação de saída inicial; (b) determinar uma estimativa do componente de áudio dominante a partir do áudio de entrada com base em objeto ou canal e determinar uma série de fatores de ponderação de componente de áudio dominante para mapear a apresentação de saída inicial no componente de áudio dominante; (c) determinar uma estimativa da posição ou direção do componente de áudio dominante; e (d) codificar a apresentação de saída inicial, os fatores de ponderação de componente de áudio dominante, a posição ou direção do componente de áudio dominante como o sinal codificado para reprodução.

[082] EEE 2. O método da EEE 1, ainda compreendendo determinar uma estimativa de uma mixagem residual sendo a apresentação de saída inicial menos uma renderização do componente de áudio dominante ou sua estimativa.

[083] EEE 3. O método da EEE 1, ainda compreendendo gerar uma mixagem binaural anecoica do áudio de entrada com base em objeto ou canal e determinar uma estimativa de uma mixagem residual, em que a estimativa da mixagem residual é a mixagem binaural anecoica menos uma renderização do componente de áudio dominante ou sua estimativa.

[084] EEE 4. O método da EEE 2 ou 3, ainda compreendendo determinar uma série de coeficientes de matriz residuais para mapear a apresentação de saída inicial para a estimativa da mixagem residual.

[085] EEE 5. O método de qualquer EEE anterior, em que a referida apresentação de saída inicial compreende uma apresentação de alto-falante ou fone de ouvido.

[086] EEE 6. O método de qualquer EEE anterior, em que o referido áudio de entrada com base em objeto ou canal é em bloco de tempo e frequência e a referida etapa de codificação é repetida por uma série de etapas de tempo e uma série de bandas de frequência.

[087] EEE 7. O método de qualquer EEE anterior, em que a referida apresentação de saída inicial compreende uma mixagem de alto-falante estéreo.

[088] EEE 8. Um método de decodificação de um sinal de áudio codificado, o sinal de áudio codificado incluindo: - uma primeira apresentação de saída; - uma direção de componente de áudio dominante e fatores de ponderação de componente de áudio dominante; o método compreendendo as etapas de: (a) utilizar os fatores de ponderação de componente de áudio dominante e apresentação de saída inicial para determinar um componente dominante estimado; (b) renderizar o componente dominante estimado com uma binauralização em um local espacial em relação a um ouvinte pretendido de acordo com a direção do componente de áudio dominante para formar um componente dominante estimado binauralizado renderizado; (c) reconstruir uma estimativa de componente residual a partir da primeira apresentação de saída; e (d) combinar o componente dominante estimado binauralizado renderizado e a estimativa de componente residual para formar um sinal codificado de áudio espacializado de saída.

[089] EEE 9. O método da EEE 8, em que o referido sinal de áudio codificado ainda inclui uma série de coeficientes de matriz residuais representando um sinal de áudio residual e a referida etapa (c) ainda compreende: (c1) aplicar os referidos coeficientes de matriz residuais à primeira apresentação de saída para reconstruir a estimativa de componente residual.

[090] EEE 10. O método da EEE 8, em que a estimativa de componente residual é reconstruída subtraindo o componente dominante estimado binauralizado renderizado a partir da primeira apresentação de saída.

[091] EEE 11. O método da EEE 8, em que a referida etapa (b) inclui uma rotação inicial do componente dominante estimado de acordo com um sinal de monitoramento de cabeça de entrada indicando a orientação da cabeça de um ouvinte pretendido.

[092] EEE 12. Um método para decodificação e reprodução de um fluxo de áudio para um ouvinte usando alto-falantes, o método compreendendo: (e) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (f) receber dados de orientação de cabeça representando a orientação do ouvinte; (g) criar um ou mais sinais auxiliares com base na referida primeira representação de áudio e dados de transformação recebidos; (h) criar uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e referidos sinais auxiliares, em que um ou mais de referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça; e (i) emitir a segunda representação de áudio como um fluxo de áudio de saída.

[093] EEE 13. Um método, de acordo com a EEE 12, em que a modificação dos sinais auxiliares consiste em uma simulação do percurso acústico de uma posição de fonte sonora para as orelhas do ouvinte.

[094] EEE 14. Um método, de acordo com a EEE 12 ou 13, em que os referidos dados de transformação consistem em coeficientes de matrizes e pelo menos uma de: uma posição de fonte sonora ou direção de fonte sonora.

[095] EEE 15. Um método, de acordo com qualquer uma das EEEs 12 a 14, em que o processo de transformação é aplicado como uma função de tempo ou frequência.

[096] EEE 16. Um método, de acordo com qualquer uma das EEEs 12 a 15, em que os sinais auxiliares representam pelo menos um componente dominante.

[097] EEE 17. Um método, de acordo com qualquer uma das EEEs 12 a 16, em que a direção ou posição de fonte sonora recebida como parte dos dados de transformação é rotacionada em resposta aos dados de orientação da cabeça.

[098] EEE 18. Um método, de acordo com a EEE 17, em que a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação.

[099] EEE 19. Um método, de acordo com qualquer uma das EEEs 12 a 18, em que a representação secundária é obtida da primeira representação por matrização em um domínio de banco de filtro ou transformada.

[0100] EEE 20. Um método, de acordo com qualquer uma das EEEs 12 a 19, em que os dados de transformação ainda compreendem coeficientes de matrizes adicionais, e a etapa (d) ainda compreende modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es).

[0101] EEE 21. Um aparelho, compreendendo um ou mais dispositivos, configurado para executar o método de qualquer uma das EEEs 1 a 20.

[0102] EEE 22. Um meio de armazenamento legível por computador compreendendo um programa de instruções que, quando executado por um ou mais processadores, fazem com que um ou mais dispositivos executem o método de qualquer uma das EEEs 1 a 20.

Claims

1. Método para decodificar e reproduzir um fluxo de áudio para um ouvinte usando alto-falantes, CARACTERIZADO pelo fato de que compreende: (a) receber um fluxo de dados contendo uma primeira representação de áudio e dados de transformação de áudio adicionais; (b) receber dados de orientação de cabeça representando a orientação do ouvinte; (c) criar um ou mais sinais auxiliares com base na referida primeira representação de áudio e em dados de transformação recebidos; (d) criar uma segunda representação de áudio consistindo em uma combinação da referida primeira representação de áudio e dos referidos sinais auxiliares, na qual um ou mais dos referidos sinais auxiliares foram modificados em resposta aos referidos dados de orientação de cabeça; e (e) emitir a segunda representação de áudio como um fluxo de áudio de saída.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que modificar os sinais auxiliares consiste em uma simulação do percurso acústico a partir de uma posição de fonte sonora até as orelhas do ouvinte.

3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que os referidos dados de transformação consistem em coeficientes de matrizes e pelo menos uma dentre: uma posição de fonte sonora ou direção de fonte sonora.

4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que o processo de transformação é aplicado como uma função de tempo ou frequência.

5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que os sinais auxiliares representam pelo menos um componente dominante.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO pelo fato de que a direção ou posição de fonte sonora recebida como parte dos dados de transformação é rotacionada em resposta aos dados de orientação de cabeça.

7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que a quantidade máxima de rotação é limitada a um valor inferior a 360 graus em azimute ou elevação.

8. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que a representação secundária é obtida a partir da primeira representação por matrização em um domínio de banco de filtro ou transformada.

9. Método, de acordo com qualquer uma das reivindicações 1 a 8, CARACTERIZADO pelo fato de que os dados de transformação compreendem ainda coeficientes de matrizes adicionais, e a etapa (d) compreende ainda modificar a primeira apresentação de áudio em resposta aos coeficientes de matrizes adicionais antes de combinar a primeira apresentação de áudio e o(s) sinal(is) de áudio auxiliar(es)..