BR112016005956B1

BR112016005956B1 - Método e aparelho para processar um sinal de multimídia

Info

Publication number: BR112016005956B1
Application number: BR112016005956-5A
Authority: BR
Inventors: Hyunoh Ho; Taegyu Lee
Original assignee: Gcoa Co., Ltd.; Wilus Institute Of Standards And Technology Inc
Priority date: 2013-09-17
Filing date: 2014-09-17
Publication date: 2022-06-07
Also published as: US20200021936A1; EP3767970A1; US9584943B2; EP3048814B1; CA3194257A1; US10469969B2; EP3048815B1; US10455346B2; US11622218B2; US9578437B2; CA2924458A1; CN105706467A; EP3048815A1; EP3048816A1; US20160249149A1; US20180227692A1; CN105706467B; EP3048814A1; EP3048816B1; US9961469B2

Abstract

MÉTODO E APARELHO PARA PROCESSAMENTO DE SINAIS DE MULTIMÍDIA. A presente invenção refere-se a um método e a um aparelho destinados ao processamento de um sinal, que são usados para reproduzir efetivamente um sinal de multimídia, e, mais particularmente, a um método e a um aparelho destinados ao processamento de um sinal, que são usados para implementar filtragem para sinais de multimídia tendo uma pluralidade de sub-bandas com uma baixa quantidade de cálculos. Nesse sentido, proporcionam-se um método para processamento de um sinal de multimídia que inclui: receber um sinal de multimídia tendo uma pluralidade de sub-bandas; receber pelo menos um dos coeficientes de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia; converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda; truncar cada um dos coeficientes de filtro de sub-banda com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro (...).

Description

REFERÊNCIA REMISSIVA AOS PEDIDOS DE DEPÓSITO CORRELATOS

[001]Este pedido reivindica prioridade e o benefício ao Pedido Provisório no U.S. 61/878.638 depositado no Escritório de Marcas e Patentes dos Estados Unidos em 17 de setembro de 2013, ao Pedido de Patente no KR 10-2013-0125936 depositado no Escritório de Propriedade Intelectual Coreano em 22 de outubro de 2013 e ao Pedido Provisório no U.S. 61/894.442 depositado no Escritório de Marcas e Patentes dos Estados Unidos em 23 de outubro de 2013, estando os conteúdos das mesmas aqui incorporados em suas totalidades a título de referência.

CAMPO DA TÉCNICA

[002]A presente invenção refere-se a um método e a um aparelho destinados ao processamento de um sinal, que são usados para reproduzir efetivamente um sinal de multimídia, e, mais particularmente, a um método e a um aparelho destinados ao processamento de um sinal, que são usados para implementar filtragem para sinais de multimídia tendo uma pluralidade de sub-bandas com uma baixa quantidade de cálculos.

FUNDAMENTOS DA TÉCNICA

[003]Há um problema em que uma renderização binaural para escutar sinais de múltiplos canais em estéreo requer uma alta complexidade computacional à medida que o comprimento de um filtro alvo aumenta. Em particular, quando um filtro de resposta de impulso em ambiente binaural (BRIR) refletido com características de um ambiente de gravação for usado, o comprimento do filtro de BRIR pode alcançar 48.000 a 96.000 amostras. No presente documento, quando o número de canais de entrada aumentar como um formato de canal 22.2, a complexidade computacional é enorme.

[004]Quando um sinal de entrada de um i-ésimo canal for representado por

, filtros de BRIR esquerdo e direito do canal correspondente são representados por

respectivamente, e os sinais de saída são representados por

uma filtragem binaural pode ser expressa por uma equação dada abaixo. [Equação 1]

[005]No presente documento, * representa uma convolução. A convolução de domínio de tempo acima é geralmente realizada utilizando-se uma convolução rápida com base em uma Transformada Rápida de Fourier (FFT). Quando a renderização binaural for realizada utilizando-se a convolução rápida, a FFT precisa ser realizada pelo número de vezes correspondente ao número de canais de entrada, e a FFT inversa precisa ser realizada pelo número de vezes correspondente ao número de canais de saída. Ademais, visto que um retardo precisa ser considerado sob um ambiente de reprodução em tempo real, como um codec de áudio de múltiplos canais, uma convolução rápida em blocos precisa ser realizada, e pode-se consumir uma complexidade computacional maior que um caso em que a convolução rápida é realizada somente em relação a um comprimento total.

[006]No entanto, a maioria dos esquemas de codificação é obtida em um domínio de frequência, e em alguns esquemas de codificação (por exemplo, HE- AAC, USAC, e similares), uma última etapa de um processo de decodificação é realizada em um domínio de QMF. De modo correspondente, quando a filtragem binaural for realizada no domínio de tempo conforme mostrado na Equação 1 dada acima, uma operação para síntese de QMF é adicionalmente requerida tanto quando o número de canais, que é bastante ineficaz. Portanto, é vantajoso que a renderização binaural seja diretamente realizada no domínio de QMF.

REVELAÇÃO PROBLEMA DA TÉCNICA

[007]A presente invenção tem um objetivo, em relação à reprodução de sinais de múltiplos canais ou múltiplos objetos em estéreo, para implementar um processo de filtragem, que requer uma alta complexidade computacional, de renderização binaural para reservar uma percepção imersiva de sinais originais com complexidade muito baixa enquanto minimiza a perda de qualidade sonora.

[008]Adicionalmente, a presente invenção tem por objetivo minimizar a dispersão de distorção utilizando-se um filtro de alta qualidade quando uma distorção estiver contida no sinal de entrada.

[009]Adicionalmente, a presente invenção tem por objetivo implementar um filtro de resposta de impulso finito (FIR) que tenha um comprimento longo com um filtro que tenha um comprimento mais curto.

[010]Adicionalmente, a presente invenção tem por objetivo minimizar as distorções de porções destruídas por coeficientes de filtro descartados, ao realizar a filtragem utilizando-se o filtro de FIR truncado.

SOLUÇÃO TÉCNICA

[011]Com o intuito de alcançar os objetivos, a presente invenção proporciona um método e um aparelho para processar um sinal de áudio conforme abaixo.

[012]Uma modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos; receber coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios, sendo que os comprimentos dos coeficientes de filtro de subbanda truncados são determinados com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e o comprimento de pelo menos um coeficiente de filtro de sub-banda truncado é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e filtrar o sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados correspondentes a cada sinal de sub-banda dos sinais de múltiplos áudios.

[013]Outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que os sinais de múltiplos áudios incluem uma pluralidade de sinais de sub-banda, incluindo: uma unidade de convolução rápida configurada para realizar uma renderização de parte sonora direta e parte sonora de reflexões precoces para cada sinal de sub-banda; e uma unidade de geração de reverberação tardia configurada para realizar uma renderização de uma parte de reverberação tardia para cada sinal de sub-banda, em que a unidade de convolução rápida recebe coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma parte dos coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios, sendo que os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de subbanda truncados de outra sub-banda, e filtra o sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados correspondentes a cada sinal de subbanda dos sinais de múltiplos áudios.

[014]As informações características podem incluir primeiras informações de tempo de reverberação dos coeficientes de filtro de sub-banda correspondentes, e as informações de ordem de filtro podem ter um valor para cada sub-banda.

[015]O comprimento do filtro de sub-banda truncado pode ter um valor de um múltiplo da potência de 2.

[016]A pluralidade de coeficientes de filtro de sub-banda e a pluralidade de sinais de sub-banda podem incluir um primeiro grupo de sub-banda tendo baixas frequências de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, respectivamente, e a filtragem é realizada em relação aos coeficientes de filtro de sub-banda truncados e aos sinais de sub-banda do primeiro grupo de sub-banda.

[017]A filtragem é realizada utilizando-se coeficientes de filtro de sub-banda dianteiro truncados com base pelo menos em parte nas primeiras informações de tempo de reverberação dos coeficientes de filtro de sub-banda correspondentes, e o método pode incluir, ainda, processar a reverberação do sinal de sub-banda correspondente a uma zona que segue os coeficientes de filtro de sub-banda dianteiro dentre os coeficientes de filtro de sub-banda.

[018]O processamento da reverberação pode incluir: receber coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda, sendo que os coeficientes de filtro de sub-banda de mixagem descendente são gerados combinando-se os respectivos coeficientes de filtro de sub-banda traseiro para cada canal ou cada objeto da sub-banda correspondente, e os coeficientes de filtro de sub-banda traseiro são obtidos a partir da zona que segue os coeficientes de filtro de sub-banda dianteiro dentre os coeficientes de filtro de sub-banda correspondentes; gerar a sinal de sub-banda de mixagem descendente para cada sub-banda, sendo que o sinal de sub-banda de mixagem descendente é gerado mixando-se descendentemente os respectivos sinais de sub-banda para cada canal de cada objeto da sub-banda correspondente; e gerar sinais de reverberação de sub-banda esquerda e direita de 2 canais utilizando-se o sinal de sub-banda de mixagem descendente e os coeficientes de filtro de sub-banda de mixagem descendente correspondentes ao mesmo.

[019]O método pode incluir, ainda, em que o sinal de sub-banda de mixagem descendente é um sinal de sub-banda mono, e os coeficientes de filtro de sub-banda de mixagem descendente refletir uma característica de recaimento de energia de uma parte de reverberação para o sinal de sub-banda correspondente, gerar um sinal de descorrelação para o sinal de sub-banda mono filtrado; e gerar sinais de 2 canais esquerdos e direitos realizando-se uma soma ponderada entre o sinal de sub-banda mono filtrado e o sinal de descorrelação.

[020]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio, que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de subbanda, e a pluralidade de sinais de sub-banda inclui um sinal de um primeiro grupo de sub-banda tendo baixas frequências e um sinal de um segundo grupo de subbanda tendo altas frequências com base em uma banda de frequência predeterminada; receber pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de sub-banda de resposta de impulso em ambiente binaural (BRIR) correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda; e realizar uma filtragem de linha de retardo com derivações do sinal de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.

[021]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de sub-banda, e a pluralidade de sinais de sub-banda inclui um sinal de um primeiro grupo de sub-banda tendo baixas frequências e um sinal de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, incluindo: uma unidade de convolução rápida configurada para realizar uma renderização de cada sinal de subbanda do primeiro grupo de sub-banda; e uma unidade de processamento de linha de retardo com derivações configurada para realizar a renderização de cada sinal de sub-banda do segundo grupo de sub-banda, em que a unidade de processamento de linha de retardo com derivações recebe pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de subbanda de resposta de impulso em ambiente binaural (BRIR) correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda, e realiza uma filtragem de linha de retardo com derivações do sinal de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.

[022]O parâmetro pode incluir informações de retardo para os coeficientes de filtro de sub-banda de BRIR correspondentes e informações de ganho correspondentes às informações de retardo.

[023]A filtragem de linha de retardo com derivações pode ser uma filtragem de linha de retardo de derivação única usando o parâmetro.

[024]As informações de retardo podem incluir informações posicionais para um pico máximo nos coeficientes de filtro de sub-banda de BRIR.

[025]As informações de retardo podem ter um valor inteiro baseado em amostra em um domínio de QMF. As informações de ganho podem ter um valor complexo.

[026]O método pode incluir, ainda: somar os sinais de múltiplos áudios filtrados aos sinais de sub-banda esquerdo e direito de 2 canais para cada sub-banda; acoplar os sinais de sub-banda esquerdo e direito somados com sinais de sub-banda esquerdo e direito gerados a partir dos sinais de múltiplos áudios do primeiro grupo de sub-banda; e sintetizar por QMF os respectivos sinais de sub-banda esquerdo e direito acoplados.

[027]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de multimídia, que inclui: receber um sinal de multimídia tendo uma pluralidade de sub-bandas; receber pelo menos um coeficiente de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia; converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda; truncar cada um dos coeficientes de filtro de subbanda com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e filtrar o sinal de multimídia utilizando-se os coeficientes de filtro de sub-banda truncados correspondente a cada sinal de sub-banda.

[028]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de multimídia tendo uma pluralidade de sub-bandas, que inclui: uma unidade de parametrização configurada para receber pelo menos um coeficiente de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia, converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda, e truncar cada um dos coeficientes de filtro de sub-banda com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e uma unidade de renderização configurada para receber o sinal de multimídia e filtrar o sinal de multimídia utilizando-se os coeficientes de filtro de subbanda truncados correspondentes a cada sinal de sub-banda.

[029]O sinal de multimídia pode incluir sinais de múltiplos canais ou múltiplos objetos, e os coeficientes de filtro de protótipo podem ser coeficientes de filtro de BRIR de um domínio de tempo.

[030]As informações características podem incluir informações de tempo de decaimento de energia dos coeficientes de filtro de sub-banda correspondentes, e as informações de ordem de filtro podem ter um valor para cada sub-banda.

[031]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio, que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de subbanda e a pluralidade de sinais de sub-banda inclui sinais de um primeiro grupo de sub-banda tendo baixas frequências e sinais de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada; receber coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios do primeiro grupo de sub-banda, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda do primeiro grupo de sub-banda obtidos a partir dos coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios e os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes; filtrar sinais de sub-banda do primeiro grupo de sub-banda usando os coeficientes de filtro de sub-banda truncados; receber pelo menos um parâmetro correspondente a cada sinal de subbanda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído dos coeficientes de filtro de sub-banda correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda; e realizar uma filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.

[032]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que os sinais de múltiplos áudios incluem uma pluralidade de sinais de sub-banda e a pluralidade de sinais de sub-banda inclui sinais de um primeiro grupo de sub-banda tendo baixas frequências e sinais de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, que inclui: uma unidade de convolução rápida que realiza uma renderização de cada sinal de sub-banda do primeiro grupo de sub-banda; e uma unidade de processamento de linha de retardo com derivações que realiza uma renderização de cada sinal de sub-banda do segundo grupo de subbanda, em que a unidade de convolução rápida recebe coeficientes de filtro de subbanda truncados para filtrar os sinais de múltiplos áudios do primeiro grupo de subbanda, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios do primeiro grupo de sub-banda, sendo que os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e filtra o sinal de sub-banda do primeiro grupo de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados, e a unidade de processamento de linha de retardo com derivações recebe pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de subbanda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de sub-banda correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, e realiza uma filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.

[033]O método pode incluir, ainda, acoplar sinais de sub-banda esquerdo e direito de 2 canais gerados filtrando-se os sinais de sub-banda do primeiro grupo de sub-banda e os sinais de sub-banda esquerdo e direito de 2 canais gerados por filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda; e sintetizar por QMF os respectivos sinais de sub-banda esquerdo e direito acoplados.

EFEITOS VANTAJOSOS

[034]De acordo com as modalidades exemplificadoras da presente invenção, quando uma renderização binaural para sinais de múltiplos canais ou múltiplos objetos for realizada, é possível reduzir consideravelmente uma complexidade computacional enquanto minimiza a perda de qualidade sonora.

[035]De acordo com as modalidades exemplificadoras da presente invenção, é possível alcançar uma renderização binaural de alta qualidade sonora para sinais de áudio de múltiplos canais ou múltiplos objetos cujo processamento em tempo real se tornou indisponível no dispositivo de potência baixa existente.

DESCRIÇÃO DOS DESENHOS

[036]A Figura 1 é um diagrama de blocos que ilustra um decodificador de sinal de áudio de acordo com uma modalidade exemplificadora da presente invenção.

[037]A Figura 2 é um diagrama de blocos que ilustra cada componente d um renderizador binaural de acordo com uma modalidade exemplificadora da presente invenção.

[038]As Figuras 3 a 7 são diagramas que ilustram várias modalidades exemplificadoras de um aparelho para processamento de um sinal de áudio de acordo com a presente invenção.

[039]As Figuras 8 a 10 são diagramas que ilustram métodos para gerar um filtro de FIR para renderização binaural de acordo com as modalidades exemplificadoras da presente invenção.

[040]As Figuras 11 a 14 são diagramas que ilustram várias modalidades exemplificadoras de uma unidade de renderização de parte P da presente invenção.

[041]As Figuras 15 e 16 são diagramas que ilustram várias modalidades exemplificadoras do processamento de QTDL da presente invenção.

MELHOR MODO

[042]Conforme o uso em questão no relatório descritivo, selecionam-se termos genéricos que são atualmente amplamente usados como possível considerando-se funções na presente invenção, mas podem ser alterados dependendo das intenções dos indivíduos versados na técnica, hábitos, ou a aparência de uma nova tecnologia. Ademais, em um caso específico, os termos arbitrariamente selecionados por um requerente podem ser usados e nesse caso, significados desses são descritos na parte da descrição correspondente da presente invenção. Posteriormente, revelar-se-á que os termos usados nos relatórios descritivos devem ser analisados com base não somente em nomes dos termos, mas significados substanciais dos termos e conteúdos ao longo do relatório descritivo.

[043]A Figura 1 é um diagrama de blocos que ilustra um decodificador de sinal de áudio de acordo com uma modalidade exemplificadora da presente invenção. O decodificador de sinal de áudio de acordo com a presente invenção inclui um decodificador de núcleo 10, uma unidade de renderização 20, um mixador 30 e uma unidade de pós-processamento 40.

[044]Primeiramente, o decodificador de núcleo 10 decodifica sinais de canal de alto-falante, sinais de objeto discreto, sinais de mixagem descendente de objeto e sinais pré-renderizados. De acordo com uma modalidade exemplificadora, no decodificador de núcleo 10, pode-se usar um codec baseado em codificação unificada de diálogo e áudio (USAC). O decodificador de núcleo 10 decodifica um fluxo de bits recebido e transfere o fluxo de bits decodificado à unidade de renderização 20.

[045]A unidade de renderização 20 realiza uma renderização de sinais decodificados pelo decodificador de núcleo 10 utilizando-se informações de layout de reprodução. A unidade de renderização 20 pode incluir um conversor de formato 22, um renderizador de objeto 24, um decodificador de OAM 25, um decodificador de SAOC 26 e um decodificador de HOA 28. A unidade de renderização 20 realiza uma renderização utilizando-se qualquer um dentre os componentes anteriores de acordo com o tipo de sinal decodificado.

[046]O conversor de formato 22 converte sinais de canal transmitidos em sinais de canal de alto-falante de saída. Ou seja, o conversor de formato 22 realiza uma conversão entre uma configuração de canal transmitido e uma configuração de canal de alto-falante a ser reproduzida. Quando o número (por exemplo, 5.1 canais) de canais de alto-falante de saída for menor que o número (por exemplo, 22.2 canais) de canais transmitidos ou quando a configuração de canal transmitido for diferente da configuração de canal a ser reproduzida, o conversor de formato 22 realiza uma mixagem descendente dos sinais de canal transmitidos. O decodificador de sinal de áudio da presente invenção pode gerar uma matriz de mixagem descendente ótima utilizando-se uma combinação dos sinais de canal de entrada e dos sinais de canal de alto-falante de saída e realiza a mixagem descendente utilizando-se a matriz. De acordo com a modalidade exemplificadora da presente invenção, os sinais de canal processados pelo conversor de formato 22 podem incluir sinais de objeto pré-renderizados. De acordo com uma modalidade exemplificadora, pelo menos um sinal de objeto é pré-renderizado antes de codificar o sinal de áudio a ser mixado com os sinais de canal. O sinal de objeto mixado conforme descrito anteriormente pode ser convertido em um sinal de canal de alto- falante de saída pelo conversor de formato 22 junto aos sinais de canal.

[047]O renderizador de objeto 24 e o decodificador de SAOC 26 realizam uma renderização para um sinal de áudio baseado em objeto. O sinal de áudio baseado em objeto pode incluir uma forma de onda discreta de objeto e uma forma de onda paramétrica de objeto. No caso da forma de onda discreta de objeto, cada um dos sinais de objeto é proporcionado a um codificador em uma forma de onda monofônica, e o codificador transmite cada um dos sinais de objeto utilizando-se elementos de canal único (SCEs). No caso da forma de onda paramétrica de objeto, uma pluralidade de sinais de objeto é mixada descendentemente a pelo menos um sinal de canal, e um recurso de cada objeto e a relação entre os objetos são expressos como um parâmetro de codificação de objeto de áudio espacial (SAOC). Os sinais de objeto são mixados descendentemente a serem codificados ao codec de núcleo e as informações paramétricas geradas nesse momento são transmitidas a um decodificador juntas.

[048]Entretanto, quando a forma de onda discreta de objeto ou a forma de onda paramétrica de objeto for transmitida a um decodificador de sinal de áudio, metadados de objeto compactados correspondentes às mesmas podem ser transmitidos juntos. Os metadados de objeto quantizam um atributo de objeto pelas unidades de um tempo e de um espaço para designar uma posição e um valor de ganho de cada objeto em espaço 3D. O decodificador de OAM 25 da unidade de renderização 20 recebe os metadados de objeto compactados e decodifica os metadados de objeto recebidos, e transfere os metadados de objeto decodificados ao renderizador de objeto 24 e/ou ao decodificador de SAOC 26.

[049]O renderizador de objeto 24 realiza uma renderização em cada sinal de objeto de acordo com um dado formato de reprodução utilizando-se os metadados de objeto. Nesse caso, cada sinal de objeto pode ser renderizado aos canais de saída específicos com base nos metadados de objeto. O decodificador de SAOC 26 restaura o sinal de objeto/canal a partir dos canais de transmissão de SAOC decodificados e das informações paramétricas. O decodificador de SAOC 26 pode gerar um sinal de áudio de saída com base nas informações de layout de reprodução e nos metadados de objeto. Como tal, o renderizador de objeto 24 e o decodificador de SAOC 26 podem renderizar o sinal de objeto ao sinal de canal.

[050]O decodificador de HOA 28 recebe sinais de coeficiente de Ambisonics de Ordem Superior (HOA) e informações adicionais de HOA e decodifica os sinais de coeficiente de HOA recebidos e as informações adicionais de HOA. O decodificador de HOA 28 modela os sinais de canal ou os sinais de objeto por uma equação separada para gerar uma cena sonora. Quando uma localização espacial de um alto-falante na cena sonora gerada for selecionada, pode-se realizar a renderização aos sinais de canal de alto-falante.

[051]Entretanto, embora não ilustrado na Figura 1, quando o sinal de áudio for transferido a cada componente da unidade de renderização 20, pode-se realizar um controle de faixa dinâmica (DRC) como um processo de pré-processamento. O DRC limita uma faixa dinâmica do sinal de áudio reproduzido a um nível predeterminado e ajusta um som, que seja menor que um limiar predeterminado, como sendo maior e um som, que seja maior que o limiar predeterminado, como sendo menor.

[052]Um sinal de áudio baseado em canal e o sinal de áudio baseado em objeto, que são processados pela unidade de renderização 20, são transferidos ao mixador 30. O mixador 30 ajusta os retardos de uma forma de onda baseada em canal e uma forma de onda de objeto renderizado, e soma as formas de onda ajustadas pela unidade e uma amostra. Os sinais de áudios somados pelo mixador 30 são transferidos à unidade de pós-processamento 40.

[053]A unidade de pós-processamento 40 inclui um renderizador de alto- falante 100 e um renderizador binaural 200. O renderizador de alto-falante 100 realiza um pós-processamento para emitir os sinais de áudio de múltiplos canais e/ou múltiplos objetos transferidos a partir do mixador 30. O pós-processamento pode incluir o controle de faixa dinâmica (DRC), a normalização de intensidade sonora (LN), um limitador de pico (PL), e similares.

[054]O renderizador binaural 200 gera um sinal de mixagem descendente binaural dos sinais de áudio de múltiplos canais e/ou múltiplos objetos. O sinal de mixagem descendente binaural é um sinal de áudio de 2 canais que permite que cada sinal de canal/objeto de entrada seja expresso por uma fonte sonora virtual posicionada em 3D. O renderizador binaural 200 pode receber o sinal de áudio proporcionado ao renderizador de alto-falante 100 como um sinal de entrada. A renderização binaural pode ser realizada com base em filtros de resposta de impulso em ambiente binaural (BRIR) e realizada em um domínio de tempo ou um domínio de QMF. De acordo com uma modalidade exemplificadora, como um processo de pós-processamento da renderização binaural, o controle de faixa dinâmica (DRC), a normalização de intensidade sonora (LN), o limitador de pico (PL), e similares, podem ser adicionalmente realizados.

[055]A Figura 2 é um diagrama de blocos que ilustra cada componente de um renderizador binaural de acordo com uma modalidade exemplificadora da presente invenção. Conforme ilustrado na Figura 2, o renderizador binaural 200 de acordo com a modalidade exemplificadora da presente invenção pode incluir uma unidade de parametrização de BRIR 210, uma unidade de convolução rápida 230, uma unidade de geração de reverberação tardia 240, uma unidade de processamento de QTDL 250 e um mixador e combinador 260.

[056]O renderizador binaural 200 gera um sinal de fone de ouvido de áudio 3D (ou seja, um sinal de 2 canais de áudio) realizando-se uma renderização binaural de vários tipos de sinais de entrada. Nesse caso, o sinal de entrada pode ser um sinal de áudio incluindo pelo menos um dos sinais de canal (ou seja, os sinais de canal de alto-falante), os sinais de objeto e os sinais de coeficiente de HOA. De acordo com outra modalidade exemplificadora da presente invenção, quando o renderizador binaural 200 incluir um decodificador particular, o sinal de entrada pode ser um fluxo de bits codificado do sinal de áudio supramencionado. A renderização binaural converte o sinal de entrada decodificado no sinal de mixagem descendente binaural de modo a tornar possível experimentar um som surround no momento de escutar o sinal de mixagem descendente binaural correspondente através de um fone de ouvido.

[057]De acordo com a modalidade exemplificadora da presente invenção, o renderizador binaural 200 pode realizar a renderização binaural do sinal de entrada no domínio de QMF. Isto é, o renderizador binaural 200 pode receber sinais de múltiplos canais (N canais) do domínio de QMF e realizar a renderização binaural para os sinais dos múltiplos canais utilizando-se um filtro de sub-banda de BRIR do domínio de QMF. Quando um k-ésimo sinal de sub-banda de um i-ésimo canal, que passou através de um banco de filtro de análise de QMF, for representado por e um índice de tempo em um domínio de sub-banda for representado por l, a renderização binaural no domínio de QMF pode ser expressa por uma equação dada abaixo. [Equação 2]

[058] No presente documento,

e

são obtidos convertendo-se o filtro de BRIR de domínio de tempo em um filtro de sub-banda do domínio de QMF.

[059]Ou seja, a renderização binaural pode ser realizada por um método que divide os sinais de canal ou os sinais de objeto do domínio de QMF em uma pluralidade de sinais de sub-banda e convoluta os respectivos sinais de sub-banda com os filtros de sub-banda de BRIR correspondentes aos mesmos, e, posteriormente, soma os respectivos sinais de sub-banda convolutos com os filtros de sub-banda de BRIR.

[060]A unidade de parametrização de BRIR 210 converte e edita coeficientes de filtro de BRIR para a renderização binaural no domínio de QMF e gera vários parâmetros. Primeiramente, a unidade de parametrização de BRIR 210 recebe os coeficientes de filtro de BRIR de domínio de tempo para múltiplos canais ou múltiplos objetos, e converte os coeficientes de filtro de BRIR de domínio de tempo recebidos em coeficientes de filtro de BRIR de domínio de QMF. Nesse caso, os coeficientes de filtro de BRIR de domínio de QMF incluem uma pluralidade de coeficientes de filtro de sub-banda correspondentes a uma pluralidade de bandas de frequência, respectivamente. Na presente invenção, os coeficientes de filtro de subbanda indicam cada um dos coeficientes de filtro de BRIR de um domínio de subbanda convertido por QMF. Neste relatório descritivo, os coeficientes de filtro de subbanda podem ser designados como os coeficientes de filtro de sub-banda de BRIR. A unidade de parametrização de BRIR 210 pode editar cada um dentre a pluralidade de coeficientes de filtro de sub-banda de BRIR do domínio de QMF e transferir os coeficientes de filtro de sub-banda editados à unidade de convolução rápida 230, e similares. De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 pode ser incluída como um componente do renderizador binaural 200 e, proporcionado de outro modo como um aparelho separado. De acordo com uma modalidade exemplificadora, um componente incluindo a unidade de convolução rápida 230, a unidade de geração de reverberação tardia 240, a unidade de processamento de QTDL 250 e o mixador e combinador 260, exceto pela unidade de parametrização de BRIR 210, podem ser classificadas em uma unidade de renderização binaural 220.

[061]De acordo com uma modalidade exemplificadora, a unidade de parametrização de BRIR 210 pode receber coeficientes de filtro de BRIR correspondentes a pelo menos uma localização de um espaço de reprodução virtual como uma entrada. Cada localização do espaço de reprodução virtual pode corresponder a cada localização de alto-falante de um sistema de múltiplos canais. De acordo com uma modalidade exemplificadora, cada um dos coeficientes de filtro de BRIR recebidos pela unidade de parametrização de BRIR 210 pode corresponder diretamente a cada canal ou cada objeto do sinal de entrada do renderizador binaural 200. Em contrapartida, de acordo com outra modalidade exemplificadora da presente invenção, cada um dos coeficientes de filtro de BRIR recebidos pode ter uma configuração independente do sinal de entrada do renderizador binaural 200. Ou seja, pelo menos parte dos coeficientes de filtro de BRIR recebidos pela unidade de parametrização de BRIR 210 pode não corresponder diretamente ao sinal de entrada do renderizador binaural 200, e o número de coeficientes de filtro de BRIR recebidos pode ser menor ou maior que o número total de canais e/ou objetos do sinal de entrada.

[062]De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 converte e edita os coeficientes de filtro de BRIR correspondentes a cada canal ou cada objeto do sinal de entrada do renderizador binaural 200 para transferir os coeficientes de filtro de BRIR convertidos e editados à unidade de renderização binaural 220. Os coeficientes de filtro de BRIR correspondentes podem ser um BRIR de correspondência ou um BRIR de fallback para cada canal ou cada objeto. O BRIR de correspondência pode ser determinado se os coeficientes de filtro de BRIR almejando a localização de cada canal ou cada objeto estiverem presentes no espaço de reprodução virtual. Quando os coeficientes de filtro de BRIR almejando pelo menos uma das localizações dos respectivos canais ou respectivos objetos do sinal de entrada estiverem presentes, os coeficientes de filtro de BRIR podem ser o BRIR de correspondência do sinal de entrada. No entanto, quando os coeficientes de filtro de BRIR almejando a localização de um canal ou objeto específico não estiverem presentes, a unidade de renderização binaural 220 pode proporcionar os coeficientes de filtro de BRIR, que almejam uma localização mais similar ao canal ou objeto correspondente, como o BRIR de fallback para o canal ou objeto correspondente.

[063]Entretanto, de acordo com outra modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 converte e edita todos os coeficientes de filtro de BRIR recebidos para transferir os coeficientes de filtro de BRIR convertidos e editados à unidade de renderização binaural 220. Nesse caso, um procedimento de seleção dos coeficientes de filtro de BRIR (alternativamente, os coeficientes de filtro de BRIR editados) correspondentes a cada canal ou cada objeto do sinal de entrada pode ser realizado pela unidade de renderização binaural 220.

[064]A unidade de renderização binaural 220 inclui uma unidade de convolução rápida 230, uma unidade de geração de reverberação tardia 240 e uma unidade de processamento de QTDL 250 e recebe sinais de múltiplos áudios incluindo sinais de múltiplos canais e/ou múltiplos objetos. Neste relatório descritivo, o sinal de entrada incluindo os sinais de múltiplos canais e/ou múltiplos objetos serão referidos como os sinais de múltiplos áudios. A Figura 2 ilustra que a unidade de renderização binaural 220 recebe sinais de múltiplos canais do domínio de QMF de acordo com uma modalidade exemplificadora, mas o sinal de entrada da unidade de renderização binaural 220 pode incluir, ainda, sinais de múltiplos canais de domínio de tempo e sinais de múltiplos objetos de domínio de tempo. Ademais, quando a unidade de renderização binaural 220 incluir adicionalmente um decodificador particular, o sinal de entrada pode ser um fluxo de bits codificado dos sinais de múltiplos áudios. Ademais, neste relatório descritivo, a presente invenção é descrita com base em um caso de realizar uma renderização de BRIR dos sinais de múltiplos áudios, mas a presente invenção não se limita a isso. Ou seja, os recursos proporcionados pela presente invenção podem ser aplicados não somente a BRIR, mas também a outros tipos de filtros de renderização e aplicados não somente a sinais de múltiplos áudios, mas também a um sinal de áudio de um canal único ou objeto único.

[065]A unidade de convolução rápida 230 realiza uma convolução rápida entre o sinal de entrada e o filtro de BRIR para processar um som direto e um som de reflexões precoces para o sinal de entrada. Nesse sentido, a unidade de convolução rápida 230 pode realizar a convolução rápida utilizando-se um BRIR truncado. O BRIR truncado inclui uma pluralidade de coeficientes de filtro de subbanda truncados dependendo de cada frequência de sub-banda e é gerado pela unidade de parametrização de BRIR 210. Nesse caso, o comprimento de cada um dos coeficientes de filtro de sub-banda truncados é determinado dependendo de uma frequência da sub-banda correspondente. A unidade de convolução rápida 230 pode realizar uma filtragem de ordem variável em um domínio de frequência utilizando-se os coeficientes de filtro de sub-banda truncados tendo diferentes comprimentos de acordo com a sub-banda. Ou seja, a convolução rápida pode ser realizada entre os sinais de áudio de sub-banda de domínio de QMF e os filtros de sub-banda truncados do domínio de QMF correspondente ao mesmo para cada banda de frequência. No relatório descritivo, uma parte de som direto e reflexões precoces (D&E) pode ser referida como uma parte frontal (F).

[066]A unidade de geração de reverberação tardia 240 gera um sinal de reverberação tardia para o sinal de entrada. O sinal de reverberação tardia representa um sinal de saída que segue o som direto e o som de reflexões precoces gerados pela unidade de convolução rápida 230. A unidade de geração de reverberação tardia 240 pode processar o sinal de entrada com base nas informações de tempo de reverberação determinadas por cada um dos coeficientes de filtro de sub-banda transferidos a partir da unidade de parametrização de BRIR 210. De acordo com a modalidade exemplificadora da presente invenção, a unidade de geração de reverberação tardia 240 pode gerar um sinal de mixagem descendente mono ou estéreo para um sinal de áudio de entrada e realizar um processamento de reverberação tardia do sinal de mixagem descendente gerado. No relatório descritivo, uma parte de reverberação tardia (LR) pode ser referida como uma parte paramétrica (P).

[067]A unidade de processamento de linha de retardo com derivações de domínio de QMF (QTDL) 250 processa sinais em bandas de frequência alta dentre os sinais de áudio de entrada. A unidade de processamento de QTDL 250 recebe pelo menos um parâmetro, que corresponde a cada sinal de sub-banda nas bandas de frequência alta, a partir da unidade de parametrização de BRIR 210 e realiza uma filtragem de linha de retardo com derivações no domínio de QMF utilizando-se o parâmetro recebido. De acordo com a modalidade exemplificadora da presente invenção, o renderizador binaural 200 separa os sinais de áudio de entrada em sinais de banda de frequência baixa e sinais de banda de frequência alta com base em uma constante predeterminada ou em uma banda de frequência predeterminada, e os sinais de banda de frequência baixa podem ser processados pela unidade de convolução rápida 230 e pela unidade de geração de reverberação tardia 240, e os sinais de banda de frequência alta podem ser processados pela unidade de processamento de QTDL 250, respectivamente.

[068]Cada uma dentre a unidade de convolução rápida 230, a unidade de geração de reverberação tardia 240 e a unidade de processamento de QTDL 250 emite o sinal de sub-banda de domínio de QMF de 2 canais. O mixador e combinador 260 combinam e mixam o sinal de saída da unidade de convolução rápida 230, o sinal de saída da unidade de geração de reverberação tardia 240, e o sinal de saída da unidade de processamento de QTDL 250. Nesse caso, a combinação dos sinais de saída é realizada separadamente para cada um dos sinais de saída esquerdo e direito de 2 canais. O renderizador binaural 200 realiza uma síntese de QMF aos sinais de saída combinados para gerar um sinal de áudio de saída final no domínio de tempo.

[069]Doravante, várias modalidades exemplificadoras da unidade de convolução rápida 230, da unidade de geração de reverberação tardia 240 e da unidade de processamento de QTDL 250 que são ilustradas na Figura 2, e uma combinação dessas serão descritas em detalhes com referência a cada um dos desenhos.

[070]As Figuras 3 a 7 ilustram várias modalidades exemplificadoras de um aparelho destinado ao processamento de um sinal de áudio de acordo com a presente invenção. Na presente invenção, o aparelho destinado ao processamento de um sinal de áudio pode indicar o renderizador binaural 200 ou a unidade de renderização binaural 220, que é ilustrada na Figura 2, como um significado restrito. No entanto, na presente invenção, o aparelho destinado ao processamento de um sinal de áudio pode indicar o decodificador de sinal de áudio da Figura 1, que inclui o renderizador binaural, como um significado abrangente. Cada renderizador binaural ilustrado nas Figuras 3 a 7 pode indicar somente alguns componentes do renderizador binaural 200 ilustrado na Figura 2 por motivos de conveniência de descrição. Ademais, doravante, no relatório descritivo, uma modalidade exemplificadora dos sinais de entrada de múltiplos canais será descrita primeiramente, mas, exceto onde descrito em contrário, um canal, múltiplos canais, e os sinais de entrada de múltiplos canais podem ser usados como conceitos incluindo um objeto, múltiplos objetos, e os sinais de entrada de múltiplos objetos, respectivamente. Ademais, os sinais de entrada de múltiplos canais também podem ser usados como um conceito incluindo um sinal decodificado e renderizado por HOA.

[071]A Figura 3 ilustra um renderizador binaural 200A de acordo com uma modalidade exemplificadora da presente invenção. Quando a renderização binaural que usa o BRIR for generalizada, a renderização binaural é um processamento M-a- O para adquirir sinais de saída O para os sinais de entrada de múltiplos canais tendo M canais. A filtragem binaural pode ser considerada como uma filtragem que usa coeficientes de filtro correspondentes a cada canal de entrada e cada canal de saída durante esse processo. Na Figura 3, um conjunto de filtro original H significa transferir funções a localizações dos ouvidos esquerdo e direito a partir de uma localização de alto-falante de cada sinal de canal. Uma função de transferência medida em um ambiente de escuta genérico, ou seja, um espaço reverberante dentre as funções de transferência é referida como a resposta de impulso de ambiente binaural (BRIR). Em contrapartida, uma função de transferência medida em um ambiente anecóico de modo que não seja influenciado pelo espaço de reprodução é referida como uma resposta de impulso relacionada à cabeça (HRIR), e uma função de transferência para a mesma é referida como uma função de transferência relacionada à cabeça (HRTF). De modo correspondente, diferentemente da HRTF, a BRIR contém informações do espaço de reprodução bem como informações direcionais. De acordo com uma modalidade exemplificadora, a BRIR pode ser substituída utilizando-se a HRTF e um reverberador artificial. No relatório descritivo, descreve-se a renderização binaural que usa a BRIR, mas a presente invenção não se limita à mesma, e a presente invenção pode ser similarmente aplicada mesmo à renderização binaural que usa vários tipos de filtros de FIR. Entretanto, a BRIR pode ter um comprimento de amostras de 96K conforme descrito anteriormente, e visto que a renderização binaural de múltiplos canais é realizada utilizando-se diferentes filtros M*O, requer-se um processo de processamento com alta complexidade computacional.

[072]De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 pode gerar coeficientes de filtro transformados a partir do conjunto de filtro original H para otimizar a complexidade computacional. A unidade de parametrização de BRIR 210 separa os coeficientes de filtro original em coeficientes de parte frontal (F) e em coeficientes de parte paramétrica (P). No presente documento, a parte F representa uma parte de som direto e reflexões precoces (D&E), e a parte P representa uma parte de reverberação tardia (LR). Por exemplo, coeficientes de filtro original tendo um comprimento de amostras de 96K podem ser separados em cada uma dentre a parte F na qual somente amostras de 4K frontais são truncadas e uma parte P que é uma parte correspondente a amostras de 92K residuais.

[073]A unidade de renderização binaural 220 recebe cada um dos coeficientes de parte F e os coeficientes de parte P a partir da unidade de parametrização de BRIR 210 e realiza uma renderização dos sinais de entrada de múltiplos canais utilizando-se os coeficientes recebidos. De acordo com a modalidade exemplificadora da presente invenção, a unidade de convolução rápida 230 ilustrada na Figura 2 pode renderizar os sinais de múltiplos áudios utilizando-se os coeficientes de parte F recebidos a partir da unidade de parametrização de BRIR 210, e a unidade de geração de reverberação tardia 240 pode renderizar os sinais de múltiplos áudios utilizando-se os coeficientes de parte P recebidos a partir da unidade de parametrização de BRIR 210. Ou seja, a unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 podem corresponder a uma unidade de renderização de parte F e uma unidade de renderização de parte P da presente invenção, respectivamente. De acordo com uma modalidade exemplificadora, a renderização de parte F (renderização binaural usando os coeficientes de parte F) pode ser implementada por um filtro de resposta de impulso finito geral (FIR), e uma renderização de parte P (renderização binaural usando os coeficientes de parte P) pode ser implementada por um método paramétrico. Entretanto, uma entrada de controle de qualidade de complexidade proporcionada por um usuário ou um sistema de controle pode ser usada para determinar informações geradas à parte F e/ou à parte P.

[074]A Figura 4 ilustra um método mais detalhado que implementa uma renderização de parte F por um renderizador binaural 200B de acordo com outra modalidade exemplificadora da presente invenção. Por motivos de conveniência de descrição, a unidade de renderização de parte P é omitida na Figura 4. Ademais, a Figura 4 ilustra um filtro implementado no domínio de QMF, mas a presente invenção não se limita a esse e pode ser aplicada ao processamento de sub-banda de outros domínios.

[075]Referindo-se à Figura 4, a renderização de parte F pode ser realizada pela unidade de convolução rápida 230 no domínio de QMF. Para renderização no domínio de QMF, uma unidade de análise de QMF 222 converte os sinais de entrada de domínio de tempo x0, x1, ... x_M-1 em sinais de domínio de QMF X0, X1, ... X_M-1. Nesse caso, os sinais de entrada x0, x1, ... x_M-1 podem ser sinais de áudio de múltiplos canais, ou seja, sinais de canal correspondentes aos alto-falantes de canal 22.2. No domínio de QMF, pode-se usar um total de 64 sub-bandas, mas a presente invenção não se limita a isso. Entretanto, de acordo com a modalidade exemplificadora da presente invenção, a unidade de análise de QMF 222 pode ser omitida do renderizador binaural 200B. No caso de HE-AAC ou USAC usando replicação de banda espectral (SBR), visto que o processamento é realizado no domínio de QMF, o renderizador binaural 200B pode receber imediatamente os sinais de domínio de QMF X0, X1, ... X_M-1 como a entrada sem uma análise de QMF. De modo correspondente, quando os sinais de domínio de QMF forem diretamente recebidos como a entrada conforme descrito anteriormente, o QMF usando no renderizador binaural de acordo com a presente invenção é igual ao QMF usado na unidade de processamento prévio (ou seja, o SBR). Uma unidade de síntese de QMF 244 sintetiza por QMF os sinais esquerdos e direitos Y_L e Y_R de 2 canais, cuja renderização binaural é realizada, para gerar sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.

[076]As Figuras 5 a 7 ilustram modalidades exemplificadoras dos renderizadores binaurais 200C, 200D e 200E, que realizam tanto renderização de parte F como renderização de parte P, respectivamente. Nas modalidades exemplificadoras das Figuras 5 a 7, a renderização de parte F é realizada pela unidade de convolução rápida 230 no domínio de QMF, e a renderização de parte P é realizada pela unidade de geração de reverberação tardia 240 no domínio de QMF ou no domínio de tempo. Nas modalidades exemplificadoras das Figuras 5 a 7, a descrição detalhada das partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.

[077]Referindo-se à Figura 5, o renderizador binaural 200C pode realizar tanto a renderização de parte F como a renderização de parte P no domínio de QMF. Ou seja, a unidade de análise de QMF 222 do renderizador binaural 200C converte sinais de entrada de domínio de tempo x0, x1, . x_M-1 em sinais de domínio de QMF X0, X1, . X_M-1 para transferir cada um dos sinais de domínio de QMF convertidos X0, X1, . X_M-1 à unidade de convolução rápida 230 e à unidade de geração de reverberação tardia 240. A unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 renderizam os sinais de domínio de QMF X0, X1, . X_M-1 para gerar sinais de saída de 2 canais Y_L, Y_R e Y_Lp, Y_Rp, respectivamente. Nesse caso, a unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 podem realizar uma renderização utilizando-se os coeficientes de filtro de parte F e os coeficientes de filtro de parte P recebidos pela unidade de parametrização de BRIR 210, respectivamente. Os sinais de saída Y_L e Y_R da renderização de parte F e os sinais de saída Y_Lp e Y_Rp da renderização de parte P são combinados para cada um dos canais esquerdos e direitos no mixador e combinador 260 e transferidos à unidade de síntese de QMF 224. A unidade de síntese de QMF 224 sintetiza por QMF os sinais de entrada esquerdos e direitos de 2 canais para gerar sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.

[078]Referindo-se à Figura 6, o renderizador binaural 200D pode realizar a renderização de parte F no domínio de QMF e a renderização de parte P no domínio de tempo. A unidade de análise de QMF 222 do renderizador binaural 200D converte por QMF os sinais de entrada de domínio de tempo e transfere os sinais de entrada de domínio de tempo convertidos à unidade de convolução rápida 230. A unidade de convolução rápida 230 realiza uma renderização de parte F dos sinais de domínio de QMF para gerar os sinais de saída de 2 canais Y_L e Y_R. A unidade de síntese de QMF 224 converte os sinais de saída da renderização de parte F em sinais de saída de domínio de tempo e transfere os sinais de saída de domínio de tempo convertidos ao mixador e combinador 260. Entretanto, a unidade de geração de reverberação tardia 240 realiza a renderização de parte P recebendo-se diretamente os sinais de entrada de domínio de tempo. os sinais de saída yLp e yRp do renderização de parte P são transferidos ao mixador e combinador 260. O mixador e combinador 260 combinam o sinal de saída de renderização de parte F e o sinal de saída de renderização de parte P no domínio de tempo para gerar os sinais de áudio de saída de 2 canais yL e yR no domínio de tempo.

[079]Nas modalidades exemplificadoras das Figuras 5 e 6, a renderização de parte F e a renderização de parte P são realizadas em paralelo, enquanto de acordo com a modalidade exemplificadora da Figura 7, o renderizador binaural 200E pode realizar sequencialmente a renderização de parte F e a renderização de parte P. Ou seja, a unidade de convolução rápida 230 pode realizar uma renderização de parte F dos sinais de entrada convertidos por QMF, e a unidade de síntese de QMF 224 pode converter os sinais de 2 canais renderizados de parte F Y_L e Y_R em um sinal de domínio de tempo e, posteriormente, transferir o sinal de domínio de tempo convertido à unidade de geração de reverberação tardia 240. A unidade de geração de reverberação tardia 240 realiza uma renderização de parte P dos sinais de 2 canais de entrada para gerar os sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.

[080]As Figuras 5 a 7 ilustram modalidades exemplificadoras para realizar a renderização de parte F e a renderização de parte P, respectivamente, e as modalidades exemplificadoras dos respectivos desenhos são combinadas e modificadas para realizar a renderização binaural. Isto é, em cada modalidade exemplificadora, o renderizador binaural pode mixar descendentemente os sinais de entrada nos sinais de 2 canais esquerdos e direitos ou um sinal mono e, posteriormente, realizar uma renderização de parte P do sinal de mixagem descendente, bem como realizar discretamente a renderização de parte P em cada um dos sinais de entrada de múltiplos áudios.

[081]As Figuras 8 a 10 ilustram métodos para gerar um filtro de FIR para renderização binaural de acordo com modalidades exemplificadoras da presente invenção. De acordo com as modalidades exemplificadoras da presente invenção, um filtro de FIR, que é convertido na pluralidade de filtros de sub-banda do domínio de QMF, pode ser usado para a renderização binaural no domínio de QMF. Nesse caso, os filtros de sub-banda truncados dependendo de cada sub-banda podem ser usados para a renderização de parte F. Ou seja, a unidade de convolução rápida do renderizador binaural pode realizar uma filtragem de ordem variável no domínio de QMF utilizando-se os filtros de sub-banda truncados tendo diferentes comprimentos de acordo com a sub-banda. Doravante, as modalidades exemplificadoras da geração de filtro nas Figuras 8 a 10, que serão descritas abaixo, podem ser realizadas pela unidade de parametrização de BRIR 210 da Figura 2.

[082]A Figura 8 ilustra uma modalidade exemplificadora de um comprimento de acordo com cada banda de QMF de um filtro de domínio de QMF usado para renderização binaural. Na modalidade exemplificadora da Figura 8, o filtro de FIR é convertido em filtros de sub-banda i de QMF, e Fi representa um filtro de sub-banda truncado de uma sub-banda i de QMF. No domínio de QMF, pode-se usar um total de 64 sub-bandas, mas a presente invenção não se limita a isso. Ademais, N representa o comprimento (o número de derivações) do filtro de sub-banda original, e os comprimentos dos filtros de sub-banda truncados são representados por N1, N2 e N3, respectivamente. Nesse caso, os comprimentos N, N1, N2 e N3 representam o número de derivações em um domínio de QMF de resolução reduzida (ou seja, timeslot de QMF).

[083]De acordo com a modalidade exemplificadora da presente invenção, os filtros de sub-banda truncados tendo diferentes comprimentos N1, N2 e N3 de acordo com cada sub-banda podem ser usados para a renderização de parte F. Nesse caso, o filtro de sub-banda truncado é um filtro frontal truncado no filtro de sub-banda original e também pode ser designado como um filtro de sub-banda dianteiro. Ademais, uma parte posterior após truncar o filtro de sub-banda original pode ser designada como um filtro de sub-banda posterior e usado para a renderização de parte P.

[084]No caso de renderização usando o filtro de BRIR, uma ordem de filtro (ou seja, comprimento de filtro) para cada sub-banda pode ser determinado com base nos parâmetros extraídos a partir de um filtro de BRIR original, ou seja, informações de tempo de reverberação (RT) para cada filtro de sub-banda, um valor de curva de decaimento de energia (EDC), informações de tempo de decaimento de energia, e similares. Um tempo de reverberação pode variar dependendo da frequência devido a características acústicas em que um decaimento no ar e um grau de absorção sonora dependendo dos materiais de uma parede e de um teto varia para cada frequência. Em geral, um sinal tendo uma frequência menor tem um tempo de reverberação mais longo. Visto que o tempo de reverberação longo significa que mais informações permanecem na parte posterior do filtro de FIR, é preferível truncar o filtro correspondente longo em transferir normalmente informações de reverberação. De modo correspondente, o comprimento de cada filtro de sub-banda truncado da presente invenção é determinado com base pelo menos em parte nas informações características (por exemplo, informações de tempo de reverberação) extraídas do filtro de sub-banda correspondente.

[085]O comprimento do filtro de sub-banda truncado pode ser determinado de acordo com várias modalidades exemplificadoras. Primeiramente, de acordo com uma modalidade exemplificadora, cada sub-banda pode ser classificada em uma pluralidade de grupos, e o comprimento de cada filtro de sub-banda truncado pode ser determinado de acordo com os grupos classificados. De acordo com um exemplo da Figura 8, cada sub-banda pode ser classificada em três zonas Zona 1, Zona 2 e Zona 3, e os filtros de sub-banda truncados da Zona 1 correspondente a uma frequência baixa pode ter uma ordem de filtro mais longa (ou seja, comprimento de filtro) do que os filtros de sub-banda truncados da Zona 2 e da Zona 3 correspondentes a uma frequência alta. Ademais, a ordem de filtro do filtro de subbanda truncado da zona correspondente pode diminuir gradualmente em direção a uma zona tendo uma frequência alta.

[086]De acordo com outra modalidade exemplificadora da presente invenção, o comprimento de cada filtro de sub-banda truncado pode ser determinado independente e variavelmente para cada sub-banda de acordo com informações características do filtro de sub-banda original. O comprimento de cada filtro de subbanda truncado é determinado com base no comprimento de truncamento determinado na sub-banda correspondente e não é influenciado pelo comprimento de um filtro de sub-banda truncado de uma sub-banda vizinha ou de outra subbanda. Isto é, os comprimentos de alguns ou de todos os filtros de sub-banda truncados da Zona 2 podem ser mais longos que o comprimento de pelo menos um filtro de sub-banda truncado da Zona 1.

[087]De acordo com ainda outra modalidade exemplificadora da presente invenção, a filtragem de ordem variável em domínio de frequência pode ser realizada em relação a somente algumas das sub-bandas classificadas na pluralidade de grupos. Ou seja, os filtros de sub-banda truncados tendo diferentes comprimentos podem ser gerados em relação somente a sub-bandas que pertençam a alguns grupos dentre pelo menos dois grupos classificados. De acordo com uma modalidade exemplificadora, o grupo no qual o filtro de sub-banda truncado é gerado pode ser um grupo de sub-banda (isto é, Zona 1) classificado em bandas de frequência baixa com base em uma constante predeterminada ou em uma banda de frequência predeterminada.

[088]O comprimento do filtro truncado pode ser determinado com base em informações adicionais obtidas pelo aparelho destinado ao processamento de um sinal de áudio, ou seja, complexidade, um nível (perfil) de complexidade, ou informações de qualidade requeridas do decodificador. A complexidade pode ser determinada de acordo com um recurso de hardware do aparelho destinado ao processamento de um sinal de áudio ou um valor diretamente inserido pelo usuário. A qualidade pode ser determinada de acordo com uma solicitação do usuário ou determinada com referência a um valor transmitido através do fluxo de bits ou outras informações incluídas no fluxo de bits. Ademais, a qualidade também pode ser determinada de acordo com um valor obtido estimando-se a qualidade do sinal de áudio transmitido, isto é, à medida que uma taxa de bits aumenta, a qualidade pode ser considerada como uma qualidade maior. Nesse caso, o comprimento de cada filtro de sub-banda truncado pode aumentar proporcionalmente de acordo com a complexidade e a qualidade e pode variar com diferentes razões para cada banda. Ademais, a fim de adquirir um ganho adicional por processamento em alta velocidade, como FFT a ser descrito abaixo, e similares, o comprimento de cada filtro de sub-banda truncado pode ser determinado como uma unidade de tamanho correspondente ao ganho adicional, isto é, um múltiplo da potência de 2. Em contrapartida, quando o comprimento determinado do filtro de sub-banda truncado for mais logo que um comprimento total de um filtro de sub-banda real, o comprimento do filtro de sub-banda truncado pode ser ajustado ao comprimento do filtro de sub-banda real.

[089]A unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda truncados (coeficientes de parte F) correspondentes aos respectivos filtros de sub-banda truncados determinados de acordo com a modalidade exemplificadora supramencionada, e transfere os coeficientes de filtro de sub-banda truncados gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a filtragem de ordem variável em domínio de frequência de cada sinal de subbanda dos sinais de múltiplos áudios utilizando-se os coeficientes de filtro de subbanda truncados.

[090]A Figura 9 ilustra outra modalidade exemplificadora de um comprimento para cada banda de QMF de um filtro de domínio de QMF usado para renderização binaural. Na modalidade exemplificadora da Figura 9, uma descrição duplicativa de partes, que sejam iguais ou correspondam à modalidade exemplificadora da Figura 8, será omitida.

[091]Na modalidade exemplificadora da Figura 9, cada um dentre Fi_L e Fi_R representa um filtro de sub-banda truncado (filtro de sub-banda dianteiro) usado para a renderização de parte F da sub-banda i de QMF, e Pi representa um filtro de sub-banda traseiro usando para a renderização de parte P da sub-banda i de QMF. N representa o comprimento (o número de derivações) do filtro de sub-banda original, e NiF e NiP representam os comprimentos de um filtro de sub-banda dianteiro e de um filtro de sub-banda traseiro da sub-banda i, respectivamente. Conforme descrito anteriormente, NiF e NiP representam o número de derivações no domínio de QMF de resolução reduzida.

[092]De acordo com a modalidade exemplificadora da Figura 9, o comprimento do filtro de sub-banda traseiro também pode ser determinado com base nos parâmetros extraídos a partir do filtro de sub-banda original, bem como do filtro de sub-banda dianteiro. Ou seja, os comprimentos do filtro de sub-banda dianteiro e do filtro de sub-banda traseiro de cada sub-banda são determinados com base pelo menos em parte nas informações características extraídas no filtro de subbanda correspondente. Por exemplo, o comprimento do filtro de sub-banda dianteiro pode ser determinado com base nas primeiras informações de tempo de reverberação do filtro de sub-banda correspondente, e o comprimento do filtro de sub-banda traseiro pode ser determinado com base nas segundas informações de tempo de reverberação. Ou seja, o filtro de sub-banda dianteiro pode ser um filtro em uma parte dianteira truncada com base nas primeiras informações de tempo de reverberação no filtro de sub-banda original, e o filtro de sub-banda traseiro pode ser um filtro em uma parte traseira correspondente a uma zona entre um primeiro tempo de reverberação e um segundo tempo de reverberação como uma zona que segue o filtro de sub-banda dianteiro. De acordo com uma modalidade exemplificadora, as primeiras informações de tempo de reverberação podem ser RT20, e as segundas informações de tempo de reverberação podem ser RT60, mas a presente invenção não se limita a isso.

[093]Uma parte onde uma parte sonora de reflexões precoces é comutada a uma parte sonora de reverberação tardia está presente em um segundo tempo de reverberação. Ou seja, um ponto está presente, onde uma zona tendo uma característica determinística é comutada a uma zona tendo uma característica estocástica, e o ponto é denominado como um tempo de mixagem em termos do BRIR de toda a banda. No caso de uma zona antes do tempo de mixagem, as informações que proporcionam direcionalidade a cada localização estão primariamente presentes, e são exclusivas para cada canal. Em contrapartida, visto que a parte de reverberação tardia tem um recurso comum para cada canal, pode ser eficiente processar uma pluralidade de canais de uma vez. De modo correspondente, estima-se que o tempo de mixagem para cada sub-banda realize a convolução rápida através da renderização de parte F antes do tempo de mixagem e realize um processamento no qual uma característica comum para cada canal é refletida através da renderização de parte P após o tempo de mixagem.

[094]No entanto, pode ocorrer um erro por um viés a partir de um ponto de vista perceptual no momento de estimar o tempo de mixagem. Portanto, realizar a convolução rápida maximizando-se o comprimento da parte F é mais excelente a partir de um ponto de vista de qualidade em relação a processar separadamente a parte F e a parte P com base no limiar correspondente estimando-se um tempo de mixagem preciso. Portanto, o comprimento da parte F, ou seja, o comprimento do filtro de sub-banda dianteiro pode ser mais longo ou mais curto que o comprimento correspondente ao tempo de mixagem de acordo com um controle de complexidade e qualidade.

[095]Ademais, com o intuito de reduzir o comprimento de cada filtro de subbanda, além do método de truncamento supramencionado, quando uma resposta de frequência de uma sub-banda específica for monotônica, uma modelagem que reduz o filtro da sub-banda correspondente a uma ordem baixa encontra-se disponível. Como um método representativo, há uma modelagem de filtro de FIR usando uma amostragem de frequência, e pode-se projetar um filtro minimizado a partir de um ponto de vista dos mínimos quadrados.

[096]De acordo com a modalidade exemplificadora da presente invenção, os comprimentos do filtro de sub-banda dianteiro e/ou do filtro de sub-banda traseiro para cada sub-banda podem ter o mesmo valor para cada canal da sub-banda correspondente. Um erro na medição pode estar presente no BRIR, e um elemento de erro, tal como o viés, ou similares, está presente mesmo ao estimar o tempo de reverberação. De modo correspondente, com o intuito de reduzir a influência, o comprimento do filtro pode ser determinado com base em uma relação mútua entre os canais ou entre as sub-bandas. De acordo com uma modalidade exemplificadora, a unidade de parametrização de BRIR pode extrair as primeiras informações características (isto é, as primeiras informações de tempo de reverberação) a partir do filtro de sub-banda correspondente a cada canal da mesma sub-banda e adquirir informações de ordem de filtro único (alternativamente, primeiras informações de ponto de truncamento) para a sub-banda correspondente combinando-se as primeiras informações características extraídas. O filtro de sub-banda dianteiro para cada canal da sub-banda correspondente pode ser determinado como tendo o mesmo comprimento com base nas informações de ordem de filtro obtidas (alternativamente, primeiras informações de ponto de truncamento). De modo similar, a unidade de parametrização de BRIR pode extrair segundas informações características (isto é, as segundas informações de tempo de reverberação) a partir do filtro de sub-banda correspondente a cada canal da mesma sub-banda e adquirir segundas informações de ponto de truncamento, que devem ser comumente aplicadas ao filtro de sub-banda traseiro correspondente a cada canal da sub-banda correspondente, combinando-se as segundas informações características extraídas. No presente documento, o filtro de sub-banda dianteiro pode ser um filtro em uma parte dianteira truncada com base nas primeiras informações de ponto de truncamento no filtro de sub-banda original, e o filtro de sub-banda traseiro pode ser um filtro em uma parte traseira correspondente a uma zona entre o primeiro ponto de truncamento e o segundo ponto de truncamento como uma zona que segue o filtro de sub-banda dianteiro.

[097]Entretanto, de acordo com outra modalidade exemplificadora da presente invenção, somente o processamento de parte F pode ser realizado em relação às sub-bandas de um grupo de sub-banda específico. Nesse caso, quando o processamento for realizado em relação à sub-banda correspondente utilizando-se somente um filtro até o primeiro ponto de truncamento, pode ocorrer uma distorção em um nível para que o usuário perceba devido a uma diferença em energia do filtro processado comparado ao caso em que o processamento é realizado utilizando-se todo o filtro de sub-banda. Com o intuito de evitar a distorção, uma compensação de energia para uma área que não seja usada para o processamento, ou seja, uma área seguindo o primeiro ponto de truncamento pode ser obtida no filtro de subbanda correspondente. A compensação de energia pode ser realizada dividindo-se os coeficientes de parte F (coeficientes de filtro de sub-banda dianteiro) pela potência do filtro ao primeiro ponto de truncamento do filtro de sub-banda correspondente e multiplicando-se os coeficientes de parte F divididos (coeficientes de filtro de sub-banda dianteiro) pela energia de uma área desejada, ou seja, pela potência total do filtro de sub-banda correspondente. De modo correspondente, a energia dos coeficientes de parte F pode ser ajustada para que seja igual à energia de todo o filtro de sub-banda. Ademais, embora os coeficientes de parte P sejam transmitidos a partir da unidade de parametrização de BRIR, a unidade de renderização binaural pode não realizar o processamento de parte P com base no controle de complexidade e qualidade. Nesse caso, a unidade de renderização binaural pode realizar a compensação de energia para os coeficientes de parte F utilizando-se os coeficientes de parte P.

[098]No processamento de parte F pelos métodos supramencionados, os coeficientes de filtro dos filtros de sub-banda truncados tendo diferentes comprimentos para cada sub-banda são obtidos a partir de um filtro de domínio de tempo único (ou seja, um filtro de protótipo). Ou seja, visto que o filtro de domínio de tempo único é convertido em uma pluralidade de filtros de sub-banda de QMF e os comprimentos dos filtros correspondentes a cada sub-banda são variados, cada filtro de sub-banda truncado é obtido a partir de um filtro de protótipo único.

[099]A unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda dianteiro (coeficientes de parte F) correspondentes a cada filtro de subbanda dianteiro determinado de acordo com a modalidade exemplificadora supramencionada e transfere os coeficientes de filtro de sub-banda dianteiro gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a filtragem de ordem variável no domínio de frequência de cada sinal de sub-banda dos sinais de múltiplos áudios utilizando-se os coeficientes de filtro de sub-banda dianteiro recebidos. Ademais, a unidade de parametrização de BRIR pode gerar os coeficientes de filtro de sub-banda traseiro (coeficientes de parte P) correspondentes a cada filtro de sub-banda traseiro determinado de acordo com a modalidade exemplificadora supramencionada e transfere os coeficientes de filtro de sub-banda traseiro gerados à unidade de geração de reverberação tardia. A unidade de geração de reverberação tardia pode realizar um processamento de reverberação de cada sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda traseiro recebidos. De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR pode combinar os coeficientes de filtro de subbanda traseiro para que cada canal gere coeficientes de filtro de sub-banda de mixagem descendente (coeficientes de parte P de mixagem descendente) e transferir os coeficientes de filtro de sub-banda de mixagem descendente gerados à unidade de geração de reverberação tardia. Conforme descrito abaixo, a unidade de geração de reverberação tardia pode gerar sinais de reverberação de sub-banda esquerda e direita de 2 canais utilizando-se os coeficientes de filtro de sub-banda de mixagem descendente recebidos.

[0100]A Figura 10 ilustra ainda outra modalidade exemplificadora de um método para gerar um filtro de FIR usando para renderização binaural. Na modalidade exemplificadora da Figura 10, a descrição duplicativa de partes, que sejam iguais ou correspondam à modalidade exemplificadora das Figuras 8 e 9, será omitida.

[0101]Referindo-se à Figura 10, a pluralidade de filtros de sub-banda, que são convertidos por QMF, pode ser classificada na pluralidade de grupos, e um processamento diferente pode ser aplicado para cada um dos grupos classificados. Por exemplo, a pluralidade de sub-bandas pode ser classificada em uma Zona 1 de primeiro grupo de sub-banda tendo frequências baixas e uma Zona 2 de segundo grupo sub-banda tendo frequências altas com base em uma banda de frequência predeterminada (banda i de QMF). Nesse caso, a renderização de parte F pode ser realizada em relação aos sinais de sub-banda de entrada do primeiro grupo de subbanda, e um processamento de QTDL que será descrito mais adiante pode ser realizado em relação aos sinais de sub-banda de entrada do segundo grupo de subbanda.

[0102]De modo correspondente, a unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda dianteiro para cada sub-banda do primeiro grupo de sub-banda e transfere os coeficientes de filtro de sub-banda dianteiro gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a renderização de parte F dos sinais de sub-banda do primeiro grupo de sub-banda utilizando-se os coeficientes de filtro de sub-banda dianteiro recebidos. De acordo com uma modalidade exemplificadora, a renderização de parte P dos sinais de subbanda do primeiro grupo de sub-banda pode ser adicionalmente realizada pela unidade de geração de reverberação tardia. Ademais, a unidade de parametrização de BRIR obtém pelo menos um parâmetro de cada um dos coeficientes de filtro de sub-banda do segundo grupo de sub-banda e transfere o parâmetro obtido à unidade de processamento de QTDL. A unidade de processamento de QTDL realiza uma filtragem de linha de retardo com derivações de cada sinal de sub-banda do segundo grupo de sub-banda conforme descrito abaixo utilizando-se o parâmetro obtido. De acordo com a modalidade exemplificadora da presente invenção, a frequência predeterminada (banda i de QMF) para distinguir o primeiro grupo de subbanda e o segundo grupo de sub-banda pode ser determinada com base em um valor constante predeterminado ou determinada de acordo com uma característica de fluxo de bits do sinal de entrada de áudio transmitido. Por exemplo, no caso do sinal de áudio usando o SBR, o segundo grupo de sub-banda pode ser ajustado para corresponder a bandas de SBR.

[0103]De acordo com outra modalidade exemplificadora da presente invenção, a pluralidade de sub-bandas pode ser classificada em três grupos de subbanda com base em uma primeira banda de frequência predeterminada (banda i de QMF) e uma segunda banda de frequência predeterminada (banda j de QMF j). Ou seja, a pluralidade de sub-bandas pode ser classificada em uma Zona 1 de primeiro grupo de sub-banda que consiste em uma zona de baixa frequência igual ou menor que a primeira banda de frequência, uma Zona 2 de segundo grupo de sub-banda que é uma zona de frequência intermediária superior à primeira banda de frequência e igual ou menor que a segunda banda de frequência, e um terceiro grupo de subbanda Zona 3 que é uma zona de alta frequência maior que a segunda banda de frequência. Nesse caso, a renderização de parte F e o processamento de QTDL podem ser realizados em relação a sinais de sub-banda do primeiro grupo de sub- banda e a sinais de sub-banda do segundo grupo de sub-banda, respectivamente, conforme descrito anteriormente, e a renderização pode não ser realizada em relação a sinais de sub-banda do terceiro grupo de sub-banda.

<Renderização de reverberação tardia>

[0104]A seguir, descrever-se-ão várias modalidades exemplificadoras da renderização de parte P da presente invenção com referência às Figuras 11 a 14. Ou seja, várias modalidades exemplificadoras da unidade de geração de reverberação tardia 240 da Figura 2, que realiza a renderização de parte P no domínio de QMF, serão descritas com referência às Figuras 11 a 14. Nas modalidades exemplificadoras das Figuras 11 a 14, supõe-se que os sinais de entrada de múltiplos canais sejam recebidos como os sinais de sub-banda do domínio de QMF. De modo correspondente, o processamento dos respectivos componentes das Figuras 11 a 14, ou seja, um descorrelador 241, uma unidade de filtragem de subbanda 242, uma unidade de correspondência de IC 243, uma unidade de mixagem descendente 244 e uma unidade de correspondência de decaimento de energia 246 podem ser realizadas para cada sub-banda de QMF. Nas modalidades exemplificadoras das Figuras 11 a 14, a descrição detalhada de partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.

[0105]Nas modalidades exemplificadoras das Figuras 8 a 10, Pi (P1, P2, P3, ...) correspondentes à parte P é uma parte traseira de cada filtro de sub-banda removido pelo truncamento variável de frequência e geralmente inclui informações sobre reverberação tardia. O comprimento da parte P pode ser definido como um filtro completo após um ponto de truncamento de cada filtro de sub-banda de acordo com o controle de complexidade e qualidade, ou definido como um comprimento menor com referência às segundas informações de tempo de reverberação do filtro de sub-banda correspondente.

[0106]A renderização de parte P pode ser realizada independentemente para cada canal ou realizada em relação a um canal mixado descendentemente. Ademais, a renderização de parte P pode ser aplicada através de um processamento diferente para cada grupo de sub-banda predeterminado ou para cada sub-banda, ou aplicada a todas as sub-bandas como o mesmo processamento. Nesse caso, o processamento aplicável à parte P pode incluir compensação de decaimento de energia, uma filtragem de linha de retardo com derivações, um processamento usando um filtro de resposta de impulso infinito (IIR), um processamento usando um reverberador artificial, compensação de coerência interaural independente de frequência (FIIC), compensação de coerência interaural dependente de frequência (FDIC), e similares, para sinais de entrada.

[0107]Entretanto, é importante conservar genericamente dois recursos, ou seja, recursos de alívio de decaimento de energia (EDR) uma coerência interaural dependente de frequência (FDIC) para processamento paramétrico para a parte P. Primeiramente, quando a parte P for observada a partir de um ponto de vista de energia, pode-se observar que o EDR pode ser igual ou similar para cada canal. Visto que os respectivos canais têm um EDR comum, é apropriado mixar descendente todos os canais a um ou dois canal(is) e, posteriormente, realizar a renderização de parte P do(s) canal(is) mixado(s) descendentemente a partir do ponto de vista de energia. Nesse caso, uma operação da renderização de parte P, em que M convoluções precisam ser realizadas em relação a M canais, é reduzida à mixagem descendente M-a-O e uma (alternativamente, duas) convolução, proporcionando, assim, um ganho de uma complexidade computacional significativa.

[0108]A seguir, um processo de compensar a FDIC é necessário na renderização de parte P. Existem vários métodos para estimar a FDIC, mas pode-se usar a equação a seguir. [Equação 3]

[0109]No presente documento, Hm (i, k) representa um coeficiente de transformada de Fourier de tempo curto (STFT) de uma resposta de impulso

, n representa um índice de tempo, i representa um índice de frequência, k representa um índice de quadro, e m representa um índice de canal de saída L ou R. Ademais, uma função

de um numerador produz um valor de número real de uma entrada x, e x representa um valor conjugado complexo de x. Uma parte de numerador na equação pode ser substituída por uma função tendo um valor absoluto ao invés do valor de número real.

[0110]Entretanto, na presente invenção, visto que a renderização binaural é realizada no domínio de QMF, a FDIC pode ser definida por uma equação dada abaixo. [Equação 4

[0111]No presente documento, i representa um índice de sub-banda, k representa um índice de tempo na sub-banda, e

, representa o filtro de sub-banda do BRIR.

[0112]A FDIC da parte de reverberação tardia é um parâmetro primariamente influenciado por localizações de dois microfones quando o BRIR for gravado, e não é influenciado pela localização do alto-falante, ou seja, uma direção e uma distância. Quando for suposto que uma cabeça de um ouvinte é uma esfera, FDIC ICideal teórico do BRIR pode satisfazer uma equação dada abaixo. [Equação 5]

[0113]No presente documento, r representa uma distância entre ambos os ouvidos do ouvinte, ou seja, uma distância entre dois microfones, e k representa o índice de frequência.

[0114]Quando a FDIC que usa os BRIRs da pluralidade de canais for analisado, pode-se observar que o som de flexões precoces primariamente incluído na parte F varia para cada canal. Ou seja, a FDIC da parte F varia de modo bastante diferente para cada canal. Entretanto, a FDIC varia bastante no caso de bandas de alta frequência, mas a razão é que ocorre um grande erro de medição devido a uma característica de sinais de banda de alta frequência cuja energia é rapidamente decaída, e quando uma média para cada canal for obtida, a FDIC é quase convergida para 0. Em contrapartida, uma diferença em FDIC para cada canal ocorre devido ao erro de medição mesmo no caso da parte P, mas pode ser confirmado que a FDIC é convergida em média a uma função de sincronização mostrada na Equação 5. De acordo com a modalidade exemplificadora da presente invenção, a unidade de geração de reverberação tardia para a renderização de parte P pode ser implementada com base na característica supramencionada.

[0115]A Figura 11 ilustra uma unidade de geração de reverberação tardia 240A de acordo com uma modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 11, a unidade de geração de reverberação tardia 240A pode incluir uma unidade de filtragem de sub-banda 242 e unidades de mixagem descendente 244a e 244b.

[0116]A unidade de filtragem de sub-banda 242 filtra os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 para cada sub-banda utilizando-se os coeficientes de parte P. Os coeficientes de parte P podem ser recebidos a partir da unidade de parametrização de BRIR (não ilustrada) conforme descrito anteriormente e incluem coeficientes de filtros de sub-banda traseiros tendo diferentes comprimentos para cada sub-banda. A unidade de filtragem de sub-banda 242 realiza uma convolução rápida entre o sinal de sub-banda de domínio de QMF e o filtro de sub-banda traseiro do domínio de QMF correspondente ao mesmo para cada frequência. Nesse caso, o comprimento do filtro de sub-banda traseiro pode ser determinado com base no RT60 conforme descrito anteriormente, mas ajustado para um valor maior ou menor que RT60 de acordo com o controle de complexidade e qualidade.

[0117]Os sinais de entrada de múltiplos canais são renderizados a X_L0, X_L1, ..., X_L_M-1, que são sinais de canal esquerdo, e X_R0, X_R1, ..., X_R_M-1, que são sinais de canal direito, pela unidade de filtragem de sub-banda 242, respectivamente. As unidades de mixagem descendente 244a e 244b mixam descendentemente a pluralidade de sinais de canal esquerdo renderizados e a pluralidade de sinais de canal direito renderizados para canais esquerdo e direito, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp.

[0118]A Figura 12 ilustra uma unidade de geração de reverberação tardia 240B de acordo com outra modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 12, a unidade de geração de reverberação tardia 240B pode incluir um descorrelador 241, uma unidade de correspondência de IC 243, unidades de mixagem descendente 244a e 244b, e unidades de correspondência de decaimento de energia 246a e 246b. Ademais, para processamento da unidade de geração de reverberação tardia 240B, a unidade de parametrização de BRIR (não ilustrada) pode incluir uma unidade de estimação de IC 213 e uma unidade de geração de filtro de sub-banda de mixagem descendente 216.

[0119]De acordo com a modalidade exemplificadora da Figura 12, a unidade de geração de reverberação tardia 240B pode reduzir a complexidade computacional utilizando-se as características de decaimento de energia da parte de reverberação tardia para respectivos canais que sejam iguais entre si. Ou seja, a unidade de geração de reverberação tardia 240B realiza um ajuste de descorrelação e coerência interaural (IC) de cada sinal de múltiplos canais, mixa descendentemente os sinais de entrada ajustados e os sinais de descorrelação para cada canal a sinais de canal esquerdo e direito, e compensa o decaimento de energia dos sinais mixados descendentemente para gerar os sinais de saída esquerdo e direito de 2 canais. Em maiores detalhes, o descorrelador 241 gera sinais de descorrelação D0, D1, ..., D_M-1 para respectivos sinais de entrada de múltiplos canais X0, X1, ..., X_M-1. O descorrelador 241 é um tipo de pré- processador para ajustar a coerência entre ambos os ouvidos, e pode adotar um aleatorizador de fase, e uma fase de um sinal de entrada pode ser alterada por uma unidade de 90° para eficiência da complexidade computacional.

[0120]Entretanto, a unidade de estimação de IC 213 da unidade de parametrização de BRIR (não ilustrada) estima um valor de IC e transfere o valor de IC estimado à unidade de renderização binaural (não ilustrada). A unidade de renderização binaural pode armazenar o valor de IC recebido em uma memória 255 e transfere o valor de IC recebido à unidade de correspondência de IC 243. A unidade de correspondência de IC pode receber diretamente o valor de IC a partir da unidade de parametrização de BRIR e, alternativamente, adquirir o valor de IC pré- armazenado na memória 255. Os sinais de entrada e os sinais de descorrelação para os respectivos canais são renderizados a X_L0, X_L1, ., X_L_M-1, que são sinais de canal esquerdo, e X_R0, X_R1, ., X_R_M-1, que são sinais de canal direito, na unidade de correspondência de IC 243. A unidade de correspondência de IC 243 realiza uma soma ponderada entre o sinal de descorrelação e o sinal de entrada original para cada canal referindo-se ao valor de IC, e ajusta a coerência entre ambos os sinais de canal através da soma ponderada. Nesse caso, visto que o sinal de entrada para cada canal é um sinal do domínio de sub-banda, a correspondência de FDIC supramencionada pode ser alcançada. Quando um sinal de canal original for representado por X, um sinal de canal de descorrelação é representado por D, e um IC da sub-banda correspondente é representado por Φ, e sinais de canal esquerdo e direito X_L e X_R, que são submetidos a uma correspondência de IC, podem ser expressos por uma equação dada abaixo. [Equação 6]

(sinais duplos na mesma ordem)

[0121]As unidades de mixagem descendente 244a e 244b mixam descendentemente a pluralidade de sinais de canal esquerdo renderizado e a pluralidade de sinais de canal direito renderizados para canais esquerdo e direito, respectivamente, através da correspondência de IC, gerando, assim, sinais de renderização esquerdo e direito de 2 canais. A seguir, As unidades de correspondência de decaimento de energia 246a e 246b refletem decaimentos de energia dos sinais de renderização esquerdo e direito de 2 canais, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp. As unidades de correspondência de decaimento de energia 246a e 246b realizam uma correspondência de decaimento de energia utilizando-se os coeficientes de filtro de sub-banda de mixagem descendente obtidos a partir da unidade de geração de filtro de sub-banda de mixagem descendente 216. Os coeficientes de filtro de sub-banda de mixagem descendente são gerados por uma combinação dos coeficientes de filtro de sub-banda traseiro para os respectivos canais da sub-banda correspondente. Em outras palavras, o coeficiente de filtro de sub-banda de mixagem descendente pode incluir um coeficiente de filtro de sub-banda tendo um valor da raiz medial dos quadrados de resposta de amplitude do coeficiente de filtro de sub-banda traseiro para cada canal em relação à sub-banda correspondente. Portanto, os coeficientes de filtro de sub-banda de mixagem descendente refletem a característica de decaimento de energia da parte de reverberação tardia para o sinal de sub-banda correspondente. Os coeficientes de filtro de sub-banda de mixagem descendente podem incluir coeficientes de filtro de sub-banda de mixagem descendente mixados descendentemente em mono ou estéreo de acordo com modalidades exemplificadoras e ser diretamente recebidos a partir da unidade de parametrização de BRIR similarmente ao FDIC ou obtidos a partir de valores pré- armazenados na memória 225.Quando BRIR cuja parte F é truncada em um k- ésimo canal dentre M canais for representado por BRIRk , BRIR em que até a N- ésima amostra é truncada no k-ésimo canal é representado por BRIRT k , , e um coeficiente de filtro de sub-banda de mixagem descendente cuja energia de uma parte truncada após a N-ésima amostra ser compensada é representado por BRIRE , BRIRE pode ser obtido utilizando-se uma equação dada abaixo. [Equação 7]

[0122]A Figura 13 ilustra uma unidade de geração de reverberação tardia 240C de acordo com ainda outra modalidade exemplificadora da presente invenção. Respectivos componentes da unidade de geração de reverberação tardia 240C da Figura 13 podem ser iguais aos respectivos componentes da unidade de geração de reverberação tardia 240B descritos na modalidade exemplificadora da Figura 12, e tanto a unidade de geração de reverberação tardia 240C como a unidade de geração de reverberação tardia 240B podem ser parcialmente diferentes entre si em ordem de processamento de dados dentre os respectivos componentes.

[0123]De acordo com a modalidade exemplificadora da Figura 13, a unidade de geração de reverberação tardia 240C pode reduzir, ainda, a complexidade computacional utilizando-se as FDICs da parte de reverberação tardia para respectivos canais que sejam iguais entre si. Ou seja, a unidade de geração de reverberação tardia 240C mixa descendentemente os respectivos sinais de múltiplos canais aos sinais de canal esquerdo e direito, ajusta ICs dos sinais de canal esquerdo e direito mixados descendentemente, e compensa o decaimento de energia para os sinais de canal esquerdo e direito ajustados, gerando, assim, os sinais de saída esquerdo e direito de 2 canais.

[0124]Em maiores detalhes, o descorrelador 241 gera sinais de descorrelação D0, D1, ..., D_M-1 para respectivos sinais de entrada de múltiplos canais X0, X1, ..., X_M-1. A seguir, as unidades de mixagem descendente 244a e 244b mixam descendentemente os sinais de entrada de múltiplos canais e os sinais de descorrelação, respectivamente, para gerar sinais de mixagem descendente de 2 canais X_DMX e D_DMX. A unidade de correspondência de IC 243 realiza uma soma ponderada dos sinais de mixagem descendente de 2 canais referindo-se aos valores de IC para ajustar a coerência entre ambos os sinais de canal. As unidades de correspondência de decaimento de energia 246a e 246b realizam uma compensação de energia para os sinais de canal esquerdo e direito X_L e X_R, que são submetidos à correspondência de IC pela unidade de correspondência de IC 243, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais X_Lp e Y_Rp. Nesse caso, as informações de compensação de energia usadas para compensação de energia podem incluir coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda.

[0125]A Figura 14 ilustra uma unidade de geração de reverberação tardia 240D de acordo com ainda outra modalidade exemplificadora da presente invenção. Respectivos componentes da unidade de geração de reverberação tardia 240D da Figura 14 podem ser iguais aos respectivos componentes das unidades de geração de reverberação tardia 240B e 240C descritas nas modalidades exemplificadoras das Figuras 12 e 13, mas têm um recurso mais simplificado.

[0126]Primeiramente, a unidade de mixagem descendente 244 mixa descendentemente os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 para cada sub-banda para gerar um sinal de mixagem descendente mono (ou seja, um sinal de sub-banda mono) X_DMX. A unidade de correspondência de decaimento de energia 246 reflete um decaimento de energia para o sinal de mixagem descendente mono gerado. Nesse caso, os coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda podem ser usados a fim de refletir o decaimento de energia. A seguir, o descorrelador 241 gera um sinal de descorrelação D_DMX do sinal de mixagem descendente mono refletido com o decaimento de energia. A unidade de correspondência de IC 243 realiza uma soma ponderada do sinal de mixagem descendente mono refletido com o decaimento de energia e do sinal de descorrelação referindo-se ao valor de FDIC e gera os sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp através da soma ponderada. De acordo com a modalidade exemplificadora da Figura 14, visto que a correspondência de decaimento de energia é realizada em relação ao sinal de mixagem descendente mono X_DMX somente uma vez, a complexidade computacional pode ser adicionalmente salva.

[0127]A seguir, várias modalidades exemplificadoras do processamento de QTDL da presente invenção serão descritas com referência às Figuras 15 e 16. Ou seja, várias modalidades exemplificadoras da unidade de processamento de QTDL 250 da Figura 2, que realiza o processamento de QTDL no domínio de QMF, serão descritas com referência às Figuras 15 e 16. Nas modalidades exemplificadoras das Figuras 15 e 16, supõe-se que os sinais de entrada de múltiplos canais sejam recebidos como os sinais de sub-banda do domínio de QMF. Portanto, nas modalidades exemplificadoras das Figuras 15 e 16, um filtro de linha de retardo com derivação e um filtro de linha de retardo com derivação única podem realizar um processamento para cada sub-banda de QMF. Ademais, o processamento de QTDL pode ser realizado somente em relação aos sinais de entrada de bandas de alta frequência, que são classificados com base na constante predeterminada ou na banda de frequência predeterminada, conforme descrito anteriormente. Quando a replicação de banda espectral (SBR) for aplicada ao sinal de áudio de entrada, as bandas de alta frequência podem corresponder às bandas de SBR. Nas modalidades exemplificadoras das Figuras 15 e 16, uma descrição detalhada das partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.

[0128]A replicação de banda espectral (SBR) usada para codificação eficiente das bandas de alta frequência consiste em uma ferramenta para manter uma largura de banda tão grande quando um sinal original estendendo-se novamente uma largura de banda que seja estreitada descartando-se os sinais das bandas de alta frequência em codificação de taxa de bits baixa. Nesse caso, as bandas de alta frequência são geradas utilizando-se informações de bandas de baixa frequência, que são codificadas e transmitidas, e informações adicionais dos sinais de banda de alta frequência transmitidas pelo codificador. No entanto, pode ocorrer uma distorção em um componente de alta frequência gerado utilizando-se a SBR devido à geração de harmônica imprecisa. Ademais, as bandas de SBR são as bandas de alta frequência, e conforme descrito anteriormente, os tempos de reverberação das bandas de frequência correspondentes são bastante curtos. Ou seja, os filtros de sub-banda de BRIR das bandas de SBR têm pequenas informações efetivas e uma alta taxa de decaimento. De modo correspondente, na renderização de BRIR para as bandas de alta frequência correspondentes às bandas de SBR, realizar a renderização utilizando-se um número pequeno de derivações efetivas ainda pode ser mais efetivo em termos de uma complexidade computacional à qualidade sonora do que realizar a convolução.

[0129]A Figura 15 ilustra uma unidade de processamento de QTDL 250A de acordo com uma modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 15, a unidade de processamento de QTDL 250A realiza uma filtragem para cada sub-banda para os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 utilizando-se o filtro de linha de retardo com derivação. O filtro de linha de retardo com derivação realiza uma convolução de somente um pequeno número de derivações predeterminadas em relação a cada sinal de canal. Nesse caso, o número pequeno de derivações usado nesse momento pode ser determinado com base em um parâmetro diretamente extraído dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante. O parâmetro inclui informações de retardo para cada derivação, que deve ser usado para o filtro de linha de retardo com derivação, e as informações de ganho correspondentes ao mesmo.

[0130]O número de derivações usado para o filtro de linha de retardo com derivação pode ser determinado pelo controle de complexidade e qualidade. A unidade de processamento de QTDL 250A recebe um conjunto de parâmetros (informações de ganho e informações de retardo), que corresponde ao número relevante de derivações para cada canal e para cada sub-banda, a partir da unidade de parametrização de BRIR, com base no número de derivações determinado. Nesse caso, o conjunto de parâmetros recebido pode ser extraído dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante e determinado de acordo com várias modalidades exemplificadoras. Por exemplo, o conjunto de parâmetros para respectivos picos extraídos tanto quando o número de derivações determinado dentre uma pluralidade de picos dos coeficientes de filtro de sub-banda de BRIR correspondentes na ordem de um valor absoluto, a ordem do valor de uma parte real, ou a ordem do valor de uma parte imaginária podem ser recebidas. Nesse caso, as informações de retardo de cada parâmetro indicam informações posicionais do pico correspondente e tem um valor inteiro baseado em amostra no domínio de QMF. Ademais, as informações de ganho são determinadas com base no tamanho do pico correspondente às informações de retardo. Nesse caso, assim como as informações de ganho, um valor ponderado do pico correspondente após uma compensação de energia para todos os coeficientes de filtro de sub-banda ser realizada pode ser usado, bem como o próprio valor de pico correspondente nos coeficientes de filtro de sub-banda. As informações de ganho são obtidas utilizando-se tanto um número real do valor ponderado como um número imaginário do valor ponderado para o pico correspondente para, desse modo, ter o valor complexo.

[0131]A pluralidade de sinais de canal filtrados pelo filtro de linha de retardo com derivação é somada aos sinais de saída esquerdo e direito de 2 canais Y_L e Y_R para cada sub-banda. Entretanto, o parâmetro usado em cada filtro de linha de retardo com derivação da unidade de processamento de QTDL 250A pode ser armazenado na memória durante um processo de inicialização para a renderização binaural e o processamento de QTDL pode ser realizado sem uma operação adicional para extrair o parâmetro.

[0132]A Figura 16 ilustra uma unidade de processamento de QTDL 250B de acordo com outra modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 16, a unidade de processamento de QTDL 250B realiza uma filtragem para cada sub-banda para os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 utilizando-se o filtro de linha de retardo com derivação única. Pode-se avaliar que o filtro de linha de retardo com derivação única realiza a convolução somente em uma derivação em relação a cada sinal de canal. Nesse caso, a derivação usada pode ser determinada com base em um parâmetro diretamente extraído a partir dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante. O(s) parâmetro(s) inclui(em) informações de retardo extraídas a partir dos coeficientes de filtro de sub-banda de BRIR e informações de ganho correspondentes aos mesmos.

[0133]Na Figura 16, L_0, L_1, ... L_M-1 representam retardos para os BRIRs em relação ao ouvido esquerdo de M canais, respectivamente, e R_0, R_1, ., R_M-1 representam retardos para os BRIRs em relação ao ouvido direito de M canais, respectivamente. Nesse caso, as informações de retardo representam informações posicionais para o pico máximo na ordem de um valor absoluto, o valor de uma parte real, ou o valor de uma parte imaginária dentre os coeficientes de filtro de sub-banda de BRIR. Ademais, na Figura 16, G_L_0, G_L_1, ., G_L_M-1 representam ganhos correspondentes às respectivas informações de retardo do canal esquerdo e G_R_0, G_R_1, ., G_R_M-1 representam ganhos correspondentes às respectivas informações de retardo dos canais direitos, respectivamente. Conforme descrito, cada uma das informações de ganho é determinada com base no tamanho do pico correspondente às informações de retardo. Nesse caso, assim como as informações de ganho, o valor ponderado do pico correspondente após uma compensação de energia para coeficientes de filtro de sub-banda completos pode ser usado, assim como o próprio valor de pico correspondente nos coeficientes de filtro de sub-banda. As informações de ganho são obtidos utilizando-se tanto o número real do valor ponderado como o número imaginário do valor ponderado para o pico correspondente.

[0134]Conforme descrito na modalidade exemplificadora da Figura 15, a pluralidade de sinais de canal filtrados pelo filtro de linha de retardo com derivação única é somada aos sinais de saída esquerdo e direito de 2 canais Y_L e Y_R para cada sub-banda. Ademais, o parâmetro usado em cada filtro de linha de retardo com derivação única da unidade de processamento de QTDL 250B pode ser armazenado na memória durante o processo de inicialização para a renderização binaural e o processamento de QTDL pode ser realizado sem uma operação adicional para extrair o parâmetro.

[0135]Anteriormente no presente documento, a presente invenção foi descrita através das modalidades exemplificadoras detalhadas, as modificações e alterações da presente invenção podem ser feitas pelos indivíduos versados na técnica sem divergir do objeto e do escopo da presente invenção. Ou seja, a modalidade exemplificadora da renderização binaural para os sinais de múltiplos áudios foi descrita na presente invenção, mas a presente invenção pode ser similarmente aplicada e estendida até mesmo a vários sinais de multimídia incluindo um sinal de vídeo, bem como o sinal de áudio. De modo correspondente, analisa-se que matérias que podem ser facilmente comparadas pelos indivíduos versados na técnica a partir da descrição detalhada e da modalidade exemplificadora da presente invenção estão incluídas nas reivindicações da presente invenção.

MODO PARA A INVENÇÃO

[0136]Conforme anteriormente, descreveram-se recursos relacionados no melhor modo.

APLICABILIDADE INDUSTRIAL

[0137]A presente invenção pode ser aplicada a várias formas de aparelhos destinados ao processamento de um sinal de multimídia incluindo um aparelho destinado ao processamento de um sinal de áudio e um aparelho destinado ao processamento de um sinal de vídeo, e similares.

Claims

1. Aparelho para processar um sinal de multimídia, o aparelho CARACTERIZADO pelo fato de que compreende: uma unidade de convolução rápida configurada para realizar filtragem de cada sinal de sub-banda de um primeiro grupo de sub-banda do sinal de multimídia; e uma unidade de processamento de linha de retardo com derivações configurada para realizar filtragem de cada sinal de sub-banda de um segundo grupo de sub-banda do sinal multimídia; em que a unidade de convolução rápida realiza a filtragem usando um conjunto de coeficientes de filtro de sub-banda para cada sub-banda do primeiro grupo de sub-banda, em que o conjunto de coeficientes de filtro de sub-banda é truncado a partir de um conjunto de coeficientes de filtro de protótipo de sub-banda de uma subbanda correspondente, e em que um comprimento do conjunto de coeficientes de filtro de sub-banda é determinado com base em uma ordem de filtro obtida, pelo menos parcialmente, usando informações características extraídas do conjunto de coeficientes de filtro de protótipo de sub-banda da sub-banda correspondente, e a ordem de filtro é determinada para ser variável em um domínio de frequência.

2. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de sub-banda é composto de um ou mais coeficientes de filtro de sub-banda e um comprimento do conjunto de coeficientes de filtro de sub-banda de uma sub-banda específica é diferente de um comprimento do conjunto de coeficientes de filtro de sub-banda de outra sub-banda.

3. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que as informações características incluem informações de tempo de reverberação do conjunto de coeficientes de filtro de protótipo de sub-banda da subbanda correspondente, e a ordem de filtro têm um único valor para cada sub-banda.

4. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de protótipo de sub-banda é obtido a partir de um conjunto de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) correspondente ao sinal multimídia.

5. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o primeiro grupo de sub-banda é um grupo tendo baixas frequências com base na banda de frequência predeterminada e o segundo grupo de sub-banda é um grupo tendo altas frequências com base na banda de frequência predeterminada.

6. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a unidade de processamento de linha de retardo com derivações realiza filtragem de linha de retardo com derivações usando parâmetros de sub-banda extraídos de um conjunto de coeficientes de filtro de protótipo de sub-banda correspondente.

7. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que os parâmetros de sub-banda incluem informações de retardo para o conjunto de coeficientes de filtro de protótipo de sub-banda correspondente e informações de ganho correspondendo às informações de retardo.

8. Método para processar um sinal de multimídia, CARACTERIZADO pelo fato de que compreende: receber o sinal de multimídia; filtrar cada sinal de sub-banda de um primeiro grupo de sub-banda do sinal multimídia usando um conjunto de coeficientes de filtro de sub-banda, para cada sub-banda do primeiro grupo de sub-banda; e filtrar cada sinal de sub-banda de um segundo grupo de sub-banda do sinal de multimídia usando filtragem de linha de retardo com derivações, em que o conjunto de coeficientes de filtro de sub-banda é truncado a partir de um conjunto de coeficientes de filtro de protótipo de sub-banda de uma subbanda correspondente, e em que um comprimento do conjunto de coeficientes de filtro de sub-banda é determinado com base em uma ordem de filtro obtida, pelo menos parcialmente, usando informações características extraídas do conjunto de coeficientes de filtro de protótipo de sub-banda da sub-banda correspondente, e a ordem de filtro é determinada para ser variável em um domínio de frequência.

9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de sub-banda é composto de um ou mais coeficientes de filtro de sub-banda e um comprimento do conjunto de coeficientes de filtro de sub-banda de uma sub-banda específica é diferente de um comprimento do conjunto de coeficientes de filtro de sub-banda de outra sub-banda.

10. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que as informações características incluem informações de tempo de reverberação do conjunto de coeficientes de filtro de protótipo de sub-banda da subbanda correspondente, e a ordem de filtro tem um único valor para cada sub-banda.

11. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de protótipo de sub-banda é obtido a partir de um conjunto de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) correspondendo ao sinal multimídia.

12. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o primeiro grupo de sub-banda é um grupo tendo baixas frequências com base em uma banda de frequência predeterminada e o segundo grupo de sub-banda é um grupo tendo altas frequências com base na banda de frequência predeterminada.

13. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a filtragem por linha de retardo com derivações é realizada usando parâmetros de sub-banda extraídos de um conjunto de coeficientes de filtro de protótipo de sub-banda correspondente.

14. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que os parâmetros de sub-banda incluem informações de retardo para o conjunto de coeficientes de filtro de protótipo de sub-banda correspondente e informações de ganho correspondendo às informações de retardo.