BRPI0716854B1

BRPI0716854B1 - Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio

Info

Publication number: BRPI0716854B1
Application number: BRPI0716854-3A
Authority: BR
Inventors: Dirk J. Breebaart
Original assignee: Koninklijke Philips N.V.
Priority date: 2006-09-18
Filing date: 2007-09-17
Publication date: 2020-09-15
Also published as: KR101396140B1; WO2008035275A2; KR20090080945A; BRPI0716854A8; CN101517637B; DE602007012730D1; MX2009002795A; PL2067138T3; BRPI0716854A2; US20090326960A1; RU2460155C2; JP2010503887A; WO2008035275A3; RU2009114741A; EP2067138B1; EP2067138A2; US8271290B2; ATE499677T1; JP5281575B2; CN101517637A

Abstract

codificador para codificar e decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, transmissor para transmitir e receptor para receber sinais de áudio, sistema de comunicação para comunicar sinais de áudio, métodos para codificar, para decodificar, para transmitir e para receber sinais de áudio, produto de programa de computador, e, dispositivo de reprodução de áudio. um sistema de áudio compreende um codificador (209) que codifica objetos de áudio em uma unidade de codificação (403) que gera um sinal de áudio com mixagem para baixo e dados paramétricas representando a pluralidade de objetos de áudio. o sinal de áudio com mixagem para baixo e dados paramétricas é transmitido para um decodificador (215) que compreende uma unidade de decodificação (301) que gera réplicas aproximadas dos objetos de áudio e uma unidade de renderização (303) que gera um sinal de saída dos objetos de áudio. o decodificador (215) ainda mais contém um processador (50 1) para gerar dados de modificação de codificação que são enviados para o codificador (209). o codificador (209) então modifica a codificação dos objetos de áudio, e em particular modifica os dados paramétricas, em resposta aos dados de modificação de codificação. a abordagem permite manipulação dos objetos de áudio a serem controlados pelo decodificador (215) mas efetuada totalmente ou parcialmente pelo codificador (209). assim sendo, a manipulação pode ser efetuada nos objetos de áudio efetivos independentes mais propriamente do que em réplicas aproximadas e por meio disso, fornecer desempenho melhorado.

Description

CAMPO DA INVENÇÃO

[001] A invenção se refere à codificação e decodificação de objetos de áudio e em particular, mas não exclusivamente para manipulação de objetos de áudio de um sinal espacial com downmix.

FUNDAMENTOS DA INVENÇÃO

[002] Codificação digital de vários sinais de áudio tem se tornado cada vez mais importante ao longo das últimas décadas que representação e comunicação de sinal digital cada vez mais tem substituído representação e comunicação analógica.

[003] Nas últimas décadas tem havido uma tendência em direção à sinal de múltiplos canais e especificamente em direção à áudio espacial se estendendo além de sinais estéreos convencionais. Por exemplo, gravações de estéreo tradicionais somente compreendem dois canais ao passo que sistemas de áudio avançado modernos tipicamente usam cinco ou seis canais, como no popular sistemas de som ambiente de 5.1. Isto fornece uma mais experiência de audição envolvida caracterizado pelo fato de que o usuário pode ser literalmente envolvido pelas fontes de som.

[004] Várias técnicas e padrões têm sido desenvolvidos para comunicação de tais sinais de múltiplos canais. Por exemplo, seis canais discretos representando um sistema ambiente de 5.1 podem ser transmitidos de acordo com padrões tal como os padrões Advanced Audio Coding (AAC) ou Dolby Digital.

[005] Contudo, de modo para fornecer compatibilidade para trás, é conhecido que para mixar para baixo o maior número de canais para um menor numero e especificamente, é frequentemente usado mixar para baixo um sinal de som ambiente de 5.1 para um sinal estéreo permitindo a um sinal estéreo ser reproduzido através de decodificadores (estéreo) legados e um sinal de 5.1 através de decodificadores de som ambiente.

[006] Um exemplo é o método de codificação compatível para trás de MPEG Surround padronizado pelo Moving Pictures Experts Group (MPEG). Em tal um sistema, um sinal de múltiplos canais é feito com downmix em um sinal estéreo e os sinais adicionais são codificados através dos dados paramétricos na porção de dados auxiliar permitindo a um decodificado de múltiplos canais de MPEG Surround gerar uma representação do sinal de múltiplos canais. Um decodificador mono ou estéreo legado vai descartar os dados auxiliares e assim sendo somente decodificar o sinal mono ou estéreo feito com downmix.

[007] Assim sendo, em (de)codificadores de áudio espacial (paramétrico), os parâmetros são extraídos do sinal de áudio original a fim de produzir um sinal de áudio tendo um número reduzido de canais, por exemplo somente um único canal, mais um conjunto de parâmetros descrevendo as propriedades espaciais do sinal de áudio original. Em decodificadores de áudio espacial (paramétrico), as propriedades espaciais descritas pelos parâmetros espaciais transmitidos são usados para re-criar o sinal espacial original de múltiplos canais.

[008] Recentemente, as técnicas para distribuição de objetos de áudio individuais que podem ser processados e manipulados no lado da recepção têm atraido interesse significativo. Por exemplo, dentro do quadro de trabalho do MPEG, um item de ação é iniciado na codificação de áudio espacial com base no objeto. O objetivo deste item de ação é explorar nova tecnologia e re-uso dos componentes e tecnologias correntes de MPEG Surround para a codificação eficiente em taxa de bit de múltiplas fontes de som ou objetos em um número de canais com downmix e correspondentes caracterizado pelo fato de quentes parâmetros espaciais. Assim sendo, a intenção é usar técnicas similares como usadas para fazer downmix de canais (ambiente) espaciais para poucos canais para mixar para baixo objetos de áudio independentes em um menor número de canais.

[009] Em sistemas de áudio orientado à objeto, o decodificador pode fornecer posicionamento discreto dessas fontes/objetos e adaptações para vários alto-falantes configurados assim como renderização binaural. Adicionalmente, a interação do usuário pode ser usada para controlar re-posicionamento/distribuição das fontes individuais no lado de reprodução.

[010] Em outras palavras, o objetivo da pesquisa é codificar múltiplos objetos de áudio em um conjunto limitado de canais com downmix acompanhado de parâmetros. No lado do decodificador, usuários podem interagir com o conteúdo por exemplo re-posicionando os objetos individuais. Como um exemplo especifico, um número de instrumentos individuais pode ser codificado e distribuído como objetos de áudio e por meio disso, permitindo a um usuário receber os dados codificados para independentemente posicionar os instrumentos individuais na imagem de som.

[011] Fig. 1 ilustra um exemplo de um codificador e decodificador de áudio orientado à objeto de acordo com a técnica anterior. No exemplo, um conjunto de objetos de áudio (Oi à Cg) é codificado em um codificador orientado à objeto 101 que gerar um sinal feito com downmix e parâmetros de objeto. Esses são transmitidos para o decodificador orientado à objeto 103 que gera cópias aproximadas dos sinais de objeto de áudio usando os parâmetros de objeto transmitidos.

[012] Subseqüentemente, um elemento de renderização 105 gera o sinal de saida tendo as características desejadas. Por exemplo, o elemento de renderização 105 pode posicionar os objetos em posições de fonte de som indicadas pelo usuário, por exemplo, usando uma lei de distribuição. A configuração do sinal de saida é flexivel. Por exemplo, se o sinal de saida é mono, o usuário pode ainda manipular a sonoridade/volume relativa de cada objeto. Em uma configuração de sinal de saida estéreo, uma simples lei de distribuição pode ser aplicada de modo a posicionar cada objeto em uma posição desejada. Obviamente, para uma configuração de saida de múltiplos canais, a flexibilidade é ainda maior.

[013] Contudo, embora os sistemas possam fornecer desempenho vantajoso, também têm um número de desvantagens. Por exemplo, em muitos casos a qualidade reproduzida é sub-ótima e uma manipulação completamente livre e independente dos objetos de áudio individuais não é possivel. Especificamente, o downmix do codificador é geralmente não completamente reversível no decodificador que conseqüentemente pode somente gerar aproximações dos objetos de áudio originais. Assim sendo, o decodificador não é capaz de reconstruir totalmente os sinais de objeto individuais, mas pode somente estimá-los de acordo com critérios percentuais. Isto especificamente resulta em interferência cruzada (conversa cruzada) entre objetos de áudio e por meio disso, resultando nos objetos de áudio não mais sendo completamente independentes. Como um resultado manipulações em um objeto de áudio afetam as características e percepções de um outro objeto.

[014] Por exemplo, um dos mais importantes parâmetros que usuários tipicamente gostariam de ajustar e o volume relativo de objeto de áudio. Contudo, se grandes ajustes de volume são feitos, isto vai resultar em artefatos consideráveis e interferência cruzada indesejável resultando em degradação de qualidade notória.

[015] Então, um sistema melhor para codificar/decodificar objeto de áudio seria vantajoso e em particular um sistema permitindo flexibilidade aumentada, qualidade melhorada, implementação facilitada e/ou desempenho melhorado seria vantajoso.

SUMÁRIO DA INVENÇÃO

[016] Conseqüentemente, a invenção procura preferencialmente diminuir, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, de forma única ou em qualquer combinação.

[017] De acordo com um primeiro aspecto da invenção é fornecido um codificador para codificar objetos de áudio, o codificador caracterizado pelo fato de compreender: meios para receber uma pluralidade de objetos de áudio; meios de codificação para codificar uma pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando uma pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; meios para receber dados de modificação de codificação a partir de uma unidade remota; e meios de parâmetro para determinar os dados paramétricos em resposta aos dados de modificação de codificação.

[018] A invenção pode permitir codificação melhorada dos objetos de áudio e pode em particular permitir um sistema de distribuição de áudio onde uma experiência do usuário melhorada pode ser alcançada e. g. com controle do usuário individual melhorado dos objetos de áudio individuais. A invenção pode permitir controle melhorado das características dos objetos de áudio individuais e pode em particular reduzir degradação de interferência de objetos de áudio cruzada quando manipulando os objetos de áudio. 0 codificador pode permitir manipulação controlada remota eficiente enquanto modificando os dados de modificação de codificação tal que um decodificador orientado à objeto vai decodificar os objetos de áudio manipulados corretamente. A invenção pode permitir uma distribuição melhorada da manipulação do objeto de áudio entre um codificador e decodificador e por meio disso, resultando em flexibilidade, desempenho e/ou qualidade melhorados.

[019] Ainda mais os meios de codificação podem gerar o número de sinais de áudio em resposta aos dados de modificação de codificação. Os parâmetros de objeto podem ser parâmetros de intensidade e. g. indicando uma diferença de intensidade relativa entre diferentes objetos de áudio e/ou um fator de conversão de energia entre um ou mais dos sinais de áudio e dos objetos de áudio. Os parâmetros de objeto podem compreender parâmetros para blocos de freqüência/tempo individuais.

[020] De acordo com uma característica opcional da invenção, os meios de codificação são arranjados para gerar o número de sinais de áudio através de um downmix dos objetos de áudio e os meios de parâmetro são arranjados para modificar um recurso de downmix de pelo menos um dos objetos de áudio em resposta aos dados de modificação de codificação.

[021] Isto pode fornecer uma eficiência alta e/ou alto controle de qualidade do volume relativo de um objeto de áudio através de um ouvinte enquanto reduzindo ou eliminando o efeito em outros objetos de áudio. Um alto desempenho de controle do volume do objeto de áudio individual pode ser alcançado.

[022] De acordo com uma característica opcional da invenção, os meios de parâmetro são arranjados para escalonar pelo menos um primeiro objeto de áudio em resposta aos dados de modificação de codificação e para modificar parâmetros de objeto para o primeiro objeto de áudio em resposta ao escalonamento.

[023] Isto pode fornecer uma eficiência alta e/ou alto controle de qualidade do volume relativo de um objeto de áudio através de um ouvinte enquanto reduzindo ou eliminando o efeito em outros objetos de áudio. Um alto desempenho de controle do volume do objeto de áudio individual pode ser alcançado.

[024] De acordo com uma característica opcional da invenção, pelo menos, alguns dos dados de modificação de codificação são específicos de freqüência e os meios de parâmetro são arranjados para determinar pelo menos um parâmetro de objeto em resposta a uma freqüência característica do parâmetro de objeto.

[025] Isto pode permitir melhor controle da experiência do ouvinte e pode em particular permitir a resposta de freqüência do áudio a ser manipulado através de um ouvinte. As características de freqüência de objetos individuais podem ser individualmente e separadamente modificadas com efeito reduzido ou eliminado em outros objetos de áudio. Em particular, uma equalização de qualidade alta e/ou eficiente dos objetos de áudio individuais pode ser alcançada.

[026] De acordo com uma característica opcional da invenção, os meios de codificação são arranjados para modificar pelo menos um objeto de áudio em resposta aos dados de modificação de codificação antes de um downmix dos objetos de áudio para o número de sinais de áudio.

[027] Os meios de parâmetro podem ser arranjados para determinar os dados paramétricos em resposta as características do(s) objeto(s) de áudio modificado. Isto pode permitir alto desempenho e/ou implementação facilitada.

[028] De acordo com uma característica opcional da invenção, os meios de codificação são arranjados para gerar o número de sinais de áudio conforme um downmix espacial.

[029] Isto pode permitir desempenho melhorado em muitas modalidades e pode em particular permitir operação melhorada na associação com codificadores tendo nenhuma ou limitada capacidade de renderização. 0 codificador pode, por exemplo, ser arranjado para renderizar um sinal espacial de múltiplos canais caracterizado pelo fato de compreender os objetos de áudio e pode especificamente ser arranjado para gerar um sinal binaural espacial.

[030] De acordo com uma característica opcional da invenção, os meios de codificação são arranjados para modificar em resposta aos dados de modificação de codificação pelo menos uma característica selecionada do grupo consistindo de: uma localização espacial de pelo menos um dos objetos de áudio; uma distância característica de pelo menos um dos objetos de áudio; um modo de renderização espacial do codificador, e a característica de freqüência de pelo menos um dos objetos de áudio.

[031] Isto pode permitir melhor desempenho e os parâmetros podem em particular permitir a um ouvinte modificar os parâmetros perceptivamente significativos de um sinal espacial renderizado.

[032] De acordo com uma característica opcional da invenção, cada objeto de áudio é associado com um conjunto de fontes de áudio que são independentes das fontes de áudio de outros objetos de áudio.

[033] Os objetos de áudio podem ser independentes um de cada outro. Os objetos de áudio podem corresponder às fontes de som diferentes e independentes. Especificamente, os objetos de áudio podem ser objetos de áudio diferentes que são gerados individualmente e separadamente dos outros objetos de áudio e sem qualquer relação especifica. Por exemplo, os objetos de áudio podem ser vozes ou instrumentos musicais capturados/gravados individualmente.

[034] Os objetos de áudio podem ser objetos de áudio não espaciais. Os objetos de áudio podem ser fontes de som simples com nenhuma característica ou informação espacial associada e em particular pode não haver nenhuma relação, conhecimento ou associação espacial relativa entre os objetos de áudio.

[035] De acordo com uma característica opcional da invenção, o codificador é arranjado para receber um primeiro objeto de áudio da unidade remota e os meios para receber os dados de modificação de codificação são arranjados para extrair os dados de modificação de codificação a partir dos dados de codificação recebidos para o primeiro objeto de áudio.

[036] Por exemplo, os dados de modificação de codificação podem ser embutidos em uma fala, musica ou outro sinal de áudio. Os dados de modificação de codificação podem especificamente ser embutidos em capo de dados de usuário ou auxiliares de um sinal de áudio codificado recebido a partir da unidade remota, tal como e. g. uma seqüência de bit de MPEG 4. Isto pode permitir uma eficiente, compatibilidade para trás e comunicação de complexidade baixa de dados de controle e pode em particular ser útil em sistemas empregando comunicações em dois sentidos entre um aparelho caracterizado pelo fato de compreender o codificador e a unidade remota.

[037] De acordo com uma característica opcional da invenção, o codificador é arranjado para receber dados de modificação de codificação a partir de uma pluralidade de unidades remotas e para gerar diferentes dados paramétricos para as diferentes unidades remotas em resposta à recepção de diferentes dados de modificação de codificação proveniente das diferentes unidades remotas.

[038] Isto pode permitir melhor operação e/ou serviços adicionais em muitas modalidades. Ainda mais, os meios de codificação podem ainda ser arranjados para gerar diferente sinais de áudio para as diferentes unidades remotas. Assim sendo, a abordagem pode permitir e. g. um codificador de objeto de áudio centralizado para padronizar os dados transmitidos para os requisitos e preferências dos usuários individuais das unidades remotas.

[039] De acordo com um outro aspecto da invenção, é fornecido um decodificador para decodificar os objetos de áudio, o decodificador caracterizado pelo fato de compreender: um receptor para receber a partir de um codificador a número de sinais de áudio sendo um downmix de uma pluralidade de objetos de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; meios de decodificação para decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos; meios de renderização para gerar um sinal espacial de múltiplos canais de saida dos objetos de áudio; meios para gerar dados de modificação de codificação para o codificador de objeto; e meios para transmitir os dados de modificação de codificação para o codificador de objeto.

[040] Os meios de decodificação e meios de renderização podem em algumas modalidades serem combinados e o sinal espacial de múltiplos canais de saida pode ser gerado diretamente a partir dos sinais de áudio sem explicitamente gerar o objeto de áudio. Por exemplo, uma multiplicação de matriz pode ser aplicada aos valores de sinal dos sinais de áudio para gerar valores de objeto de sinal de áudio. Uma segunda multiplicação de matriz pode então ser aplicada aos valores de objeto de sinal de áudio para gerar valores de sinal espacial de áudio de múltiplos canais. Alternativamente, a primeira e segunda multiplicação de matriz podem ser combinadas em uma única multiplicação de matriz. Assim sendo, uma única multiplicação de matriz pode ser aplicada aos valores de sinal dos sinais de áudio para diretamente gerar os valores de sinal de áudio espacial de múltiplos canais. Assim sendo, a decodificação dos objetos de áudio pode estar implícita na renderização/na multiplicação de matriz, e nenhuma geração explicita/direta dos valores de objeto de áudio é necessária.

[041] De acordo com um outro aspecto da invenção, é fornecido um centro distribuidor de teleconferência para suportar uma teleconferência entre a pluralidade de unidades de comunicação, o centro distribuidor de teleconferência caracterizado pelo fato de compreender: meios para receber uma primeira pluralidade de sinais de fala provenientes de uma pluralidade de unidades de comunicação; meios de codificação para codificar, para uma primeira unidade de comunicação, a primeira pluralidade de sinais de fala em um número de sinais de áudio e os dados paramétricos representando a pluralidade de sinais de fala relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes sinais de fala; meios para receber os dados de modificação de codificação da primeira unidade de comunicação; e meios de parâmetro para determinar os dados paramétricos em resposta aos dados de modificação; e meios para transmitir o número de sinais de áudio e dados paramétricos para a primeira unidade de comunicação.

[042] De acordo com um outro aspecto da invenção, é fornecido um transmissor para transmitir sinais de áudio, o transmissor caracterizado pelo fato de compreender: meios para receber a pluralidade de objetos de áudio; meios de codificação para codificar a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; meios para receber dados de modificação de codificação proveniente de uma unidade remota; e meios de parâmetro para determinar os dados paramétricos em resposta aos dados de modificação.

[043] De acordo com um outro aspecto da invenção, é fornecido um receptor para receber a seqüência de bit de áudio passivel de escalonar, o receptor caracterizado pelo fato de compreender: um elemento receptor para receber de um codificador um número de sinais de áudio sendo um downmix de uma pluralidade de objetos de áudio e dados paramétricos representando uma pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; meios de decodificação para decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos; meios de renderização para gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; meios para gerar dados de modificação de codificação para o codificador de objeto; e meios para transmitir os dados de modificação de codificação para o codificador de objeto.

[044] De acordo com um outro aspecto da invenção, é fornecido um sistema de comunicação para comunicar os sinais de áudio, o sistema de comunicação caracterizado pelo fato de compreender: um transmissor caracterizado pelo fato de compreender: meios para receber a pluralidade de objetos de áudio, meios de codificação para codificar a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio, e meios para transmitir o número de sinais de áudio e os dados paramétricos para um receptor; e o receptor caracterizado pelo fato de compreender: um elemento receptor para receber do transmissor, o número de sinais de áudio e os dados paramétricos, meios de decodificação para decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos, meios de renderização para gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio, meios para gerar dados de modificação de codificação para os meios de codificação, e meios para transmitir os dados de modificação de codificação para o transmissor; e onde o transmissor compreende meios para receber os dados de modificação de codificação do receptor; meios de parâmetro para determinar os dados paramétricos em resposta aos dados de modificação de codificação.

[045] De acordo com um outro aspecto da invenção, é fornecido um método de codificar sinais de áudio, o método caracterizado pelo fato de compreender: receber uma pluralidade de objetos de áudio; codificar uma pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; receber dados de modificação de codificação proveniente da unidade remota; e determinar os dados paramétricos em resposta aos dados de modificação.

[046] De acordo com um outro aspecto da invenção, é fornecido um método de decodificar sinais de áudio, o método caracterizado pelo fato de compreender: receber a partir de um codificador, um número de sinais de áudio sendo um downmix de uma pluralidade de objetos de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos;

[047] gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; gerar dados de modificação de codificação para o codificador de objeto; e transmitir os dados de modificação de codificação para o codificador de objeto.

[048] De acordo com um outro aspecto da invenção, é fornecido um método de transmitir sinais de áudio, o método caracterizado pelo fato de compreender: receber uma pluralidade de objetos de áudio; codificar a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; receber dados de modificação de codificação a partir de uma unidade remota; determinar os dados paramétricos em resposta à modificação dados, e transmitir o número de sinais de áudio e dados paramétricos.

[049] De acordo com um outro aspecto da invenção, é fornecido um método de receber sinais de áudio, o método caracterizado pelo fato de compreender: receber de um codificador, um número de sinais de áudio sendo um downmix de uma pluralidade de objetos de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos; gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; gerar dados de modificação de codificação para o codificador de objeto; e transmitir os dados de modificação de codificação para o codificador de obj eto.

[050] De acordo com um outro aspecto da invenção, é fornecido um método de transmitir e receber sinais de áudio, o método caracterizado pelo fato de compreender: um transmissor (101) efetuando os passos de: receber uma pluralidade de objetos de áudio, codificar a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos caracterizado pelo fato de compreender um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio, e transmitir o número de sinais de áudio e os dados paramétricos para um receptor; e o receptor efetuando os passos de: receber do transmissor, o número de sinais de áudio e os dados paramétricos; decodificar os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos; gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; gerar dados de modificação de codificação para os meios de codificação; e transmitir os dados de modificação de codificação para o codificador de objeto; e onde o transmissor ainda efetua os passos de: receber os dados de modificação de codificação provenientes do receptor, e determinar os dados paramétricos em resposta aos dados de modificação de codificação.

[051] De acordo com um outro aspecto da invenção, é fornecido um produto de programa de computador para executar o método descrito acima.

[052] De acordo com um outro aspecto da invenção, é fornecido um dispositivo de gravação de áudio caracterizado pelo fato de compreender um codificador como descrito acima.

[053] De acordo com um outro aspecto da invenção, é fornecido um dispositivo de reprodução de áudio caracterizado pelo fato de compreender um decodificador como descrito acima.

[054] Esses e outros aspectos, características e vantagens da invenção serão aparente de e elucidados com referência à modalidade(s) descrita daqui em diante.

DESCRIÇÃO BREVE DOS DESENHOS

[055] Modalidades da invenção serão descritas, a titulo de exemplo somente, com referência aos desenhos, nos quais

[056] Fig. 1 é uma ilustração de um sistema de áudio de acordo com a técnica anterior;

[057] Fig. 2 ilustra um exemplo de um sistema de comunicação para comunicação de um sinal de áudio de acordo com algumas modalidades da invenção;

[058] Fig. 3 ilustra uma interação entre um codificador e um decodificador de acordo com algumas modalidades da invenção;

[059] Fig. 4 ilustra um exemplo de um codificador de acordo com algumas modalidades da invenção;

[060] Fig. 5 ilustra um exemplo de um decodificador de acordo com algumas modalidades da invenção;

[061] Fig. 6 ilustra um exemplo de um método de codificar sinais de áudio de acordo com algumas modalidades da invenção; e

[062] Fig. 7 ilustra um exemplo de um método de decodificar objetos de áudio de acordo com algumas modalidades da invenção.

DESCRIÇÃO DETALHADA DE ALGUMAS MODALIDADES DA INVENÇÃO

[063] A seguinte descrição foca nas modalidades da invenção aplicáveis à codificação e/ou decodificação de objeto de áudio para uma aplicação de teleconferência. Contudo, será apreciado que a invenção não é limitada a esta aplicação, mas pode ser aplicada em muitas outras aplicações incluindo e. g. aplicações de distribuição de áudio de música.

[064] Fig. 2 ilustra um sistema de comunicação 200 para comunicação de um sinal de áudio de acordo com algumas modalidades da invenção. O sistema de transmissão 200 compreende um transmissor 201 que é acoplado a um receptor 203 através de uma rede 205 que especificamente pode ser a Internet.

[065] No exemplo especifico, o transmissor 201 é parte de um centro distribuidor de teleconferência. Em uma aplicação de teleconferência, os sinais de fala de várias extremidades distantes de conversadores são misturados em um centro distribuidor de teleconferência. Então para cada pessoa na teleconferência, uma mistura de todos os sinais exceto o seu próprio é transmitida para todos os receptores. Assim sendo, o transmissor 201 pode receber sinais de fala a partir de uma pluralidade de unidades de comunicação remota tomando parte na teleconferência e pode gerar e distribuir sinais de fala para as unidades de comunicação remota. No exemplo, o receptor 203 é um dispositivo de reprodução de sinal que pode gerar uma saida de fala para um participante da chamada de teleconferência. Especificamente, o receptor 2 03 é parte de uma unidade de comunicação remota tal como telefone.

[066] Será apreciado que em outras modalidades um transmissor e receptor podem ser usado em outras aplicações e para outros propósitos. Por exemplo, o transmissor 201 e/ou o receptor 203 podem ser parte de uma funcionalidade de trans-codificação e pode e. g. fornecer interface para outras fontes ou destinações de sinal.

[067] No exemplo especifico, o transmissor 201 compreende um receptor 207 que recebe sinais de fala proveniente das unidades de comunicação remotas envolvidas na chamada de teleconferência. Cada um dos sinais de fala é tratado como um objeto de áudio separado e independente.

[068] 0 receptor 207 é acoplado ao codificador 209 da Fig. 2 que é alimentado por objetos de áudio de fala individuais e que codifica os objetos de áudio de acordo com um algoritmo de codificação. O codificador 209 é acoplado a um transmissor da rede 211 que recebe o sinal codificado e faz interface com a Internet 205. O transmissor da rede pode transmitir o sinal codificado para o receptor 203 através da Internet 205.

[069] O receptor 203 compreende um receptor de rede 213 que faz interface com a Internet 205 e que são arranjados para receber o sinal codificado proveniente do transmissor 201.

[070] O receptor de rede 213 é acoplado a um decodificador 215. 0 decodificador 215 recebe o sinal codificado e o decodifica de acordo com um algoritmo de decodificação. Especificamente, o decodificador 215 é um decodificador orientado à objeto que pode decodificar os objetos de áudio individuais e renderizar um sinal de áudio de saida com base nos objetos de áudio decodificados.

[071] No exemplo especifico onde uma função de reprodução de sinal é suportada, o receptor 203 ainda compreende um reprodutor de sinal 217 que recebe o sinal de áudio decodificado proveniente do decodificador 215 e o apresenta ao usuário. Especificamente, o reprodutor de sinal 217 pode compreender um conversor de digital para analógico, amplificadores e alto-falantes como requerido para emitir o sinal de áudio decodificado.

[072] Fig. 3 ilustra a interação entre o codificador 209 e o decodificador 215 em mais detalhe.

[073] Como ilustrado, o codificador orientado à objeto 209 recebe uma pluralidade de objetos de áudio proveniente do receptor 207. Os objetos de áudio são sinais de som individuais que são independentes cada um do outro e que especificamente correspondem às fontes de som individuais e independentes. Em algumas modalidades, os objetos de áudio podem ser individualmente fontes de som gravados. Ainda mais, os objetos de áudio não têm qualquer associação espacial e especificamente não há relação espacial entre os diferentes objetos de áudio.

[074] Por isso, ao contrário de, por exemplo, uma gravação de som ambiente onde a mesma imagem de som ( e fontes de som) são gravados em diferentes posições para gerar canais diferentes do mesmo sinal espacial, os objetos de áudio do presente exemplo são fontes de som isoladas e individuais.

[075] Na aplicação de teleconferência, cada objeto de áudio corresponde a um sinal de fala recebido de um participante na chamada de teleconferência. Assim sendo, o codificador 209 recebe objetos de áudio na forma de sinais de fala recebidos a partir de uma pluralidade de unidades de comunicação remota tomando parte na chamada de conferência.

[076] O codificador orientado à objeto 209 codifica os objetos de áudio em um limitado número de canais e adicionalmente gera dados paramétricos que permitem e facilitam uma regeneração dos objetos de áudio originais a partir dos canais de áudio gerados no lado do decodificador. Especificamente, o codificador de áudio 209 pode gerar um downmix dos objetos de áudio em uma maneira similar para gerar um downmix de um sinal de som ambiente espacial para e. g., um sinal estéreo. Por exemplo, o codificador 209 pode gerar um downmix multiplicando os valores de amostra de objeto de áudio por uma matriz de downmix para gerar valores de amostra do downmix.

[077] O codificador 209 gera uma seqüência de bit caracterizado pelo fato de compreender ambos os dados de codificação para o número limitado de canais e os dados paramétricos associados. Estes dados são transmitidos para o decodificador 215.

[078] O decodificador 215 compreende no decodificador orientado à objeto unidade 303 que gera réplicas aproximadas locais dos objetos de áudio originais com base nos canais de áudio recebidos e os dados paramétricos recebidos. Especificamente, a unidade de decodificador orientado à objeto 303 pode gerar os objetos de áudio aplicando uma matriz de mixagem para cima para as amostras de áudio recebidas. Os coeficientes da matriz de mixagem para cima são determinados em resposta aos dados paramétricos recebidos provenientes do codificador 209.

[079] O decodificador 215 ainda mais compreende uma unidade de renderização 305 que é arranjada para gerar um sinal de saida com base nas saldas de áudio. A unidade de renderização 305 pode livremente manipular e mixar os objetos de áudio recebidos para gerar um sinal de saida desejado. Por exemplo, a unidade de renderização 305 pode gerar um sinal de som de ambiente de cinco canais e pode livremente posicionar cada objeto de áudio individual na imagem de som gerada. Como um outro exemplo, a unidade de renderização 305 pode gerar um sinal estéreo binaural que pode fornecer uma experiência espacial através de e. g. um conjunto de fones de cabeça.

[080] Em muitos sistemas práticos, a funcionalidade da unidade de decodificação 303 e da unidade de renderização 305 é combinada em um único passo de processamento. Por exemplo, a operação da unidade de decodificação 303 tipicamente corresponde a uma multiplicação de matriz por uma matriz de mixagem para cima e a operação da unidade de renderização 305 de forma similar corresponde a uma multiplicação de matriz efetuada na saida da multiplicação de matriz de mixagem para cima. Assim sendo, combinando as matrizes de renderização e de mixagem para cima em uma única matriz, a multiplicação de matriz em cascata pode ser combinada em uma única multiplicação de matriz.

[081] No exemplo especifico, a unidade de renderização 305 pode colocar cada alto-falante individual da chamada de conferência em uma diferente localização na imagem de som com a localização especifica para cada alto-falante sendo livremente passivel de selecionar por exemplo através de um usuário controlando a unidade de renderização 305. Como um outro exemplo, se o objeto de áudio corresponde aos diferentes instrumentos musicais de um pedaço de música, o usuário pode livremente fazer mixagem, igualar, etc os instrumentos individuais assim como livremente posicioná-los na imagem de som. Assim sendo, a abordagem descrita permite um alto grau de liberdade o usuário individual para manipular os objetos de áudio diferentes para gerar uma saida de áudio personalizada que pode ser independente da saida de áudio gerada para outros usuários e recipientes do sinal codificado do codificador 209.

[082] Contudo, a pesar de fornecer um grande grau de flexibilidade manipulando os objetos de áudio na unidade de renderização 305, tal manipulação pode também resultar na degradação na qualidade do sinal de áudio gerado. Em particular, de modo para gerar réplicas exatas dos objetos de áudio no decodificador 215, é necessário aplicar uma matriz de mixagem para cima que é o inverso da matriz de downmix usada no codificador 209. Contudo, isto é geralmente não possivel (por exemplo não é possivel quando o número de sinais de áudio gerados é menor do que o número de objetos de áudio como, neste caso, nenhuma matriz inversa sai para a matriz de downmix neste) e conseqüentemente somente aproximações dos sinais de áudio originais podem ser gerados. Especificamente, os objetos de áudio gerados no decodificador vão conter uma quantidade de interferência cruzada proveniente de outros objetos de áudio. Como um resultado, a manipulação de um objeto de áudio vai afetar a percepção e características de um outro objeto de áudio que pode resultar em desempenho degradado e artefatos perceptíveis.

[083] No sistema da Fig. 3, o codificador 215 é além disso capaz de gerar dados de controle na forma de dados de modificação de codificação que são transmitidos para o codificador 209. Os dados de modificação de codificação são então avaliados através do codificador 209 que modifica o processo de codificação dependendo da informação de controle recebida. Especificamente, o codificador 209 pode modificar o downmix dos objetos de áudio e os parâmetros espaciais que são geradas para o downmix. Como um exemplo especifico, os dados de modificação de codificação podem especificar que o volume de um objeto de áudio especifico deve ser reduzido. Conseqüentemente o codificador 209 reduz o nivel deste objeto de áudio (e. g. antes da ou como parte da operação de downmix) e modifica (diretamente ou indiretamente) os dados paramétricos para o objeto de áudio tal que quando os objetos de áudio são decodificados no decodificador, o nivel será apropriadamente reduzida e preferencialmente tal que os dados paramétricos modificados corretamente representam a mudança no nivel para o objeto(s) de áudio respectivo.

[084] A abordagem assim sendo permite alguma ou toda a manipulação do objeto a ser efetuado no lado da codificação. Com o codificador tem acesso aos objetos de áudio independente originais mais propriamente do que apenas para réplicas aproximadas, um desempenho melhorado pode ser alcançado e em particular pode ser possivel fornecer uma qualidade melhorada. Por exemplo, a interferência cruzada é reduzida e por conseguinte o impacto nos outros objetos de áudio para aumentar ou diminuir o volume de um objeto de áudio pode ser substancialmente reduzido ou mesmo removido completamente.

[085] Fig. 4 ilustra o codificador 209 em mais detalhe. A seguir, a operação do codificador 209 será descrita em mais detalhe com referência ao exemplo especifico onde o lado da decodificação gera dados de modificação de codificação que são transmitidos para o codificador e usados para controlar os niveis relativos de objetos de áudio individuais.

[086] O codificador 209 compreende uma unidade de recepção 401 que recebe os objetos de áudio em que neste caso são os sinais de fala recebidos provenientes das unidades de comunicação remota, tal como telefones, tomando parte na chamada de teleconferência. Os objetos de fala são alimentados para uma unidade de codificação 403 que faz downmix dos objetos para um número de sinais de áudio que é menor do que o número de objetos de áudio de fala. Especificamente, a unidade de codificação 403 efetua a multiplicação de matriz dada por:

[087] Y = D x X

[088] Onde X denotes um vetor de dimensão N caracterizado pelo fato de compreender as amostras de objeto de fala (onde N é o número de objetos de fala), Y é um vetor de dimensão M caracterizado pelo fato de compreender as amostras de saida de downmix (onde M é o número de canais de saida) e D é uma matriz de downmix N,M. M pode ser, de forma significativa, menor do que N. Por exemplo, para uma teleconferência de seis caminhos, cinco sinais de fala podem ser feitos com downmix para um único sinal mono que é transmitido para a sexta unidade de comunicação.

[089] O codificador 209 ainda mais compreende uma unidade de parâmetro 405 que gera dados paramétricos que podem ser usados ara re-criar os objetos de áudio a partir do sinal feito com downmix sinal. Especificamente, a unidade de parâmetro 405 gera um conjunto de parâmetros de objeto para cada objeto de fala que pode ser usado pelo decodificador 215 para re-criar os objetos de fala. Idealmente, os parâmetros de objeto seriam determinados tal que uma matriz de mixagem para cima correspondendo ao inverso da matriz de downmix poderia ser determinada i. e. a matriz de mixagem para cima U=D-1. Contudo, uma matriz inversa não existe para uma matriz de downmix (onde N>M) e por conseguinte dados de parâmetros podem somente ser gerados que permitam uma regeneração não ideal dos objetos de fala originais.

[090] Conseqüentemente, a unidade de parâmetro 405 gera parâmetros que representam características dos objetos de fala individuais relativos para o sinal feito com downmix sinal. No exemplo especifico, a unidade de parâmetro primeiro transforma o objeto de fala no dominio da freqüência em blocos de tempo (e. g. através do uso de uma FFT) e então efetua a multiplicação de matriz de downmix para cada bloco de freqüência/tempo (ou quadro de freqüência/tempo). Ainda mais, para os blocos de freqüência de tempo, a amplitude relativa de cada objeto de fala relativa ao resultado de downmix é determinada. Assim sendo, a unidade de parâmetro 405 gera informação relativa de nivel descrita em quadro de tempo/freqüência separados para os vários objetos de fala. E por meio disso, um vetor de nivel é gerado para os quadros de tempo/freqüência com cada elemento do vetor representando a quantidade de energia no quadro de tempo/freqüência do objeto daquele elemento. Este processo pode resultar em um conjunto de parâmetros de energia Ob,tn para a banda de freqüência b, segmento de tempo t, e sinal n. Esses parâmetros podem então ser transmitidos (preferencialmente em um dominio logarítmico e quantizado) para a extremidade de recepção. Assim sendo, a abordagem para gerar os dados de parâmetros podem ser similares para uma abordagem usada para codificação espacial de ambiente de MPEG e para um re-uso de funcionalidade pode ser passivel de alcançar em muitas modalidades.

[091] A unidade de parâmetro 405 e a unidade de codificação 403 são acopladas a um processador de transmissão 407 que gera uma seqüência de bit caracterizado pelo fato de compreender ambos, os dados de codificação e os dados paramétricos. Especificamente, a seqüência de bit pode ser um sinal codificado estéreo compatível com MPEG com os dados paramétricos compreendidos em porções de dados auxiliares da seqüência de bit. A seqüência de bit resultante é então transmitida para a unidade de comunicação apropriada.

[092] Fig. 5 ilustra o decodificador 215 em mais detalhe. O decodificador 215 compreende a unidade de decodificação 303 orientada à objeto que gera réplicas aproximadas dos objetos de fala. Especificamente, a unidade de decodificação 303 pode gerar quadros de freqüência/tempo dos objetos de fala individuais modificando os correspondentes quadros de freqüência/tempo do sinal feito com downmix recebido como indicado pela correspondente diferença relativa de nivel para aquele objeto como dado nos dados paramétricos.

[093] Se o sinal de fala individual para o objeto n é dado por xn(t), com parâmetros de energia associados Ob,tn, e um sinal feito com downmix m(t) , a estimativa do lado do decodificador do sinal de fala xn(t), para quadro de tempo/freqüência (b,t) pode ser dado por:

[094] Os objetos de fala são alimentados para a unidade de renderização 305 que pode prosseguir para gerar um sinal de saida para o usuário. Ainda mais, no exemplo, o usuário pode ser capaz de ajustar vários parâmetros e características de renderização incluindo, por exemplo, mudar uma posição de um ou mais dos objetos de fala na imagem de som gerada.

[095] Em adição, o decodificador 215 compreende um processador de controle 501 que pode gerar dados de modificação de codificação em resposta a uma entrada de usuário. Os dados de modificação de codificação são alimentados para uma unidade de transmissão 503 que transmite os dados de modificação de codificação para o codificador 209.

[096] O codificador 209 compreende um receptor de dados de controle 409 que recebe os dados de modificação de codificação. O receptor de dados de controle 409 é acoplado à unidade de codificação 403 e à unidade de parâmetro 405 que são arranjadas para modificar a codificação e geração de dados de parâmetros dependendo nos dados de modificação de codificação recebidos. Assim sendo, em adição ao controle da renderização dos objetos de fala no decodificador, o usuário dele pode também controlar a operação de codificação da codificação orientado à objeto efetuado no lado do codificador.

[097] Conforme um exemplo especifico, as localizações da imagem espacial e do objeto espacial no sinal de saida gerado do decodificador pode ser controlado modificando a operação de renderização do decodificador ao passo que (grande) ajustes de volume podem ser efetuados controlando o downmix do codificador.

[098] Assim sendo, o usuário do decodificador pode solicitar que o volume de um objeto de fala especifico é aumentado substancialmente. Se este é efetuado amplificando o correspondente objeto de fala no decodificador, a amplificação também vai amplificar os componentes de interferência cruzada de outros objetos de fala que podem não somente resultar em um maior volume desses, mas também na distorção desses objetos e possivelmente em um deslocamento na posição desses objetos.

[099] Contudo, de acordo com o exemplo, o decodificador 215 não muda o escalonamento das réplicas de objeto de fala geradas, mas mais propriamente gera dados de modificação de codificação que vão forçar o codificador a modificar os recursos de downmix para os objetos de fala desej ados.

[0100] Assim sendo, no exemplo as desvantagens associadas com mudanças de niveis de objeto de áudio individual no lado do lado do decodificador são diminuídas ou eliminadas controlando os niveis relativos no lado do codificador. Especificamente, as modificações de niveis desejadas do usuário no lado do decodificador são transmitidas para o codificador e são aplicados conforme os recursos de downmix.

[0101] No exemplo de teleconferência, a extremidade de recepção também transmite a fala localmente produzida de volta para o centro distribuidor de teleconferência. Conseqüentemente, ao sinal de fala podem ser incluídos os recursos de downmix para todos os objetos que são recebidos pelo receptor (ou para os dados que resultam no receptor mudando os recursos de downmix, e. g. uma atenuação ou amplificação relativa a ser aplicada a um objeto de fala especifico) . e. g. se a extremidade de recepção produz um sinal " fala 0 " e recebe os sinais " fala 1 ", " fala 2 " e " fala 3 " de outras unidades de comunicação, isto pode gerar e transmitir recursos de downmix para os objetos de " fala 1 ", " fala 2 " e " fala 3 ". Esses recursos de downmix são então usadas pelo centro distribuidor de teleconferência para gerar o sinal feito com downmix para esta extremidade de recepção.

[0102] Uma vantagem deste esquema é que o usuário tem um muito alto grau de liberdade em modificar e. g. o volume ou distância de cada sinal de fala individual. Ainda mais, os recursos de downmix (e outros parâmetros) são prováveis de serem justamente constante através do tempo e, por conseguinte, a taxa de dados requerida para os dados de modificação de codificação é tipicamente muito baixa.

[0103] Em algumas modalidades, o codificador 209 pode ser arranjado para modificar pelo menos um dos objetos de áudio antes do downmix ser efetuada. Por exemplo, a unidade de codificação 403 pode escalonar os objetos de áudio recebidos antes de efetuar a multiplicação de matriz de downmix. Assim sendo, se os dados de modificação de codificação que são recebidos indicam que um objeto de fala especifico deve ser menor, as amostras de sinal recebidas para este objeto podem ser multiplicadas por um fator maior do que um. 0 sinal resultante pode então ser usado na multiplicação de matriz de downmix para gerar o sinal feito com downmix. Esta abordagem pode permitir uma matriz de downmix fixa a ser usada e pode especificamente permitir facilmente adequação para multiplicar coeficientes a serem usados (por exemplo a matriz de downmix poderia conter somente coeficientes de unidade e por meio disso, eficazmente reduzir a multiplicação do downmix para um número de adições simples).

[0104] No exemplo, a determinação dos parâmetros de objeto pode ser determinada com base nos sinais modificados. Assim sendo, os objetos de fala escalonados também podem ser alimentados para uma unidade de parâmetro 405 que pode determinar os niveis relativos dos quadros de freqüência/tempo para os sinais modificados. Esta abordagem vai resultar no processo de mixagem para cima através do decodificador gerando um objeto de fala tendo o nivel de volume desejado. Assim sendo, nesta abordagem, a modificação dos dados paramétricos dependendo dos dados de modificação de codificação é indireta no sentido que os dados de modificação de codificação são primeiro usados para modificar os objetos de fala e os dados de parâmetros são então gerados nas bases dos objetos de fala modificados.

[0105] Em outras modalidades, os dados paramétricos podem ser modificados mais diretamente. Por exemplo, os objetos de fala podem ser alimentados diretamente à uma unidade de parâmetro 405 antes de qualquer modificação ser efetuada. A unidade de parâmetro 405 pode então determinar os niveis relativos de intensidade para os diferentes quadros de freqüência/tempo e de forma subseqüente ajustar os niveis medidos em resposta aos dados de modificação de codificação. Esta modificação pode ser feita para corresponder à modificação do objeto de fala antes do downmix e por meio disso, assegurar uma geração correta do volume de objeto de fala compensado no decodificador.

[0106] Em algumas modalidades, somente os dados paramétricos são mudados em resposta aos dados de modificação de codificação e os objetos de fala e de downmix são mantidos inalterados. Neste exemplo, os parâmetros de objeto podem ser alterados tal que o decodificador vai gerar os objetos de fala requeridos aplicando os parâmetros de objeto modificados. Neste caso, de modo a modificar um objeto de fala dado, pode ser necessário não somente alterar o parâmetro de fala para aquele objeto de fala, mas também para outros objetos de fala.

[0107] Em algumas modalidades, os recursos de downmix (e. g. os coeficientes da matriz de downmix) podem ser alterados em resposta aos dados de modificação de codificação recebidos. Por exemplo, o volume de um objeto de fala especifico pode ser aumentado aumentando o coeficiente(s) de matriz de downmix para aquela fala de objeto. Neste caso, um sinal de objeto de fala sinal modificado está tipicamente não disponível e conseqüentemente os parâmetros de objeto podem ser alterados diretamente em resposta aos dados de codificação tal que eles refletem os recursos de downmix alterados.

[0108] Também vai ser apreciado que em algumas tais modalidades, a modificação de um objeto de fala pode também afetar outros objetos de fala. Por exemplo, quando alterando o recurso do downmix de um objeto de fala, os outros recursos de downmix podem ser ajustados tal que a energia total do sinal feito com downmix permanece inalterada. Alternativamente ou adicionalmente, os parâmetros relativos de energia para os quadros de freqüência/tempo de outros objetos de fala podem ser modificados para refletir uma energia alterada do sinal de downmix gerado.

[0109] Em algumas modalidades, os dados de modificação de codificação podem ser específicos de freqüência tal que diferentes dados de modificação são fornecidos para diferentes freqüências. Por exemplo, mais propriamente do que apenas indicar um recurso de downmix modificado para um dado objeto de fala, este recurso de downmix pode ser dado como uma função da freqüência. Assim sendo, o usuário remoto pode não somente ajustar o ganho de um objeto de fala como um todo, mas pode modificar a característica de freqüência do objeto. Isto pode permitir ao usuário remoto eficientemente controlar uma operação de equalização para o objeto de fala individual. Assim sendo, no exemplo, pelo menos, alguns dos dados de modificação de codificação são fornecidos como uma função da freqüência e a unidade de parâmetro 405 conseqüentemente prossegue para modificar os dados paramétricos dependendo da freqüência.

[0110] Será apreciado que o transmissor 201 pode ser arranjado para gerar sinais individuais para diferentes decodificadores. E. g. na aplicação exemplar de um centro distribuidor de teleconferência, o transmissor 201 pode receber diferentes dados de modificação de codificação proveniente de diferentes participantes na teleconferência e pode gerar separados dados paramétricos e de downmix para os participantes individuais.

[0111] Em algumas modalidades, o codificador 209 ainda mais compreende funcionalidade para gerar o sinal(s) de saida conforme um downmix. Assim sendo, no exemplo, o codificador 209 é arranjado para renderizar os objetos de fala como um sinal de saida espacial onde em cada objeto de fala é renderizado em uma localização especifica com um nivel de volume especifico e característica de freqüência etc. Especificamente, a saida do codificador 209 pode ser um sinal estéreo, um sinal de múltiplos canais de som ambiente e/ou um sinal de ambiente espacial binaural e. g. gerado usando Head Related Transfer Functions.

[0112] Em tais modalidades, os dados de modificação de codificação recebidos provenientes do decodificador 215 podem parâmetros de renderização espacial que afetam a renderização dos objetos de fala no sinal espacial.

[0113] Os parâmetros de renderização espacial podem, por exemplo, indicar que a posição de um ou mais dos objetos de áudio deve ser alterada no downmix de saida espacial. Como um outro exemplo, os dados de equalização podem ser fornecidos que podem ser aplicados a um objeto de áudio individual. Conforme um outro exemplo, a distância percebida de cada objeto de áudio pode ser remotamente controlada para a extremidade do decodificador. Por exemplo, se os dados de modificação de codificação que são recebidos indicam que um objeto de áudio deve ser deslocada ainda mais em urn downmix espacial, a renderização deste objeto de áudio pode ser alterada tal que o nivel de volume seja reduzido e a correlação entre os sinais frontais e traseiros seja aumentada. Tais modificações são conhecidas por afetar a percepção de distância resultando no usuário experimentando a fonte de som do objeto de áudio sendo deslocada ainda mais longe do ouvinte.

[0114] Conforme um outro exemplo, o usuário remoto pode controlar o modo de renderização espacial do codificador. Por exemplo, para um sinal de saida de dois canais, o usuário pode selecionar se a renderização deve ser otimizada para alto-falantes ou fones de ouvido. Especificamente, o usuário remoto pode selecionar se a saida deve ser gerada como um sinal estéreo tradicional ou como um sinal ambiente espacial binaural para uso com fones de ouvido.

[0115] Tal uma abordagem pode fornecer um número de vantagens. Por exemplo, a taxa de bit requerida para transmitir os parâmetros de renderização espacial é tipicamente relativamente baixa já que os parâmetros de renderização são somente definidos por fonte de som (i. e., eles são tipicamente não dependentes da freqüência). Ainda mais, esses parâmetros são prováveis de serem razoavelmente constante ao longo do tempo. Os parâmetros requeridos para a abordagem da renderização do lado do decodificador, por outro lado, têm de ser transmitidos para cada fonte de som e para cada quadro de tempo/freqüência, resultando em quantidades significativas de dados a serem transmitidos. Assim sendo, movendo alguma ou toda a renderização para o lado do codificador, um sistema de áudio eficiente pode ser alcançado.

[0116] Também compatibilidade melhorada com decodificadores legados pode ser alcançada. O codificador central pode gerar uma seqüência de bit que é otimizada para cada decodificador independentemente (i. e., decodificadores mono, estéreo, ou de ambiente todos podem ser satisfeitos e o sinal gerado pode ser otimizado para o decodif icador de destinação especifica.

[0117] A abordagem pode permitir serviços adicionais ou aprimorados a serem fornecidos. Por exemplo, cada cliente pode pagar uma taxa adicional para determinadas possibilidades de renderização (i. e., ajustes de nivel são um primeiro nivel de serviço, e a renderização espacial pode ser um segundo, serviço nivel de serviço mais caro).

[0118] Ainda mais, como o requisito de renderização para o decodificador pode ser diminuído, uma complexidade reduzida do decodificador da destinação é possivel em muitas aplicações.

[0119] Fig. 6 ilustra um exemplo de um método para codificar sinais de áudio de acordo com algumas modalidades da invenção.

[0120] O método inicia no passo 601 onde uma pluralidade de objetos de áudio é recebida.

[0121] Passo 601 é seguido pelo passo 603 onde os dados de modificação de codificação são recebidos provenientes de uma unidade remota.

[0122] Passo 603 é seguido pelo passo 605 onde uma pluralidade de objetos de áudio são codificados em um número de sinais de áudio e os dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio. Os dados paramétricos compreendem um conjunto de parâmetros de objeto para cada um dos diferentes objetos de áudio e é determinado em resposta aos dados de modificação.

[0123] Fig. 7 ilustra um exemplo de um método para decodificar objetos de áudio de acordo com algumas modalidades da invenção.

[0124] O método inicia no passo 701 onde um número de sinais de áudio e dados paramétricos representando os objetos de áudio relativos ao número de sinais de áudio é recebido proveniente de um codificador. Os sinais de áudio são um downmix dos objetos de áudio e os dados paramétricos compreende um conjunto de parâmetros de objeto para cada um dos diferentes objetos de áudio.

[0125] Passo 701 é seguido pelo passo 703 onde os objetos de áudio são decodificados a partir do número de sinais de áudio em resposta aos dados paramétricos.

[0126] Passo 703 é seguido pelo passo 705 onde um sinal espacial de múltiplos canais de saida é gerado a partir dos objetos de áudio.

[0127] Passo 705 é seguido pelo passo 707 onde os dados de modificação de codificação para o codificador de objeto é gerado.

[0128] Passo 707 é seguido pelo passo 709 onde os dados de modificação de codificação são transmitidos para o codificador de objeto.

[0129] Será apreciado que a descrição acima para clareza tem as modalidades da invenção descritas com referência à diferentes unidades e processadores funcionais. Contudo, será aparente que qualquer distribuição adequada de funcionalidade entre diferentes unidades ou processadores funcionais pode ser usada sem fugir da invenção. Por exemplo, a funcionalidade ilustrada para ser efetuada através de processadores ou controladores separados pode ser efetuada através do mesmo processador ou controlador. Por isso, referências às unidades funcionais especificas somente têm de ser vistas como referências aos meios adequados para fornecer a funcionalidade descrita mais propriamente do que indicativo de uma lógica estrita ou estrutura ou organização fisica.

[0130] A invenção pode ser implementada em qualquer forma adequada incluindo hardware, software, firmware ou qualquer combinação desses. A invenção pode opcionalmente ser implementada pelo menos, parcialmente como software de computador sendo executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser fisicamente, funcionalmente e logicamente implementados em qualquer maneira adequada. De fato, a funcionalidade pode ser implementada em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Como tal, a invenção pode ser implementada em uma única unidade ou pode ser fisicamente e funcionalmente distribuída entre unidades e processadores diferentes.

[0131] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, não é pretendida ser limitada à forma especifica estabelecida aqui. Mais propriamente, o escopo da presente invenção é limitado somente pelas reivindicações anexas. Adicionalmente, embora a características possa parecer ser descrita em conexão com modalidades particulares, alguém qualificado na técnica vai reconhecer que várias características das modalidades descritas podem ser combinadas de acordo com a invenção. Nas reivindicações, os termos "caracterizado pelo fato de compreender" e "caracterizado pelo fato de compreender" não excluem a presença de outros elementos ou passos.

[0132] Ainda mais, embora individualmente listada, uma pluralidade de meios, elementos ou passos de método possam ser implementadas através de e. g.uma única unidade ou processador. Adicionalmente, embora características individuais possam ser incluídas nas diferentes reivindicações, essas podem possivelmente ser vantajosamente combinadas, e a inclusão nas diferentes reivindicações não implicam que uma combinação de características não é factível e/ou vantajosa. Também a inclusão de uma característica em uma categoria de reivindicações não implica uma limitação desta categoria, mas, mais propriamente indica que a característica é igualmente aplicável à outras categorias da reivindicação conforme apropriado. Ainda mais, a ordem das características nas reivindicações não implica qualquer ordem específica na qual as características precisem ser trabalhas e em particular a ordem dos passos individuais em uma reivindicação de método não implica que os passos precisem ser efetuados nessa ordem. Mais propriamente, os passos podem ser efetuados em qualquer ordem adequada. Em adição, as referências singulares não excluem uma pluralidade. Assim sendo referências à "um", "uma", "primeiro", "segundo", etc não excluem uma pluralidade. Símbolos de referência nas reivindicações são fornecidos meramente como esclarecendo exemplo não devem ser interpretados como limitando o escopo das reivindicações em qualquer maneira. Petição 870200033575, de 12/03/2020, pág. 46/55

Claims

1. CODIFICADOR PARA CODIFICAR OBJETOS DE ÁUDIO, caracterizado por compreender: meios (401) para receber uma pluralidade de objetos de áudio; meios de codificação (403) para codificar a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos compreendendo um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; - meios (409) para receber dados de modificação de codificação a partir de uma unidade remota; e - meios de parâmetro (405) para determinar os dados paramétricos em resposta aos dados de modificação de codificação.

2. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelos meios de codificação serem arranjados para gerar o número de sinais de áudio através de uma downmix dos objetos de áudio e os meios de parâmetro (405) são arranjados para modificar o recurso da downmix de pelo menos um dos objetos de áudio em resposta aos dados de modificação de codificação.

3. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelos meios de parâmetro (405) serem arranjados para escalonar pelo menos um primeiro objeto de áudio em resposta aos dados de modificação de codificação e para modificar os parâmetros de objeto para o primeiro objeto de áudio em resposta ao escalonamento.

4. CODIFICADOR, de acordo com a reivindicação 1, caracterizado por pelo menos, alguns dos dados de modificação de codificação serem de frequência especifica e os meios de parâmetro (405) serem arranjados para determinar pelo menos um parâmetro de objeto em resposta a uma característica de frequência do parâmetro de objeto.

5. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelos meios de codificação (403) serem arranjados para modificar pelo menos um objeto de áudio em resposta aos dados de modificação de codificação antes de uma downmix dos objetos de áudio para o número de sinais de áudio.

6. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelos meios de codificação (403) serem arranjados para gerar o número de sinais de áudio conforme uma downmix espacial.

7. CODIFICADOR, de acordo com a reivindicação 6, caracterizado pelos meios de codificação (403) serem arranjados para modificar, em resposta aos dados de modificação de codificação, pelo menos uma característica selecionada do grupo consistindo de: - uma localização espacial de pelo menos um dos objetos de áudio; - uma característica de distância de pelo menos um dos objetos de áudio; - um modo de renderização espacial do codificador, e - uma característica de frequência de pelo menos um dos objetos de áudio.

8. CODIFICADOR, de acordo com a reivindicação 1, caracterizado por cada objeto de áudio ser associado com um conjunto de fontes de áudio que são independentes das fontes de áudio de outros objetos de áudio.

9. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelo codificador ser arranjado para receber um primeiro objeto de áudio proveniente de uma unidade remota e os meios (409) para receber dados de modificação de codificação são arranjados para extrair dados de modificação de codificação a partir dos dados de codificação recebidos para o primeiro objeto de áudio.

10. CODIFICADOR, de acordo com a reivindicação 1, caracterizado pelo codificador ser arranjado para receber dados de modificação de codificação a partir de uma pluralidade de unidades remotas e para gerar diferentes dados paramétricos para as diferentes unidades remotas em resposta à recepção de diferentes dados de modificação de codificação a partir de diferentes unidades remotas.

11. DECODIFICADOR PARA DECODIFICAR OBJETOS DE ÁUDIO, caracterizado por compreender: - um receptor (303) para receber proveniente de um codificador de objeto de áudio remoto um número de sinais de áudio sendo uma downmix de uma pluralidade de objetos de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos compreendendo um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; - meios de decodificação (303) para decodificar os objetos de áudio a partir de um número de sinais de áudio em resposta aos dados paramétricos; - meios de renderização (305) para gerar um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; - meios para gerar (501) dados de modificação de codificação para o codificador de objeto de áudio remoto; e - meios para transmitir (503) dados de modificação de codificação para o codificador de objeto de áudio remoto.

12. CENTRO DISTRIBUIDOR DE TELECONFERÊNCIA, para suportar uma teleconferência entre uma pluralidade de unidades de comunicação, caracterizado por compreender: - meios (401) para receber uma primeira pluralidade de sinais de fala a partir de uma pluralidade de unidades de comunicação remota; - meios de codificação (403) para codificar para uma primeira unidade de comunicação remota, a primeira pluralidade de sinais de fala em um número de sinais de áudio e dados paramétricos representando a pluralidade de sinais de fala relativa ao número de sinais de áudio, os dados paramétricos compreendendo um conjunto de parâmetros de objeto para pelo menos um dos diferentes sinais de fala; - meios para receber (409) dados de modificação de codificação proveniente da primeira unidade de comunicação remota; e - meios de parâmetro (405) para determinar os dados paramétricos em resposta aos dados de modificação de codificação; e - (407) para transmitir o número de sinais de áudio e dados paramétricos para a primeira unidade de comunicação remota.

13. MÉTODO PARA CODIFICAR SINAIS DE ÁUDIO, caracterizado por compreender: receber (601) uma pluralidade de objetos de áudio; - codificar (603) a pluralidade de objetos de áudio em um número de sinais de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos compreendendo um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; - receber (605) dados de modificação de codificação a partir de uma unidade remota; e determinar (603) os dados paramétricos em resposta aos dados de modificação.

14. MÉTODO PARA DECODIFICAR SINAIS DE ÁUDIO, caracterizado por compreender: - receber (701) proveniente de um codificador de objeto de áudio remoto, um número de sinais de áudio sendo uma downmix de uma pluralidade de objetos de áudio e dados paramétricos representando a pluralidade de objetos de áudio relativa ao número de sinais de áudio, os dados paramétricos compreendendo um conjunto de parâmetros de objeto para pelo menos um dos diferentes objetos de áudio; - decodificar (703) os objetos de áudio a partir do número de sinais de áudio em resposta aos dados paramétricos; - gerar (705) um sinal espacial de múltiplos canais de saida a partir dos objetos de áudio; - gerar (707) dados de modificação de codificação para o codificador de objeto de áudio remoto; e transmitir (709) dados de modificação de codificação para o codificador de objeto de áudio remoto.