BR112015029129B1

BR112015029129B1 - Método para codificar objetos de áudio em um fluxo de dados, meio legível por computador, método em um decodificador para decodificar um fluxo de dados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados

Info

Publication number: BR112015029129B1
Application number: BR112015029129-5A
Authority: BR
Inventors: Lars Villemoes; Kristofer Kjoerling; Heiko Purnhagen; Toni Hirvonen; Dirk Jeroen Breebaart; Leif Jonas Samuelsson
Original assignee: Dolby International Ab
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2022-05-31
Also published as: BR122020017144B1; JP6190947B2; RU2015150055A; BR112015029129A2; WO2014187990A1; CN105229732A; US20160125887A1; CN105229732B; JP2016522911A; EP3005356A1; EP3005356B1; KR101760248B1; RU2630754C2; ES2640815T3; US9892737B2; HK1213685A1; KR20160003058A

Abstract

CODIFICAÇÃO EFICIENTE DE CENAS DE ÁUDIO CONTENDO OBJETOS DE ÁUDIO. A presente invenção refere-se a métodos de codificação e decodificação para codificar e decodificar objetos baseados em áudio. Um método de codificação exemplar inclui inter alia calcular sinais de downmix M através da formação de combinações de objetos de áudio N, em que M = N, e calcular os parâmetros que permitem a reconstrução de um conjunto de objetos de áudio formado com base nos objetos de áudio N a partir dos sinais de downmix M. O cálculo dos sinais de downmix M é feito de acordo com um critério que é independente de qualquer configuração de alto-falante.

Description

REFERÊNCIA CRUZADA PARA PEDIDOS RELACIONADOS

[0001] O presente pedido reivindica o benefício da data do depósi to do Pedido de Patente Provisória U.S. n°: 61/827.246 depositado em 24 de maio de 2013, Pedido de Patente Provisória U.S. n°: 61/893.770 depositado em 21 de outubro de 2013, e Pedido de Patente Provisória U.S. n°: 61/973.623 depositado em 1 de abril de 2014, cada um dos quais é aqui incorporado por referência na sua totalidade.

Campo técnico

[0002] A presente divulgação refere-se genericamente à codifica ção de uma cena de áudio que compreende objetos de áudio. Em particular, refere-se a um codificador, um decodificador e os métodos associados para codificação e decodificação de objetos de áudio.

Antecedentes

[0003] Uma cena de áudio pode conter geralmente objetos de áu dio e canais de áudio. Um objeto de áudio é um sinal de áudio que tem uma posição espacial associada que pode variar com o tempo. Um canal de áudio é um sinal de áudio que corresponde diretamente a um canal de configuração de alto-falante multicanal, como uma configuração de alto-falante 5.1 com três alto-falantes frontais, dois alto-falantes surround e um alto-falante de efeitos de baixa frequência.

[0004] Uma vez que o número de objetos de áudio pode ser tipi camente muito grande, por exemplo, na ordem de centenas de objetos de áudio, existe uma necessidade por métodos de codificação que permitam que os objetos de áudio possam ser eficientemente recons- truídos no lado do decodificador. Tem havido sugestões para combinar os objetos de áudio em uma downmix multicanal (isto é, dentro de uma pluralidade de canais de áudio que corresponde aos canais de uma certa configuração de alto-falantes multicanais, tal como uma configuração 5.1) em um lado do codificador, e para reconstruir os objetos de áudio parametricamente a partir da downmix multicanal em um lado do decodificador.

[0005] Uma vantagem dessa abordagem é que um decodificador de legado que não suporta a reconstrução do objeto de áudio pode usar a downmix multicanal diretamente para reprodução da configuração do alto-falante multicanal. A título de exemplo, uma downmix 5.1 pode ser reproduzida diretamente nos alto-falantes de uma configuração 5.1.

[0006] Uma desvantagem desta abordagem é, contudo, que a downmix multicanal pode não dar uma reconstrução suficientemente boa dos objetos de áudio no lado do decodificador. Por exemplo, considere dois objetos de áudio que têm a mesma posição horizontal como o alto-falante dianteiro esquerdo de uma configuração 5.1, mas uma posição vertical diferente. Estes objetos de áudio poderiam ser normalmente combinados no mesmo canal de uma downmix de 5.1. Isto constituiria uma situação desafiadora para a reconstrução do objeto de áudio no lado do decodificador, que teria de reconstruir as aproximações dos dois objetos de áudio a partir do mesmo canal downmix, um processo que não pode garantir a reconstrução perfeita, e que, às vezes, leva até mesmo a artefatos audíveis.

[0007] Existe assim uma necessidade de métodos de codifica- ção/decodificação que fornecem uma reconstrução eficiente e melhorada dos objetos de áudio.

[0008] As informações secundárias ou metadados são frequente mente utilizadas durante a reconstrução de objetos de áudio a partir, por exemplo, de uma downmix. A forma e conteúdo de tais informações secundárias podem, por exemplo, afetar a fidelidade dos objetos de áudio reconstruídos e/ou a complexidade computacional de realizar a reconstrução. Seria, portanto, desejável proporcionar métodos de codificação/decodificação com um formato novo e alternativo de informação secundária, que permita aumentar a fidelidade de objetos de áudio reconstruídos e/ou que permita reduzir a complexidade computacional da reconstrução.

Breve Descrição dos Desenhos

[0009] Exemplos de modalidades serão agora descritos com refe rência aos desenhos anexos, em que: A Fig. 1 é uma ilustração esquemática de um codificador de acordo com as modalidades exemplificativas; A Fig. 2 é uma ilustração esquemática de um decodificador que suporta a reconstrução de objetos de áudio de acordo com as modalidades exemplificativas; A Fig. 3 é uma ilustração esquemática de um decodificador de baixa complexidade que não suporta a reconstrução de objetos de áudio de acordo com as modalidades exemplificativas; A Fig. 4 é uma ilustração esquemática de um codificador que compreende um componente de agrupamento sequencialmente arranjado para simplificação de uma cena de áudio de acordo com as modalidades exemplificativas; A Fig. 5 é uma ilustração esquemática de um codificador que compreende um componente de agrupamento disposto em paralelo para simplificação de uma cena de áudio de acordo com as modalidades exemplificativas; A Fig. 6 ilustra um processo típico conhecido para calcular uma matriz de processamento para um conjunto de ocorrências de metadados; A Fig. 7 ilustra a derivação de uma curva de coeficiente utilizada no processamento de sinais de áudio; A Fig. 8 ilustra um método de interpolação de ocorrência de metadados, de acordo com um exemplo de modalidade; As Figs. 9 e 10 ilustram exemplos de introdução de exemplos adicionais de metadados de acordo com os exemplos de modalidades; e A Fig. 11 ilustra um método de interpolação utilizando um circuito sample-and-hold com um filtro low-pass, de acordo com um exemplo de modalidade.

[00010] Todas as figuras são esquemáticas e geralmente só mostram as peças que são necessárias a fim de elucidar a divulgação, considerando que outras partes possam ser omitidas ou simplesmente sugeridas. Salvo indicação em contrário, os mesmos números de referência referem-se a partes semelhantes em figuras diferentes.

Descrição detalhada

[00011] Em vista do acima, é, portanto, um objetivo proporcionar um codificador, um decodificador e métodos associados que permitam a reconstrução eficiente e melhorada de objetos de áudio, e/ou que permita aumentar a fidelidade dos objetos de áudio reconstruídos, e/ou que permita a redução da complexidade computacional da reconstrução.

I. Visão geral - Codificador

[00012] De acordo com um primeiro aspecto, é proporcionado um método de codificação, um codificador, e um produto de programa de computador para a codificação de objetos de áudio.

[00013] De acordo com as modalidades exemplificativas é proporcionado um método para codificação de objetos de áudio em um fluxo de dados, compreendendo: receber N objetos de áudio, caracterizado pelo fato de N> 1; calcular M sinais de downmix, caracterizado pelo fato de que M<N, através da formação de combinações de N objetos de áudio, de acordo com um critério que é independente de qualquer configuração de alto-falante; calcular informações secundárias incluindo parâmetros que permitam a reconstrução de um conjunto de objetos de áudio formados com base nos N objetos de áudio a partir dos M sinais de downmix; e incluir os M sinais de downmix e as informações secundárias em um fluxo de dados para transmissão a um decodificador.

[00014] Com a disposição acima, os M sinais de downmix são, assim, formados a partir dos N objetos de áudio, independentemente de qualquer configuração de alto-falante. Isto implica que os M sinais de downmix não estão limitados aos sinais de áudio que são adequados para a reprodução nos canais de uma configuração de alto-falantes com M canais. Em vez disso, os M sinais de downmix podem ser selecionados mais livremente de acordo com um critério de tal forma que eles, por exemplo, se adaptem à dinâmica dos N objetos de áudio e melhorem a reconstrução dos objetos de áudio no lado do decodifica- dor.

[00015] Voltando ao exemplo com dois objetos de áudio que têm a mesma posição horizontal, tal como o alto-falante frontal esquerdo de uma configuração 5.1, mas uma posição vertical diferente, o método proposto permite colocar o primeiro objeto de áudio em um primeiro sinal de downmix, e o segundo objeto de áudio no segundo sinal de downmix. Isto permite a perfeita reconstrução dos objetos de áudio no decodificador. Em geral, essa reconstrução perfeita se faz possível desde que o número de objetos de áudio ativos não exceda o número de sinais de downmix. Se o número de objetos de áudio ativos for maior, então, o método proposto permite a seleção dos objetos de áudio que têm de ser misturados no mesmo sinal de downmix de tal mo- do que os possíveis erros de aproximação que ocorrem no objeto áudio reconstruído no decodificador não têm ou têm o menor impacto possível perceptual na cena do áudio reconstruído.

[00016] Uma segunda vantagem de os M sinais de downmix serem adaptáveis é a capacidade de manter certos objetos de áudio estritamente separados de outros objetos de áudio. Por exemplo, pode ser vantajoso manter qualquer objeto de diálogo separado dos objetos de plano de fundo, para garantir que o diálogo seja processado de forma precisa em termos de atributos espaciais, e permita o processamento objeto no decodificador, tal como a melhora do diálogo ou o aumento de volume do diálogo para uma melhor inteligibilidade. Em outras aplicações (por exemplo, karaokê), pode ser vantajoso permitir um completo silenciamento de um ou mais objetos, que também exige que os objetos não sejam misturados com outros objetos. Os métodos convencionais usando um downmix multicanal correspondente a uma configuração específica de alto-falante não permitem um completo silenci- amento dos objetos de áudio presentes em uma mixagem de outros objetos de áudio.

[00017] A palavra sinal de downmix reflete que um sinal de downmix é uma mixagem, ou seja, uma combinação de outros sinais. A palavra "down" indica que o número M de sinais de downmix é normalmente menor que o número N de objetos de áudio.

[00018] De acordo com as modalidades exemplificativas, o método pode ainda compreender associar cada sinal de downmix com uma posição espacial, e incluindo as posições espaciais dos sinais de downmix no fluxo de dados como metadados para os sinais de downmix. Isto é vantajoso na medida em que permite a decodificação de baixa complexidade para ser utilizada no caso de um sistema de reprodução de legado. Mais precisamente, os metadados associados com os sinais de downmix podem ser usados em um lado do decodifi- cador para processamento dos sinais de downmix nos canais de um sistema de reprodução de legado.

[00019] De acordo com as modalidades exemplificativas, os N objetos de áudio estão associados aos metadados incluindo as posições espaciais dos N objetos de áudio, e as posições espaciais associadas com os sinais de downmix são calculados com base nas posições espaciais dos N objetos de áudio. Assim, os sinais de downmix podem ser interpretados como objetos de áudio tendo uma posição espacial que depende das posições espaciais dos N objetos de áudio.

[00020] Além disso, as posições espaciais dos N objetos de áudio e as posições espaciais associadas com os M sinais de downmix podem variar com o tempo, isto é, podem variar entre intervalos de tempo de dados de áudio. Em outras palavras, os sinais de downmix podem ser interpretados como objetos dinâmicos de áudio tendo uma posição associada que varia entre os intervalos de tempo. Isto vai de encontro com os sistemas técnicos anteriores, onde os sinais de downmix correspondem às posições espaciais fixas do alto-falante.

[00021] Normalmente, as informações secundárias também estão, assim, permitindo que os parâmetros que regem a reconstrução dos objetos de áudio variem temporalmente.

[00022] O codificador pode aplicar diferentes critérios para o cálculo dos sinais de downmix. De acordo com as modalidades exemplificati- vas nas quais os N objetos de áudio estão associados com metadados, incluindo as posições espaciais dos N objetos de áudio, o critério para calcular os M sinais de downmix podem se basear na proximidade espacial dos N objetos de áudio. Por exemplo, objetos de áudio que estão próximos uns dos outros podem ser combinadas no mesmo sinal de downmix.

[00023] De acordo com as modalidades exemplificativas em que os metadados associados com N objetos de áudio ainda compreendam valores de importância indicando a importância dos N objetos de áudio em relação uns aos outros, o critério para calcular os M sinais de downmix pode ainda ser baseado em valores de importância dos N objetos de áudio. Por exemplo, o mais importante dos N objetos de áudio pode ser mapeado diretamente para um sinal de downmix, enquanto os objetos de áudio restantes são combinados para formar os sinais de downmix restantes.

[00024] Em particular, de acordo com as modalidades exemplificati- vas, o passo para calcular os M sinais de downmix compreende primeiro um processo de agrupamento que inclui associar os N objetos de áudio com agrupamentos M com base em valores de proximidade e importância espaciais, se for o caso, dos N objetos de áudio, e calcular um sinal de downmix para cada agrupamento através da formação de uma combinação de objetos de áudio associados com o agrupamento. Em alguns casos um objeto de áudio pode formar parte de, no máximo, um agrupamento. Em outros casos, um objeto de áudio pode fazer parte de diversos agrupamentos. Desta forma, diferentes grupos, ou seja, agrupamentos, são formados a partir dos objetos de áudio. Cada agrupamento pode por sua vez ser representado por um sinal de downmix, que pode ser pensado como um objeto de áudio. A abordagem com base nos agrupamentos permite associar cada sinal de downmix a uma posição espacial que é calculada com base nas posições espaciais dos objetos de áudio associados com o agrupamento que corresponde ao sinal de downmix. Com essa interpretação o primeiro procedimento de agrupamento reduz, portanto, a dimensionalidade dos N objetos de áudio para objetos de áudio M de uma forma flexível.

[00025] A posição espacial associado a cada sinal de downmix pode, por exemplo, ser calculado como um centro geométrico ou um centro geométrico ponderado posições espaciais dos objetos de áudio as- sociados com o agrupamento que corresponde ao sinal de downmix. Os pesos podem ser, por exemplo, baseados em valores de importância dos objetos de áudio.

[00026] De acordo com as modalidades exemplificativas, os N objetos de áudio estão associados com os agrupamentos M através da aplicação de um algoritmo K-means tendo as posições espaciais dos N objetos de áudio como entrada.

[00027] Uma vez que uma cena de áudio pode conter um grande número de objetos de áudio, o método pode tomar outras medidas para reduzir a dimensionalidade da cena de áudio, reduzindo assim a complexidade computacional no lado do decodificador, quando reconstruir os objetos de áudio. Em particular, o método pode ainda compreender um segundo procedimento de agrupamento para reduzir uma primeira pluralidade de objetos de áudio de uma segunda pluralidade de objetos de áudio.

[00028] De acordo com uma modalidade, o segundo procedimento de agrupamento é realizado antes do cálculo dos M sinais de downmix. Nessa modalidade a primeira pluralidade de objetos de áudio, por conseguinte, corresponde aos objetos de áudio originais da cena de áudio, e a segunda, reduzida, pluralidade de objetos de áudio corresponde aos N objetos de áudio, com base em quais M sinais de downmix são calculados. Além disso, nessa modalidade, o conjunto de objetos de áudio (a ser reconstruído no decodificador) formado com base nos N objetos de áudio corresponde, ou seja, é igual, aos N objetos de áudio.

[00029] De acordo com uma outra modalidade, o segundo procedimento de agrupamento é realizado em paralelo com o cálculo dos M sinais de downmix. Nessa modalidade, os N objetos de áudio com base nos M sinais de downmix são calculados como a primeira pluralidade de objetos de áudio, sendo a entrada para o segundo procedimento de agrupamento correspondente aos objetos de áudio originais da ce na de áudio. Além disso, nessa modalidade, o conjunto de objetos de áudio (a ser reconstruído no decodificador) formado com base nos N objetos de áudio corresponde, ou seja, é igual, aos objetos de áudio na segunda pluralidade. Com esta abordagem, os M sinais de downmix são, por conseguinte, calculados com base nos objetos de áudio originais da cena de áudio e não em uma base de um número reduzido de objetos de áudio.

[00030] De acordo com as modalidades exemplificativas, o segundo procedimento de agrupamento compreende: receber a primeira pluralidade de objetos de áudio e suas posições espaciais associadas, associar a primeira pluralidade de objetos de áudio com pelo menos um agrupamento com base na proximidade espacial da primeira pluralidade de objetos de áudio, gerar a segunda pluralidade de objetos de áudio representando, pelo menos, cada agrupamento por um objeto de áudio, sendo uma combinação dos objetos de áudio associados com o agrupamento, calcular os metadados incluindo as posições espaciais para a segunda pluralidade de objetos de áudio, caracterizado pelo fato de a posição espacial de cada objeto de áudio da segunda pluralidade de objetos de áudio ser calculada com base nas posições espaciais dos objetos de áudio associados com o agrupamento correspondente; e incluir os metadados para a segunda pluralidade de objetos de áudio no fluxo de dados.

[00031] Em outras palavras, o segundo procedimento de agrupamento explora a redundância espacial presente na cena de áudio, tal como os objetos com posições iguais ou muito semelhantes. Além disso, os valores de importância dos objetos de áudio podem ser levados em consideração na geração da segunda pluralidade de objetos de áudio.

[00032] Como mencionado acima, a cena de áudio pode também compreender canais de áudio. Esses canais de áudio podem ser pensados como um objeto de áudio sendo associado a uma posição estática, viz. a posição do alto-falante correspondente ao canal de áudio. Em mais detalhes, o segundo procedimento de agrupamento pode ainda compreender: receber pelo menos um canal de áudio; converter, pelo menos, cada um dos canais de áudio de um objeto de áudio tendo uma posição estática espacial correspondente a uma posição de alto-falante desse canal de áudio; e incluir, pelo menos, um canal de áudio convertido na primeira pluralidade de objetos de áudio.

[00033] Deste modo, o método permite a codificação de uma cena de áudio que compreenda os canais de áudio, bem como objetos de áudio.

[00034] De acordo com as modalidades exemplificativas, fornece-se um programa de computador compreendendo um meio de leitura por computador com instruções para executar o método de decodificação de acordo com as modalidades exemplificativas.

[00035] De acordo com as modalidades exemplificativas, é proporcionado um método para codificação dos objetos de áudio em um fluxo de dados, compreendendo: um componente de recepção configurado para receber N objetos de áudio, caracterizado pelo fato de N> 1 um componente de downmix configurado para calcular M sinais de downmix, caracterizado pelo fato de M<N, através da formação de combinações de N objetos de áudio, de acordo com um critério que é independente de qualquer configuração de alto-falante; um componente de análise configurado para calcular informações lado incluindo parâmetros que permitem a reconstrução do conjunto de objetos formados na base de áudio dos N objetos de áudio a partir dos M sinais de downmix; e um componente de multiplexação configurado para incluir os M sinais de downmix e as informações secundárias em um fluxo de dados para transmissão a um decodificador.

II. Visão geral - Decodificador

[00036] De acordo com um segundo aspecto, é proporcionado um método de decodificação, um decodificador, e um programa de computador para decodificar o conteúdo de áudio multicanais.

[00037] O segundo aspecto pode geralmente ter s mesmas características e vantagens do primeiro aspecto.

[00038] De acordo com as modalidades exemplificativas, é proporcionado um método em um decodificador para decodificação de um fluxo de dados incluindo objetos de áudio codificados, que compreende: receber um fluxo de dados compreendendo M sinais de downmix, que são combinações de N objetos de áudio calculados de acordo com um critério que é independente de qualquer configuração de alto-falante, caracterizado pelo fato de M<N, e as informações secundárias incluir parâmetros que permitem a reconstrução de um conjunto de objetos de áudio formados com base nos N objetos de áudio a partir dos M sinais de downmix; e reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix e as informações secundárias.

[00039] De acordo com as modalidades exemplificativas, o fluxo de dados ainda compreende metadados para os M sinais de downmix, incluindo as posições espaciais associadas com os M sinais de downmix, o método ainda compreendendo: na condição de que o decodificador esteja configurado para suportar a reconstrução do objeto de áudio, realizar a etapa de reconstrução do conjunto de objetos de áudio formado com base nos N objetos de áudio dos M sinais de downmix e as informações secundárias; e na condição de que o descodificador não esteja configurado para suportar a reconstrução do objeto de áudio, usando os metadados para os M sinais de downmix para processamento dos M sinais de downmix para canais de saída de um sistema de reprodução.

[00040] De acordo com as modalidades exemplificativas, as posições espaciais associadas aos M sinais de downmix variam com o tempo.

[00041] De acordo com as modalidades exemplificativas, a informação secundária varia com o tempo.

[00042] De acordo com as modalidades exemplificativas, o fluxo de dados ainda compreende metadados para o conjunto de objetos de áudio formado com base nos N objetos de áudio, incluindo as posições espaciais do conjunto de objetos de áudio formado com base nos N objetos de áudio, o método ainda compreendendo: usar os metadados para o conjunto de objetos de áudio formado com base nos N objetos de áudio para processamento do conjunto de objetos de áudio reconstruído formado com base nos N objetos de áudio para canais de saída de um sistema de reprodução.

[00043] De acordo com as modalidades exemplificativas, o conjunto de objetos de áudio formado com base nos N objetos de áudio é igual aos N objetos de áudio.

[00044] De acordo com as modalidades exemplificativas, o conjunto de objetos de áudio formado com base nos N objetos de áudio compreende uma pluralidade de objetos de áudio que são combinações dos N objetos de áudio, e o número dos quais é menor que N.

[00045] De acordo com as modalidades exemplificativas, fornece-se um programa de computador compreendendo um meio de leitura por computador com instruções para executar o método de decodificação de acordo com as modalidades exemplificativas.

[00046] De acordo com as modalidades exemplificativas, é proporcionado um decodificador para decodificação de um fluxo de dados incluindo objetos de áudio codificados, que compreende: um componente de recepção configurado para receber um fluxo de dados compreendendo M sinais de downmix, que são combinações de N objetos de áudio calculados de acordo com um critério que é independente de qualquer configuração de alto-falante, caracterizado pelo fato de M<N, e as informações secundárias incluir parâmetros que permitem a reconstrução de um conjunto de objetos de áudio formados com base nos N objetos de áudio a partir dos M sinais de downmix; e um componente de reconstrução configurado para reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix e informações secundárias. III. Visão geral - Formato para informações secundárias e metadados

[00047] De acordo com um terceiro aspecto, é proporcionado um método de codificação, um codificador, e um programa de computador para codificação de objetos de áudio.

[00048] Os métodos, codificadores e programa de computador, de acordo com o terceiro aspecto, podem geralmente ter características e vantagens em comum com os métodos, codificadores e programa de computador de acordo com o primeiro aspecto.

[00049] De acordo com as modalidades exemplificativas, é proporcionado um método para codificação de objetos de áudio como um fluxo de dados. O método compreende: receber N objetos de áudio, caracterizado pelo fato de N> 1; calcular M sinais de downmix, em que M<N, através da formação de combinações de N objetos de áudio; calcular informações secundárias que variam com o tempo incluindo parâmetros que permitam a reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix; e incluir os M sinais de downmix e as informações secundárias em um fluxo de dados para transmissão a um decodificador.

[00050] Nestas modalidades exemplificativas, o método ainda compreende, incluindo no fluxo de dados: uma pluralidade de exemplos de informação secundária especificando as respectivas configurações de reconstrução desejadas para reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio; e para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de reconstrução de fluxo para a configuração reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para completar a transição.

[00051] Nesta modalidade exemplificativa, as informações secundárias variam com o tempo, por exemplo, permitindo os parâmetros que regem a reconstrução dos objetos de áudio variem em função do tempo, que se traduz pela presença das ocorrências de informações secundárias. Ao empregar um formato de informação secundária que inclui os dados de transição que definem pontos no tempo para iniciar e pontos no tempo para concluir as transições a partir de configurações de reconstrução atuais para as respectivas configurações de reconstrução desejadas, os ocorrências de informações secundárias são feitos mais independentes uns dos outros no sentido de que a interpolação pode ser realizada com base em uma configuração de recons- trução e uma única configuração desejada reconstrução atual especificada por um único ocorrência de informações secundárias, ou seja, sem o conhecimento de quaisquer outros exemplos de informação secundária. Portanto, o formato informação secundária fornecido facilita o cálculo/introdução de exemplos adicionais de informação secundária entre os exemplos de informação secundária existentes. Em particular, o formato da informação secundária fornecido permite calcu- lar/introdução das ocorrências de informações secundárias adicionais sem afetar a qualidade de reprodução. Nesta divulgação, o processo de cálculo/introdução de novos exemplos de informação secundária entre os exemplos de informação secundária existentes é denominada como "reamostragem" da informação secundária. Reamostragem de informações secundárias é muitas vezes necessária durante determinadas tarefas de processamento de áudio. Por exemplo, quando o conteúdo de áudio é editado, por exemplo, por corte/fusão/mixagem, tais edições podem ocorrer em entre ocorrências de informações secundárias. Neste caso, a reamostragem das informações secundárias pode não ser necessária. Outro caso é quando os sinais de áudio e informações secundárias associadas são codificados com um codec de áudio baseado em quadros. Neste caso, recomenda-se ter pelo menos uma ocorrência de informação secundária para cada quadro de codec de áudio, de preferência, com uma marca temporal no início do quadro de codec, para melhorar a resiliência de perdas de quadros durante a transmissão. Por exemplo, os sinais/objetos de áudio podem ser parte de um sinal de audiovisual ou multimídia que inclui o conteúdo de vídeo. Em tais aplicações, recomenda-se modificar a taxa de quadros do conteúdo de áudio para corresponder a uma taxa de quadros do conteúdo de vídeo, onde recomenda-se uma reamostragem correspondente de informação secundária.

[00052] O fluxo de dados no qual o sinal downmix e as informações secundárias estão incluídas pode ser, por exemplo, um bitstream, em particular um bitstream transmitido ou armazenado.

[00053] Entende-se que o cálculo dos M sinais de downmix, através da formação de combinações de N objetos de áudio significa que cada um dos M sinais de downmix é obtido através da formação de uma combinação, por exemplo, uma combinação linear, do conteúdo de áudio de um ou mais dos N objetos de áudio. Em outras palavras, cada um dos N objetos de áudio não precisam necessariamente contribuir para cada um dos M sinais de downmix.

[00054] A palavra sinal de downmix reflete que um sinal de downmix é uma mixagem, ou seja, uma combinação de outros sinais. O sinal de downmix pode, por exemplo, ser uma mixagem aditiva de outros sinais. A palavra "down" indica que o número M de sinais de downmix é normalmente menor que o número N de objetos de áudio.

[00055] Os sinais de donwmix podem, por exemplo, ser calculados através da formação de combinações dos N sinais de áudio, de acordo com um critério que é independente de qualquer configuração de alto- falante, e de acordo com qualquer uma das modalidades exemplificati- vas no primeiro aspecto. Alternativamente, os sinais de downmix podem, por exemplo, ser calculados através da formação de combinações dos N sinais de áudio de tal modo que os sinais de downmix sejam adequados à reprodução nos canais de uma configuração de alto- falantes com M canais, aqui denominada como um downmix retrocom- patível.

[00056] Ao se incluir dados de transição com duas partes independentemente programáveis, entende-se que as duas partes são programáveis mutuamente de modo independente, ou seja, podem ser atribuídas independentemente umas das outras. No entanto, entende- se que as partes dos dados de transição podem, por exemplo, coincidir com as partes dos dados de transição para outros tipos de informa- ções secundárias de metadados.

[00057] Nesta modalidade exemplificativa, as duas partes independentemente programáveis dos dados de transição, em combinação, definem o ponto no tempo para começar a transição e o ponto no tempo para concluir a transição, isto é, estes dois pontos no tempo são deriváveis a partir das duas partes independentemente programáveis dos dados de transição.

[00058] De acordo com uma modalidade exemplificativa, o método pode ainda compreender um procedimento de agrupamento para reduzir uma primeira pluralidade de objetos de áudio a uma segunda pluralidade de objetos de áudio, em que os N objetos de áudio constituem tanto a primeira pluralidade de objetos de áudio quanto a segunda pluralidade de objetos de áudio, e em que o conjunto de objetos de áudio formado com base nos N objetos de áudio coincide com a segunda pluralidade de objetos de áudio. Nesta modalidade exemplificativa, o procedimento de agrupamento pode compreender: calcular os metadados do agrupamento que varia com o tempo incluindo posições espaciais da segunda pluralidade de objetos de áudio; e ainda incluir, no fluxo de dados, para transmissão para o decodificador: uma pluralidade de ocorrências de metadados de agrupamento que especifiquem as respectivas configurações de processamento desejadas para processamento do segundo conjunto de objetos de áudio; e para cada ocorrência de metadados agrupamento, os dados de transição, incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para começar uma transição de uma configuração de processamento atual para a configuração de processamento desejada especificada pela ocorrência de metadados de agrupamento, e um ponto no tempo para concluir a transição para a configuração de processamento desejada especificada pelo ocorrência de metadados agrupamento.

[00059] Uma vez que uma cena de áudio pode compreender um grande número de objetos de áudio, o método de acordo com esta modalidade exemplificativa adota outras medidas para reduzir a dimensionalidade da cena de áudio reduzindo a primeira pluralidade de objetos de áudio a uma segunda pluralidade de objetos de áudio. Nesta modalidade exemplificativa, o conjunto de objetos de áudio, o qual é formado com base nos N objetos de áudio, e o qual deve ser reconstruído em um lado do decodificador, com base nos sinais de downmix e informações secundárias, coincide com a segunda pluralidade de objetos de áudio, que corresponde a uma simplificação e/ou representação inferior-dimensional da cena de áudio representada pela primeira pluralidade de sinais de áudio, e a complexidade computacional para a reconstrução de um lado do decodificador é reduzida.

[00060] A inclusão de metadados de agrupamento no fluxo de dados permite o processamento do segundo conjunto de sinais de áudio de um lado do decodificador, por exemplo, depois de o segundo conjunto de sinais de áudio ter sido reconstruído com base nos sinais de downmix e informações secundárias.

[00061] Semelhante às informações secundárias, os metadados de agrupamento nesta modalidade exemplificativa são variáveis em relação ao tempo, por exemplo, variam com o tempo, permitindo que os parâmetros que controlam o processamento da segunda pluralidade de objetos de áudio variem com relação ao tempo. O formato para os metadados downmix pode ser análogo àquele da formação secundária e pode ter as mesmas vantagens ou correspondentes. Em particular, a forma dos metadados de agrupamento fornecida nesta modalidade exemplificativa facilita a reamostragem dos metadados de agrupamen- to. A reamostragem dos metadados de agrupamento pode, por exemplo, ser empregada para fornecer pontos comuns no tempo de iniciar e concluir as respectivas transições associadas com o conjunto de metadados de agrupamento e informações secundárias e/ou para ajustar os metadados de agrupamento para uma taxa de quadros de sinais de áudio associados.

[00062] De acordo com uma modalidade exemplificativa, o processo de agrupamento pode ainda compreender: receber a primeira pluralidade de objetos de áudio e suas posições espaciais associadas, associar a primeira pluralidade de objetos de áudio com pelo menos um agrupamento com base na proximidade espacial da primeira pluralidade de objetos de áudio; gerar a segunda pluralidade de objetos de áudio representando, pelo menos, cada agrupamento por um objeto de áudio, sendo uma combinação dos objetos de áudio associados com o agrupamento; e calcular a posição espacial de cada objeto de áudio da segunda pluralidade de objetos de áudio com base nas posições espaciais dos objetos de áudio associados com o respectivo agrupamento, ou seja, com o agrupamento que o objeto de áudio representa.

[00063] Em outras palavras, o procedimento de agrupamento explora a redundância espacial presente na cena de áudio, tais como objetos com posições iguais ou muito semelhantes. Além disso, os valores de importância podem ser levados em consideração quando da geração da segunda pluralidade de objetos de áudio, conforme descrito com respeito à modalidade exemplificativa no primeiro aspecto.

[00064] Associar a primeira pluralidade de objetos de áudio com pelo menos um agrupamento inclui associar cada uma da primeira pluralidade de objetos de áudio com um ou mais agrupamentos. Em al- guns casos, um objeto de áudio pode fazer parte de um agrupamento, no máximo, enquanto que em outros casos, um objeto de áudio pode fazer parte de vários agrupamentos. Em outras palavras, em alguns casos, um objeto de áudio pode ser dividido por vários agrupamentos como parte do processo de agrupamento.

[00065] A proximidade espacial da primeira pluralidade de objetos de áudio pode ser relacionada com as distâncias entre, e/ou posições relativas, dos respectivos objetos de áudio na primeira pluralidade de objetos de áudio. Por exemplo, objetos de áudio que estão próximos uns dos outros podem estar associados com o mesmo agrupamento.

[00066] Por ser um objeto de áudio uma combinação de objetos de áudio associados com o agrupamento, entende-se que o conteú- do/sinal de áudio associado com o objeto de áudio pode ser formado como uma combinação dos conteúdos/sinais de áudio associados com os respectivos objetos de áudio associados ao agrupamento.

[00067] De acordo com uma modalidade exemplificativa, os respectivos pontos no tempo definidos pelos dados de transição para as respectivas ocorrências de metadados de agrupamento podem coincidir com os respectivos pontos no tempo definidos pelos dados de transição para ocorrências de informações secundárias correspondentes.

[00068] Ao empregar os mesmos pontos no tempo para iniciar e concluir as transições associados com as informações secundárias e os metadados de agrupamento, o processamento do conjunto de informações secundárias e metadados de agrupamento, tais como rea- mostragem conjunta, é facilitado.

[00069] Além disso, a utilização de pontos comuns no tempo para iniciar e concluir as transições associados com as informações secundárias e os metadados de agrupamento facilita a reconstrução e processamento conjunto em um lado do descodificador. Se, por exemplo, reconstrução e processamento forem realizados como uma operação conjunta em um lado do decodificador, as configurações comuns para reconstrução e processamento podem ser determinadas para cada ocorrência de informações secundárias e ocorrência de metadados, e/ou a interpolação entre as configurações comuns para reconstrução e processamento pode ser empregados em vez de realizar interpolação separadamente para as respectivas configurações. Essa interpolação conjunta pode reduzir a complexidade computacional no lado do decodificador conforme menos coeficientes/parâmetros precisem ser interpolados.

[00070] De acordo com uma modalidade exemplificativa, o processo de agrupamento pode ser realizado antes do cálculo dos M sinais de downmix. Nesta modalidade exemplificativa, a primeira pluralidade de objetos de áudio corresponde aos objetos de áudio originais da cena de áudio, e os N objetos de áudio com base nos quais os M sinais de downmix são calculados constituem a segunda, reduzida, pluralidade de objetos de áudio. Assim, nesta modalidade exemplificativa, o conjunto de objetos de áudio (a ser reconstruído em lado do decodifi- cador) formado com base nos N objetos de áudio coincide com os N objetos de áudio.

[00071] Alternativamente, o processo de agrupamento pode ser realizado em paralelo com o cálculo dos M sinais de downmix. De acordo com esta alternativa, os N objetos de áudio, com base nos quais os M sinais de downmix são calculados, constituem a primeira pluralidade de objetos de áudio que correspondem aos objetos de áudio originais da cena de áudio. Com esta abordagem, os M sinais de downmix são, por conseguinte, calculados com base nos objetos de áudio originais da cena de áudio e não com base em um número reduzido de objetos de áudio.

[00072] De acordo com uma modalidade exemplificativa, o método pode ainda compreender: associar cada sinal de downmix a uma posição espacial que varia com o tempo para processamento dos sinais de downmix, e incluir ainda, no fluxo de dados, metadados de downmix incluindo posições espaciais dos sinais de downmix, em que o método ainda compreende incluindo, no fluxo de dados: uma pluralidade de ocorrências de metadados de downmix que especifiquem as respectivas configurações de processamento de downmix desejadas para processamento dos sinais de downmix; e para cada ocorrência de metadados de downmix, dados de transição, incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de processamento de downmix atual para a configuração de processamento de downmix desejada especificada pelo ocorrência de metadados de downmix, e um ponto no tempo para concluir a transição para a configuração de processamento de downmix desejada especificada pelo ocorrência de metadados de downmix.

[00073] Incluindo metadados de downmix no fluxo de dados é vantajoso na medida em que permite uma decodificação de baixa complexidade a ser utilizada em caso de equipamentos de reprodução legados. Mais precisamente, os metadados downmix podem ser usados em um lado do decodificador para processar os sinais downmix nos canais de um sistema de reprodução legado, isto é, sem necessidade de reconstruir a pluralidade de objetos de áudio formada com base nos objetos N, que normalmente é uma operação computacionalmente mais complexa.

[00074] De acordo com esta modalidade exemplificativa, as posições espaciais associadas com os M sinais de downmix podem ser variáveis em relação ao tempo, por exemplo, variando no tempo, e os sinais de downmix podem ser interpretados como objetos de áudio dinâmicos tendo uma posição associada que pode variar entre intervalos de tempo ou ocorrências de metadados de downmix. Isto vai de encontro com os sistemas técnicos anteriores, onde os sinais de downmix correspondem às posições espaciais fixas do alto-falante. Lembre- se que o mesmo fluxo de dados pode ser reproduzido de forma orientada a objetos em um sistema de decodificação com capacidades mais evoluídas.

[00075] Em algumas modalidades exemplificativas, os N objetos de áudio podem estar associados aos metadados incluindo as posições espaciais dos N objetos de áudio, e as posições espaciais associadas com os sinais de downmix podem, por exemplo, ser calculadas com base nas posições espaciais dos N objetos de áudio. Assim, os sinais de downmix podem ser interpretados como objetos de áudio tendo uma posição espacial que depende das posições espaciais dos N objetos de áudio.

[00076] De acordo com uma modalidade exemplificativa, os respectivos pontos no tempo definidos pelos dados de transição para as respectivas ocorrências de metadados de downmix podem coincidir com os respectivos pontos no tempo definidos pelos dados de transição para as ocorrências de informações secundárias correspondentes. Empregando os mesmos pontos no tempo para iniciar e concluir transições associadas às informações secundárias e metadados de downmix facilita o processamento conjunto, por exemplo, reamostra- gem, das informações secundárias e os metadados de downmix.

[00077] De acordo com uma modalidade exemplificativa, os respectivos pontos no tempo definidos pelos dados de transição para as respectivas ocorrências de metadados de downmix podem coincidir com os respectivos pontos no tempo definidos pelos dados de transição para as ocorrências de metadados de agrupamento correspondentes. Empregando os mesmos pontos no tempo para iniciar e concluir as transições associadas com os metadados de agrupamento e os metadados downmix facilita o processamento conjunto, por exemplo, rea- mostragem, dos metadados de agrupamento e os metadados downmix.

[00078] De acordo com as modalidades exemplificativas, é proporcionado um codificador para codificação dos N objetos de áudio como um fluxo de dados, em que N> 1. O codificador compreende: um componente de downmix configurado para calcular M sinais de downmix, em que M<N, através da formação de combinações dos N objetos de áudio; um componente de análise configurado para calcular informações secundárias incluindo parâmetros que permitam a reconstrução do conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix; e um componente de multiplexação configurado para incluir os M sinais de downmix e as informações secundárias em um fluxo de dados para transmissão a um decodificador. onde o componente de multiplexação é configurado de modo a incluir, no fluxo de dados, para transmissão ao decodificador: uma pluralidade de exemplos de informação secundária especificando as respectivas configurações de reconstrução desejadas para reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio; e para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de reconstrução de fluxo para a configuração reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para completar a transição.

[00079] De acordo com um quarto aspecto, é proporcionado um método de decodificação, um decodificador e um programa de computador para decodificar o conteúdo de áudio multicanais.

[00080] Os métodos, decodificadores e programas de computador, de acordo com o quarto aspecto, são destinados para cooperação com os métodos, codificadores e programas de computador, de acordo com o terceiro aspecto, e podem ter características e vantagens correspondentes.

[00081] Os métodos, decodificadores e programas de computador, de acordo com o quarto aspecto, podem geralmente ter características e vantagens em comum com os métodos, decodificadores e programas de computador de acordo com o segundo aspecto.

[00082] De acordo com as modalidades exemplificativas, é proporcionado um método para reconstrução dos objetos de áudio como um fluxo de dados. O método compreende: receber um fluxo de dados contendo M sinais de downmix, que são combinações de N objetos de áudio, em que N> 1 e M<N, e informações secundárias variáveis com relação ao tempo incluindo parâmetros que permitam a reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix; e reconstruir, com base nos M sinais de downmix e informações secundárias, o conjunto de objetos de áudio formado com base nos N objetos de áudio, onde o fluxo de dados compreende uma pluralidade de ocorrências de informações secundárias, em que o fluxo de dados ainda compreende, para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de reconstrução atual para uma configuração de reconstrução desejada especificada pelo ocorrências de informações secundárias, e um ponto no tempo para concluir a transição, e em que a reconstrução do conjunto de objetos de áudio formado com base nos N objetos de áudio compreende: realizar a reconstrução de acordo com uma configuração reconstrução atual; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de informações secundárias, uma transição da configuração de reconstrução atual para uma configuração de reconstrução desejada especificada pela ocorrência de informações secundárias; e concluir a transição em um ponto no tempo definido pelos dados de transição para a ocorrência de informações secundárias.

[00083] Conforme descrito acima, empregar um formato de informações secundárias que inclua dados de transição definindo pontos no tempo para iniciar e pontos no tempo para concluir as transições de configurações de reconstrução atuais para as respectivas configurações de reconstrução desejadas, por exemplo, facilita a reamostragem das informações secundárias.

[00084] O fluxo de dados pode, por exemplo, ser recebido na forma de um bitstream, ou seja, gerado em um lado do codificador.

[00085] Reconstruir, com base nos M sinais de downmix e informações secundárias, o conjunto de objetos de áudio formado com base nos N objetos de áudio, podem, por exemplo, incluir a formação de pelo menos uma combinação linear de sinais downmix que empregam certos coeficientes com base nas informações secundárias. Reconstruir, com base nos M sinais de downmix e informações secundárias, o conjunto de objetos de áudio formado com base nos N objetos de áudio, podem, por exemplo, incluir a formação de combinações lineares dos sinais de downmix, e, opcionalmente, um ou mais sinais (por exemplo, não correlacionado) adicionais a partir dos sinais de downmix, empregando certos coeficientes com base nas informações secundárias.

[00086] De acordo com uma modalidade exemplificativa, o fluxo de dados pode ainda compreender metadados de agrupamento variáveis com relação ao tempo para o conjunto de objetos de áudio formado com base nos N objetos de áudio, metadados de agrupamento incluindo as posições espaciais para o conjunto de objetos de áudio formado com base nos N objetos de áudio. O fluxo de dados pode compreender um pluralidade de ocorrências de metadados de agrupamento, e o fluxo de dados pode ainda compreender, para cada ocorrência de metadados de agrupamento, os dados de transição, incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar a transição de uma configuração de processamento atual para a configuração de processamento desejada especificada pelo ocorrência de metadados de agrupamento, e um ponto no tempo para concluir a transição para a configuração de processamento desejada especificada pelo ocorrência de metadados agrupamento. O método pode ainda compreender: utilizando os metadados de agrupamento para processamento do conjunto de objetos de áudio reconstruído formado com base nos N objetos de áudio para os canais de saída de uma configuração de canal predefinida, o processamento compreendendo: realizar o processamento de acordo com uma configuração de processamento atual; começar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de metadados de agrupamento, uma transição da configuração de processamento atual para uma configuração de processamento desejada especificada pela ocorrência de metadados de agrupamento; e concluir a transição para a configuração de processamento desejada em um ponto no tempo definido pelos dados de transição para a ocorrência de metadados de agrupamento.

[00087] A configuração de canal predefinida, por exemplo, pode corresponder a uma configuração dos canais de saída compatível com um sistema de reprodução especial, ou seja, adequados à reprodução em um sistema de reprodução especial.

[00088] O processamento do conjunto objetos de áudio reconstruído formado com base nos N objetos de áudio para os canais de saída de uma configuração de canal predefinida pode, por exemplo, incluir mapeamento em um processador, o conjunto de sinais de áudio reconstruído formado com base nos N objetos de áudio para (uma configuração predefinida de) os canais de saída do processador sob controle dos metadados de agrupamento.

[00089] O processamento do conjunto de objetos de áudio reconstruído formado com base nos N objetos de áudio para os canais de saída de uma configuração de canal predefinida pode, por exemplo, incluir a formação de combinações lineares do conjunto de objetos de áudio reconstruído formado com base nos N objetos de áudio, empregando coeficientes determinado com base nos metadados de agrupamento.

[00090] De acordo com uma modalidade exemplificativa, os respectivos pontos no tempo definidos pelos dados de transição para as respectivas ocorrências de metadados de agrupamento podem coincidir com os respectivos pontos no tempo definidos pelos dados de transição para ocorrências de informações secundárias correspondentes.

[00091] De acordo com uma modalidade exemplificativa, o método pode ainda compreender: realizar pelo menos parte da reconstrução e, pelo menos, parte do processamento como uma operação combinada correspon- dente a uma primeira matriz formada como um produto matriz de uma matriz de reconstrução e uma matriz de processamento associados a uma configuração de reconstrução atual e uma configuração de processamento atual, respectivamente; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de informações secundárias e uma ocorrência de metadados agrupamento, uma transição combinada a partir das configurações de reconstrução e processamento atuais para configurações de reconstrução e processamento desejadas especificadas pela ocorrência de informações secundárias e ocorrência de metadados de agrupamento, respectivamente; e concluir a transição combinada em um ponto no tempo definido pelos dados de transição para ocorrência de informações secundárias e ocorrência de metadados de agrupamento, em que a transição combinada inclui a interpolação entre os elementos matriz da primeira matriz e elementos matriz de uma segunda matriz formada como um produto matriz de uma matriz de reconstrução e uma matriz de processamento associadas à configuração de reconstrução e configuração de processamento desejadas, respectivamente.

[00092] Na realização de uma transição combinada no sentido acima, ao invés de transições separadas de configurações de reconstrução e configurações de processamento, parâmetros/coeficientes menores devem ser interpolados, o que permite uma redução da complexidade computacional.

[00093] Entende-se que uma matriz, como a matriz de reconstrução ou uma matriz de processamento, conforme referenciado nesta modalidade exemplificativa, pode, por exemplo, consistir de uma única linha ou coluna, podendo, portanto, corresponder a um vetor.

[00094] A reconstrução de objetos de áudio a partir de sinais de downmix é muitas vezes realizada através do emprego de diferentes matrizes de reconstrução em diferentes bandas de frequência, enquanto que, o processamento é, muitas vezes, realizado empregando a mesma matriz de processamento para todas as frequências. Nesses casos, uma matriz que corresponde a uma operação combinada de reconstrução e processamento, por exemplo, a primeira e segunda matrizes referenciadas nesta modalidade exemplificativa, pode, normalmente, ser dependente da frequência, ou seja, diferentes valores para os elementos matriz podem, normalmente, ser empregados para diferentes bandas de frequência.

[00095] De acordo com uma modalidade exemplificativa, o conjunto de objetos de áudio formado com base nos N objetos de áudio pode coincidir com os N objetos de áudio, isto é, o método pode compreender a reconstrução dos N objetos de áudio, com base nos M sinais de downmix e informações secundárias.

[00096] Alternativamente, o conjunto de objetos de áudio formado com base nos N objetos de áudio pode compreender uma pluralidade de objetos de áudio que são combinações dos N objetos de áudio, e cujo número é menor que N, isto é, o método pode compreender a reconstrução destas combinações dos N objetos de áudio com base nos M sinais de downmix e informações secundárias.

[00097] De acordo com uma modalidade exemplificativa, o fluxo de dados pode compreender ainda metadados de downmix para os M sinais de downmix, incluindo posições espaciais variáveis com relação ao tempo associadas com os M sinais de downmix. O fluxo de dados pode compreender uma pluralidade de ocorrências de metadados de downmix, e o fluxo de dados pode ainda compreender, para cada ocorrência de metadados de downmix, dados de transição incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar a transição de uma configuração de processamento de downmix atual para a configuração de pro- cessamento de downmix desejada especificada pela ocorrência de metadados de downmix, e um ponto no tempo para concluir a transição para a configuração de processamento de downmix desejada especificada pela ocorrência de metadados de downmix. O método pode ainda compreender: na condição de o decodificador ser operável (ou configurado) para suportar a reconstrução do objeto de áudio, executar a etapa de reconstrução, com base nos M sinais de downmix e informações secundárias, o conjunto de objetos de áudio formado com base nos N objetos de áudio; e na condição de o decodificador não ser operável (ou configurado) para suportar a reconstrução do objeto de áudio, saída de metadados de downmix e M sinais de downmix para processamento dos M sinais de downmix.

[00098] No caso de o decodificador ser operável para suportar a reconstrução do objeto de áudio e o fluxo de dados ainda compreender metadados de agrupamento associados com o conjunto de objetos de áudio formado com base nos N objetos de áudio, o decodificador pode, por exemplo, apresentar o conjunto de objetos de áudio reconstruído e os metadados de agrupamento para processamento do conjunto de objetos de áudio reconstruído.

[00099] No caso de o decodificador não ser operável para suportar a reconstrução do objeto de áudio, ele pode, por exemplo, descartas as informações secundárias e, se for o caso, os metadados de agrupamento, e apresentar os metadados de downmix e os M sinais de downmix como saída. Assim, pode-se empregar a saída por meio de processador para processar os M sinais de downmix nos canais de saída do processador.

[000100] Opcionalmente, o método pode ainda compreender processar os M sinais de downmix nos canais de saída de uma configuração de saída predefinida, por exemplo, nos canais de saída de um processador, ou canais de saída do decodificador (se o decodificador processar as capacidades), com base nos metadados de downmix.

[000101] De acordo com as modalidades exemplificativas, é proporcionado um decodificador para reconstrução dos objetos de áudio em um fluxo de dados. O decodificador compreende: um componente configurado para receber um fluxo de dados compreendendo M sinais de downmix, que são combinações de N objetos de áudio, em que N> 1 e M<N, e informações secundárias variáveis com relação ao tempo, incluindo parâmetros que permitem a reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio a partir dos M sinais de downmix; e um componente de reconstrução configurado para reconstruir, com base nos M sinais de downmix e informações secundárias, o conjunto de objetos de áudio formado com base nos N objetos de áudio, em que o fluxo de dados compreende uma pluralidade de ocorrências de informações secundárias associada, e em que o fluxo de dados compreende ainda, para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar uma transição a partir de uma configuração de reconstrução atual para uma configuração de reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para concluir a transição. O componente de reconstrução é configurado para reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio, para pelo menos: realizar a reconstrução de acordo com uma configuração reconstrução atual; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de informações secundárias, uma transição da configuração de reconstrução atual para uma configuração de reconstrução desejada especificada pela ocorrência de informações secundárias; e concluir a transição em um ponto no tempo definido pelos dados de transição para a ocorrência de informações secundárias.

[000102] De acordo com uma modalidade exemplificativa, o método no terceiro ou quarto aspectos pode ainda compreender gerar uma ou mais ocorrências de informações secundárias especificando substancialmente a mesma configuração de reconstrução conforme uma ocorrência de informações secundárias imediatamente anterior ou imediatamente posterior a uma ou mais ocorrências de informações secundárias. Também estão previstas modalidades exemplificativas em quais ocorrências de metadados de agrupamento adicionais e/ou ocorrências de metadados de downmix são gerados de uma maneira análoga.

[000103] Como descrito acima, a reamostrar informações secundárias através da geração de ocorrências de informações secundárias pode ser vantajoso em várias situações, tais como quando si- nais/objetos de áudio e informações secundárias associadas são codificados usando um codec de áudio com base em quadros, uma vez que, então, é desejável ter pelo menos uma ocorrência de informações secundárias para cada quadro de codec de áudio. Em um lado do codificador, as ocorrências de informações secundárias fornecidas por um componente de análise podem, por exemplo, ser distribuídas no momento de tal modo que elas não coincidam com uma taxa de quadros de sinais de downmix fornecidos por um componente de downmix, e as informações secundárias podem, portanto, ser vantajosamente reamostradas pela introdução de novas ocorrências de informações secundárias de tal forma que haja pelo menos uma ocorrência de informações secundárias para cada quadro de sinais de downmix. Em um lado do decodificador, as ocorrências de informações secundárias, de modo semelhante, podem, por exemplo, ser distribuídas no momento de tal modo que não coincidam com uma taxa de quadros dos sinais de downmix recebida, e as informações secundárias podem, portanto, ser vantajosamente reamostradas pela introdução de novas ocorrências de informações secundárias de tal modo que haja pelo menos uma ocorrência de informações secundárias para cada quadro dos sinais de downmix.

[000104] Uma ocorrência de informações secundárias adicional pode, por exemplo, ser gerada para um ponto selecionado no tempo por: copiar a ocorrência de informações secundárias imediatamente posterior à ocorrência de informações secundárias adicional e determinar os dados de transição para a ocorrência de informações secundárias adicional com base no ponto selecionado no tempo e os pontos no tempo definidos pelos dados de transição para a ocorrência de informações secundárias posterior.

[000105] De acordo com um quinto aspecto, é proporcionado um método, um dispositivo e um programa de computador para transcodificar as informações secundárias codificadas junto com M sinais de áudio em um fluxo de dados.

[000106] Os métodos, dispositivos e programas de computador, de acordo com o quinto aspecto, são destinados para cooperação com os métodos, codificador e programas de computador, de acordo com o terceiro e quarto aspectos, e podem ter características e vantagens correspondentes.

[000107] De acordo com a modalidade exemplificativa, é proporcionado um método para transcodificação das informações secundárias codificadas juntos com M sinais de áudio em um fluxo de dados. O método compreende: receber um fluxo de dados; extrair, a partir do fluxo de dados, M sinais de áudio e informações secundárias variáveis com relação ao tempo associadas incluindo parâmetros que permitem a reconstrução de um conjunto de objetos de áudio a partir dos M sinais de áudio, em que M>1, e em que as informações secundárias extraídas incluem: uma pluralidade de ocorrências de informações secundárias especificando as respectivas configurações de reconstrução desejadas para a reconstrução dos objetos de áudio, e para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de reconstrução atual para a configuração de reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para concluir a transição. gerar uma ou mais ocorrências de informações secundárias adicionais especificando substancialmente a mesma configuração de reconstrução conforme a ocorrência de informações secundárias ime-diatamente anterior ou imediatamente posterior às uma ou mais ocorrências de informações secundárias adicionais; e incluir os M sinais de áudio e as informações secundárias em um fluxo de dados.

[000108] Nesta modalidade exemplificativa, as uma ou mais ocorrências de informações secundárias podem ser geradas após as informações secundárias serem extraídas do fluxo de dados recebidos, e as uma ou mais ocorrências de informações secundárias geradas puderem, então, ser incluídas em um fluxo de dados junto com os M sinais de áudio e as outras ocorrências de informações secundárias.

[000109] Tal como descrito acima com relação ao terceiro aspecto, a reamostragem das informações secundárias através da geração de ocorrências de informações secundárias adicionais pode ser vantajosa em várias situações, tais como quando sinais/objetos de áudio e informações secundárias associadas são codificados usando um codec de áudio com base em quadros, desde que, então, seja desejável ter pelo menos uma ocorrência de informações secundárias para cada quadro de codec de áudio.

[000110] Também são previstas modalidades nas quais o fluxo de dados ainda compreende metadados de agrupamento e/ou metadados de downmix, conforme descrito com relação ao terceiro e quarto aspectos, e em que o método ainda compreende a geração de ocorrências de metadados downmix adicionais e/ou ocorrências de metadados de agrupamento, analogamente a como as ocorrências de informações secundárias adicionais são geradas.

[000111] De acordo com uma modalidade exemplificativa, os M sinais de áudio podem ser codificados no fluxo de dados recebidos de acordo com uma primeira taxa de quadros, e o método pode ainda compreender: processar os M sinais de áudio para alterar a taxa de quadros de acordo com a qual os M sinais de downmix são codificados para uma segunda taxa de quadros diferente da primeira taxa de quadros; e reamostrar as informações secundárias para corresponder e/ou ser compatíveis, com a segunda taxa de quadros para, pelo menos, gerar as uma ou mais ocorrências de informações secundárias adicionais.

[000112] Conforme descrito acima com relação com o terceiro aspecto, pode ser vantajoso em várias situações processar os sinais de áudio, de modo a alterar a taxa de quadros utilizados para codificação dos mesmos, por exemplo, de modo que a taxa de quadros modificada corresponda a taxa de quadros de conteúdo de vídeo de um sinal audiovisual ao qual pertença os sinais de áudio. A presença dos dados de transição para cada ocorrência de informações secundárias facilita a reamostragem das informações secundárias, conforme descrito acima com relação ao terceiro aspecto. As informações secundarias podem ser reamostradas para coincidir com a nova taxa de quadros, por exemplo, gerando ocorrências de informações secundárias adicionais, desde que haja, pelo menos, uma ocorrência de informações secundárias para cada quadro dos sinais de áudio processados.

[000113] De acordo com a modalidade exemplificativa, é proporcionado um dispositivo para transcodificar as informações secundárias codificadas juntos com M sinais de áudio em um fluxo de dados. O dispositivo compreende: um componente de recepção configurado para receber um fluxo de dados, e extrair, a partir do fluxo de dados, M sinais de áudio e informações secundárias que variam com o tempo associadas incluindo parâmetros que permitam a reconstrução de um conjunto de objetos de áudio a partir dos M sinais de áudio, em que M>1, e em que as informações secundárias extraídas incluem: uma pluralidade de ocorrências de informações secundárias especificando as respectivas configurações de reconstrução desejadas para a reconstrução dos objetos de áudio, e para cada ocorrência de informações secundárias, os dados de transição incluindo duas partes independentemente programáveis que em combinação definem um ponto no tempo para iniciar uma transição de uma configuração de reconstrução de fluxo para a configuração reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para completar a transição.

[000114] O dispositivo compreende ainda: um componente de reamostragem configurado para gerar uma ou mais ocorrências de informações secundárias adicionais especificando substancialmente a mesma configuração de reconstrução conforme a ocorrência de informações secundárias imediatamente anterior ou imediatamente posterior às uma ou mais ocorrências de informações secundárias adicionais; e um componente de multiplexação configurado para incluir os M sinais de áudio e as informações secundárias em um fluxo de dados.

[000115] De acordo com uma modalidade exemplificativa, o método no terceiro, quarto ou quinto aspecto pode ainda compreender: calcular uma diferença entre uma primeira configuração de reconstrução desejada especificada por uma primeira ocorrência de informações secundárias e uma ou mais configurações de reconstrução desejadas especificadas por uma ou mais ocorrências de informações secundárias imediatamente posterior à primeira ocorrência de informações secundárias; e remover as uma ou mais ocorrências de informações secundárias em resposta à diferença calculada estar abaixo de um limiar predefinido. Também estão previstas modalidades exemplificativas nas quais as ocorrências de metadados de agrupamento adicionais e/ou ocorrências de metadados de downmix são geradas de maneira análoga.

[000116] Ao remover as ocorrências de informações secundárias, de acordo com esta modalidade exemplificativa, pode-se evitar cálculos desnecessários com base nessas ocorrências de informações secundárias, por exemplo, durante a reconstrução em um lado do decodifi- cador. Ao configurar o limiar predefinido em um nível adequado (por exemplo, suficiente baixo), ocorrências de informações secundárias podem ser removidas enquanto a qualidade de reprodução e/ou fidelidade dos sinais de áudio reconstruídos for mantida, pelo menos, aproximadamente.

[000117] As diferenças entre as configurações de reconstrução desejadas podem, por exemplo, ser calculadas com base nas diferenças entre os respectivos valores para um conjunto de coeficientes usados como parte da reconstrução.

[000118] De acordo com a modalidade exemplificativa no terceiro, quarto ou quinto aspecto, a duas partes independentemente programáveis dos dados de transição para cada ocorrência de informações secundárias podem ser: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de reconstrução desejada e uma marca indicando o ponto no tempo para concluir a transição para a configuração de reconstrução desejada; uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de reconstrução desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de reconstrução desejada a partir do ponto no tempo para iniciar a transição para a configuração de reconstrução desejada; ou uma marca temporal indicando o ponto no tempo para concluir a transição para a configuração de reconstrução desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de reconstrução desejada a partir do ponto no tempo para iniciar a transição para a configuração de reconstrução desejada.

[000119] Em outras palavras, os pontos no tempo para iniciar e concluir uma transição podem ser definidos nos dados de transição quer por duas marcas temporais indicando os respectivos pontos no tempo, ou uma combinação de uma das marcas temporais e um parâmetro de duração de interpolação indicando uma duração da transição.

[000120] As respectivas marcas temporais podem indicar, por exemplo, os respectivos pontos no tempo referindo-se a uma base de tempo utilizada para representar os M sinais de downmix e/ou N objetos de áudio.

[000121] De acordo com a modalidade exemplificativa no terceiro, quarto ou quinto aspecto, a duas partes independentemente programáveis dos dados de transição para cada ocorrência de metadados de agrupamento podem ser: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de processamento desejada e uma marca indicando o ponto no tempo para concluir a transição para a configuração de processamento desejada; uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de processamento desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de processamento desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento desejada; ou uma marca temporal indicando o ponto no tempo para concluir a transição para a configuração de processamento desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de processamento desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento desejada.

[000122] De acordo com a modalidade exemplificativa no terceiro, quarto ou quinto aspecto, a duas partes independentemente programáveis dos dados de transição para cada ocorrência de metadados de downmix podem ser: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de processamento de downmix desejada e uma marca indicando o ponto no tempo para concluir a transição para a configuração de processamento de downmix desejada; uma marca temporal indicando o ponto no tempo para inici- ar a transição para a configuração de processamento de downmix desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de processamento de downmix desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento de downmix desejada; ou uma marca temporal indicando o ponto no tempo para concluir a transição para a configuração de processamento de downmix desejada e um parâmetro de duração de interpolação indicando uma duração para atingir a configuração de processamento de downmix desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento de downmix desejada.

[000123] De acordo com as modalidades exemplificativas, é proporcionado um programa de computador compreendendo um meio de leitura por computador com instruções para realizar qualquer um dos métodos no terceiro, quarto ou quinto aspecto. IV. Modalidades exemplificativas

[000124] A Fig. 1 ilustra um codificador 100 para codificação de objetos de áudios 120 em um fluxo de dados 140, de acordo com uma modalidade exemplificativa. O codificador 100 compreende um componente de recepção (não mostrado), um componente de downmix 102, um componente de codificador 104, um componente de análise 106 e um componente de multiplexação 108. A seguir a descrição do funcionamento do codificador 100 para codificar um quadro de tempo de dados de áudio. Entretanto, entende-se que o método descrito abaixo é repetido em uma base de quadro de tempo. O mesmo também se aplica à descrição das Figs. 2-5.

[000125] O componente receptor recebe uma pluralidade de objetos de áudio (N objetos de áudio) 120 e metadados 122 associados com os objetos de áudio 120. Um objeto de áudio, tal como aqui utilizado, refere-se a um sinal de áudio contendo uma posição espacial associada que normalmente varia com o tempo (entre quadros de tempo), ou seja, a posição espacial é dinâmica. Os metadados 122 associados com os objetos de áudio 120 compreendem, normalmente, informações que descrevem como os objetos de áudio 120 devem ser processados para reprodução no lado do descodificador. Em especial, os metadados 122 associados com os objetos de áudio 120 incluem informações sobre a posição espacial dos objetos de áudio 120 no espaço tridimensional da cena de áudio. As posições espaciais podem ser representadas em coordenadas cartesianas ou por meio de ângulos de direção, tais como azimute e elevação, opcionalmente aumentadas com a distância. Os metadados 122 associados com os objetos de áudio 120 podem ainda compreender o tamanho do objeto, sonoridade do objeto, importância do objeto, tipos de conteúdo do objeto, instruções de processamento específicas, tais como aplicação de aprimoramento de diálogo ou exclusão de certos alto-falantes do processamento (chamado máscaras de zona) e/ou outras propriedades do objeto.

[000126] Como será descrito com referência à Fig. 4, os objetos de áudio 120 podem corresponder a uma representação simplificada de uma cena de áudio.

[000127] Os N objetos de áudio 120 são entrada para o componente de downmix 102. O componente de downmix 102 calcula um número M de sinais de downmix 124 através de combinações que, normalmente, formam combinações lineares dos N objetos de áudio 120. Na maioria dos casos, o número de sinais de downmix 124 é menor do que o número de objetos de áudio 120, ou seja, M <N, de tal modo que a quantidade de dados que está incluída no fluxo de dados 140 é reduzida. No entanto, para aplicações em que a taxa de bits alvo do fluxo de dados 140 é elevada, o número de sinais de downmix 124 pode ser igual ao número de objetos 120, ou seja, M = N.

[000128] O componente downmix 102 pode ainda calcular um ou mais sinais de áudio auxiliares 127, aqui marcados por L sinais de áudio auxiliar 127. O papel dos sinais áudio auxiliares 127 é melhorar a reconstrução dos N objetos de áudio 120 no lado do decodificador. Os sinais de áudio auxiliares 127 podem corresponder a um ou mais dos N objetos de áudio 120, quer diretamente, quer como uma combinação destes. Por exemplo, os sinais de áudio auxiliares 127 podem corresponder a alguns particularmente importantes N objetos de áudio 120, tal como um objeto de áudio 120 correspondendo a um diálogo. A importância pode ser refletida por ou derivada dos metadados 122 associados com os N objetos de áudio 120.

[000129] Os M sinais de downmix 124, e os L sinais auxiliares 127, se presentes, podem ser posteriormente ser codificados pelo componente do codificador 104, aqui denominado codificador central, a fim de gerar M sinais de downmix 126 e L sinais auxiliares 129 codificados. O componente do codificador 104 pode ser um codec de áudio perceptivo como é conhecida técnica. Exemplos de codecs de áudio perceptivos conhecidos incluem Dolby Digital e MPEG AAC.

[000130] Em algumas modalidades exemplificativas, o componente de downmix 102 pode ainda associar os sinais de downmix 124 M com os metadados 125. Particularmente, o componente de downmix 102 pode associar cada sinal de downmix 124 com uma posição espacial e incluir a posição espacial nos metadados 125. Semelhante aos metadados 122 associados com os objetos de áudio 120, os metadados 125 associados com os sinais de downmix 124 podem também compreender parâmetros relacionados com tamanho, volume, importância e/ou outras propriedades.

[000131] Particularmente, as posições espaciais associadas com os sinais de downmix 124 podem ser calculadas com base nas posições espaciais dos N objetos de áudio 120. Uma vez que as posições espaciais dos N objetos de áudio 120 podem ser dinâmicas, isto é, também as posições espaciais que variam no tempo associadas com os M sinais de downmix 124 podem ser dinâmicas. Em outras palavras, os M sinais de downmix 124 podem eles próprios ser interpretados como objetos de áudio.

[000132] O componente de análise 106 calcula as informações secundárias 128, incluindo parâmetros que permitam a reconstrução dos N objetos de áudio 120 (ou uma aproximação perceptivelmente adequada dos N objetos de áudio 120) a partir dos M sinais de downmix 124 e L sinais auxiliares 129, se houver. As informações secundárias 128 também podem variar com o tempo. Por exemplo, o componente de análise 106 pode calcular as informações secundárias 128 analisando os M sinais de downmix 124, os L sinais auxiliares 127, se houver, e os N objetos de áudio 120, de acordo com qualquer técnica conhecida para codificação paramétrica. Alternativamente, o componente de análise 106 pode calcular as informações secundárias 128 analisando os N objetos de áudio, e informações sobre a forma como os M sinais de downmix foram criados a partir dos N objetos de áudio, por exemplo, fornecendo uma matriz de downmix (variável em relação ao tempo). Nesse caso, os M sinais de downmix 124 não são estritamente necessários como entrada para o componente de análise 106.

[000133] Os M sinais de downmix 126 codificados, os L sinais auxiliares 129 codificados, as informações secundárias 128, os metadados 122 associados com os N objetos de áudio e os metadados 125 associados com os sinais de downmix são, então, entrada para o componente de multiplexação 108, que inclui seus de dados de entrada em um único fluxo de dados 140 utilizando técnicas de multiplexação. O fluxo de dados 140 pode, assim, incluir quatro tipos de dados: a) M sinais de downmix 126 (e, opcionalmente, L sinais auxiliares 129) b) metadados 125 associados com os M sinais de down- mix, c) informações secundárias 128 para a reconstrução dos N objetos de áudio a partir dos M sinais de downmix, e d) metadados 122 associado com os N objetos de áudio.

[000134] Conforme mencionado acima, alguns sistemas da técnica anteriores para codificação de objetos de áudio requerem que os M sinais de downmix sejam escolhidos de tal modo que eles sejam apropriados para reprodução nos canais de uma configuração de alto- falantes com M canais, aqui denominado como um downmix retrocom- patível. Essa exigência técnica anterior restringe o cálculo dos sinais de downmix em que os objetos de áudio só podem ser combinados de maneira predefinida. Por conseguinte, de acordo com a técnica anterior, os sinais de downmix não são selecionados a partir do ponto de vista da optimização da reconstrução dos objetos de áudio em um lado do decodificador.

[000135] Ao contrário dos sistemas da técnica anterior, o componente de downmix 102 calcula os M sinais de downmix 124 de maneira adaptável de sinal com relação aos N objetos de áudio. Particularmente, o componente de downmix 102 podem, para cada período de tempo, calcular os M sinais de downmix 124 conforme combinação dos objetos de áudio 120 que atualmente otimiza algum critério. O critério é normalmente definido de tal forma que seja independente no que diz respeito a qualquer configuração de alto-falante, tal como uma 5.1 ou outra configuração de alto-falantes. Isto implica que os M sinais de downmix 124, ou ao menos um deles, não estão limitados aos sinais de áudio que são adequados para reprodução nos canais de uma configuração de alto-falantes com M canais. Por conseguinte, o componente de downmix 102 pode adaptar os M sinais de downmix 124 para a variação temporal dos N objetos de áudio 120 (incluindo a variação temporal dos metadados 122, incluindo as posições espaciais dos N objetos de áudio), a fim de, por exemplo, melhorar a reconstrução dos objetos de áudio 120 no lado do decodificador.

[000136] O componente de downmix 102 pode aplicar diferentes critérios para cálculo dos M sinais de downmix. De acordo com um exemplo, os M sinais de downmix podem ser calculados de tal modo que a reconstrução dos N objetos de áudio, com base nos M sinais de downmix, seja otimizada. Por exemplo, o componente de downmix 102 pode minimizar um erro de reconstrução formado a partir dos N objetos de áudio 120 e uma reconstrução dos N objetos de áudio com base nos M sinais de downmix 124.

[000137] De acordo com outro exemplo, o critério é baseado nas posições espaciais, e, em particular, a proximidade espacial, dos N objetos de áudio 120. Conforme discutido acima, os N objetos de áudio 120 têm metadados 122 associados que incluem as posições espaciais dos N objetos de áudio 120. Com base nos metadados 122, a proximidade espacial dos N objetos de áudio 120 pode ser derivada.

[000138] Em mais detalhes, o componente de downmix 102 pode aplicar um primeiro procedimento de agrupamento a fim de determinar os M sinais de downmix 124. O primeiro procedimento de agrupamento pode compreender associar os N objetos de áudio 120 com agrupamentos M com base na proximidade espacial. Outras propriedades dos N objetos de áudio 120 conforme representado pelos metadados 122 associados, incluindo o tamanho do objeto, sonoridade do objeto, importância do objeto, podem igualmente ser levadas em consideração durante a associação dos objetos de áudio 120 com os agrupamentos M.

[000139] De acordo com um exemplo, o bem conhecido algoritmo K- means, com os metadados 122 (posições espaciais) dos N objetos de áudio como entrada, pode ser utilizado para associar os N objetos de áudio 120 com os agrupamentos M com base na proximidade espaci- al. As outras propriedades dos N objetos de áudio 120 podem ser usadas como fatores de ponderação no algoritmo K-means.

[000140] De acordo com outro exemplo, o primeiro procedimento de agrupamento pode ser baseado em um processo de seleção que utiliza a importância dos objetos de áudio, como determinado pelos metadados 122, conforme critério de seleção. Em mais detalhe, o componente de downmix 102 pode passar através dos objetos de áudio 120 mais importantes, de tal modo que um ou mais dos M sinais de downmix correspondem a um ou mais dos N objetos de áudio 120. Os objetos de áudio restantes, menos importantes, podem ser associados com os agrupamentos com base na proximidade espacial, conforme discutido acima.

[000141] Outros exemplos de agrupamento de objetos de áudio são apresentados no Pedido Provisória US n° 61/865.072, ou pedidos sub-sequentes que reivindicam a prioridade desse pedido.

[000142] Ainda de acordo com outro exemplo, o primeiro procedimento de agrupamento pode associar um objeto de áudio 120, com mais de um dos agrupamentos M. Por exemplo, um objeto de áudio 120 pode ser distribuído ao longo dos agrupamentos M, em que a distribuição, por exemplo, depende da posição espacial do objeto de áudio 120 e, opcionalmente, também de outras propriedades do objeto de áudio, incluindo o tamanho do objeto, sonoridade do objeto, importância do objeto, etc. A distribuição pode ser refletida pela percentagens, de tal modo que um objeto de áudio, por exemplo, seja distribuí-do ao longo de três agrupamentos de acordo com as percentagens 20%, 30% e 50%.

[000143] Uma vez que os N objetos de áudio 120 tenham sido associados com os agrupamentos M, o componente de downmix 102 calcula um sinal de downmix 124 para cada agrupamento formando uma combinação, normalmente, uma combinação linear, de objetos de áu- dio 120 associados com o agrupamento. Normalmente, o componente de downmix 102 pode usar parâmetros compreendidos nos metadados 122 associados com objetos de áudio 120, conforme ponderação na formação da combinação. A título de exemplo, os objetos de áudio 120 associados com um agrupamento podem ser pesados de acordo com o tamanho do objeto, sonoridade do objeto, importância do objeto, posição do objeto, a distância de um objeto com relação a uma posição espacial associada ao agrupamento (ver detalhes a seguir) etc. No caso onde os objetos de áudio 120 são distribuídos ao longo dos agrupamentos M, as percentagens que refletem a distribuição podem ser usadas como pesos na formação da combinação.

[000144] O primeiro procedimento de agrupamento é vantajoso na medida em que permite facilmente a associação de cada um dos M sinais de downmix 124 com uma posição espacial. Por exemplo, o componente de downmix 120 pode calcular uma posição espacial de um sinal de downmix 124 correspondentes a um agrupamento com base nas posições espaciais dos objetos de áudio 120 associados com o agrupamento. O centro geométrico ou centro geométrico ponderado das posições espaciais dos objetos de áudio a ser associados com o agrupamento podem ser usados para esta finalidade. No caso de um centro geométrico ponderado, os mesmos pesos podem ser utilizados na formação da combinação dos objetos de áudio 120 associados com o agrupamento.

[000145] A Fig. 2 ilustra um decodificador 200 correspondente ao codificador 100 da Fig. 1. O decodificador 200 é do tipo que suporta a reconstrução do objeto de áudio. O decodificador 200 compreende um componente de recepção 208, um componente decodificador 204 e um componente de reconstrução 206. O decodificador 200 pode ainda compreender um processador 210. Alternativamente, o decodificador 200 pode ser acoplado a um processador 210, que faz parte de um sistema de reprodução.

[000146] O componente de recepção 208 é configurado para receber um fluxo de dados 240 vindo do codificador 100. O componente de recepção 208 compreende um componente de multiplexação configurado para desmultiplexar o fluxo de dados 240 recebido em seus componentes, neste caso, M sinais de downmix 226 codificados, opcionalmente L sinais auxiliares 229 codificados, informações secundárias 228 para reconstrução de N objetos de áudio a partir dos M sinais de downmix e os L sinais auxiliares e metadados 222 associados com os N objetos de áudio.

[000147] O componente do decodificador 204 processa os M sinais de downmix 226 codificados para gerar M sinais de downmix 224 e, opcionalmente, L sinais auxiliares 227. Como discutido acima, os M sinais de downmix 224 foram formados de forma adaptativa no lado do codificador a partir dos N objetos de áudio, ou seja, formando combinações dos N objetos de áudio de acordo com um critério que é independente de qualquer configuração do alto-falante.

[000148] O componente de reconstrução de objeto 206, em seguida, reconstrói os N objetos de áudio 220 (ou uma aproximação percepti- velmente adequada destes objetos de áudio) com base nos M sinais de downmix 224 e, opcionalmente, os L sinais auxiliares 227 guiado pelas informações secundárias lado 228 derivadas do lado do codificador. O componente de reconstrução de objeto 206 pode ser aplicado a qualquer técnica conhecida para essa reconstrução paramétrica dos objetos de áudio.

[000149] Os N objetos de áudio 220 reconstruídos são então processados pelo processador 210 utilizando os metadados 222 associados com os objetos de áudio 222 e têm conhecimento sobre a configuração de canal do sistema de reprodução a fim de gerar um sinal de saída multicanal 230 adequado para a reprodução. As configurações normais de reprodução de alto-falante incluem 22.2 e 11.1. A reprodução nos sistemas de som ou fones de ouvido (apresentação binará) também é possível com processadores dedicados para tais sistemas de reprodução.

[000150] A Fig. 3 ilustra um decodificador de baixa complexidade 300 correspondente ao codificador 100 da Fig. 1. O decodificador 300 não suporta a reconstrução de objeto de áudio. O decodificador 300 compreende um componente de recepção 308, e um componente de decodificação 304. O decodificador 300 pode ainda compreender um processador 310. Alternativamente, o decodificador pode ser acoplado a um processador 310, que faz parte de um sistema de reprodução.

[000151] Como discutido acima, os sistemas da técnica anterior que utilizam um downmix retrocompatível (tal como um downmix 5.1), ou seja, um downmix compreendendo M sinais de downmix, que são adequados para a reprodução direta em um sistema de reprodução com M canais, facilmente permite baixa complexidade de decodifica- ção para sistemas de reprodução legados (por exemplo, que apenas suportam uma configuração de alto-falante multicanal 5.1). Tais sistemas da técnica anterior normalmente decodificam os próprios sinais de downmix retro-compatíveis e descarta as partes adicionais do fluxo de dados, tais como informações secundárias (cf. artigo 228 da Fig. 2) e metadados associados com os objetos de áudio (cf. item 222 da Fig. 2). No entanto, quando os sinais de downmix são formados adaptati- vamente, tal como descrito acima, os sinais de downmix geralmente não são adequados para reprodução direta em um sistema legado.

[000152] O decodificador 300 é um exemplo de decodificador que permite a baixa complexidade de decodificação de M sinais de downmix, os quais são formados de forma adaptativa para reprodução em um sistema de reprodução legado que apenas suporta uma configuração de reprodução particular.

[000153] O componente de recepção 308 recebe um bitstream 340 de um codificador, tal como o codificador 100 da Fig. 1. O componente de recepção 308 desmultiplexa o bitstream 340 em seus componentes. Neste caso, o componente de recepção 308 manterá somente os M sinais de downmix 326 codificados e os metadados 325 associados com os M sinais de downmix. Os outros componentes do fluxo de dados 340, tal como os L sinais auxiliares (item cf. 229 da Fig. 2) de metadados associados com os N objetos de áudio (item cf. 222 da Fig. 2) e as informações secundárias (item cf. 228 da Fig. 2) são descartados.

[000154] O componente de decodificação 304 decodifica os M sinais de downmix 326 codificados para gerar M sinais de downmix 324. Os M sinais de downmix são, então, junto com os metadados de downmix, inseridos no processador 310, que processa os M sinais de downmix em uma saída multicanal 330 correspondente a um formato de reprodução legado (que normalmente tem M canais). Uma vez que os metadados de downmix 325 compreendem as posições espaciais dos M sinais de downmix 324, o processador 310 pode, normalmente, ser semelhante ao processador 210 da Fig. 2, com a única diferença que o processador 310, agora leva os M sinais de downmix 324 e os metadados 325 associados com os M sinais de downmix 324 como entrada ao invés de objetos de áudio 220 e seus metadados 222 associados.

[000155] Como mencionado acima, com relação a Fig. 1, os N objetos de áudio 120 podem corresponder a uma representação simplificada de uma cena de áudio.

[000156] Uma cena de áudio pode conter geralmente objetos de áudio e canais de áudio. Entende-se aqui por canal de áudio um sinal de áudio que corresponde a um canal de uma configuração de alto- falantes multicanais. Os exemplos dessas configurações de alto- falantes multicanais incluem uma configuração 22.2, uma configuração 11.1 etc. Um canal de áudio pode ser interpretado como um objeto de áudio estático com posição espacial correspondente à posição do alto- falante do canal.

[000157] Em alguns casos o número de objetos de áudio e canais de áudio na cena de áudio pode ser grande, como mais de 100 objetos de áudio e 1-24 canais de áudio. Caso todos esses objetos/canais de áudio devam ser reconstruídos no lado do decodificador, uma grande quantidade de força computacional se faz necessária. Além disso, a taxa de dados resultante associada com os metadados de objeto e informações secundárias será geralmente muito alta, caso diversos objetos sejam fornecidos como entrada. Por esta razão, é vantajoso simplificar a cena de áudio, a fim de reduzir o número de objetos de áudio a ser reconstruída no lado do decodificador. Para este efeito, o codificador pode compreender um componente de agrupamento que reduz o número de objetos de áudio na cena de áudio com base em um segundo procedimento de agrupamento. O segundo procedimento de agrupamento visa explorar a redundância espacial presente na cena de áudio, como objetos de áudio com posições iguais ou muito semelhantes. Além disso, podem ser levadas em consideração a importância perceptual dos objetos de áudio. Geralmente, tal componente de agrupamento pode estar disposto em sequência ou em paralelo com o componente de downmix 102 da Fig. 1. O arranjo sequencial será descrito com referência à Fig. 4 e o arranjo em paralelo será descrito com referência à Fig. 5.

[000158] A Fig. 4 ilustra um codificador 400. Além dos componentes descritos com referência à Fig. 1, o codificador 400 compreende um componente de agrupamento 409. O componente de agrupamento 409 fica disposto em sequência com o componente de downmix 102, o que significa que a saída do componente de agrupamento 409 é entrada para o componente de downmix 102.

[000159] O componente de agrupamento 409 toma objetos de áudio 421a e/ou canais de áudio 421b como entrada junto com os metadados 423 associados, incluindo as posições espaciais do objetos de áudio 421a. O componente de agrupamento 409 converte os canais de áudio 421b em objetos de áudio estáticos associando cada canal de áudio 421b à posição espacial da posição do alto-falante correspondente ao canal de áudio 421b. Os objetos de áudio 421a e os objetos de áudio estáticos formados a partir dos canais de áudio 421b podem ser vistos como uma primeira pluralidade de objetos de áudio 421.

[000160] O componente de agrupamento 409 geralmente reduz a primeira pluralidade de objetos de áudio 421 a uma segunda pluralidade de objetos de áudio, aqui correspondente aos N objetos de áudio 120 da Fig. 1. Para este efeito, o componente de agrupamento 409 pode ser aplicado a um segundo procedimento de agrupamento.

[000161] O segundo procedimento de agrupamento é geralmente semelhante ao primeiro procedimento de agrupamento descrito acima com relação ao componente de downmix 102. Portanto, a descrição do primeiro procedimento de agrupamento também se aplica ao segundo procedimento de agrupamento.

[000162] Particularmente, o segundo procedimento de agrupamento envolve a associação da primeira pluralidade de objetos de áudio 121 com pelo menos um agrupamento, aqui agrupamentos N, com base na proximidade espacial da primeira pluralidade de objetos de áudio 121. Tal como descrito acima, a associação com agrupamentos pode também basear-se em outras propriedades dos objetos de áudio representadas pelos metadados 423. Cada agrupamento é então representado por um objeto que é uma combinação (linear) dos objetos de áudio associados a esse agrupamento. No exemplo ilustrado, existem agrupamentos N e, consequentemente, são gerados N objetos de áudio 120. O componente de agrupamento 409 ainda calcula os metadados 122 para os N objetos de áudio 120 gerados. Os metadados 122 incluem as posições espaciais dos N objetos de áudio 120. A posição espacial de cada um dos N objetos de áudio 120 pode ser calculada com base nas posições espaciais dos objetos de áudio associados com o agrupamento correspondente. A título de exemplo, a posição espacial pode ser calculada como um centro geométrico ou um centro geométrico ponderado das posições espaciais dos objetos de áudio associados com o agrupamento conforme adicionalmente explicado acima com referência à Fig. 1.

[000163] Os N objetos de áudio 120 gerados pelo componente de agrupamento 409 é então a entrada para o componente de downmix 120, conforme descrito adicionalmente com referência à Fig. 1.

[000164] A Fig. 5 ilustra um codificador 500. Além dos componentes descritos com referência à Fig. 1, o codificador 500 compreende um componente de agrupamento 509. O componente de agrupamento 509 é disposto em paralelo com o componente de downmix 102, o que significa que o componente de downmix 102 e o componente de agrupamento 509 tem a mesma entrada.

[000165] A entrada compreende uma primeira pluralidade de objetos de áudio correspondendo aos N objetos de áudio 120 da Fig. 1, juntamente com os metadados 122 associados, incluindo as posições espaciais da primeira pluralidade de objetos de áudio. A primeira pluralidade de objetos de áudio 120 pode, semelhante à primeira pluralidade de objetos de áudio 121 da Fig. 4, compreender os objetos de áudio e canais de áudio sendo convertidos em objetos de áudio estáticos. Em contraste com a disposição sequencial da Fig. 4, onde o componente de downmix 102 opera em um número reduzido de objetos de áudio correspondentes a uma versão simplificada da cena de áudio, o componente de downmix 102 da Fig. 5 opera no conteúdo de áudio completo da cena de áudio, a fim de gerar M sinais de downmix 124.

[000166] O componente de agrupamento 509 é semelhante em ter mos de funcionalidade ao componente de agrupamento 409 descrito com referência à Fig. 4. Particularmente, o componente de agrupamento 509 reduz a primeira pluralidade de objetos de áudio 120 para uma segunda pluralidade de K objetos de áudio 521, aqui ilustrados por objetos de áudio onde normalmente M<K<N (para altas aplicações de bit M<K<N), aplicando o segundo procedimento de agrupamento descrito acima. A segunda pluralidade de objetos de áudio 521 é, assim, um conjunto de objetos formados com base nos N objetos de áudio 126. Além disso, o componente de agrupamento 509 calcula os metadados 522 para a segunda pluralidade de objetos de áudio 521 (os K objetos de áudio) incluindo as posições espaciais da segunda pluralidade de objetos de áudio 521. Os metadados 522 são incluídos no fluxo de dados 540 pelo componente de desmultiplexação 108. O componente de análise 106 calcula as informações secundárias 528, que permite a reconstrução da segunda pluralidade de objetos de áudio 521, ou seja, o conjunto de objetos formados com base nos N objetos de áudio (aqui os K objetos de áudio), a partir dos M sinais de downmix 124. As informações secundárias 528 são incluídas no fluxo de dados 540 pelo componente de multiplexação 108. Como discutido acima, o componente de análise 106 pode derivar, por exemplo, das informações secundárias 528 analisando a segunda pluralidade de objetos de áudio 521 e os M sinais de downmix 124.

[000167] O fluxo de dados 540 gerado pelo codificador 500 pode geralmente ser decodificado pelo decodificador 200 da Fig. 2 ou o deco- dificador 300 da Fig. 3. No entanto, os objetos de áudio 220 reconstruídos da Fig. 2 (denominados N objetos de áudio) agora correspondem à segunda pluralidade de objetos de áudio 521 (denominados K objetos de áudio) da Fig. 5, e os metadados 222 associados com os objetos de áudio (denominados metadados dos N objetos de áudio) agora correspondem aos metadados 522 da segunda pluralidade de objetos de áudio (denominados metadados dos K objetos de áudio) da Fig. 5.

[000168] Em sistemas de codificação/decodificação baseados em objetos de áudio, as informações secundárias ou os metadados associados com os objetos são normalmente atualizados com pouca frequência (escassamente) no momento de limitar a taxa de dados associados. Um intervalo típico para as posições dos objetos pode variar entre 10 e 500 milissegundos, dependendo da velocidade do objeto, a precisão da posição necessária, a largura de banda disponível para armazenar ou transmitir metadados, etc. Tais atualizações esparsas ou mesmo irregulares de metadados exigem interpolação de metada-dos e/ou processamento de matrizes (ou seja, matrizes empregadas no processamento) para amostras de áudio entre duas ocorrências de metadados posteriores. Sem interpolação, as mudanças passo a passo consequentes no processamento da matriz pode provocar artefatos indesejáveis de comutação, estalidos, ruídos de zíper, ou outros artefatos indesejáveis, como resultado de splatter espectral introduzido por atualizações da matriz passo a passo.

[000169] A Fig. 6 ilustra um processo típico conhecido para calcular matrizes de processamento para processamento de sinais de áudio ou objetos de áudio, com base em um conjunto de ocorrências de metadados. Como mostrado na Fig. 6, um conjunto de ocorrências de metadados (m1 a m4) 610 correspondem a um conjunto de pontos no tempo (t1 a t4), que são indicados por sua posição ao longo do eixo de tempo 620. Posteriormente, cada ocorrência de metadados é convertida a uma respectiva matriz de processamento (c1 a c4) 630, ou configuração de processamento, a qual é válida no mesmo ponto de tempo conforme a ocorrência de metadados. Assim, conforme mostrado, a ocorrência de metadados m1 cria a matriz de processamento c1 no tempo t1, a ocorrência de metadados m2 cria a matriz de processamento c2 no tempo t2, e assim por diante. Para simplificar, a Fig. 6 mostra apenas uma matriz de processamento para cada ocorrência de metadados m1 a m4. Em sistemas práticos, no entanto, uma matriz de processamento c1 pode compreender um conjunto de coeficientes de matriz de processamento ou coeficientes de ganho c1,i,j ser aplicados aos respectivos sinais de áudio xi(t) para criar sinais de saída yi(t):

[000170] As matrizes de processamento 630 compreendem geralmente coeficientes que representam valores de ganho em diferentes pontos no tempo. Ocorrências de metadados são definidos em determinados pontos discretos no tempo, e no caso de amostras de áudio entre os pontos de tempo dos metadados, a matriz de processamento é interpolada, conforme indicado pela linha pontilhada 640 que liga as matrizes de processamento 630. Tal interpolação pode ser realizada de forma linear, mas também pode-se utilizar outros métodos de interpolação (como uma interpolação limitada por banda, interpolação se- no/cosseno etc.). O intervalo de tempo entre as ocorrências de metadados (e matrizes de processamento correspondentes) é referido co-mo uma "duração interpolação", e esses intervalos podem ser uniformes ou podem ser diferentes, tais como a maior duração de interpolação entre tempos t3 e t4 quando comparado com a duração interpolação entre tempos t2 e t3.

[000171] Em muitos casos, o cálculo dos coeficientes da matriz de processamento das ocorrências de metadados está bem definida, mas o processo inverso de cálculo das ocorrências de metadados, dada uma matriz de processamento (interpolada), é muitas vezes difícil, ou mesmo impossível. A este respeito, o processo de geração de uma matriz de processamento de metadados pode, por vezes, ser considerada como uma função criptográfica de mão única. O processo de cálculo de novas ocorrência de metadados entre ocorrências de metadados existentes é denominada como "reamostragem" de metadados. Reamostragem de metadados é muitas vezes necessária durante de-terminadas tarefas de processamento de áudio. Por exemplo, quando o conteúdo de áudio é editado, por corte/fusão/mixagem, e assim por diante, estas edições podem ocorrer entre as ocorrências de metadados. Neste caso, é necessário reamostragem dos metadados. Outro caso é quando os sinais de áudio e as informações secundárias associadas são codificadas com um codec de áudio baseado em quadros. Neste caso, recomenda-se ter pelo menos uma ocorrência de metadados para cada quadro de codec de áudio, de preferência, com uma marca temporal no início desse quadro de codec, para melhorar a resi- liência de perdas de quadros durante a transmissão. Além disso, a interpolação de metadados também é ineficaz para certos tipos de metadados, como metadados de valor binário, em que as técnicas padrão iriam derivar o valor incorreto mais ou menos a cada segunda hora. Por exemplo, se bandeiras binárias, tais como máscaras de exclusão de zona são usadas para excluir certos objetos do processamento em determinados pontos no tempo, é praticamente impossível estimar um conjunto válido de metadados a partir dos coeficientes da matriz de processamento ou de ocorrências de metadados vizinhas. Isto é mostrado na Fig. 6 como uma tentativa fracassada de extrapolar ou derivar uma ocorrência de metadados m3a a partir dos coeficientes da matriz de processamento na duração interpolação entre os tempos t3 e t4. Conforme mostrado na Fig. 6, as ocorrências de metadados mx só são definitivamente definidas em certos pontos discretos no tempo tx, que por sua vez produz o conjunto associado de coeficientes da matriz cx. Entre estes tempos discretos tx, os conjuntos de coeficientes da matriz devem ser interpolados com base nas ocorrências de metadados passadas ou futuras. No entanto, como descrito acima, esquemas de interpolação de metadados presentes sofrem de perda de qualidade de áudio espacial devido a imprecisões inevitáveis nos processos de in- terpolação de metadados. Esquemas de interpolação alternativos, de acordo com as modalidades exemplificativas, serão descritos abaixo com referência às Figs. 7-11.

[000172] Nas modalidades exemplificativas descritas com referência às Figs. 1-5, os metadados 122, 222 associados com os N objetos de áudio 120, 220 e os metadados 522 associados com os K objetos de áudio 522 originam, pelo menos em algumas modalidades exemplifica- tivas, a partir de componentes de agrupamento 409 e 509, e podem ser referidos como metadados de agrupamento. Além disso, os metadados 125, 325 associados com os sinais de downmix 124, 324 podem ser referidos como metadados de downmix.

[000173] Tal como descrito com referência às Figs. 1, 4 e 5, o componente de downmix 102 pode calcular os M sinais de downmix 124 através da formação de combinações de N objetos de áudio 120 de uma maneira adaptável de sinal, isto é, de acordo com um critério que é independente de qualquer configuração do alto-falante. Tal operação do componente downmix 102 é característica de modalidades exempli- ficativas dentro de um primeiro aspecto. De acordo com as modalidades exemplificativas dentro de outros aspectos, o componente de downmix 102 pode, por exemplo, calcular os M sinais de downmix 124 através da formação de combinações de N objetos de áudio 120 de uma maneira adaptável de sinal, ou, alternativamente, de tal modo que os M sinais de downmix sejam adequados para reprodução nos canais de uma configuração de alto-falante com M canais, ou seja, como um downmix retrocompatível.

[000174] Em uma modalidade exemplificativa, o codificador 400 descrito com referência à Fig. 4 emprega um formato de metadados e informações secundárias particularmente adequadas para reamostra- gem, ou seja, para gerar ocorrências adicionais de metadados e de informação secundárias. Nesta modalidade exemplificativa, o compo- nente de análise 106 calcula a informação secundária 128 em uma forma que inclui uma pluralidade de ocorrências de informações secundárias, especificando as respectivas configurações de reconstrução desejadas para reconstrução de N objetos de áudio 120 e, para cada ocorrência de informações secundárias, os dados de transição que incluem duas partes independentemente programáveis, as quais definem em combinação com um ponto no tempo para iniciar uma transição a partir de uma configuração de reconstrução atual para a configuração de reconstrução desejada especificada pela ocorrência de informações secundárias, e um ponto no tempo para concluir a transição. Nesta modalidade exemplificativa, as duas partes independentemente programáveis dos dados de transição para cada ocorrên-cia de informações secundárias são: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de reconstrução desejada e um parâmetro de duração interpolação indicando uma duração para atingir a configuração de reconstrução desejada a partir do ponto no tempo para iniciar a transição para a configuração de reconstrução desejada. O intervalo no qual uma transição ocorre nesta modalidade exemplificativa unicamente definida pelo tempo no qual a transição deve iniciar e a duração do intervalo da transição. Esta forma particular de informação secundária 128 será descrita a seguir com referência às Figs. 7-11. Entende-se que existem diversas outras maneiras de definir de forma única este intervalo de transição. Por exemplo, um ponto de referência na forma de um ponto inicial, final ou médio do intervalo, acompanhado pela duração do intervalo, pode ser empregado nos dados de transição para unicamente definir o intervalo. Alternativamente, os pontos inicial e final do intervalo podem ser empregados nos dados de transição para unicamente definir o intervalo.

[000175] Nesta modalidade exemplificativa, o componente de agru- pamento 409 reduz a primeira pluralidade de objetos de áudio 421 a uma segunda pluralidade de objetos de áudio, aqui correspondendo aos N objetos de áudio 120 da Fig. 1. O componente de agrupamento 409 calcula os metadados de agrupamento 122 para os N objetos de áudio 120 gerados que permitem o processamento dos N objetos de áudio 122 em um processador 210 em um lado do decodificador. O componente de agrupamento 409 fornece os metadados de agrupamento 122 de maneira que inclui uma pluralidade de ocorrências de metadados de agrupamento especificando as respectivas configurações de processamento desejadas para processamento dos N objetos de áudio 120, e, para cada ocorrência de metadados de agrupamento, os dados de transição incluindo duas partes independentemente programáveis que, em combinação definem um ponto no tempo para iniciar uma transição a partir de uma configuração de processamento atual para a configuração de processamento desejada especificada pela ocorrência de metadados agrupamento, e um ponto no tempo para concluir a transição para a configuração de processamento desejada. Nesta modalidade exemplificativa, as duas partes independentemente programáveis dos dados de transição para cada ocorrência de metadados de agrupamento são: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de processamento desejada e um parâmetro de duração interpolação indicando uma duração para atingir a configuração de processamento desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento desejada. Esta forma particular de metadados de agrupamento 122 será descrita a seguir com referência às Figs. 7-11.

[000176] Nesta modalidade exemplificativa, os componentes de downmix 102 associa cada sinal de downmix 124 com uma posição espacial e inclui a posição espacial nos metadados de downmix 125, permitindo o processamento dos M sinais de downmix em um proces- sador 310 em um lado do decodificador. O componente de downmix 102 fornece os metadados de downmix 125 de maneira que inclui uma pluralidade de ocorrências de metadados de downmix especificando as respectivas configurações de processamento de downmix desejadas para processamento de sinais de downmix, e, para cada ocorrência de metadados de downmix, os dados de transição incluindo duas partes independentemente programáveis que em combinação definem um ponto no tempo para iniciar uma transição a partir de uma configuração de processamento de downmix atual para a configuração de processamento de downmix desejada especificada pela ocorrência de metadados de downmix, e um ponto no tempo para concluir a transição para a configuração de processamento de downmix desejada. Nesta modalidade exemplificativa, as duas partes independentemente programáveis dos dados de transição para cada ocorrência de metadados de downmix são: uma marca temporal indicando o ponto no tempo para iniciar a transição para a configuração de processamento de downmix desejada e um parâmetro de duração interpolação indicando uma duração para atingir a configuração de processamento de downmix desejada a partir do ponto no tempo para iniciar a transição para a configuração de processamento de downmix desejada.

[000177] Nesta modalidade exemplificativa, utiliza-se o mesmo formato para a informação secundária 128, os metadados de agrupamento 122 e os metadados de downmix 125. Este formato será descrito com referência às Figs. 7-11 em termos de metadados para processamento de sinais de áudio. No entanto, entende-se que nos exemplos a seguir descritos com referência às Figs. 7-11, termos ou expressões como "metadados para processamento de sinais de áudio" podem muito bem ser substituídas por termos ou expressões correspondentes como "informações secundárias para reconstrução de objetos de áudio", "metadados de agrupamento para processamento de objetos de áudio" ou "metadados de downmix para processamento de sinais de downmix ".

[000178] A Fig. 7 ilustra a derivação, com base nos metadados, de curvas de coeficientes utilizadas no processamento de sinais de áudio, de acordo com uma modalidade exemplificativa. Conforme mostrado na Fig.7, um conjunto de ocorrências de metadados mx gerados em diferentes pontos no tempo tx, por exemplo, relacionado com marcas temporais únicas, são convertidos por um conversor 710 em conjuntos correspondentes de valores de coeficientes da matriz cx. Estes conjuntos de coeficientes representam valores de ganho, também conhecidos como fatores de ganho, a ser empregados para processamento dos sinais de áudio para vários alto-falantes e drivers em um sistema de reprodução para o qual o conteúdo de áudio deve ser processado. Um interpolador 720, então, interpola os fatores de ganho cx para produzir uma curva de coeficiente entre os tempos discretos tx. Em uma modalidade, as marcas temporais tx associados a cada ocorrência de metadados mx podem corresponder a pontos aleatórios no tempo, pontos síncronos no tempo gerados por um circuito de relógio, eventos de tempo relacionados ao conteúdo de áudio, tais como os limites de quadro, ou qualquer outro evento programado apropriado. Note-se que, tal como descrito acima, a descrição fornecida com referência à Fig. 7 se aplica de forma análoga à informação secundária para reconstrução de objetos de áudio.

[000179] A Fig. 8 ilustra um formato de metadados de acordo com uma modalidade (e tal como descrito acima, a descrição a seguir se aplica analogamente a um formato de informação secundária correspondente), a qual aborda, pelo menos, alguns dos problemas de interpolação associados aos métodos atuais, tal como descrito acima, pela definição de uma marca temporal como a hora de início de uma transição ou interpolação, e aumentando cada ocorrência de metadados com um parâmetro de duração de interpolação que representa a duração da transição ou duração de interpolação (também denominado como "tamanho rampa"). Conforme mostrado na Fig. 8, um conjunto de ocorrência de metadados m2 a m4 (810) especifica um conjunto de matrizes de processamento c2 a c4 (830). Cada ocorrência de metadados é gerado em um determinado ponto no tempo tx, e, cada ocorrência de metadados está definida com relação à sua marca temporal, m2 para t2, m3 para t3, e assim por diante. As matrizes de processamento associadas 830 são geradas após a realização das transições durante as respectivas durações de interpolação d2, d3, d4 (830), a partir da marca temporal associada (t1 a t4) de cada ocorrência de metadados 810. Um parâmetro de duração de interpolação indicando a duração de interpolação (ou tamanho rampa) está incluído em cada ocorrência de metadados, isto é, a ocorrência de metadados m2 inclui d2, m3 inclui d3, e assim por diante. Esquematicamente isso pode ser representado como se segue: im = (metadados (tx), dx) ^ Cx. Deste modo, os metadados, essencialmente, proporcionam uma representação esquemática de como proceder a partir de uma configuração de processamento atual (por exemplo, a matriz de processamento atual resultante a partir de metadados anteriores) para uma nova configuração de processamento (por exemplo, a nova matriz de processamento resultante dos metadados atuais). Cada ocorrência de metadados destina-se a ter efeito em um ponto no tempo especificado no futuro com relação ao momento em que a ocorrência de metadados foi recebida e a curva de coeficiente é derivada do estado anterior do coeficiente. Assim, na Fig. 8, m2 gera c2 após uma duração d2, m3 gera c3 após uma duração d3 e m4 gera c4 após uma duração d4. Neste esquema para interpolação, os metadados anteriores não precisam ser conhecidos, é necessária apenas a matriz de processamento anterior ou estado de processamento. A interpolação utilizada pode ser linear ou não linear de acordo com as limitações e configurações do sistema.

[000180] O formato de metadados da Fig. 8 permite reamostragem sem perdas de metadados, como mostrado na Fig. 9. A Fig. 9 ilustra um primeiro exemplo de processamento de metadados sem perdas, de acordo com uma modalidade exemplificativa (e tal como descrito acima, a descrição a seguir se aplica analogamente a um formato de informação secundária correspondente). A Fig. 9 mostra ocorrências de metadados m2 a m4 que se referem às matrizes de processamento futuras c2 a c4, respectivamente, incluindo as durações de interpolação d2 a d4. As marcas temporais das ocorrências de metadados m2 a m4 são dadas como t2 a t4. No exemplo da Fig. 9, adiciona-se uma ocorrência de metadados m4a no tempo t4a. Esses metadados podem ser adicionados por várias razões, tais como para melhorar a resiliên- cia de erro do sistema ou para sincronização das ocorrências de metadados com o início/fim de um quadro de áudio. Por exemplo, o tempo t4a pode representar o tempo que um codec de áudio utilizado para codificação do conteúdo de áudio associado com os metadados inicia um novo quadro. Para uma operação sem perdas, os valores de metadados de m4a são idênticos aos de m4 (isto é, eles descrevem ambos uma matriz de processamento alvo c4), mas o tempo d4a para atingir o ponto que tenha sido reduzido por d4-d4a. Em outras palavras, a ocorrência de metadados m4a é idêntica à da ocorrência de metadados m4 anterior de modo a que a curva de interpolação entre c3 e c4 não seja alterada. No entanto, a nova duração de interpolação d4a é mais curta do que a duração d4 original. Isso aumenta efetivamente a taxa de dados das ocorrências de metadados, o que pode ser benéfico em certas circunstâncias, tais como correção de erros.

[000181] Um segundo exemplo de interpolação metadados sem perdas é mostrado na Fig. 10 (e tal como descrito acima, a descrição a seguir se aplica analogamente a um formato de informação secundária correspondente). Neste exemplo, a meta é incluir um novo conjunto de metadados m3a entre duas ocorrências de metadados m3 e m4. A Fig. 10 ilustra um caso em que a matriz de processamento permanece inalterada por um período de tempo. Portanto, nesta situação, os valores do novo conjunto de metadados m3a são idênticos aos do metadados m3 anteriores, exceto para a duração de interpolação d3a. O valor da duração da interpolação d3a deve ser ajustado para o valor correspondente a t4-t3a, ou seja, à diferença entre o tempo t4 associado com a ocorrência de metadados m4 seguinte e o tempo t3a associado com o novo conjunto de metadados m3a. O caso ilustrado na Fig. 10 pode, por exemplo, ocorrer quando um objeto de áudio é estático e uma ferramenta de criação para de enviar novos metadados para o objeto devido a esta natureza estática. Nesse caso, recomenda-se inserir novas ocorrências de metadados m3a, por exemplo, para sincronizar os metadados com quadros de codec.

[000182] Nos exemplos ilustrados nas Figs. 8 a 10, a interpolação a partir de uma matriz atual para uma matriz de processamento ou estado de processamento desejados foi realizada por interpolação linear. Em outras modalidades exemplificativas, também podem ser usados diferentes esquemas de interpolação. Um dado esquema de interpolação alternativa utiliza um circuito sample-and-hold combinado com um filtro low-pass subsequente. A Fig. 11 ilustra um esquema de interpolação utilizando um circuito sample-and-hold com um filtro low-pass, de acordo com uma modalidade exemplificativa (e tal como descrito acima, a descrição a seguir se aplica analogamente a um formato de informação secundária correspondente). Conforme mostrado na Fig. 11, as ocorrências de metadados m2 a m4 são convertidas para os coeficientes da matriz de processamento c2 e c3. O processo sample- and-hold faz com que os estados de coeficiente passem imediatamente para o estado desejado, o qual resulta em uma curva gradual 1110, conforme mostrado. Esta curva 1110 é, então, posteriormente filtrada de low-pass para se obter uma curva suave e interpolada 1120. Os parâmetros do filtro de interpolação (por exemplo, a frequência ou constante de tempo de corte) podem ser sinalizados como parte dos metadados, além das marcas temporais e parâmetros de duração de interpolação. Entende-se que diferentes parâmetros podem ser utilizados, dependendo dos requisitos do sistema e das características do sinal de áudio.

[000183] Em uma modalidade exemplificativa, a duração de interpolação ou tamanho rampa podem ter qualquer valor prático, incluindo um valor de, ou substancialmente, próximo a zero. Essa pequena duração de interpolação é especialmente útil para casos como o de inicialização, a fim de permitir a configuração da matriz de processamento imediatamente na primeira amostra de um arquivo, ou permitir edições, splicing ou concatenação de fluxos. Com este tipo de edições destrutivas, que têm a possibilidade de variar instantaneamente a matriz de processamento, pode ser benéfico manter as propriedades espaciais do conteúdo após a edição.

[000184] Em uma modalidade exemplificativa, o esquema de interpolação aqui descrito é compatível com a remoção das ocorrências de metadados (e analogamente com a remoção das ocorrências de informações secundárias, tal como descrito acima), tal como em um esquema de dizimação que reduz as taxas de bits de metadados. A remoção das ocorrências de metadados permite que o sistema faça a reamostragem a uma taxa de quadros menor que a taxa de quadros inicial. Neste caso, as ocorrências de metadados e seus dados da duração de interpolação associada que são fornecidos por um codificador podem ser removidos com base em certas características. Por exemplo, um componente de análise em um codificador pode analisar o sinal de áudio a fim de determinar se existe um período de estase de sinal significativo, e em tal caso, remover certas ocorrências de metadados já gerados para reduzir os requisitos de largura de banda para transmissão de dados em um lado do decodificador. A remoção de ocorrências de metadados pode, alternativa ou adicionalmente, ser realizada em um componente separado a partir do codificador, tal como em um decodificador ou um transcodificador. Um transcodificador pode remover as ocorrências de metadados que tenham sido gerados ou adicionados pelo codificador, e podem ser empregadas em um conversor de taxas de dados que re-amostra um sinal de áudio a partir de uma primeira taxa para uma segunda taxa, onde a segunda taxa pode ou não ser um múltiplo inteiro da primeira taxa. Como alternativa para analisar o sinal de áudio, a fim de determinar as ocorrências de metadados a serem removidas, o codificador, decodificador ou trans- codificador podem analisar os metadados. Por exemplo, com referência à Fig. 10, a diferença pode ser calculada entre uma primeira configuração de reconstrução desejada c3 (ou matriz de reconstrução), especificada por uma primeira ocorrência de metadados m3, e configurações de reconstrução desejadas c3a e c4 (ou matrizes de reconstrução) especificadas por ocorrências de metadados m3a e m4 imediatamente após a primeira ocorrência de metadados m3. A diferença pode ser calculada, por exemplo, através do emprego de uma norma de matriz para as respectivas matrizes de processamento. Caso a diferença seja inferior a um limiar predefinido, por exemplo, correspondendo a uma distorção tolerada dos sinais de áudio reconstruídos, as ocorrências de metadados m3a e m4 posteriores à primeira ocorrência de metadados m2 podem ser removidas. No exemplo ilustrado na Fig. 10, a ocorrência de metadados m3a imediatamente posterior à primeira ocorrência de metadados m3 especifica as mesmas configurações de processamento c3 = c3a, como a primeira ocorrência de metadados m3e será, portanto, removida, enquanto que a próxima configuração de metadados m4 especifica uma configuração de processamento diferente c4 e pode, dependendo do limiar empregado, ser mantida como metadados.

[000185] No decodificador 200 descrito com referência à Fig. 2, o componente de reconstrução de objeto 206 pode empregar interpolação como parte da reconstrução dos N objetos de áudio 220 com base nos M sinais de downmix 224 e informação secundária 228. Em analogia com o esquema de interpolação descrito com referência às Figs. 7-11, a reconstrução dos N objetos de áudio 220 pode incluir, por exemplo: realizar a reconstrução de acordo com uma configuração de reconstrução atual; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de informações secundárias, uma transição a partir da configuração de reconstrução atual para uma configuração de reconstrução desejada especificada pela ocorrência de informações secundárias; e concluir a transição para a configuração de reconstrução desejada em um ponto no tempo definido pelos dados de transição para a ocorrência de informações secundárias.

[000186] De modo semelhante, o processador 210 pode empregar interpolação como parte do processamento dos N objetos de áudio 220 reconstruídos, a fim de gerar o sinal de saída multicanal 230 adequado para a reprodução. Em analogia com o esquema de interpolação descrito com referência às Figs. 7-11, o processamento pode incluir: realizar o processamento de acordo com uma configuração de processamento atual; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de metadados de agrupamento, uma transição a partir da configuração de processamento atual para uma configuração de processamento desejada especificada pela ocorrência de metadados de agrupamento; e concluir a transição para a configuração de processamento desejada em um ponto no tempo definido pelos dados de transição para a ocorrência de metadados de agrupamento.

[000187] Em algumas modalidades exemplificativas, a seção de reconstrução de objeto 206 e o processador 210 podem ser unidades separadas e/ou podem corresponder às operações realizadas como processos separados. Em outras modalidades exemplificativas, a seção de reconstrução de objeto 206 e o processador 210 podem ser concretizados como uma única unidade ou processo em que reconstrução e processamento são realizados como uma operação combinada. Em tais modalidades exemplificativas, as matrizes utilizadas para reconstrução e processamento podem ser combinadas em uma única matriz, que pode ser obtida por interpolação, em vez de executar a in-terpolação de uma matriz de processamento e uma matriz de reconstrução, separadamente.

[000188] No decodificador de baixa complexidade 300, descrito com referência à Fig. 3, o processador 310 pode executar a interpolação como parte do processamento dos M sinais de downmix 324 para a saída multicanal 330. Em analogia com o esquema de interpolação descrito com referência às Figs. 7-11, o processamento pode incluir: realizar o processamento de acordo com uma configuração de processamento de downmix atual; iniciar, em um ponto no tempo definido pelos dados de transição para uma ocorrência de metadados de downmix, uma transição a partir da configuração de processamento de downmix atual para uma configuração de processamento de downmix desejada especificada pela ocorrência de metadados de downmix; e concluir a transição para a configuração de processamento de downmix desejada em um ponto no tempo definido pelos dados de transição para a ocorrência de metadados de downmix. Como descrito anteriormente, o processador 310 pode estar compreendido no decodifica- dor 300 ou pode ser um dispositivo/unidade separada. Em modalidades exemplificativas, onde o processador 310 é separado do decodifi- cador 300, o decodificador pode emitir os metadados de downmix 325 e M sinais de downmix 324 para processamento dos M sinais de downmix no processador 310. Equivalentes, extensões, alternativas e variados

[000189] Outras modalidades desta divulgação ficarão evidentes para um indivíduo versado na técnica após o estudo da descrição acima. Apesar desta descrição e figuras divulgarem modalidades e exemplos, a divulgação não está limitada a esses exemplos específicos. Numerosas modificações e variações podem ser feitas sem se afastar do escopo desta divulgação, a qual está definida pelas concretizações em anexo. Quaisquer sinais de referência que apareçam nas concretizações não devem ser entendidos como uma limitação de seu escopo.

[000190] Além disso, variações às modalidades divulgadas podem ser compreendidas e efetuadas por pessoa versada na técnica ao praticar a divulgação, a partir de um estudo das figuras, da divulgação e das concretizações em anexo. Nas concretizações, a palavra "compreendendo" não exclui outros elementos ou etapas, e o artigo indefinido "um" ou "uma" não exclui uma pluralidade. O simples fato de que certas medidas serem mencionadas em diferentes concretizações mutuamente dependentes não sugere que uma combinação dessas medidas não possa ser vantajosamente usada.

[000191] Os sistemas e métodos divulgados acima podem ser implementados como software, firmware, hardware ou uma combinação destes. Em uma implementação de hardware, a divisão de tarefas entre unidades funcionais referidas na descrição acima não corresponde necessariamente à divisão em unidades físicas; ao contrário, um componente físico pode ter várias funcionalidades e uma tarefa pode ser levada a cabo por vários componentes físicos em cooperação. Certos componentes ou todos os componentes podem ser implementados como software executado por um processador de sinal digital ou mi- croprocessador, ou ser implementados como hardware ou como um circuito integrado específico da aplicação. Esse tipo de software pode ser distribuído em mídia legível por computador, que podem incluir mídia de armazenamento por computador (ou mídia não-transitória) e meios de comunicação (ou mídia transitória). Como é bem sabido por pessoa versada na técnica, o termo mídia de armazenamento por computador inclui mídia volátil e não volátil e mídia removível e não removível implementadas em qualquer método ou tecnologia para armazenamento de informações como instruções legíveis por computa-dor, estruturas de dados, módulos de programa ou outros dados. As mídias de armazenamento por computador incluem, mas não estão limitadas a, RAM, ROM, EEPROM, memória flash ou outras tecnologias de memória, CD-ROM, discos versáteis digitais (DVD) ou outro disco de armazenamento ótico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio que possa ser usado para armazenar as informações desejadas e que possa ser acessado por um computador. Ademais, é bem sabido por pessoa versada na técnica que as mídias de comunicação costumam envolver instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado, como uma onda transmissora ou outro mecanismo de transporte e inclui qualquer mídia de distribuição de informações.

[000192] Todas as figuras são esquemáticas e geralmente só mostram as peças que são necessárias a fim de elucidar a divulgação, considerando que outras partes possam ser omitidas ou simplesmente sugeridas. Salvo indicação em contrário, os mesmos números de referência referem-se a partes semelhantes em figuras diferentes.

Claims

1. Método para codificar objetos de áudio (120) em um fluxo de dados (140), caracterizado pelo fato de que compreende as etapas de: receber N objetos de áudio (120), em que N > 1; calcular M sinais de downmix (124), em que M < N, ao formar combinações dos N objetos de áudio (120) de acordo com um critério que é independente de qualquer configuração de alto-falante de M canais para reprodução dos M sinais de downmix (124), em que os N objetos de áudio (120) são associados a metadados incluindo posições espaciais dos N objetos de áudio (120) e valores de importância indicando a importância dos N objetos de áudio (120) em relação uns aos outros, em que o critério para calcular os M sinais de downmix (124) é baseado em proximidade espacial dos N objetos de áudio (120) e nos valores de importância dos N objetos de áudio (120), em que o critério causa os valores de importância a afetar quais um ou mais dos N objetos de áudio (120) que contribui para um ou mais M sinais de downmix (124) respectivos enquanto o critério causa os M sinais de downmix (124) a juntos incluírem conteúdo de áudio de ambos os N objetos de áudio (120) mais importantes e os N objetos de áudio (120) menos importantes; calcular informações secundárias (128) incluindo parâmetros que permitem reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio (120) a partir dos M sinais de downmix (124); e incluir os M sinais de downmix (124) e as informações secundárias (128) em um fluxo de dados (140) para transmissão para um decodificador.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que um dos M sinais de downmix (124) corresponde a um único dos N objetos de áudio (120), em que o único dos N objetos de áudio (120) é o objeto de áudio dos N objetos de áudio (120) que é o mais importante em relação aos outros N objetos de áudio (120).

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende associar cada sinal de downmix a uma posição espacial e incluindo as posições espaciais dos sinais de downmix (124) no fluxo de dados (140) como metadados para os sinais de downmix (124).

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que os N objetos de áudio (120) são associados a metadados incluindo posições espaciais dos N objetos de áudio (120), e as posições espaciais associadas aos sinais de downmix (124) são calculadas com base nas posições espaciais dos N objetos de áudio (120).

5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que as posições espaciais dos N objetos de áudio (120) e as posições espaciais associadas aos M sinais de downmix (124) são variantes com o tempo.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as informações secundárias (128) são variantes com o tempo.

7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de calcular M sinais de downmix (124) compreende um primeiro procedimento de agrupamento que inclui associar os N objetos de áudio (120) a M agrupamentos com base em proximidade espacial e valores de importância dos N objetos de áudio (120), e calcular um sinal de downmix para cada agrupamento ao formar uma combinação de objetos de áudio associados ao agrupamento.

8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que cada sinal de downmix é associado a uma posição espacial que é calculada com base nas posições espaciais dos objetos de áudio (120) associados ao agrupamento correspondendo ao sinal de downmix.

9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a posição espacial associada a cada sinal de downmix é calculada como um centro geométrico ou um centro geométrico ponderado das posições espaciais dos objetos de áudio (120) associados ao agrupamento correspondendo ao sinal de downmix.

10. Meio legível por computador, caracterizado pelo fato de que compreende um método para codificar objetos de áudio (120) em um fluxo de dados (140), compreendendo as etapas de: receber N objetos de áudio (120), em que N > 1; calcular M sinais de downmix (124), em que M < N, ao formar combinações dos N objetos de áudio (120) de acordo com um critério que é independente de qualquer configuração de alto-falante de M canais para reprodução dos M sinais de downmix (124), em que os N objetos de áudio (120) são associados a metadados incluindo posições espaciais dos N objetos de áudio (120) e valores de importância indicando a importância dos N objetos de áudio (120) em relação uns aos outros, em que o critério para calcular os M sinais de downmix (124) é baseado em proximidade espacial dos N objetos de áudio (120) e nos valores de importância dos N objetos de áudio (120), em que o critério causa os valores de importância a afetar quais um ou mais dos N objetos de áudio (120) que contribui para um ou mais M sinais de downmix (124) respectivos enquanto o critério causa os M sinais de downmix (124) a juntos incluírem conteúdo de áudio de ambos os N objetos de áudio (120) mais importantes e os N objetos de áudio (120) menos importantes; calcular informações secundárias (128) incluindo parâmetros que permitem reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio (120) a partir dos M sinais de downmix (124); e incluir os M sinais de downmix (124) e as informações secundárias (128) em um fluxo de dados (140) para transmissão para um decodificador.

11. Método em um decodificador para decodificar um fluxo de dados (240) incluindo objetos de áudio (220) codificados, caracterizado pelo fato de que compreende as etapas de: receber um fluxo de dados (240) compreendendo M sinais de downmix (224) que são combinações de N objetos de áudio (220) calculados de acordo com um critério que é independente de qualquer configuração de alto-falante de M canais para reprodução dos M sinais de downmix (224), em que M < N, em que o critério para calcular o M sinais de downmix (224) é baseado em proximidade espacial dos N objetos de áudio (220) e em valores de importância dos N objetos de áudio (220) indicando a importância dos N objetos de áudio (220) em relação uns aos outros, em que o critério causa os valores de importância a afetar quais um ou mais dos N objetos de áudio (220) que contribuem para um ou mais M sinais de downmix (224) respectivos enquanto o critério causa os M sinais de downmix (224) a juntos incluir conteúdo de áudio de ambos os N objetos de áudio (220) mais importantes e os N objetos de áudio (220) menos importantes; receber informações secundárias (228) incluindo parâmetros que permitem reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224); e reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224) e das informações secundárias (228).

12. Método, de acordo com a reivindicação 11, caracteri- zado pelo fato de que um dos M sinais de downmix (224) corresponde a um único dos N objetos de áudio (220), em que o único dos N objetos de áudio (220) é o objeto de áudio dos N objetos de áudio (220) que é o mais importante em relação aos outros N objetos de áudio (220).

13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o fluxo de dados (240) ainda compreende metadados para os M sinais de downmix (224) incluindo posições espaciais associadas aos M sinais de downmix (224), o método ainda compreendendo: em uma condição que o decodificador é configurado para suportar reconstrução de objeto de áudio, realizar a etapa de reconstrução do conjunto de objetos de áudio formado com base em N objetos de áudio (220) a partir dos M sinais de downmix (224) e as informações secundárias (228); e em uma condição que o decodificador não é configurado para suportar reconstrução de objeto de áudio, usar os metadados para os M sinais de downmix (224) para renderizar os M sinais de downmix (224) para canais de saída de um sistema de reprodução.

14. Método, de acordo com a reivindicação 13, caracterizado pelo fato de que as posições espaciais associadas aos M sinais de downmix (224) são variantes com o tempo.

15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que as informações secundárias (228) são variantes com o tempo.

16. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o fluxo de dados (240) ainda compreende metadados para o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) incluindo as posições espaciais do conjunto de objetos de áudio formado com base nos N objetos de áudio (220), o método ainda compreendendo: usar os metadados para o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) para renderizar o conjunto reconstruído de objetos de áudio formado com base nos N objetos de áudio (220) para canais de saída de um sistema de reprodução.

17. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) é igual aos N objetos de áudio (220).

18. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) compreende uma pluralidade de objetos de áudio que são combinações dos N objetos de áudio (220), e o número dos quais é menor do que N.

19. Meio legível por computador, caracterizado pelo fato de que compreende um método para decodificar um fluxo de dados (240) incluindo objetos de áudio (220) codificados, compreendendo as etapas de: receber um fluxo de dados (240) compreendendo M sinais de downmix (224) que são combinações de N objetos de áudio (220) calculados de acordo com um critério que é independente de qualquer configuração de alto-falante de M canais para reprodução dos M sinais de downmix (224), em que M < N, em que o critério para calcular o M sinais de downmix (224) é baseado em proximidade espacial dos N objetos de áudio (220) e em valores de importância dos N objetos de áudio (220) indicando a importância dos N objetos de áudio (220) em relação uns aos outros, em que o critério causa os valores de importância a afetar quais um ou mais dos N objetos de áudio (220) que contribuem para um ou mais M sinais de downmix (224) respectivos enquanto o critério causa os M sinais de downmix (224) a juntos incluir conteúdo de áudio de ambos os N objetos de áudio (220) mais importantes e os N objetos de áudio (220) menos importantes; receber informações secundárias (228) incluindo parâmetros que permitem reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224); e reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224) e das informações secundárias (228).

20. Decodificador para decodificar um fluxo de dados (240) incluindo objetos de áudio (220) codificados, caracterizado pelo fato de que compreende: um componente de recepção configurado para receber um fluxo de dados (240) compreendendo M sinais de downmix (224) que são combinações de N objetos de áudio (220) calculados de acordo com um critério que é independente de qualquer configuração de alto- falante de M canais para reprodução dos M sinais de downmix (224), em que M < N, em que o critério para calcular os M sinais de downmix (224) é baseado em proximidade espacial dos N objetos de áudio (220) e em valores de importância dos N objetos de áudio (220), em que o critério causa os valores de importância a afetar quais um ou mais dos N objetos de áudio (220) que contribuem para um ou mais respectivos M sinais de downmix (224) enquanto o critério causa os M sinais de downmix (224) a juntos incluir conteúdo de áudio de ambos os N objetos de áudio (220) mais importantes e os N objetos de áudio (220) menos importantes, o componente de recepção configurado para receber informações secundárias (228) incluindo parâmetros que permitem reconstrução de um conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224); e um componente de reconstrução configurado para reconstruir o conjunto de objetos de áudio formado com base nos N objetos de áudio (220) a partir dos M sinais de downmix (224) e das informações secundárias (228).