BRPI0910375B1

BRPI0910375B1 - Mecanismo e método para gerar sinais de saída de áudio usando metadados com base em objeto

Info

Publication number: BRPI0910375B1
Application number: BRPI0910375-9A
Authority: BR
Inventors: Schreiner Stephan; Fiesel Wolfgang; Neusinger Matthias; Hellmuth Oliver; Sperschneider Ralph
Original assignee: Fraunhofer-Gesellscraft Zur Förderung Der Angewandten Forschung E.V
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2021-08-31
Also published as: BRPI0910375A2; KR101325402B1; US20100014692A1; CN103354630A; CN102100088A; KR101283771B1; CA2725793C; TWI442789B; TW201010450A; WO2010006719A1; PL2297978T3; US8824688B2; EP2297978B1; US20120308049A1; TW201404189A; AU2009270526A1; CN102100088B; CN103354630B; TWI549527B; JP5467105B2

Abstract

mecanismo e método para gerar sinais de saída de áudio usando metadados com base em objeto. um mecanismo para gerar pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois objetos de áudio diferentes compreende um processador para processar um sinal de entrada de áudio para fornecer uma representação de objeto do sinal de entrada de áudio, onde essa representação de objeto pode ser gerada por uma aproximação guiada parametricamente de objetos originais usando um sinal de downmix de objeto. um manipulador de objeto individualmente manipula objetos usando metadados com base em objetos de áudio referindo a objetos de áudio individuais para obter objetos de áudio manipulado. os objetos de áudio manipulado são mixados usando um mixer de objeto para finalmente obter um sinal de saída de áudio tendo um ou vários sinais de canal dependendo de uma configuração de emissão específica.

Description

CAMPO DA INVENÇÃO

A presente invenção se refere ao processamento de 5 áudio e, especialmente, ao processamento de áudio no contexto de codificação de objetos de áudio tais como codificação de objeto de áudio espacial.

FUNDAMENTOS DA INVENÇÃO

Em sistemas modernos de transmissão como televi- são é desejável em determinadas circunstâncias não reproduzir as faixas de áudio conforme o engenheiro de som as projetou, e sim realizar ajustes especiais para tratar de restrições dadas no mo' ' mento da emissão . Uma tecnologia bem’conhecida_para"controlar tais ajustes pós-produção é fornecer metadados apropriados junto com . aquelas... faixas de áudio.

Sistemas de reprodução de som tradicionais, por exemplo, antigos sistemas de televisão caseiros, consistem de um altofalante ou um par de altofalantes estéreo. Sistemas de reprodução multicanal mais sofisticados usam cinco ou mais altofalan- ’ tes.

Se sistemas de reprodução multicanal são considerados, engenheiros de som podem ser bem mais flexiveis em colocar fontes únicas em um plano bidimensional e, portanto podem também usar uma faixa dinâmica mais alta para suas faixas de áudio geral, uma vez que inteligibilidade de voz é bem mais fácil devido ao conhecido efeito coquetel.

Entretanto, aqueles sons realísticos, dinâmicosalto podem causar problemas em sistemas de reprodução tradicio- nais. Podem existir cenários onde um consumidor possa não querer esse sinal dinâmico alto, seja porque ele está ouvindo o conteúdo em um ambiente ruidoso (por ex. em um carro em movimento ou com um sistema de entretenimento móvel ou em vôo), ele está usando apare- lhos auditivos ou não quer atrapalhar seus vizinhos (tarde da noite por exemplo).

Além disso, transmissores enfrentam o problemaque diferentes itens em um programa (por ex. comerciais) podem es-tar em diferentes niveis sonoros devido a diferentes fatores de crista que requerem ajuste de nivel de itens consecutivos.

Em uma cadeia de transmissão clássica o usuáriofinal recebe a faixa de áudio já mixada. Qualquer outra manipula’ çâo no Iado do receptor podê sêr feita somente de uma forma bem limitada. Atualmente um pequeno conjunto de recursos de metadados

Dolby permite_ ao usuário modificar algumas propriedades do sinal — de áudio.

Geralmente, manipulações com base nos metadados acima mencionados são aplicadas sem qualquer distinção seletiva de frequência, uma vez que os metadados tradicionalmente anexados ao sinal de áudio não fornecem informação suficiente para que isso seja feito.

Além disso, somente o próprio fluxo de áudio in-teiro pode ser manipulado. Adicionalmente, não existe meio de ado-tar e separar cada objeto de áudio dentro desse fluxo de áudio.

Especialmente em ambientes impróprios para ouvir, isso pode ser insatisfatório.

No modo meia-noite, é impossível para o processa dor de áudio atual distinguir entre ruídos do ambiente e diálogo devido à falta de informação guia. Portanto, no caso de ruidos de alto nivel (que podem ser comprimido/ limitado em sonoridade), também diálogos serão manipulados em paralelo. Isso pode ser prejudicial para inteligibilidade de fala.

Aumentar o nivel de diálogo comparado com o som do ambiente ajuda a melhorar a percepção da fala especialmente para pessoas com deficiência auditiva. Essa técnica funciona somente se o sinal de áudio estiver realmente separado em componentes de diálogo e ambiente no lado do receptor além disso com informação de controle de propriedade. Se ao menos um sinal de downmix estéreo estiver disponível nenhuma outra separação pode ser aplicada para distinguir e manipular a informação de fala separadamente.

As soluções atuais de downmix permitem um ajuste de nivel estéreo dinâmico para canais centrais e surround. Mas pa- 15 ra qualquer configuração de-altofalante variante ao invés de estéreo não existe descrição real do transmissor como fazer o downmix da fonte de áudio multicanal final. Somente uma fórmula padrão dentro do decodificador realiza o mix de sinais de um modo bem inflexível .

Em todos os cenários descritos, geralmente existem duas abordagens diferentes. A primeira abordagem é que, ao ge-rar o sinal de áudio a ser transmitido, um conjunto de objetos de áudio passa por downmix para um sinal mono, estéreo ou multicanal. Este sinal que será transmitido para um usuário desse sinal atra- vés de transmissão, através de qualquer outro protocolo de transmissão ou através de distribuição em um meio de armazenamento lido que o número de objetos de áudio original que passaram por downmix feito por um engenheiro de som por exemplo em um ambiente de estú-dio. Além disso, metadados podem ser anexados a fim de permitir várias modificações diferentes, mas essas modificações podem somente ser aplicadas ao sinal transmitido inteiro ou, se o sinal 5 transmitido possuir vários canais transmitidos diferentes, aos canais transmitidos individualmente como um inteiro. Uma vez que, entretanto, tais canais transmitidos são sempre sobreposições de vários objetos de áudio, uma manipulação individual de um determinado objeto de áudio, enquanto um outro objeto de áudio não é ma nipulado não é possivel.

A outra abordagem é não realizar o downmix do ob-jeto, mas transmitir os sinais objeto de áudio conforme eles são como canais transmitidos separados. Tal cenário funciona bem, quando o número de objetos áudio é pequeno. Quando, por exemplo, 15 existem somente cinco objetos de áudio, então -é-possível transmitir esses cinco objetos de áudio diferentes separadamente um dos outros dentro de um cenário 5.1. Metadados podem ser associados com esses canais que indicam a natureza especifica de um obje- to/canal. Então, no lado receptor, os canais transmitidos podem 20 ser manipulados com base nos metadados transmitidos.

Uma desvantagem dessa abordagem é que não é com-patível com versões-anteriores e somente funciona bem no contexto de um número menor de objetos de áudio. Quando o número de objetos de áudio aumenta, a taxa de bits exigida para transmissão de todos 25 os objetos como faixas de áudio explícitas separadas rapidamente aumenta. Essa taxa de bit crescente é especificamente inútil no contexto de aplicações de transmissão.

Portanto abordagens atuais eficientes de taxa de bit não permitem uma manipulação individual de distintos objetos de áudio. Tal manipulação individual somente é permitida quando se transmite cada objeto separadamente. Essa abordagem, entretanto, não é eficiente para taxa de bits e não é, portanto, praticável 5 especificamente em cenários de transmissão.

É um objeto da presente invenção fornecer uma so-lução de taxa de bits eficiente mas flexível para esses problemas.

De acordo com o primeiro aspecto da presente in-venção esse objeto é alcançado pelo Mecanismo para gerar pelo me- 10 nos um sinal de saída de áudio representando uma sobreposição de pelo menos dois objetos de áudio diferentes, compreendendo: um processador para processar um sinal de entrada de áudio para fornecer uma representação de objeto do sinal de entrada de áudio, no qual os pelo menos dois objetos de áudio diferentes são separados 15 um do outro, os-pelo menos dois diferentes objetos _de“áud±o” estão disponíveis como sinais de objeto de áudio separados, e os pelo menos dois objetos de áudio diferentes são manipuláveis independentemente um do outro; um manipulador de objeto para manipular o sinal de objeto de áudio ou um sinal de objeto de áudio mixado de 20 pelo menos um objeto de áudio com base em metadados com base em objeto de áudio referindo ao pelo menos um objeto de áudio para obter um sinal de. objeto de áudio manipulado ou um sinal de objeto de áudio mixado manipulado para o pelo menos um objeto de áudio; e um mixer de objeto para mixar a representação de objeto combinando 25 o objeto de áudio manipulado com um objeto de áudio não modificado ou com um objeto de áudio diferente manipulado, manipulado de modo diferente como o pelo menos um objeto de áudio. “venção, esse objeto é alcançado por esse Método de gerar pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois objetos de áudio diferentes, compreendendo: processar um sinal de entrada de áudio para fornecer uma representa- ção de objeto do sinal de entrada de áudio, no qual pelo menos dois objetos de áudio diferentes são separados um do outro, pelo menos dois diferentes objetos de áudio estão disponíveis como sinais de objeto de áudio separados, e pelo menos dois objetos deáudio diferentes são manipuláveis independentemente um do outro; manipular o sinal de objeto de áudio ou um sinal de objeto de áudio mixado de pelo menos um objeto de áudio com base em metadados com base em objeto de áudio referindo ao pelo menos um objeto de áudio para obter um sinal de objeto de áudio manipulado ou um sinal de objeto de áudio mixado manipulado para o pelo menos um objeto de áudio; e mixar a representação de - objeto—combrnando o objeto de áudio manipulado com o objeto de áudio não modificado ou com um objeto de áudio diferente manipulado, manipulado de modo _ diferente como o pelo menos um objeto de áudio.

De acordo com um terceiro aspecto da presente in- rvenção, esse objeto é alcançado por um mecanismo de geração de um sinal de áudio codificado representando uma sobreposição de pelo .menos dois objetos de áudio diferentes, compreendendo: um formata- dor de fluxo de dados para formatar um fluxo de dados para que o fluxo de dados compreenda um sinal de downmix de objeto represen-tando uma combinação de pelo menos dois objetos de áudio diferentes, e, como informação paralela, metadados referindo a pelo menos um dos diferentes objetos de áudio. venção, esse objeto é alcançado por um método de geração de um si-nal de áudio codificado representando uma sobreposição de pelo menos dois objetos de áudio diferentes, compreendendo: formatar um fluxo de dados para que o fluxo de dados compreenda um sinal de 5 downmix de objeto representando uma combinação de pelo menos dois objetos de áudio diferentes, e, como informação paralela, metadados referindo a pelo menos um dos diferentes objetos de áudio.

Aspectos adicionais da presente invenção referem a programas de computador implementando os métodos inventivos e um 10 meio de armazenamento lido por computador tendo armazenado neste um sinal de downmix de objeto e, como informação paralela, dados de parâmetro de objeto e metadados para um ou mais objetos de áudio incluidos no sinal de downmix de objeto.

A presente invenção é baseada na descoberta que,. uma manipulação individual-de sinais de-objeto de áudrcc separados ou conjuntos separados de sinais de objeto de áudio mixados permitem um processamento individual relacionado ao objeto com base nos metadados relacionados ao objeto. De acordo com a presente inven-ção, o resultado da manipulação não é diretamente saida para um 20 altofalante, mas é fornecido para um mixer de objeto, que gera sinais de saida para um determinado cenário de emissão, onde os sinais de saida são gerados ..por uma. sobreposição-de pelo menos um sinal de objeto manipulado ou um conjunto de sinais de objeto mixados junto com outros sinais de objeto manipulados e/ou um sinal de objeto não modificado. Naturalmente, não é necessário manipular cada objeto, mas, em algumas instâncias, pode ser suficiente so- -mente manipular um objeto e não manipular um outro objeto da plu ralidade de objetos de áudio. O resultado da operação de mixagem de objeto é um ou uma pluralidade de sinais de saida de áudio, que são baseados em objetos manipulados. Esses sinais de saida de áudio podem ser transmitidos para altofalantes ou podem ser armazenados para outro uso ou podem ainda ser transmitidos a um outro 5 receptor dependendo do cenário de aplicação especifico.

Preferivelmente, a entrada de sinal no dispositi vo de mixagem/manipulação inventivo é um sinal de downmix gerado ao fazer downmix de uma pluralidade de sinais de objeto de áudio. A operação de downmix pode ser controlada por metadados para cada 10 objeto individualmente ou pode ser descontrolada tal como ser a mesma para cada objeto. No caso anterior, a manipulação do objeto de acordo com os metadados é o objeto controlado individual e operação de upmix especifica de objeto, na qual um sinal de componente de caixa de som representando esse objeto é gerado. Preferivel- 15 mente,' parâmetros de objeto espacial são’“também fornecidos, -que~™ ’ podem ser usados para reconstruir os sinais originais por versões aproximadas deste usando o sinal de downmix de objeto transmitido.

Então, o processador para processar um sinal de entrada de áudio para fornecer uma representação de objeto de sinal de entrada de 20 áudio é operativo para calcular versões reconstruídas do objeto de áudio original com base nos dados paramétricos, onde esses sinais de objeto aproximados podem então ser individualmente-manipulado por metadados com base em objeto.

Preferivelmente, informação de emissão de objeto é também fornecida, onde a informação de emissão de objeto inclui informação na configuração de reprodução de áudio pretendida e in- foTrfíãção sobre o posicionamento dós objetos de áudio ^individuals dentro do cenário de reprodução. As configurações especificas, entretanto, podem também funcionar sem tais dados de local de objeto. Tais configurações sâo, por exemplo, a provisão de posições de objeto imóveis, que podem ser estabelecidas fixadamente ou que podem ser negociadas entre um transmissor e um receptor para uma 5 faixa de áudio completa.

BREVE DESCRIÇÃO DOS DESENHOS

Configurações preferidas da presente invenção são subsequentemente discutidas no contexto das figuras anexas, nas quais: - 10 Fig. 1 ilustra uma configuração preferida de um mecanismo para gerar pelo menos um sinal de saida de áudio; Fig. 2 ilustra uma implementação preferida do processador da Fig. 1; Fig. 3a ilustra uma configuração preferida do 15 manipulador para manipular_sinãis_dê"óbjeto; Fig. 3b ilustra uma implementação preferida do mixer de objeto no contexto de um manipulador conforme ilustrado na Fig. 3a; Fig. 4 ilustra uma configuração de mixer de 20 processador/manipulador/objeto em uma situação, na qual a manipu-lação é realizada subsequente a um downmix de objeto, mas antes de um mix final de objeto; — Fig. 5a ilustra uma configuração preferida de um mecanismo para gerar um sinal de áudio codificado; 25 Fig. 5b ilustra um sinal de transmissão tendo um downmix de objeto, metadados com base em objeto, e parâmetros de objeto espacial; " ilustra um mapa indicando vários obje- tos de áudio identificados por um determinado ID, tendo um arquivo de áudio de objeto, e uma matriz E de informação de objeto de áudio conjunta; Fig. 7 ilustra uma explicação de uma matriz E 5 de covariância de objeto da Fig. 6: Fig. 8 ilustra uma matriz de downmix e um co-dificador de objeto de áudio controlado pela matriz D de downmix; Fig. 9 ilustra uma matriz A de emissão alvo que é normalmente fornecida por um usuário e um exemplo para um - 10 cenário de emissão alvo especifico; Fig. 10 ilustra uma configuração preferida de um mecanismo para gerar pelo menos um sinal de saida de áudio de acordo com um outro aspecto da presente investigação; Fig . 11a ilustra uma outra configuração; 15 Fig. 11b ilustra ainda outra configuração; Fig. 11c ilustra uma outra configuração; Fig. 12a ilustra um cenár: Lo de aplicação exem- piar; e Fig. 12b ilustra um outro cenário de aplicaçãor 20 exemplar.

DESCRIÇÃO DETALHADA

Para enfrentar-—os -problemas—acima—mencionados,uma abordagem preferida é fornecer metadados apropriados junto com aquelas faixas de áudio. Tais metadados podem consistir de infor- mações para controlar os seguintes três fatores (os três "clássicos" Ds) : • normalização ~de diálogo •controle de faixa dinâmica • downmix

Tais metadados de Áudio ajudam o receptor a manipular o sinal de áudio recebido com base nos ajustes realizados por um ouvinte. Para distinguir esse tipo de metadados de áudio de 5 outros (por ex. metadados descritivos como Autor, Título,...), é normalmente referido como "Dolby Metadata" [Metadados Dolby] (por-que eles ainda são somente implementados por Dolby). Subsequente-mente, somente esse tipo de metadados de Áudio é considerado e simplesmente chamado de metadados.

Metadados de Áudio são informações de controle adicionais que são levadas junto com o programa de áudio e possuem informação fundamental sobre o áudio para um receptor. Os metadados fornecem muitas funções importantes inclusive controle de faixa dinâmica para ambientes de audição não ideais, combinação de 15 nível entre~”programas, informação de downmix pafa~a reprodução de áudio multicanal por meio de menos canais de caixa de som e outras informações.

Os metadados fornecem as ferramentas necessárias para programas de áudio serem reproduzidos exata e artisticamente 20 em muitas situações de audição diferentes desde home theaters com-pletos [full-blown] até entretenimento em vôo, independente do nú-mero de canais de caixa de som, qualidade de equipamento de play-back: ou nível de ruído de ambiente relativo.

Enquanto um engenheiro ou produtor de conteúdo 25 toma muito cuidado em fornecer o áudio da mais alta qualidade possível dentro do seu programa, ele possui nenhum controle sobre a vasta ordem de eletrônicos de consumidores ou ambientes de audição que tentarão reproduzir a trilha sonora original. Os metadados fornecem ao engenheiro ou produtor de conteúdo grande controle sobre como seu trabalho é reproduzido e desfrutado em quase todos ambientes de audição concebíveis.

Metadados Dolby é um formato especial para forne- 5 cer informações para controlar os três fatores mencionados.

As três mais importantes funcionalidades do metadados Dolby são: • Normalização de Diálogo para alcançar um ni-vel médio a longo prazo de diálogo dentro de uma apresentação, 10 frequentemente consistindo de diferentes tipos de programas, tais como filme de longa metragem, comerciais, etc. • Controle de Faixa Dinâmica para satisfazer a maioria da audiência com compressão de áudio satisfatória mas ao mesmo tempo permitir que cada cliente individual controle a dinâ- 15 mica do sinal de áudio e ajuste a compressão para seu ambiente de audição pessoal. • Downmix para mapear os sons de um sinal de áudio multicanal para dois ou mais canais no caso de nenhum equipamento de playback de áudio multicanal estiver disponivel.

Metadados Dolby são usados junto com Dolby Digital (AC-3) e Dolby E. 0 formato de metadados Dolby-E Audio é descrito em [16] Dolby Digital (AC-3) é pretendido para a tradução de áudio dentro da casa através de transmissão de televisão digital (tanto definição alta ou padrão), DVD ou outros meios.

Dolby Digital pode levar qualquer coisa desde umcanal único de áudio até um programa de canal completo 5.1, incluindo metadados. Em ambas televisão digital e DVD, é comumente usado para transmissão de estéreo bem como programas de áudio discre- tos 5.1 completos.

Dolby E é especificamente pretendido para a dis-tribuição de áudio multicanal dentro de produção profissional e ambientes de distribuição. Qualquer momento antes da entrega ao 5 consumidor, Dolby E é o método preferido para distribuição de áudio com video multicanal/multiprograma. Dolby E pode carregar até oito canais de áudio discretos configurados em qualquer número de configurações de programa individual (incluindo metadados para ca-da) dentro de uma infraestrutura existente de áudio digital de dois canais. Diferente do Dolby Digital, Dolby E pode lidar com muitas gerações de codificação/decodificação, e é sincrono com os frames por segundo de video. Como o Dolby Digital, Dolby E carrega metadados para cada programa de áudio individual codificado dentro do fluxo de dados. O uso do Dolby E permite que o resultante fluxo '1*5 de dados“"de áudio seja decodificado, modificado e re-codif içado sem degradação audivel. Como o fluxo do Dolby E é sincrono aos frames por segundo de video, ele pode ser encaminhado, alternado e editado em um ambiente de transmissão professional.

Independente desse meios são fornecidos junto com MPEG AAC para realizar controle de faixa dinâmica e para controlar a geração de downmix.

A fim de lidar com material_fonte.com niveis de pico variáveis, niveis medianos e faixa dinâmica de modo a minimizar a variabilidade para o consumidor, é necessário controlar o 25 nivel reproduzido tal que, por exemplo, nivel de diálogo ou nivel de musica médio é configurado para um nivel de consumidor contro- lado na reprodução, independente de como o programa *foi originado.*

Adicionalmente, nem todos os consumidores serão capazes de ouvir os programas em um ambiente bom (por ex. ruido baixo), sem restrição de quão alto eles fazem o som. O ambiente do carro, por exemplo, possui um alto nivel de ruido ambiente e pode portanto ser esperado que o ouvinte queira reduzir a faixa de niveis que de ou- 5 tro modo seriam reproduzidos.

Para ambas essas razões, controle de faixa dinâmica tem que estar disponivel dentro da especificação da AAC. Para alcançar isto, é necessário acompanhar o áudio de taxa de bits reduzida com dados usados para configurar e controlar faixa dinâmica 10 dos itens do programa. Este controle tem que ser especificado relativo a um nivel de referência e em relação aos importantes elementos de programa por ex. o diálogo.

Os recursos do controle de faixa dinâmica são os seguintes: 1. Controle de Faixa Dinâmica [DRC] é completa mente opcional. Portanto, com sintaxe correta, não existe mudança na complexidade para aqueles que não desejam invocar DRC. 2. O áudio de taxa de bits reduzida é transmitido com faixa dinâmica completa do material fonte, com dados de su- 20 porte para auxiliar no controle de faixa dinâmica. 3. Os dados de controle de faixa dinâmica podem ser enviados a cada frame para reduzir a um mínimo a latência na configuração de ganhos de repetição. 4. Os dados de controle de faixa dinâmica são 25 enviados usando o recurso "preencher_elemento" da ÁAC. 5. O Nível de Referência é definido como escala completa. ~ 6 . O Nível de Referência do Programa é transmi - tido para permitir paridade de nível entre os níveis de repetição de diferentes fontes e para fornecer uma referência sobre qual controle de faixa dinâmica pode ser aplicado. É esse recurso do sinal fonte que é mais relevante para a impressão subjetiva da so- 5 noridade do programa, tal como o nível do conteúdo do diálogo de um programa ou o nível médio de um programa musical. 7. O Nível de Referência do Programa representa aquele nível de programa que pode ser reproduzido em um nível configurado relativo ao Nível de Referência no hardware do consumidor para alcançar paridade de nível de repetição. Relativo a isso, as porções mais silenciosas do programa podem ser aumentadas em nível e as porções mais altas do programa podem ser reduzidas em nível. 8. O Nível de Referência do Programa é especificado dentro da faixa 0 a -31.75 dB relativos ao Nível de Referên- 15 cia—— ' — 9. O Nível de Referência do Programa usa um campo de 7 bits com passos de 0,25 db. 10. O controle de faixa dinâmica é especificado dentro da faixa ±31.75 dB. 11. O controle de faixa dinâmica usa um campo de8 bits (1 sinal, 7 magnitude) com passos de 0,25 dB. _ 12. O controle de faixa dinâmica pode ser aplicado para todos coeficientes espectrais de canal de áudio ou bandas de frequência como uma entidade única ou os coeficientes podem ser 25 divididos em diferentes bandas de fator de escala, cada uma sendo controlada separadamente por conjuntos separados de dados de controle de faixa dinâmica. " 13 O controle de faixa dinâmica pode ser aplica-do a todos os canais (de fluxo de bits estéreo ou multicanal) como uma entidade única ou pode ser dividido, com conjuntos de canais sendo controlado separadamente por conjuntos separados de dados de controle de faixa dinâmica. 14. Se um esperado conjunto de dados de controlede faixa dinâmica estiver faltando, os valores válidos recebidos mais recentemente devem ser usados. 15. Nem todos os elementos dos dados de controle de faixa dinâmica são enviados todas as vezes. Por exemplo, Nivel 10 de Referência de Programa somente pode ser enviado em média uma vez a cada 200 ms. 16. Onde necessário, detecção/proteção de erro é fornecida pela Camada de Transporte. 17. Deve ser dado ao usuário os meios para alte- rar ã quantia de controTe”de“’faixa dinâmica, presente no“f±uxo^de bits, que é aplicada ao nivel do sinal.

Além da possibilidade de transmitir em separado canais de mixdown mono e estéreo em uma transmissão de canal 5.1, AAC também permite uma geração de mixdown automática da faixa fon- 20 te de 5 canais. O canal LEE deve ser omitido nesse caso.

Esse método de mixdown de matriz pode ser contro-lado pelo editor da faixa -de áudio com um pequeno conjunto de parâmetros definindo a quantia dos canais posteriores adicionados ao mixdown.

O método de mixdown de matriz se aplica somentepara mixagem de uma configuração de caixa de som 3 da frente/ 2 de trás/ programa de 5 canais, até programa estéreo oü* mono. Não éaplicável a qualquer programa com configuração diferente de 3/2.

Dentro do MPEG vários meios são fornecidos para controlar a emissão de Áudio no lado do receptor.

Uma tecnologia genérica é fornecida por uma lin-guagem de descrição de cena, por ex. BIFS e LASeR. Ambas tecnolo-gias são usadas para emissão de elementos audiovisuais de objetos codificados separados em uma cena de playback.

BIFS é padronizado em [5] e LASeR em [6].

MPEG-D lida principalmente com descrições (para-métricas) (ou seja, metadados) • para gerar Áudio multicanal com base em re-presentações de Áudio que passaram por downmix (MPEG Surround); e • para gerar parâmetros de MPEG Surround com base em objetos de Áudio (Codificação de Objeto de Áudio Espacial MPEG)

MPEG Surround explora diferenças inter-canais em nivel, fase e coerência equivalente a pistas de ILD, ITD e IC para capturar a imagem espacial de um sinal de áudio multicanal relati-vo a um sinal de downmix transmitido e codifica essas pistas em uma forma bem compacta tal que as pistas e o sinal transmitido possam ser decodificados para sintetizar uma representação multi-canal de alta qualidade. O codificador MPEG Surround recebe um si-nal de áudio multicanal, onde N é o número de canais de entrada (por ex. 5.1) . Um aspecto chave do processo de codificação é que um sinal de downmix, xtl e xt2, que é tipicamente estéreo (mas também poderia ser mono) , é derivado do sinal de entrada multica-nal, e é esse sinal de downmix que é comprimido para transmissão sobre o canal ao invés do sinal multicanal. O codificador pode ser capaz de explorar o processo de downmix para beneficiar, tal que ele cria um equivalente fiel do sinal multicanal no downmix mono ou estéreo, e também cria a melhor descodificação multicanal possível com base no downmix e pistas espaciais codificadas. Alternativamente, o downmix poderia ser fornecido externamente. O proces- 5 so de codificação MPEG Surround é agnóstico ao algoritmo de compressão usado para os canais transmitidos; poderia ser qualquer número de algoritmos de compressão de alto desempenho tal como MPEG-1 Layer III, MPEG-4 AAC ou MPEG-4 High Efficiency [Alta Eficiência] AAC, ou poderia ainda ser PCM.

A tecnologia do MPEG surround suporta codificaçãoparamétrica muito eficiente de sinais de audio multicanal. A ideia de MPEG SAOC é aplicar suposições básicas similares junto com uma representação de parâmetro similar para codificação paramétrica muito eficiente de objetos de áudio individuais (faixas). Adicio- 15 halmêntê, uma funcionalidade dê emissão é incluída pãrã' emitir iri- terativamente os objetos de áudio na cena acústica para vários tipos de sistemas de reprodução (1.0, 2.0, 5.0, .. para altofalantes ou binaural para fones de ouvido). SAOC é projetado para transmitir um número de objetos de áudio em um sinal de downmix estéreo 20 ou mono conjunto para depois permitir uma reprodução dos objetos individuais em uma cena de áudio emitida interativamente. Para esse - propósito, SAOC codifica Diferenças de—Nível—de Objeto (OLD), Coerências Cruzadas Inter-Objeto (IOC) e Diferenças de Nível de Canal de Downmix (DCLD) em um parâmetro fluxo de bits. O decodifi- cador SAOC converte a representação do parâmetro SAOC em represen-tação de parâmetro MPEG Surround, que é então decodificado junto com"ti“4sinal downmix por um decõdificador MPEG SurrouncTpára~^roclu-zir a cena de áudio desejada. O usuário interativamente controla esse processo para alterar a representação do objeto de áudio na cena de áudio resultante. Entre as várias aplicações concebíveis para SAOC, alguns cenários tipicos são listados no seguinte.

Consumidores podem criar remixes interativos pes- 5 soais usando uma mesa virtual de mixagem. Determinados instrumentos podem ser, por ex., atenuados para tocar junto (como Karaokê), o mix original pode ser modificado para se adaptar a gosto pessoal, o nivel de diálogo em filmes/transmissões pode ser ajustado para melhor inteligibilidade de fala etc.

Para jogo interativo, SAOC é um armazenamento emodo eficiente computacional de reproduzir as trilhas sonoras. Mover-se pela cena virtual é refletido pela adaptação dos parâmetros de emissão de objeto. Jogos de multi-jogadores conectados a rede se beneficiam da eficiência da transmissão usando um fluxo de SAOC 15 para representar todos objetos de som que são externos a determinado terminal de um jogador.

No contexto dessa aplicação, o termo "objeto de áudio" também compreende uma "haste" [stem] conhecida em cenários de produção de som. Particularmente, as hastes são os componentes 20 individuais de um mix, separadamente salvas (normalmente para disco) para os propósitos de uso em um remix. As hastes relacionadas são tipicamente devolvidas do mesmo local original. Exemplos podem ser uma haste de bateria (inclui todos os instrumentos relacionados a bateria em um mix), uma haste vocal (inclui somente as fai- 25 xas vocais) ou uma haste de ritmo (inclui todos os instrumentos relacionados com ritmos, como bateria, violão, teclado,...).

Infraestrutura de telecomunicação atual é monofô-nica e pode ser estendida em sua funcionalidade. Terminais equipa- dos com uma extensão SAOC juntam várias fontes de som (objetos) e produzem um sinal de downmix monofônico, que é transmitido de um modo compatível usando os codificadores existentes (fala). A informação paralela pode ser conduzida em um modo integrado, compatível com versões anteriores. Terminais legados continuarão a produzir salda monofônica enquanto os permitidos por SAOC podem emitir uma cena acústica e assim aumentar a inteligibilidade ao separar espacialmente as diferentes caixas de som ("efeito coquetel").üma visão geral de aplicações realmente disponí-veis metadados de áudio Dolby descreve a seguinte seção:

Modo meia-noite

Conforme mencionado na seção [], existem muitos cenários, onde o ouvinte pode não querer um sinal dinâmico alto. Portanto, ele pode ativar o chamado "modo meia-noite" de seu re-ceptor. Então, um compressor' "é ãplícãâonicrsina 1 de áudio total. Para controlar os parâmetros desse compressor, metadados transmitidos são avaliados e aplicados ao sinal de áudio total.

Áudio limpo

Outro cenário são pessoas com deficiência auditi-va, que não querem ter ruidos de ambiente dinâmico altos, mas que querem ter um sinal limpo contendo diálogos. ("Áudio Limpo"). Esse modo pode também ser permitido usando metadados. Uma solução proposta atualmente é definida em [15] - Anexo E. O equilíbrio entre o sinal principal estéreo e o canal de descrição de diálogo mono adicional é lidado aqui por um conjunto de parâmetro de nivel individual. A solução proposta ba-seada em uma sintaxe separada é chamada serviço de áudio suplementar em DVB.

Downmix

Existem parâmetros de metadados separados que go-vernam o downmix L/R. Determinados parâmetros de metadados permitem que o engenheiro selecione como o downmix estéreo é construído 5 e qual sinal análogo estéreo é preferido. Aqui o nivel de downmix central e surround definem o equilíbrio de mixagem final do sinal de downmix para cada decodificador. Fig. 1 ilustra um mecanismo para gerar pelo menos um sinal de saida de áudio representando uma sobreposição de pelo 10 menos dois objetos de áudio diferentes de acordo com uma configuração preferida da presente mvençao. O mecanrsmo da Fxg. 1 compreende um processador 10 para processar um sinal de entrada de áudio 11 para fornecer uma representação de objeto 12 do sinal de entrada de áudio, no qual os pelo menos dois objetos de áudio di- 15 ferentes são separados um-do' outro, no qual os pelo menos'dois objetos de áudio diferentes estão disponíveis como sinais de objeto de áudio separados, e nos quais os pelo menos dois objetos de áudio diferentes são manipuláveis independentemente um do outro.

A manipulação da representação de objeto é reali- 20 zada em um manipulador de objeto 13 para manipular o sinal de ob-jeto de áudio ou uma representação mixada do sinal de objeto de áudio de pelo menos um objeto de áudio com base em metadados com base em objeto de áudio 14 referindo ao pelo menos um objeto de áudio. O manipulador de objeto de áudio 13 é adaptado para obter 25 um sinal de objeto de áudio manipulado ou uma representação do sinal de objeto de áudio mixada manipulada 15 para o pelo menos um objeto de áudio. ~ ~ - - - -

Os sinais gerados pelo manipulador de objeto são inseridos em um mixer de objeto 16 para mixar a representação de objeto combinando o objeto de áudio manipulado com um objeto de áudio não modificado ou com um objeto de áudio diferente manipulado onde o objeto de áudio diferente manipulado foi manipulado de 5 um modo diferente como o pelo menos um objeto de áudio. O resultado do mixer de objeto compreende um ou mais sinais de saida de áudio 17a, 17b, 17c. Preferivelmente, um ou mais sinais de saida 17a a 17c são projetados para uma configuração de emissão especifica, tal como uma configuração de emissão mono, uma configuração de e- 10 missão estéreo, uma configuração de emissão multicanal compreendendo três ou mais canais tal como uma configuração surround exigindo pelo menos cinco ou pelo menos sete sinais de saida de áudio diferentes. Fig. 2 ilustra uma implementação preferida do processador 10 para processar o sinal de entrãdã de áudio. Prefez~ rivelmente, o sinal de entrada de áudio 11 é implementado como um downmix de objeto 11 como obtido por um downmixer de objeto 101a da Fig. 5a que é descrito posteriormente. Nessa situação, o processador adicionalmente recebe parâmetros de objeto 18 como, por 20 exemplo, gerados por calculador de parâmetro de objeto 101b na Fig. 5a conforme descrito posteriormente. Então, o processador 10 está na posição- para calcular separado sinais-de objeto de áudio 12. O número de sinais de objeto de áudio 12 pode ser mais alto que o número de canais no downmix do objeto 11. O downmix de obje- 25 to 11 pode incluir um downmix mono, um downmix estéreo ou mesmo um downmix tendo mais que dois canais. Entretanto, o processador 12 pode ser operativo para gerar mais sinais de objeto de áudio 12 comparado ao número de sinais individuais no downmix de objeto 11.

Os sinais de objeto de áudio são, devido ao processo paramétrico realizados por um processador 10, não uma reprodução verdadeira dos objetos de áudio originais que estavam presentes antes que o downmix de objeto 11 fosse realizado, mais os sinais de objeto de 5 áudio são versões aproximadas dos objetos de áudio originais, onde a precisão da aproximação depende do tipo de algoritmo de separação realizado no processador 10 e, claro, na precisão dos parâmetros transmitidos. Parâmetros de objeto preferidos são os parâmetros conhecidos de codificação de objeto de áudio espacial e um 10 algoritmo de reconstrução preferido para gerar os sinais de objeto de áudio individualmente separados é o algoritmo de reconstrução realizado de acordo com o padrão de codificação de objeto de áudio espacial. Uma configuração preferida do processador 10 e os parâmetros de objeto são subsequentemente discutidos no contexto das 15“ Figs. 6 "a“9. Fig. 3a e Fig. 3b coletivamente ilustram uma im-plementação, na qual a manipulação do objeto é realizada antes de um downmix de objeto para a configuração de reprodução, enquanto a Fig. 4 ilustra uma outra implementação, na qual o downmix de obje- 20 to é realizado antes da manipulação, e a manipulação é realizada antes da operação final de mixagem do objeto. O resultado do procedimento na Fig. 3a, 3b-comparado a Fig. 4 é o mesmo, mas a manipulação do objeto é realizada em niveis diferentes no cenário de processamento. Quando a manipulação dos sinais de objeto de áudio 25 é uma questão no contexto de eficiência e recursos computacionais, a configuração de Fig. 3a/3b é preferida, uma vez que a manipula- ção“de “sinal de áudio tem que-ser realizada somente ~em um único sinal de áudio ao invés de uma pluralidade de sinais de áudio como na Fig. 4. Em uma implementação diferente na qual pode existir um requisito que o downmix de objeto tenha que ser realizado usando um sinal de objeto não modificado, a configuração da Fig. 4 é preferida, na qual a manipulação é realizada subsequente ao downmix de objeto, mas antes do mix final do objeto para obter os sinais de saida para, por exemplo, o canal esquerdo E, o canal central C ou o canal direito D. Fig. 3a ilustra a situação, na qual o processador 10 das saidas da Fig. 2 separa sinais de objeto áudio. Pelo menos um sinal de objeto de áudio tal como o sinal para objeto 1 é manipulado em um manipulador 13a com base nos metadados para esse objeto 1. Dependendo da implementação, outros objetos tal como objeto 2 é manipulado bem como por um manipulador 13b. Naturalmente, a situação pode levantar que existe realmente um objeto tal como objeto^, que hão ê manipulado mas~que é contudo gerado pela separação de objeto. O resultado do processamento da Fig. 3a são, no exemplo da Fig. 3a, dois sinais de objeto manipulado e um sinal não manipulado.

Esses resultados são inseridos no mixer de objeto 16, que inclui um primeiro estágio de mixer implementado como downmixers de objeto 19a, 19b, 19c, e que ainda compreende um se-gundo estágio de mixer- de objeto implementado por dispositivos 16a, 16b, 16c.

O primeiro estágio do mixer de objeto 16 inclui, para cada saida da Fig. 3a, um downmixer de objeto tal como um downmixer de objeto 19a para saida 1 da Fig. 3a, um downmixer de objètõ 19b para saida 2 da Fig. 3a, um downmixer de objeto 19c pa ra saida 3 da Fig. 3a. O propósito do downmixer de objeto 19a para 19c é "distribuir" cada objeto aos canais de saida. Portanto, cada downmixer de objeto 19a, 19b, 19c possui uma saida para um sinal componente esquerdo E, um sinal componente central C e um sinal componente direito D. Assim, se por exemplo objeto 1 seria o obje- 5 to único, downmixer 19a seria um downmixer direto e a saida do bloco 19a seria a mesma que a saida final E, C, D indicada em 17a, 17b, 17c. Os downmixers de objeto 19a para 19c preferivelmente recebem informações de emissão indicadas no 30, onde as informações de emissão podem descrever a configuração de emissão, ou seja, co- 10 mo na configuração da Fig. 3e somente três caixas de som de saida existem. Essas saidas são uma caixa de som esquerda E, uma caixa de som central C e uma caixa de som direita D. Se, por exemplo, a configuração de emissão ou configuração de reprodução compreende um cenário 5.1, então cada downmixer de objeto teria seis canais 15 de saida, e existiriam seis somadores para '“que um sinal de saida final para o canal esquerdo, um sinal de saida final para o canal direito, um sinal de saida sinal para o canal central, um sinal de saida final para o canal surround esquerdo, um sinal de saida final para o canal surround direito e um sinal de saida final para o 20 canal de baixa frequência de aprimoramento (sub-woofer) sejam obtidos .

Especificamente-, os somadores 16a, 16b, 16c são adaptados para combinar os sinais componentes para o canal respectivo, que foram gerados pelos downmixers de objeto corresponden- 25 tes. Essa combinação preferivelmente é uma adição amostra por amostra simples, mas, dependendo da implementação, fatores de pon’ deração podem ser aplicados também. Além do mais as funcionalida des nas Figs. 3a, 3b podem ser realizadas na freqüência ou dominio sub-banda para que os elementos 19a a 16c possam operar no domínio de frequência e haveria algum tipo de conversão de frequên- cia/tempo antes que sinais realmente saíssem nas caixas de som em uma configuração de reprodução. Fig. 4 ilustra uma implementação alternativa, na qual as funcionalidades dos elementos 19a, 19b, 19c, 16a, 16b, 16c são similares a configuração da Fig. 3b. Com importância, entre-tanto, a manipulação que aconteceu no 3a antes do downmix do objeto 19a agora acontece subsequente ao downmix do objeto 19a. Assim, 10 a manipulação específica de objeto que é controlada pelos metadados para o respectivo objeto é feita no domínio de downmix, ou seja, antes da real adição dos então sinais componentes manipulados. Quando a Fig. 4, é comparada a Fig. 1, se torna claro que o downmixer do objeto como 19a, 19b, 19c será implementado dentro do processador TO, é ~õ mixer de objeto 1K compreenderá os sõmadores 16a, 16b, 16c. Quando a Fig. 4 é implementada e os downmixers do objeto são parte do processador, então o processador receberá, a-lém dos parâmetros de objeto 18 da Fig. 1, a informação de emissão 30, ou seja informação sobre a posição de cada objeto de áudio e informação sobre a configuração de emissão e informação adicional conforme o caso.

Além disso, a manipulação pode incluir a operação de downmix implementada por blocos 19a, 19b, 19c. Nessa configuração, o manipulador inclui esses blocos, e manipulações adicionais podem acontecer, mas não são exigidas em nenhum caso. Fig. 5a ilustra uma configuração ao lado do codi- ' fícador que pode gerar um fluxo de'data conforme esquematicamente’ ilustrado na Fig. 5b. Especificamente, Fig. 5a ilustra um mecanis- mo para gerar um sinal de áudio codificado 50, representando uma sobreposição de pelo menos dois objetos de áudio diferentes. Basi-camente, o mecanismo da Fig. 5a ilustra um formatador de fluxo de dados 51 para formatar o fluxo de dados 50 para que o fluxo de da- 5 dos compreenda um sinal de downmix de objeto 52, representando uma combinação tal como uma combinação ponderada ou não ponderada dos pelo menos dois objetos de áudio. Além do mais, o fluxo de dados 50 compreende, como informação paralela, metadados relacionados ao objeto 53 referindo a pelo menos um dos diferentes objetos de áu- 10 dio. Preferivelmente, o fluxo de dados 50 ainda compreende dados paramétricos 54, que são seletivos de tempo e frequência e que permitem uma separação de alta qualidade do sinal de downmix de objeto em vários objetos de áudio, onde essa operação é também designada para ser uma operação de upmix de objeto que é realizada 15 -pelo processador -10 na Fig. 1 conforme discutido anteriormente.

O sinal de downmix de objeto 52 é preferivelmente gerado por um downmixer de objeto 101a. Os dados paramétricos 54 são preferivelmente gerados por um calculador de parâmetro de objeto 101b, e os metadados seletivos de objeto 53 são gerados por 20 um fornecedor de metadados seletivos de objeto 55. O fornecedor de metadados seletivos de objeto pode ser uma entrada para receber metadados conforme gerados—por um produtor de áudio dentro de um estúdio de som ou pode ser dados gerados por uma análise relacionada ao objeto, que pode ser realizada subsequente a separação de 25 objeto. Especificamente, o fornecedor de metadados seletivo de objeto pode ser implementado para analisar a saida de objeto pelo ■ -processador 10 a fim de, por exemplo, encontrar se- um objeto é um objeto de fala, um objeto de som ou um objeto de som surround. As- sim, um objeto de fala pode ser analisado por alguns dos bem co-nhecidos algoritmos de detecção de fala conhecidos da codificação de fala e a análise seletiva de objeto pode ser implementada para também encontrar objetos de som, originados de instrumentos. Tais 5 objetos de som possuem uma natureza tonal alta e podem, portanto, ser distinguidos de objetos de fala ou objetos de som surround. Objetos de som surround terão uma natureza ruidosa refletindo o som de fundo que tipicamente existe em, por exemplo, filmes no cinema, onde, por exemplo, ruidos de fundo são sons de trânsito ou 10 qualquer outro sinais ruidosos fixos ou sinais não fixos que possuem um espectro banda larga tal como é gerado quando, por exemplo uma cena de tiroteio acontece no cinema. Com base nessa análise, pode-se amplificar um ob-jeto de som e atenuar outros objetos a fim de enfatizar a fala 15-- conforme for—útil para um-meihor entendimento do filme~para pessoas com deficiência auditiva ou para idosos. Conforme mencionado anteriormente, outras implementações inclui a provisão dos metadados específicos de objeto tal como uma identificação de objeto e os dados relacionados ao objeto por um engenheiro de som gerando o 20 real sinal de downmix de objeto em um CD ou um DVD tal como um downmix estéreo ou um downmix de som surround. Fig. 5d. ilustra um fluxo de dados exemplar 50, que tem, como informação principal, o downmix de objeto mono, estéreo ou multicanal e que tem, como informação paralela, os parâ- 25 metros de objeto 54 e os metadados com base em objeto 53, que são fixos no caso de somente identificar objetos como fala ou sur- , round, ou que variant com o tempo* no caso' daJprovisão de” dados- de nivel como metadados com base em objeto tais como requerido pelo modo meia-noite. Preferivelmente, entretanto, os metadados com base em objeto não são fornecidos em um modo seletivo de frequência a fim de salvar taxa de dado. Fig. 6 ilustra uma configuração de um mapa de ob- jeto de áudio ilustrando um número de N objetos. Na explicação e-xemplar da Fig. 6, cada objeto possui um ID de objeto, um arquivo de áudio de objeto correspondente e, com importância, informação de parâmetro de objeto de áudio, que é, preferivelmente, informa-ção relacionada a energia do objeto de áudio e para a correlação de inter-objeto do objeto de áudio. Especificamente, a informação de parâmetro de objeto de áudio inclui uma matriz E de co- variância de objeto para cada sub-banda e para cada bloco de tem— po. ’

Um exemplo para tal Matriz E de informação de pa- râmetro de áudio de-objeto-é ilustrado na Fig.--7. Os ‘elementos di-' agonais e±i incluem informação de força ou energia do objeto de áudio i na sub-banda correspondente e bloco de tempo correspondente. Com esse objetivo, o sinal de sub-banda representando um determinado objeto de áudio i é inserido em um calculador de força ou e- nergia que pode, por exemplo, realizar uma função de autocorrela- ção (acf) para obter valor en com ou sem alguma normalização. Al-ternativamente, a energia pode ser calculada como a soma dos qua-drados do sinal sobre um certo comprimento (ou seja, o produto de vetor: ss*) . O acf pode de algum modo descrever a distribuição es- pectral da energia, mas devido ao fato que uma Transformada T/F para seleção de freqüência é preferivelmente usada de qualquer - forma, o cálculo de energia pode ser realizado seitrum acf parã ca da sub-banda separadamente. Assim, os principais elementos diago- nais da matriz E de parâmetro de áudio de objeto indicam uma medida para a força da energia de um objeto de áudio em uma determinada sub-banda em um determinado bloco de tempo.

Por outro lado, o elemento fora da diagonal eij indica uma medida de correlação respectiva entre objetos de áudio i, j na sub-banda e bloco de tempo correspondentes. É claro a partir da Fig. 7 que a matriz E é - para entradas avaliadas reais - simétrica com relação a diagonal principal. Geralmente, essa matriz é uma matriz Hermitiana. O elemento de medida de correlação 10 eij pode ser calculado, por exemplo, por uma correlação cruzada dos dois sinais de sub-banda dos respectivos objetos de áudio para que uma medida de correlação cruzada seja obtida o que pode ou não ser normalizado. Outras medidas de correlação podem ser usadas que não são calculadas usando uma operação de correlação cruzada mas que 15„. são calculadas por- outros meios- de determinar correlação" entre w dois sinais. Por razões práticas, todos os elementos da matriz E são normalizados para que tenham magnitudes entre 0 e 1, onde 1 indica uma força máxima ou uma correlação máxima e 0 indica uma força minima (força zero) e -1 indica uma correlação minima (fora 20 da fase).

A matriz D de downmix de tamanho K/N onde Á'>1 determina o sinal de downmix -de -canal K na forma de uma matriz com filas K através da multiplicação de matriz

Fig. 8 ilustra um exemplo de uma matriz D dedownmix que tem elementos de matriz de downmix di3. Tal elemento dij indica se uma porção ou o objeto inteiro j está incluso no sinal de downmix de objeto i ou não. Quando, por exemplo, di2 é igual a zero, isso significa que objeto 2 não está incluso no sinal de downmix do objeto 1. Por outro lado um valor de d23 igual a 1 indica que o objeto 3 é totalmente incluso no sinal de downmix de objeto 2.

Os valores de elementos de matriz de downmix en-tre 0 e 1 são possiveis. Especificamente, o valor de 0,5 indica que um determinado objeto é incluído em um sinal de downmix, mas somente com metade da sua energia. Assim quando um objeto de áudio tal como objeto número 4 é igualmente distribuído para ambos os canais de sinal de downmix, então d24 e d14 seriam igual a 0,5. Esse modo de downmix é uma operação de downmix conservadora de energia que é preferida para algumas situações. Alternativamente, entretanto, um downmix não conservador de energia pode também ser usado, no qual o objeto de áudio inteiro é introduzido no canal de downmix_esquerdo e-no canal de-downmix direito-para—que a-energia desse objeto de áudio tenha sido dobrada com relação a outros objetos de áudio dentro do sinal de downmix.

Na porção inferior da Fig. 8, um diagrama esque-mático do codificador de objeto 101 da Fig. 1 é fornecido. Especificamente, o codificador de objeto 101 inclui duas porções diferentes 101a e 101b. A porção 101a é um downmixer que preferivelmente realiza uma combinação linear.ponderada de objetos .de áudio 1, 2, ..., N, e a segunda porção do codificador de objeto 101 é um calculador de parâmetro de objeto de áudio 101b, que calcula informação de parâmetro de objeto de áudio tal como matriz E para cada bloco de tempo ou sub-banda a fim de fornecer a energia de áudio- e-informação de correlação que é uma informaçãõ' paramétrica' e pode, portanto, ser transmitida com uma taxa de bit baixa ou po de ser armazenada consumindo uma pequena quantia de recursos de memória.

A matriz A de emissão de objeto controlada por usuário de tamanho MxN determina a emissão alvo de M canal de 5 objetos de áudio na forma de uma matriz com M linhas através da multiplicação de matriz.

Será suposto durante a seguinte derivação que M - 2 uma vez que o foco é na emissão estéreo. Dada uma matriz de 10 emissão inicial para mais que dois canais, e uma regra de downmix daqueles vários canais em dois canais é óbvio para aqueles quali-ficados na arte derivar a matriz A de emissão correspondente de tamanho 2x7V para emissão estéreo. Também será suposto para sim-plicidade que K = 2 tal que o downmix do objeto é também um sinal 15 estéreo. ílcaso 'de um “downmix de óbjeto’estéreo é ainda o caso es-pecial mais importante em termos de cenários de aplicação. Fig. 9 ilustra uma explicação detalhada da matriz

A de emissão alvo. Dependendo da aplicação, a matriz A de emissão alvo pode ser fornecida pelo usuário. O usuário possui liberdade 20 total para indicar, onde um objeto de áudio deveria ser localizado em uma maneira virtual para uma configuração de repetição. A força do conceito de objeto de áudio é que a~informação de downmix e a informação de parâmetro de objeto de áudio são completamente inde-pendentes em uma localização especifica dos objetos de áudio. Essa 25 localização dos objetos de áudio é fornecida por um usuário na forma de informação de emissão alvo. Preferivelmente, a informação de emissão alvo pode ser implementada como uma matriz A de emissão alvo que pode estar em forma da matriz na Fig. 9. Especificamente a matriz A de emissão possui M linhas e N colunas, onde M é igual ao número de canais no sinal de saida emitido, e caracterizado pelo fato de que N é igual ao número de objetos de áudio. M é igual a dois dos cenários de emissão estéreo preferidos, mas se uma e- 5 missão do canal-M é realizada, então a matriz A possui M linhas.

Especificamente, um elemento de matriz a±j, indica se uma porção ou o objeto inteiro j deve ser emitido no canal de saida especifico i ou não. Na porção inferior da Fig. 9 fornece um exemplo simples para a matriz de emissão alvo de um cenário, no 10 qual existe seis objetos de áudio AO1 a AO6 caracterizado pelo fato de que somente os primeiros cinco objetos de áudio devem ser emitidos em posições especificas e que o sexto objeto de áudio não deveria ser emitido.

Com relação ao objeto de áudio AO1, o usuário 15. quer que esse objeto de áudio seja-emitido-no=iado esquerdo de’ um cenário de repetição. Portanto, esse objeto é colocado na posição de uma caixa de som esquerda em uma sala de repetição (virtual), que resulta na primeira coluna da matriz A de emissão ser (10) . Com relação ao segundo objeto de áudio, a22 θ um e ai2 é 0 o que 20 significa que o segundo objeto de áudio deve ser emitido no lado direito.

Objeto de áudio 3 deve ser emitido no meio entre a caixa de som esquerda e a caixa de som direita para que 50% do nivel ou sinal desse objeto de áudio entre no canal esquerdo e 50% 25 do nivel ou sinal entre no canal direito para que a terceira coluna correspondente da matriz A de emissão alvo seja (0,5 compri- _ mento 0,^5).

De forma similar, qualquer colocação entre a cai- xa de som esquerda e a caixa de som direita pode ser indicada pela matriz de emissão alvo. Com relação ao objeto de áudio 4, a colocação é mais para o lado direito, uma vez que o elemento de matriz ã24 é maior que ai4. De modo similar, o quinto objeto de áudio A05 é 5 emitido para ser mais para a caixa de som esquerda conforme indi cado pelos elementos da matriz de emissão alvo a15 e a25. A matriz A de emissão alvo adicionalmente permite não emitir um determinado objeto de áudio. Isso é ilustrado exemplarmente pela sexta coluna da matriz A de emissão alvo que possui zero elementos. Subsequentemente, uma configuração preferida dapresente invenção é resumida referenciando a Fig. 10.

Preferivelmente, o método conhecido da SAOC (Co dificação de Objeto de Áudio Espacial) dividiu um sinal de áudio em diferentes partes. Essas partes podem ser por exemplo diferen- tes objetos de som, mas podem* não- se “iimitar *a isso.

Se os metadados são transmitidos para cada parteúnica do sinal de áudio, eles permitem ajuste somente para alguns dos componentes de sinal enquanto outras partes permanecerão sem mudanças ou até mesmo modificadas com diferentes metadados.

Isso pode ser feito para diferentes objetos desom, mas também para faixas espectrais individuais.

Parâmetros, para separação -de objeto são metadadosclássicos ou até novos (ganho, compressão, nivel, ...), para cada objeto de áudio individual. Esses dados são preferivelmente trans- 25 mitidos.

O box de processamento de decodificador é imple-. mentado em dois estágios diferentes: Em um primeiro estágio, osparâmetros de separação de objeto são usados para gerar (10) obje- tos de áudio individual. No segundo estágio, a unidade de proces-samento 13 possui instâncias múltiplas, onde cada instância está para um objeto individual. No presente, os metadados específicos de objeto deveriam ser aplicados. No final do decodificador, todos 5 objetos individuais são novamente combinados (16) para um sinal de áudio único. Adicionalmente, um controlador seco/molhado 20 pode permitir uma dissipação suave entre sinal original e manipulado para fornecer ao usuário final uma possibilidade simples de encontrar sua configuração preferida.

Dependendo da implementação específica, Fig. 10ilustra dois aspectos. Em um aspecto base, os metadados relacionados ao objeto somente indicam uma descrição de objeto para um objeto específico. Preferivelmente, a descrição de objeto é relacio-nada ao ID do objeto indicado no 21 na Fig. 10. Portanto, os meta- 15. dados com baseiem-objeto para o objeto superior manipulado pelo dispositivo 13a é somente a informação que esse objeto é um objeto "fala". Os metadados com base em objeto para o outro objeto processado pelo item 13b possuem informação que esse segundo objeto é um objeto surround.

Esses metadados básicos relacionados a objeto para ambos os objetos podem ser suficiente para implementar um modo de áudio limpo aprimorado, no qual o. objeto fala é amplificado e o objeto surround é atenuado ou, de maneira geral, o objeto fala é amplificado com relação ao objeto surround ou o objeto surround é 25 atenuado com relação ao objeto fala. O usuário, entretanto, pode implementar preferivelmente diferentes modos de processamento no - lado do -receptor/decodificador, os quais podem ser programados pormeio de uma entrada de controle de modo. Esses modos diferentes podem ser um modo de nivel de diálogo, um modo de compressão, um modo de downmix, um modo meia-noite aprimorado, um modo de áudio limpo aprimorado, um modo de downmix dinâmico, um modo de upmix guiado, um modo para relocalização de objetos etc.

Dependendo da implementação, os diferentes modos requerem metadados com base em objeto diferentes além da informa-ção básica indicando o tipo ou característica de um objeto tal como fala ou surround. No modo meia-noite, no qual a faixa dinâmica de um sinal de áudio tem que ser comprimida, é preferível que, paid ra cada objeto tal como o objeto fala e o objeto surround, tanto o nivel real ou o nivel alvo para o modo meia-noite seja fornecido como metadados. Quando o nivel real do objeto é fornecido, então o — receptor ~tem“ que calcular" o nivel alvo para o modo meia-noite.

Quando, entretanto, o nivel relativo alvo é fornecido, então o 15 _ processamento do_ lado do decodif icador/receptor é— reduzido . “

Nessa implementação, cada objeto possui uma sequência de nivel de informação com base em objeto variante de tempo que é usada por um receptor para comprimir a faixa dinâmica para que as diferenças de nivel dentro de um único objeto sejam re- 20 duzidas. Isso, automaticamente, resulta em um sinal de áudio final, no qual as diferenças de nivel de tempos em tempos são reduzidas como exigido pela implementação do modo meia-noite. Para aplicações de áudio limpo, um nivel alvo para o objeto fala pode ser fornecido também. Então, o objeto surround pode ser configura- 25 do para zero ou quase zero a fim de enfatizar veementemente o objeto fala dentro do som gerado por uma determinada configuração de altofalante. Em uma aplicação de alta fidelidade, -que é o contrá rio do modo meia-noite, a faixa dinâmica do objeto ou a faixa di- nâmica da diferencia entre os objetos poderiam até ser aprimora-das. Nessa implementação, seria preferido fornecer niveis de ganho de objeto alvo, uma vez que esses niveis alvo garantam que, no fi-nal, um som seja obtido o qual é criado por um engenheiro artisti- 5 co de som dentro de um estúdio de som e, então, possui a mais alta qualidade comparada com um cenário automático ou definido por usu-ário .

Em outras implementações, nas quais os metadados com base no objeto são relacionados com downmixes avançados, a ma- 10 nipulação de objetos inclui um downmix diferente das configurações de emissão especificas. Então, os metadados com base em objeto são introduzidos nos blocos de downmixer de objeto 19a a 19c na Fig. 3b ou Fig. 4. Nessa implementação, o manipulador pode incluir blocos 19a a 19c, quando um downmix de objeto individual é realizado 15 dependendo da configuração de emissão. -E-speci ficamente, ~os blocos de downmix de objeto 19a a 19c podem ser configurados diferente um do outro. Nesse caso, um objeto fala pode ser introduzido somente no canal central ao invés de um canal esquerdo ou direito, dependendo da configuração de canal. Então, os blocos de downmixer 19a 20 a 19c podem possuir números diferentes de saidas de sinal de componente. O downmix pode também ser implementado dinamicamente.

Adicionalmente,__informação _de upmix guiada e informação para relocação de objetos pode ser fornecido também.

Subsequentemente, um sumário de meios preferidos 25 de fornecimento de metadados e a aplicação dos metadados de objeto especifico é dado.

Objetos de áudio podem não® ser“separados idealmente como em aplicação de SOAC tipica. Para manipulação de áudio, pode ser suficiente ter uma "máscara" dos objetos, não uma separação total.

Isso pode levar a menos/mais irregulares parâme-tros para separação de objeto.

Para a aplicação chamada "modo meia-noite", o engenheiro de áudio precisa definir todos os parâmetros de metadados independentemente para cada objeto, rendendo por exemplo em volume de diálogo constante mas ruido de ambiente manipulado (modo meia- noite aprimorado")

Isso pode ser também útil para pessoas que usamaparelhos auditivos ("áudio limpo aprimorado").

Novos cenários de downmix: Objetos separados diférentes podem ser tratados diferentes para cada situação especi-fica de downmix. Por exemplo, um sinal de canal 5.1 pode passar 15 por downmix»para, um -sistema caseiro estéreo de-televisão e oútró' receptor possui até somente um sistema de playback mono. Portanto, objetos diferentes podem ser tratados em modos diferentes (e tudo isso é controlado pelo engenheiro de som durante produção devido aos metadados fornecidos pelo engenheiro de som) .

Também downmixes para 3.0, etc. são preferidos.

O downmix gerado não será definido por um parâme-tro global fixo (estabelecido).,, mas. ele.po_de_ ser gerado de parâmetros dependentes de objeto variantes de tempo.

Com novos metadados com base em objeto, será pos- 25 sivel realizar um upmix guiado também.

Objetos podem ser colocados em diferentes posi- , ções, por ex. para fazer a imagem espacial mais ampla“qúand'õ o am biente é atenuado. Isso ajudará na inteligibilidade da fala para pessoas com deficiência auditiva.

O método proposto neste documento estende o con-ceito de metadados existente implementado e principalmente usado nos Codecs Dolby. Agora, é possivel aplicar o conceito de metada- 5 dos conhecido não somente ao fluxo de áudio inteiro mas também para objetos extraídos dentro desse fluxo. Isso fornece aos engenheiros de áudio e artistas muito mais flexibilidade, maiores faixas de ajuste e portanto melhor qualidade de áudio e divertimento para os ouvintes. As Figs. 12a, 12b ilustram diferentes cenários de aplicação do conceito inventivo. Em um cenário clássico, existem esportes na televisão, onde se tem a atmosfera de estádio em todos os canais 5.1, e onde o canal de locutor é mapeado para o canal central. Esse "mapeamento" pode ser realizado por uma adição dire- ta do canal de locutor ao'cahal-centraT'"existente para canais 5.1 carregando a atmosfera de estádio. Agora, o processo inventivo permite ter tal canal central na descrição de som da atmosfera de estádio. Então, a operação adicional mistura o canal central da atmosfera de estádio e o locutor. Ao gerar parâmetros de objeto 20 para o locutor e o canal central da atmosfera de estádio, a presente invenção permite separar esses dois objetos de som em um lado decodificador e permite aprimorar ou atenuar o locutor ou o canal centrar da atmosfera de estádio. O outro cenário é, quando existe dois locutores. Tal situação pode existir, quando duas pes- soas estão comentando o mesmo jogo de futebol. Especificamente, quando existe dois locutores que estão falando simultaneamente, pode ser útil ter esses dois locutores como objetos separados e,”adicionalmente, ter esses dois locutores separados dos canais da atmosfera do estádio. Em tal aplicação, os canais 5.1 e os canais de dois locutores podem ser processados como oito objetos diferentes de áudio ou sete objetos diferentes de áudio, quando o canal de aprimoramento de baixa frequência (canal de sub-woofer) é ne- gligenciado. Uma vez que a infraestrutura de distribuição direta é adaptada ao sinal de som de canais 5.1, os sete (ou oito) objetos podem passar por downmix para um sinal de downmix de canais 5.1 e os parâmetros de objetos podem ser fornecidos além dos canais de downmix 5.1 para que, no lado do receptor, os objetos possam ser separados novamente e devido ao fato que os metadados com base em objeto identificarão os objetos locutores dos objetos de atmosfera de estádio, um processamento de objeto especifico é possivel, antes que um downmix final de canais 5.1 pelo mixer de objeto aconteça no lado do receptor.

Nesse cenário7“'pode-se ter um 'primeiro objetocompreendendo o primeiro locutor, um segundo objeto compreendendo o segundo locutor e um terceiro objeto compreendendo a atmosfera do estádio completa.

Subsequentemente, as implementações diferentes de cenários de downmix com base em objeto são discutidas no contexto das Figs. 11a a 11c.

Quando, por exemplo, o—som gerado pelo cenáriodas Fig. 12a ou 12b tem que ser repetido em um sistema de playback convencional, então o fluxo de metadados integrado pode ser indiferente e o fluxo recebido pode ser tocado como é. Quando, en-tretanto, um playback deve acontecer em configurações de uma caixa de som estéreo, um downmix de 5.1* para estéreo deve acontecer. Se os canais surround são somente adicionados a esquerda/direita, os moderadores podem estar em um nível muito baixo. Portanto, é pre-ferido reduzir o nível da atmosfera antes ou depois do downmix antes que o objeto moderador seja (re)adicionado.

Pessoas com deficiência auditiva podem querer re- duzir o nível da atmosfera para ter uma melhor inteligibilidade de fala enquanto ainda tem ambos os locutores separados em esquer- da/direita, que é conhecido como "efeito coquetel", onde uma pes-soa escuta seu nome e então, se concentra na direção em que ouviu seu nome. Essa concentração específica de direção irá, de um ponto de vista psico-acústico atenuar o som vindo de direções diferentes, Portanto, uma localização exata de um objeto especifico tal como o locutor na esquerda ou direita ou em ambas esquerda e direita para que o locutor apareça no meio entre a esquerda ou direita pode aumentar a inteligibilidade. Para esse propósito, o fluxo de—áudio de entrada é preferivelmente dividido em objetos — separados, onde os objetos possuem uma classificação em metadados dizendo que um objeto é importante ou menos importante. Então, a diferença de nível entre eles pode ser ajustada de acordo com os metadados ou a posição de objeto pode ser relocalizada para aumen- tar inteligibilidade de acordo com os metadados. Para obter esse objetivo, metadados são aplicados não só no.sinal transmitido, mas metadados são aplicados para ob-jetos de áudio separáveis únicos antes ou depois do downmix de objeto conforme o caso. Agora, a presente invenção não exige mais que objetos tenham que ser limitados a canais espaciais para que esses canais sejam manipulados individualmente. Pelo contrário, o conceito de metadados inventivos com base em objetõ~não exige ter "um objeto específico em um canal específico, mas objetos podem passar por downmix para vários canais e podem ainda ser individu-almente manipulados. Fig. 11a ilustra uma outra implementação de uma configuração preferida. O donwmixer de objeto 16 gera m canais de 5 saida fora de canais de entrada k x n, onde k é o número de objetos e onde os n canais são gerados por objeto. A Fig. 11a corresponde ao cenário da Fig. 3a, 3b, onde a manipulação 13a, 13b, 13c acontece antes do downmix de objeto. Fig. 11a ainda compreende manipuladores de nivel 10 19d, 19e, 19f, que podem ser implementados sem um controle de me tadados. Alternativamente, entretanto, esses manipuladores de ni-vel podem ser controlados por objeto com base em metadados bem como para que a modificação de nivel implementada por blocos 19d para 19f seja também parte do manipulador de objeto 13 da Fig. 1. O 15 mesmo é verdade para as operações de downmix" T9e“para 19b para 19c, quando essas operações de downmix são controladas pelos metadados com base em objeto. Esse caso, entretanto, não está ilustrado na Fig. 11a, mas poderia ser implementado também, quando os metadados com base em objeto são também encaminhados aos blocos de 20 downmix 19a a 19c. No último caso, esses blocos seriam também parte do manipulador de objeto 13 da Fig. 11a, e a funcionalidade remanescente do mixer de objeto -1-6 é implementada—pela combinação inteligente de canal de saida dos sinais componente de objeto manipulado para os correspondentes canais de saida. Fig. 11a ainda 25 compreende uma funcionalidade de normalização de diálogo 25, que pode ser implementada com metadados convencionais, uma vez que essa normalização de diálogo não' acontece no dominio'"do objeto masno dominio do canal de saida. Fig. lib ilustra uma implementação de um downmix estéreo 5.1 com base em objeto. No presente, o downmix é realizado antes da manipulação e, portanto, Fig. 11b corresponde ao cenário da Fig. 4. A modificação de nivel 13a,13b é realizada por metada- 5 dos com base em objeto onde, por exemplo, a ramificação superior corresponde ao objeto fala e a ramificação inferior corresponde a um objeto surround ou por exemplo na Fig. 12a,12b, a ramificação superior corresponde a um ou ambos altofalantes e a ramificação inferior corresponde a todas informações surround. Então, os blo- 10 cos do manipulador de nivel 13a,13b manipulariam ambos os objetos baseados em parâmetros configurados de modo fixo para que os metadados com base em objeto seriam somente uma identificação dos objetos, mas os manipuladores de nivel 13a, 13b poderiam também manipular os niveis com base em niveis de alvo fornecido pelos meta- 15- --dados 14 ou com base em niveis-reais fornecidos pelos metadados 14. Portanto, para gerar um downmix estéreo para entrada multicanal, uma fórmula downmix para cada objeto é aplicada e os objetos são ponderados por dado nivel antes de remixá-los novamente a um sinal de saida.

Para aplicações de áudio limpo como ilustrado naFig. 11c, um nivel importante é transmitido como metadados para permitir uma redução de componentes de sinal-menos importantes. Então, a outra ramificação corresponderia a componentes importantes, que são ampliados enquanto a ramificação inferior pode cor- 25 responder a componentes menos importantes que podem ser atenuados.

Como a atenuação especifica e/ou a amplificação de diferentes ob- “jetos^é^realizada pode ser configurado de modotixo por um recep tor mas também pode ser controlado, além disso, por metadados com base em objeto conforme implementado pelo controle "seco/molhado" 14 na Fig. 11c.

Geralmente, um controle de faixa dinâmica pode ser realizado no dominio do objeto que é- feito de modo similar a 5 implementação de controle de faixa dinâmica AAC como uma compressão multi-banda. Os metadados com base em objeto podem ainda ser dados seletivos de frequência para que uma compressão seletiva de frequência seja realizada o que é similar a uma implementação i- gualadora.

Como mencionado anteriormente, uma normalizaçãode diálogo é preferivelmente realizada subsequente ao downmix, ou seja, no sinal de downmix. 0 downmix deveria, em geral, ser capaz ~ de processar k objetos com n canais de entrada em m canais de saida .

Não é necessariamente'"importante" separar objetosem objetos discretos. Isso pode ser suficiente para "mascarar" componentes de sinal que serão manipulados. Isso é similar a máscaras de edição no processamento de imagem. Então, um "objeto" generalizado é uma sobreposição de vários objetos originais, onde 20 essa sobreposição inclui um número de objetos que são menores que o número total de objetos originais. Todos os objetos são novamente adicionados em um estágio, final. __Pode não haver interesse em objetos únicos separados, e para alguns objetos, o valor do nivel pode ser estabelecido para 0, que é um número dB alto negativo, 25 quando um determinado objeto tem que ser removido completamente tal como para aplicações de karaokê onde se pode estar interessado em remover completamente o objeto vocal para que um cantor de ka raokê possa introduzir seus próprios vocais aos objetos instrumen- tais remanescentes.

Outras aplicações preferidas da invenção estão conforme mencionado antes de um modo meia-noite aprimorado onde a faixa dinâmica de objetos únicos pode ser reduzida, ou um modo de 5 alta fidelidade, onde a faixa dinâmica de objetos é expandida.

Nesse contexto, o sinal transmitido pode ser comprimido e é pre-tendido inverter essa compressão. A aplicação da normalização do diálogo é principalmente preferida para acontecer para o sinal total como saida para os altofalantes, mas uma amplifica- 10 ção/atenuação não-linear para diferentes objetos é útil, quando a normalização do diálogo é ajustada. Além disso, para dados paramétricos para separar diferentes objetos de áudio do sinal de downmix de objeto, é preferido transmitir, para cada sinal de objeto e soma além dos metadados clássicos relacionados ao sinal de soma, 15 valores de nivel- para o downmrx, importância e valores de- importância indicando um nivel de importância para áudio limpo, uma identificação de objeto, niveis absoluto ou relativo reais como informação variante de tempo ou niveis alvo relativo ou absoluto como informação variante de tempo etc.

As configurações descritas são meramente ilustrativas para os principios da presente invenção. É entendido que modificações e variações dos-arranjos e dos-detalhes descritos neste serão aparente para outros qualificados na arte. É a intenção, portanto, ser limitado somente pelo escopo das reivindicações de 25 patente iminente e não pelos detalhes específicos apresentados pela descrição e explicação das configurações neste instrumento.

Dependendo em determinados requisitos-de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode ser realizada usando um meio de armazenamento digital, em particular, um disco, um DVD ou um CD que tenha sinais de controle eletronicamente legiveis armazenados neste, que coopera com sistemas de com- putador programáveis tais que os métodos inventivos são realiza-dos. Geralmente, a presente invenção é portanto um produto de programa de computador com um código do programa armazenado em um portador legivel por máquina, o código do programa sendo operado para realizar os métodos inventivos quando o produto de programa de computador é executado em um computador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador que possui um código de programa para realizar pelo menos um dos métodos inventivos quando o programa de computador é executado em um computador REFERÊNCIAS [1] ISO/IEC 13818-7: MPEG-2 (Generic coding of moving pictures and associated audio information) - Part 7: Ad-vanced Audio Coding (AAC) [2] ISO/IEC 23003-1: MPEG-D (MPEG audio technolo- 20 gies) - Part 1: MPEG Surround [3] ISO/IEC 23003-2: MPEG-D (MPEG audio technolo gies) - Part 2: Spatial Audio Object Coding.. (SAOC) . - [4] ISO/IEC 13818-7: MPEG-2 (Generic coding of moving pictures and associated audio information) - Part 7: Ad- 25 vanced Audio Coding (AAC) [5] ISO/IEC 14496-11: MPEG 4 (Coding of audio visual^ objects) - Part 11: Scene Description and^Application En gine (BIFS) [6] ISO/IEC 14496-: MPEG 4 (Coding of audio-visual objects) - Part 20: Lightweight Application Scene Representation (LASER) and Simple Aggregation Format (SAF) [7]5 http: /www.dolby. com/assets/pdf /techlibrary/17 . AllMetadata . pdf [8]http: /www.dolby . com/assets/pdf /tech__library/18_Metadata .Guide .pdf [9] Krauss, Kurt; Roden, Jonas; Schildbach, Wolfgang: Transcoding of Dynamic Range Control Coefficients and Other Metadata into MPEG-4 HE AA, AES convention 123, October 2007, pp 7217 [10] Robinson, Charles Q. , Gundry, Kenneth: Dy-namic Range Control via Metadata, AES Convention 102, September 1999, pp 5028 [IT] Dolby, "Standards and"' Practices for Author-'ing Dolby Digital and Dolby E Bitstreams'", Issue 3 [14] Coding Technologies/Dolby, "Dolby E / aacPlus Metadata Transcoder Solution for aacPlus Multichannel Digital Video Broadcast (DVB)", VI.1.0 [15] ETSI TS101154: Digital Video Broadcasting(DVB), VI.8.1 -[16] SMPTE RDD—6-2008 Description and Guide tothe Use of Dolby E audio Metadata Serial Bitstream

Claims

1. Mecanismo para gerar pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois objetos de áudio diferentes, caracterizado por compreender: um processador para processar um sinal de entrada de áudio para fornecer uma representação de objeto do sinal de entrada de áudio, no qual pelo menos dois objetos de áudio diferentes são separados um do outro, os pelo menos dois objetos de áudio diferentes estão disponíveis como sinais de objeto de áudio separados, e os pelo menos dois objetos de áudio diferentes são manipuláveis independentemente um do outro; um manipulador de objeto para manipulação do sinal de objeto de áudio ou um sinal de objeto de áudio mixado de pelo menos um objeto de áudio com base em metadados com base em objeto de áudio para obter um sinal de objeto de áudio manipulado ou um sinal de objeto de áudio mixado manipulado para pelo menos um objeto de áudio; e um mixer de objeto para mixar a representação de objeto combinando o objeto de áudio manipulado com um objeto de áudio não modificado ou com um objeto de áudio diferente manipulado de um modo diferente como o pelo menos um objeto de áudio.

2. Mecanismo de acordo com reivindicação 1, que está adaptado para gerar m sinais de saída, m sendo um número inteiro maior que 1, caracterizado pelo fato de que o processador é operativo para fornecer uma representação de objeto tendo k objetos de áudio, k sendo um número inteiro e maior que m; o manipulador de objeto é adaptado para manipular pelo menos dois objetos diferentes um do outro com base nos metadados associados com pelo menos um objeto dos pelo menos dois objetos, e o mixer de objeto é operativo para combinar os sinais de áudio manipulados do pelo menos dois objetos diferentes para obter os m sinais de saída para que cada sinal de saída seja influenciado por sinais de áudio manipulado de pelo menos dois objetos diferentes.

3. Mecanismo de acordo com reivindicação 1, ca-racterizado por o processador ser adaptado para receber o sinal de entrada, o sinal de entrada sendo uma representação que passou por downmix de uma pluralidade de objetos de áudio originais; no qual o processador é adaptado para receber pa-râmetros de objeto de áudio para controlar um algoritmo de recons-trução para reconstruir uma representação aproximada dos objetos de áudio originais, e no qual o processador é adaptado para conduzir o algoritmo de reconstrução usando o sinal de entrada e os parâmetros de objeto de áudio para obter a representação de objeto compreendendo sinais de objeto de áudio sendo uma aproximação de sinais de objeto de áudio dos objetos de áudio originais.

4. Mecanismo de acordo com reivindicação 1, ca-racterizado por o sinal de entrada de áudio ser uma representação que passou por downmix de uma pluralidade de objetos de áudio originais e compreende, como informação paralela, metadados com base em objeto tendo informação sobre um ou mais objetos de áudio incluídos na representação de downmix, e no qual o manipulador de objeto é adaptado para extrair os metadados com base em objeto dos sinais de entrada de áudio.

5. Mecanismo de acordo com reivindicação 3, ca-racterizado por o sinal de entrada de áudio compreender, como in-formação paralela, os parâmetros de objeto de áudio, e no qual o processador é adaptado para extrair a informação paralela do sinal de entrada de áudio.

6. Mecanismo de acordo com reivindicação 1, no qual o manipulador de objeto é operativo para manipular o sinal de objeto de áudio, e no qual o mixer de objeto é operativo para aplicar uma regra de downmix para cada objeto com base em uma posição de emissão para o objeto e uma configuração de reprodução para obter um sinal de componente de objeto para cada sinal de saída de áudio, e caracterizado pelo fato de que um mixer de objeto é adaptado para adicionar sinais de componente de objeto de diferentes objetos para o mesmo canal de saída para obter o sinal de saída de áudio para o canal de saída.

7. Mecanismo de acordo com reivindicação 1, ca-racterizado por o manipulador de objeto ser operativo para manipular cada um de uma pluralidade de sinais de componente de objeto da mesma maneira com base em metadados para o objeto obter sinais de componente de objeto para o objeto de áudio, e no qual o mixer de objeto é adaptado para adicionar sinais de componente de objeto de diferentes objetos para o mesmo canal de saída para obter o sinal de saída de áudio para o canal de saída.

8. Mecanismo, de acordo com reivindicação 1, caracterizado por ainda compreender um mixer de sinal de saída para mixar o sinal de saída de áudio obtido com base em uma manipulação de pelo menos um objeto de áudio e um sinal de saída de áudio correspondente obtido sem a manipulação de pelo menos um objeto de áudio.

9. Mecanismo de acordo com reivindicação 1, no qual os metadados compreendem a informação em um ganho, uma compressão, um nível, uma configuração de downmix ou uma característica específica para determinado objeto, e caracterizado pelo fato de que o manipulador de objeto é adaptativo para manipular o objeto ou outros objetos com base nos metadados para implementar, de um modo específico de objeto, um modo meia-noite, um modo de alta fidelidade, um modo de áudio limpo, uma normalização de diálogo, uma manipulação específica de downmix, um downmix dinâmico, um upmix guiado, uma reloca- lização de objetos de fala ou uma atenuação de objetos de ambiente.

10. Mecanismo de acordo com reivindicação 1, no qual os parâmetros de objeto compreendem, para uma pluralidade de porções de tempo de um sinal de áudio de objeto, parâmetros para cada banda de uma pluralidade de bandas de frequência na porção de tempo respectiva, e caracterizado pelo fato de que os metadados somente incluem informação não seletiva de freqüência para objeto de áudio.

11. Mecanismo para gerar um sinal de áudio codificado representando uma sobreposição de pelo menos dois objetos de áudio diferentes, caracterizado por compreender: um formatador de fluxo de dados para formatar um fluxo de dados para que o fluxo de dados compreenda um sinal de downmix de objeto representando uma combinação de pelo menos dois objetos de áudio diferentes, e, como informação paralela, metadados referindo a pelo menos um dos diferentes objetos de áudio.

12. Mecanismo de acordo com reivindicação 11, ca-racterizado pelo fato de que o formatador de fluxo de dados é ope-rativo para introduzir adicionalmente, como informação paralela, dados paramétricos permitindo uma aproximação de pelo menos dois objetos de áudio diferentes, no fluxo de dados.

13. Mecanismo de acordo com reivindicação 11, o mecanismo caracterizado por ainda compreender um calculador de pa-râmetro para calcular dados paramétricos para uma aproximação de pelo menos dois objetos de áudio diferentes, um downmixer para fazer o downmix de pelo menos dois objetos de áudio diferentes para obter o sinal de downmix, e uma entrada para metadados individualmente relatando a pelo menos dois objetos de áudio diferentes.

14. Método de geração de pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois objetos de áudio diferentes, caracterizado por compreender: processar um sinal de entrada de áudio para fornecer uma representação de objeto do sinal de entrada de áudio, no qual pelo menos dois objetos de áudio diferentes são separados um do outro, os pelo menos dois objetos de áudio diferentes estão disponíveis como sinais de objeto de áudio separados, e os pelo menos dois objetos de áudio diferentes são manipuláveis independentemente um do outro; manipular o sinal de objeto de áudio ou um sinal de objeto de áudio mixado de pelo menos um objeto de áudio com base em metadados com base em objeto de áudio referindo a pelo menos um objeto de áudio para obter um sinal de objeto de áudio manipulado ou um sinal de objeto de áudio mixado manipulado para pelo menos um objeto de áudio; e mixar a representação de objeto combinando o objeto de áudio manipulado com um objeto de áudio não modificado ou com um objeto de áudio diferente manipulado, manipulado de um modo diferente como o pelo menos um objeto de áudio.

15. Método de gerar um sinal de áudio codificado representando uma sobreposição de pelo menos dois objetos de áudio diferentes, caracterizado por compreender: formatar um fluxo de dados para que o fluxo de dados compreenda um sinal de downmix de objeto representando uma combinação de pelo menos dois objetos de áudio diferentes, e, como informação paralela, metadados referindo a pelo menos um dos diferentes objetos de áudio.