BR112015029132B1 - Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador. - Google Patents

Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador. Download PDF

Info

Publication number
BR112015029132B1
BR112015029132B1 BR112015029132-5A BR112015029132A BR112015029132B1 BR 112015029132 B1 BR112015029132 B1 BR 112015029132B1 BR 112015029132 A BR112015029132 A BR 112015029132A BR 112015029132 B1 BR112015029132 B1 BR 112015029132B1
Authority
BR
Brazil
Prior art keywords
audio objects
matrix
downmix signals
audio
signals
Prior art date
Application number
BR112015029132-5A
Other languages
English (en)
Other versions
BR112015029132A2 (pt
Inventor
Lars Villemoes
Leif Jonas Samuelsson
Heiko Purnhagen
Toni Hirvonen
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR112015029132A2 publication Critical patent/BR112015029132A2/pt
Publication of BR112015029132B1 publication Critical patent/BR112015029132B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

CODIFICAÇÃO DE CENAS DE ÁUDIO. As modalidades exemplificativas fornecem métodos de codificação e decodificação, e codificadores e decodificadores associados, para codificar e decodificar uma cena de áudio que compreende, pelo menos, um ou mais objetos de áudio (106a). O codificador (108, 110) gera um fluxo de bits (116) que compreende sinais de downmix (112) e informações secundárias, que incluem elementos de matriz individual (114) de uma matriz de reconstrução que possibilita a reconstrução de um ou mais objetos de áudio (106a) no decodificador (120).

Description

Referência cruzada a pedidos relacionados
[001] Este pedido reivindica prioridade ao Pedido de Patente dos Estados Unidos Provisória N° 61/827.246, depositado em 24 de maio de 2013, que é aqui incorporada por referência na sua totalidade.
Campo técnico
[002] A invenção divulgada aqui refere-se, de modo geral, ao campo da codificação e decodificação de áudio. Em particular, refere- se à codificação e descodificação de uma cena de áudio que compreende objetos de áudio.
Antecedentes
[003] Existem sistemas de códigos de áudio para códigos de áu dio espaciais paramétricos. Por exemplo, MPEG Surround descreve um sistema para códigos espaciais paramétricos de áudio multicanal. MPEG SAOC (Códigos de objeto de áudio espaciais) descreve um sistema para códigos paramétricos de objetos de áudio.
[004] Pelo lado do codificador, esses sistemas tipicamente faz downmix dos objetos/canais em um downmix, que tipicamente é um downmix mono (um canal) ou stereo (dois canais) e extrai informações secundárias descrevendo as propriedades dos canais/objetos por meios de parâmetros, como diferenças de nível e relação cruzada. O downmix e as informações secundárias são então codificadas e enviadas a um lado do decodificador. Pelo lado do descodificador, os ca- nais/objetos são reconstruídos, isto é aproximados, a partir do downmix sob o controle dos parâmetros das informações secundárias.
[005] Uma desvantagem destes sistemas é que a reconstrução é tipicamente matematicamente complexa e muitas vezes tem de se basear em suposições quanto às propriedades do conteúdo de áudio que não é descrito explicitamente pelos parâmetros enviados como informações secundárias. Tais suposições podem, por exemplo, ser de que os canais/objetos são considerados sem correlação a não ser que um parâmetro de correlação cruzada seja enviado ou de que o downmix dos canais/objetos seja gerado de uma maneira específica. Além disso, a complexidade matemática e a necessidade de pressupostos adicionais aumentam drasticamente conforme o número de canais do downmix aumenta.
[006] Além disso, os pressupostos necessários são inerentemen te refletidos nos detalhes algorítmicos do processamento aplicado ao lado do decodificador. Isso implica que uma boa quantidade de inteligência precisa ser incluída pelo lado do decodificador. Isso é um inconveniente na medida em que pode ser difícil atualizar ou modificar os algoritmos, visto que os decodificadores são implantados, por exemplo, em dispositivos de consumo que são difíceis ou mesmo impossíveis de atualizar.
Breve Descrição das Figuras
[007] No que se segue, exemplos de modalidades serão descri tos em maiores detalhes e com referência às figuras em anexo, em que:
[008] a Fig. 1 é um desenho esquemático de um sistema de codi- ficação/decodificação de áudio de acordo com modalidades exemplifi- cativas;
[009] a Fig. 2 é um desenho esquemático de um sistema de codi- ficação/decodificação de áudio com um decodificador de acordo com modalidades exemplificativas;
[0010] a Fig. 3 é um desenho esquemático de um lado de codifica ção de um sistema de codificação/decodificação de áudio de acordo com modalidades exemplificativas;
[0011] a Fig. 4 é um fluxograma de um método de codificação de acordo com modalidades exemplificativas;
[0012] a Fig. 5 é um desenho esquemático de um codificador de acordo com modalidades exemplificativas;
[0013] a Fig. 6 é um desenho esquemático de um lado do decodi- ficador de um sistema de codificação/decodificação de áudio de acordo com modalidades exemplificativas;
[0014] a Fig. 7 é um fluxograma de um método de decodificação de acordo com modalidades exemplificativas;
[0015] a Fig. 8 é um desenho esquemático de um sistema de codi- ficação/decodificação de áudio de acordo com modalidades exemplifi- cativas; e
[0016] a Fig. 9 é um desenho esquemático de transformações de tempo/frequência realizadas em um lado do decodificador de um sistema de codificação/decodificação de áudio de acordo com modalidades exemplificativas.
[0017] Todas as figuras são esquemáticas e, geralmente, apenas mostram partes que são necessárias para elucidar a invenção, enquanto que outras partes podem ser omitidas ou simplesmente sugeridas. Salvo indicação em contrário, os mesmos números de referência referem-se a partes semelhantes em figuras diferentes.
Descrição detalhada
[0018] Em vista do que foi exposto acima, trata-se de um objeto para fornecer um codificador e um decodificador e métodos associados que fornecem uma reconstrução menos complexa e mais flexível de objetos de áudio.
I. Visão geral - Codificador
[0019] De acordo com um primeiro aspecto, as modalidades exemplificativas propõem métodos de codificação, codificadores e produtos de programa de computador para codificação. Os métodos propostos, codificadores e produtos de programa de computador podem geralmente ter as mesmas características e vantagens.
[0020] De acordo com modalidades exemplificativas, é fornecido um método para codificar um mosaico de tempo/frequência de uma cena de áudio que compreende pelo menos N objetos de áudio. O método compreende: receber os N objetos de áudio; gerar M sinais de downmix com base pelo menos nos N objetos de áudio; gerar uma matriz de reconstrução com elementos de matriz que possibilitam a reconstrução, pelo menos, dos N objetos de áudio dos M sinais de downmix; e gerar um fluxo de bits compreendendo os M sinais de downmix e pelo menos alguns elementos de matriz da matriz de reconstrução.
[0021] O número N de objetos de áudio pode ser igual a ou maior do que um. O número M de sinais de downmix pode ser igual a ou maior do que um.
[0022] Com esse método, é gerado, assim, um fluxo de bits que compreende M sinais de downmix e pelo menos alguns elementos de matriz de uma matriz de reconstrução como informações secundárias. Com a inclusão de elementos de matriz individuais da matriz de reconstrução no fluxo de bits, muito pouco de inteligência é necessário pelo lado do decodificador. Por exemplo, não há necessidade, pelo lado do decodificador, de uma computação complexa da matriz de reconstrução com base nos parâmetros de objeto transmitidos e de pressupostos adicionais. Assim, a complexidade matemática no lado do decodificador é significativamente reduzida. Além disso, a flexibilidade em relação ao número de sinais de downmix é aumentada em comparação aos méto- dos do estado da técnica, visto que a complexidade do método não depende do número de sinais de downmix utilizado.
[0023] Conforme usado aqui, cena de áudio geralmente se refere a um ambiente de áudio tridimensional que compreende elementos de áudio sendo associados com posições em um espaço tridimensional que pode ser processado para reprodução em um sistema de áudio.
[0024] Conforme utilizado aqui, objeto de áudio se refere a um elemento de uma cena de áudio. Um objeto de áudio compreende, tipicamente, um sinal de áudio e informações adicionais, como a posição do objeto em um espaço tridimensional. Informações adicionais são usadas, tipicamente, para renderizar de maneira ótima o objeto de áudio em um determinado sistema de reprodução.
[0025] Conforme utilizado aqui, um sinal de downmix se refere a um sinal que é uma combinação, pelo menos, dos N objetos de áudio. Outros sinais de cena de áudio, como canais de leito (a serem descritos abaixo), também podem ser combinados no sinal de downmix. Por exemplo, os M sinais de downmix podem corresponder à renderização da cena de áudio a uma determinada configuração do alto-falante, por exemplo, uma configuração 5.1 padrão. O número de sinais de downmix, aqui denotado por M, é tipicamente (mas não necessariamente) menos do que a soma da quantidade de objetos de áudio e canais de leito, explicando por que os M sinais de downmix são referidos como um downmix.
[0026] Os sistemas de codificação/decodificação de áudio nor malmente dividem em tempo-frequência em mosaicos de tem- po/frequência, por exemplo, aplicando bancos de filtros apropriados aos sinais de áudio de entrada. Mosaico de tempo/frequência normalmente quer dizer uma porção do espaço de tempo-frequência correspondente ao intervalo de tempo e uma sub-banda de frequência. O intervalo de tempo pode, tipicamente, corresponder à duração de um quadro de tempo utilizado no sistema de codificação/decodificação. A sub-banda de frequência pode, tipicamente, corresponder a uma ou várias sub-bandas de frequência vizinhas definidas pelo banco de filtros utilizado no sistema de codificação/decodificação. No caso, a subbanda de frequência corresponde a várias sub-bandas de frequência vizinhas definidas pelo banco de filtros, o que permite ter sub-bandas de frequência não uniformes no processo de decodificação do sinal de áudio, por exemplo, sub-bandas de frequência mais amplas para frequências mais amplas do sinal de áudio. Em um caso de banda larga, onde o sistema de codificação/decodificação de áudio operar em toda a gama de frequências, a sub-banda de frequência do mosaico de tempo/frequência pode corresponder à toda a gama de frequência. O método acima descreve as etapas de codificação para a codificação de uma cena de áudio durante esse mosaico de tempo/frequência. No entanto, deve-se entender que o método pode ser repetido para cada mosaico de tempo/frequência do sistema de codificação/decodificação de áudio. Também deve ser entendido que vários mosaicos de tem- po/frequência podem ser codificados simultaneamente. Tipicamente, os mosaicos de tempo/frequência vizinhos podem sobrepor-se um pouco em tempo e/ou frequência. Por exemplo, uma sobreposição no tempo pode ser equivalente a uma interpolação linear dos elementos da matriz de reconstrução no tempo, ou seja, de um intervalo de tempo ao próximo. Todavia, essa divulgação visa a outras partes do sistema de codificação/decodificação e qualquer sobreposição no tempo e/ou na frequência entre os mosaicos de tempo/frequência vizinhos é deixado para que a pessoa versada na técnica implemente.
[0027] De acordo com modalidades exemplificativas, os M sinais de downmix são dispostos em um primeiro campo do fluxo de bits utilizando um primeiro formato e os elementos de matriz são dispostos em um segundo campo do fluxo de bits utilizando um segundo formato, permitindo, assim, que um decodificador que suporte apenas o primeiro formato decodifique e reproduza os M sinais de downmix no primeiro campo e elimine os elementos de matriz no segundo campo. Isso é vantajoso pelo fato de que os M sinais de downmix no fluxo de bits são reversivamente compatíveis com os decodificadores de legado que não implementam a reconstrução do objeto de áudio. Em outras palavras, os decodificadores de legado podem ainda decodificar e reproduzir os M sinais de downmix do fluxo de bits, por exemplo, pelo mapeamento de cada sinal de downmix para uma saída de canal do decodificador.
[0028] De acordo com modalidades exemplificativas, o método pode compreender ainda a etapa de recebimento de dados de posição correspondendo a cada um dos N objetos de áudio, em que os M sinais de downmix são gerados com base nos dados de posição. Os dados de posição tipicamente associam cada objeto de áudio a uma posição em um espaço tridimensional. A posição do objeto de áudio pode variar com o tempo. Pelo uso dos dados de posição na hora de realizar o downmix dos objetos de áudio, os objetos de áudio serão misturados nos M sinais de downmix de modo que, se os M sinais de downmix, por exemplo, forem listados em um sistema com canais de saída M, os objetos de áudio soarão como se eles fossem posicionados aproximadamente em suas respectivas posições. Isso é vantajoso, por exemplo, se os M sinais de downmix tiverem que ser compatíveis regressivamente com um decodificador de legado.
[0029] De acordo com modalidades exemplificativas, os elementos de matriz da matriz de reconstrução são variantes de tempo e frequência. Em outras palavras, os elementos de matriz da matriz de reconstrução podem ser diferentes para diferentes mosaicos de tem- po/frequência. Desta forma, uma grande flexibilidade na reconstrução dos objetos de áudio é obtida.
[0030] De acordo com modalidades exemplificativas, a cena de áudio compreende ainda uma pluralidade de canais de leito. Isso é comum, por exemplo, em pedidos de áudio de cinema, em que o conteúdo de áudio compreende canais de leito em adição a objetos de áudio. Em casos assim, os M sinais de downmix podem ser gerados com base, pelo menos, nos N objetos de áudio e na pluralidade de canais de leito. Por canal de leito geralmente entende-se um sinal de áudio que corresponde a uma posição fixa no espaço tridimensional. Por exemplo, um canal de leito pode corresponder a um dos canais de saída do sistema de codificação/decodificação. Desse modo, um canal de leito pode ser interpretado como um objeto de áudio com uma posição associada em um espaço tridimensional que é igual à posição de um dos alto-falantes de saída do sistema de codifica- ção/decodificação de áudio. Um canal de leito pode, assim, ser associado a um rótulo que simplesmente indica a posição do alto-falante de saída correspondente.
[0031] Quando a cena de áudio compreende canais de leito, a ma triz de reconstrução pode compreender elementos de matriz que possibilitam a reconstrução dos canais de leito a partir de M sinais de downmix.
[0032] Em algumas situações, a cena de áudio pode compreender um grande número de objetos. A fim de reduzir a complexidade e a quantidade de dados necessários para representar a cena de áudio, a cena de áudio pode ser simplificada através da redução do número de objetos de áudio. Assim, se a cena de áudio compreender originalmente objetos de áudio K, em que K> N, o método pode compreender ainda as etapas de recebimento dos objetos de áudio K e redução dos objetos de áudio K nos N objetos de áudio, agrupando os objetos K em agrupamentos Ne representando cada agrupamento por um objeto de áudio.
[0033] A fim de simplificar a cena, o método pode ainda compre ender a etapa de recebimento de dados de posição correspondentes a cada um dos objetos de áudio K, em que o agrupamento de objetos K em agrupamentos N é baseado em uma distância de posição entre os objetos K conforme fornecidas pelos dados de posição dos objetos de áudio K. Por exemplo, objetos de áudio que estão próximos uns dos outros em termos de posição no espaço tridimensional podem ser agrupados em conjunto.
[0034] Como discutido acima, as modalidades exemplificativas do método são flexíveis em relação ao número de sinais de downmix utilizado. Em particular, o método pode vantajosamente ser usado quando houver mais de um sinail de downmix, isto é, quando M for maior do que dois. Por exemplo, podem ser utilizados cinco ou sete sinais de downmix correspondentes a 5.1 ou 7.1 configurações de áudio convencionais. Isto é vantajoso uma vez que, em contraste com os sistemas do estado da técnica, a complexidade dos princípios de códigos propostos permanece o mesmo, independentemente da quantidade de sinais usados.
[0035] A fim de ainda permitir a reconstrução melhorada dos N ob jetos de áudio, o método pode compreender ainda: a formação de sinais L auxiliares a partir dos N objetos de áudio; a inclusão de elementos de matriz na matriz de reconstrução que permitam a reconstrução, pelo menos, dos N objetos de áudio a partir dos M sinais de downmix e dos L sinais auxiliares; e a inclusão dos L sinais auxiliares no fluxo de bits. Os sinais auxiliares servem, assim, como sinais de auxílio que, por exemplo, podem capturar aspectos dos objetos de áudio que sejam difíceis de reconstruir a partir dos sinais de downmix. Os sinais auxiliares podem ser baseados ainda nos canais de leito. O número de sinais auxiliares pode ser igual a ou maior do que um.
[0036] De acordo com uma modalidade exemplificativa, os sinais auxiliares podem corresponder a objetos de áudio particularmente importantes, como um objeto de áudio representando diálogo. Assim, pelo menos um dos L sinais auxiliares pode ser igual a um dos N objetos de áudio. Isso permite que objetos importantes a serem renderiza- dos a uma maior qualidade do que seriam se fossem reconstruídos apenas a partir dos canais de downmix M. Na prática, alguns dos objetos de áudio podem ter sido priorizados e/ou rotulados pelo criador de conteúdo de áudio como os objetos de áudio que preferencialmente são incluídos individualmente como objetos auxiliares. Além disso, isso faz com que a modificação/o processamento desses objetos antes da renderização menos propenso a artefatos. Como um compromisso entre a taxa de bits e a qualidade, também é possível enviar uma mistura de dois ou mais objetos de áudio como um sinal auxiliar. Em outras palavras, pelo menos um dos L sinais auxiliares pode ser formada como uma combinação de pelo menos dois dos N objetos de áudio.
[0037] De acordo com uma modalidade exemplificativa, os sinais auxiliares representam dimensões de sinal dos objetos de áudio que se perderam no processo de geração dos M sinais de downmix, por exemplo, visto que o número de objetos independentes tipicamente é maior do que o número de canais de downmix ou visto que os dois objetos são associados às posições a que eles são misturados no mesmo sinal de downmix. Um exemplo do último caso é uma situação em que dois objetos só são separados verticalmente, mas compartilham a mesma posição quando projetados no plano horizontal, o que quer dizer que eles serão tipicamente renderizados para o(s) mesmo(s) ca- nal(is) de downmix de uma configuração de alto-falante surround 5.1 padrão, onde todos os alto-falantes se encontram no mesmo plano horizontal. Especificamente, os M sinais de downmix abrangem um hi- perplano em um espaço de sinal. Ao formar combinações lineares dos M sinais de downmix, apenas sinais de áudio que ficam no hiperplano podem ser reconstruídos. A fim de melhorar a reconstrução, podem ser incluídos sinais auxiliares que não ficam no hiperplano, permitindo, assim, ademais, a reconstrução de sinais que não ficam no hiperplano. Em outras palavras, de acordo com modalidades exemplificativas, pelo menos um dos vários sinais que não ficam no hiperplano se expandiu através dos M sinais de downmix. Por exemplo, pelo menos um dentre vários sinais auxiliares podem ser ortogonais ao hiperplano expandido pelos M sinais de downmix.
[0038] De acordo com modalidades exemplificativas, é fornecido um meio legível em computador que compreende instruções de código de computador adaptadas para realizar qualquer método do primeiro aspecto quando executado em um dispositivo com a capacidade de processamento.
[0039] De acordo com modalidades exemplificativas, é fornecido um codificador para codificar um mosaico de tempo/frequência de uma cena de áudio que compreende, pelo menos, N objetos de áudio, compreendendo: a recepção de um componente configurado para receber N objetos de áudio; um downmix que gera um componente configurado para receber N objetos de áudio a partir do componente de recebimento e para gerar os M sinais de downmix com base, pelo menos, nos N objetos de áudio; um componente de análise configurado para gerar uma matriz de reconstrução com elementos de matriz que possibilitam a reconstrução, pelo menos, dos N objetos de áudio a partir dos M sinais de downmix; e um componente de geração de fluxo de bits configurado para receber os M sinais de downmix a partir do componente de geração de downmix e da matriz de reconstrução do componente de análise e para gerar um fluxo de bits que compreende os M sinais de downmix e pelo menos alguns dos elementos de matriz da matriz de reconstrução.
II. Visão geral - Decodificador
[0040] De acordo com um segundo aspecto, modalidades exempli- ficativas propõem métodos de decodificação, dispositivos de decodifi- cação e produtos de programa de computador para decodificação. Os métodos propostos, dispositivos e produtos de programa de computador podem geralmente ter as mesmas características e vantagens.
[0041] As vantagens quanto às características e configurações, conforme apresentadas na visão geral do codificador acima, geralmente podem ser válidas para as características e configurações correspondentes para o decodificador.
[0042] De acordo com modalidades exemplificativas, é fornecido um método para decodificar um mosaico de tempo-frequência de uma cena de áudio que compreende, pelo menos, N objetos de áudio, o método compreendendo as etapas de: recebimento de um fluxo de bits que compreende os M sinais de downmix e pelo menos alguns elementos de matriz de uma matriz de reconstrução; a geração da matriz de reconstrução utilizando os elementos de matriz; e a reconstrução dos N objetos de áudio a partir dos M sinais de downmix utilizando a matriz de reconstrução.
[0043] De acordo com modalidades exemplificativas, os M sinais de downmix são dispostos em um primeiro campo do fluxo de bits utilizando um primeiro formato e os elementos de matriz são dispostos em um segundo campo do fluxo de bits utilizando um segundo formato, permitindo, assim, que um decodificador que suporte apenas o primeiro formato decodifique e reproduza os M sinais de downmix no primeiro campo e elimine os elementos de matriz no segundo campo.
[0044] De acordo com modalidades exemplificativas, os elementos de matriz da matriz de reconstrução são variantes de tempo e frequência.
[0045] De acordo com modalidades exemplificativas, a cena de áudio compreende ainda uma pluralidade de canais de leito, o método compreendendo ainda a reconstrução dos canais de leito a partir dos M sinais de downmix utilizando a matriz de reconstrução.
[0046] De acordo com modalidades exemplificativas, o número M de sinais de downmix é superior a dois.
[0047] De acordo com modalidades exemplificativas, o método compreende ainda: receber L sinais auxiliares sendo formados a partir dos N objetos de áudio; reconstruir os N objetos de áudio a partir dos M sinais de downmix e dos L sinais auxiliares utilizando a matriz de reconstrução, em que a matriz de reconstrução compreende elementos de matriz que possibilitam a reconstrução dos N objetos de áudio, pelo menos, a partir dos M sinais de downmix e dos L sinais auxiliares.
[0048] De acordo com modalidades exemplificativas, pelo menos um dos L sinais auxiliares é igual a um dos N objetos de áudio.
[0049] De acordo com modalidades exemplificativas, pelo menos um dos L sinais auxiliares é uma combinação dos N objetos de áudio.
[0050] De acordo com modalidades exemplificativas, os M sinais de downmix expandem um hiperplano e pelo menos um dentre uma pluralidade de sinais auxiliares não fica no hiperplano expandido pelos M sinais de downmix.
[0051] De acordo com modalidades exemplificativas, pelo menos um dos vários sinais auxiliares que não ficam no hiperplano é ortogonal ao hiperplano expandido pelos M sinais de downmix.
[0052] Como discutido acima, os sistemas de codifica- ção/decodificação de áudio tipicamente operam no domínio da frequência. Assim, os sistemas de codificação/decodificação de áudio realizam transformações de tempo/frequência dos sinais de áudio utilizando bancos de filtros. Podem ser utilizados diferentes tipos de transformações de tempo/frequência. Por exemplo, os M sinais de downmix podem ser representados em relação a um primeiro domínio de frequência e a matriz de reconstrução pode ser representada em relação a um segundo domínio de frequência. A fim de reduzir a carga computacional no decodificador, é vantajoso escolher o primeiro e o segundo domínio de frequência de uma forma inteligente. Por exemplo, o primeiro e o segundo domínio de frequência podem ser escolhidos como o mesmo domínio de frequência, como um domínio de Transformação de Cosina Discreta Modificada (MDCT). Dessa maneira, é possível evitar transformar os M sinais de downmix do primeiro domínio de frequência para o domínio de tempo seguido de uma transformação para o segundo domínio de frequência no decodificador. Alternativamente, pode ser possível escolher o primeiro e o segundo domínio de frequência de maneira tal que a transformação do primeiro domínio de frequência para o segundo domínio de frequência possa ser implementada em conjunto, de modo que nesse meio tempo não seja preciso percorrer todo o caminho através do domínio de tempo.
[0053] O método pode compreender ainda a recepção de dados de posição correspondentes aos N objetos de áudio e a renderização dos N objetos de áudio utilizando os dados de posição para criar pelo menos um canal de saída de áudio. Desse modo, os N objetos de áudio reconstruídos são mapeados nos canais de saída do sistema do codificador/decodificador de áudio com base em sua posição no espaço tridimensional.
[0054] O processamento é realizado de preferência em um domí nio de frequência. A fim de reduzir a carga computacional no descodi- ficador, o domínio de frequência da renderização é escolhido, preferencialmente, de uma maneira inteligente em relação ao domínio de frequência em que os objetos de áudio são reconstruídos. Por exemplo, se a matriz de reconstrução for representada em relação a um segundo domínio de frequência correspondente a um segundo banco de filtros e o processamento for realizado em um terceiro domínio de frequência correspondente a um terceiro banco de filtros, o segundo e o terceiro banco de filtros são escolhidos, preferencialmente, para que pelo menos parcialmente sejam os mesmos bancos de filtros. Por exemplo, o segundo e o terceiro banco de filtros podem compreender um domínio e Filtro de Espelho de Quadratura (QMF). Alternativamente, o segundo e o terceiro domínio da frequência podem compreender um banco de filtros de MDCT. De acordo com uma modalidade exem- plificativa, o terceiro banco de filtros pode ser composto de uma sequência de bancos de filtros, como um banco de filtros de QMF seguido de um banco de filtros Nyquist. Se assim for, pelo menos um dos bancos de filtros da sequência (o primeiro banco de filtros da sequência) é igual ao segundo banco de filtros. Dessa maneira, pode-se dizer que o segundo e o terceiro banco de filtros são pelo menos parcialmente os mesmos bancos de filtros.
[0055] De acordo com modalidades exemplificativas, é fornecido um meio legível em computador que compreende instruções de código de computador adaptadas para realizar qualquer método do segundo aspecto quando executado em um dispositivo com a capacidade de processamento.
[0056] De acordo com modalidades exemplificativas, é fornecido um decodificador para decodificar um mosaico de tempo-frequência de uma cena de áudio que compreende pelo menos N objetos de áudio, compreendendo: um componente de recepção configurado para receber um fluxo de bits que compreende os M sinais de downmix e pelo menos alguns elementos de matriz de uma matriz de reconstrução; um componente gerador de matriz de reconstrução configurado para receber os elementos de matriz do componente de recepção e baseados, portanto, para gerar a matriz de reconstrução; e um componente de reconstrução configurado para receber a matriz de reconstrução do componente de geração da matriz de reconstrução e para reconstruir os N objetos de áudio dos M sinais de downmix utilizando a matriz de reconstrução.
III. Modalidades exemplificativas
[0057] A Fig. 1 ilustra um sistema de codificação/decodificação 100 para codificação/decodificação de uma cena de áudio 102. O sistema de codificação/decodificação 100 compreende um codificador 108, um componente de geração de fluxo de bits 110, um componente de decodificação de fluxo de bits 118, um decodificador 120 e um processador 122.
[0058] A cena de áudio 102 é representada por um ou mais obje tos de áudio 106a, isto é, sinais de áudio como os N objetos de áudio. A cena de áudio 102 pode compreender ainda um ou mais canais de leito 106b, isto é, sinais que correspondem diretamente a um dos canais de saída do renderizador 122. A cena de áudio 102 é representada ainda por metadados que compreender informações de posição 104. A informação de posição 104 é usado, por exemplo, pelo renderi- zador 122 na hora de renderizar a cena de áudio 102. As informações de posição 104 podem associar o objeto de áudio 106a e possivelmente também os canais de leito 106b com uma posição espacial em um espaço tridimensional como uma função de tempo. Os metadados podem compreender ainda outro tipo de dados que seja útil para renderi- zar a cena de áudio 102.
[0059] A parte de codificação do sistema 100 compreende o codifi cador 108 e o fluxo de bits que gera o componente 110. O codificador 108 recebe o os objetos de áudio 106a, os canais de leito 106b, se houver, e os metadados que compreendem as informações de posição 104. Com base nisso, o codificador 108 gera um ou mais sinais de downmix 112, como os M sinais de downmix. A título de exemplo, os sinais de downmix 112 podem corresponder aos canais 7; C; ís de um sistema de áudio 5.1. ("L" representa esquerda, "R" representa direita, "C" representa centro", "f" representa a frente, "s" representa surround e "LFE" representa efeitos de baixa frequência).
[0060] O codificador 108 gera mais informações secundárias. A informação secundária compreende uma matriz de reconstrução. A matriz de reconstrução compreende elementos de matriz 114 que permitem a reconstrução dos objetos de áudio 106a, pelo menos, a partir dos sinais de downmix 112. A matriz de reconstrução pode permitir ainda a reconstrução dos canais de leito 106b.
[0061] O codificador 108 transmite os M sinais de downmix 112 e pelo menos alguns dos elementos de matriz 114 para o componente de geração de fluxo de bits 110. O componente de geração de fluxo de bits 110 gera um fluxo de bits 116 que compreende os M sinais de downmix 112 e pelo menos alguns dos elementos de matriz 114 através da realização da quantificação e da codificação. O componente gerador de fluxo de bits 110 recebe os metadados que compreender informações de posição 104 para inclusão no fluxo de bits 116.
[0062] A parte de decodificação do sistema compreende o compo nente de decodificação de fluxo de bits 118 e o decodificador 120. O componente de fluxo de bits de decodificação 118 recebe o fluxo de bits 116 e realiza a decodificação e a desquantificação para extrair os M sinais de downmix 112 e as informações secundárias que compreendem pelo menos alguns elementos de matriz 114 da matriz de reconstrução. Os M sinais de downmix 112 e os elementos de matriz 114 são então enviados para o decodificador 120, que se baseou nisso para gerar uma reconstrução 106' dos N objetos de áudio 106a e também, possivelmente, os canais de leito 106b. A reconstrução 106 'dos N objetos de áudio é, portanto, uma aproximação dos N objetos de áudio 106a e, possivelmente, também dos canais de leito 106b.
[0063] A título de exemplo, se os sinais de downmix 112 corresponderem aos canais ;£f £f cf Ld Rd de uma configuração 5,1, o decodificador 120 pode reconstruir os objetos 106' utilizando apenas os canais de banda completa 5?/ Cf , d 5?=;], ignorando o LFE. Isso também se aplica a outras configurações de canal. O canal de LFE do downmix 112 pode ser enviado (basicamente inalterado) para o rende- rizador 122.
[0064] Os objetos de áudio reconstruídos 106', juntamente com as informações de posição 104, são então enviadas para o renderizador 122. Com base nos objetos de áudio reconstruídos 106' e nas informações de posição 104, o renderizador 122 renderiza um sinal de saída 124 com um formato que é compatível com a reprodução em uma configuração de alto-falante ou fonte de ouvido desejada. Formados típicos de saída são uma configuração surround 5.1 padrão (3 alto- falantes frontais, 2 alto-falantes altos surround e 1 alto-falante LFE de efeitos de baixa frequência) ou uma configuração de 7.1 + 4(3 alto- falantes frontais, 4 alto-falantes altos surround, 1 alto-falante de LFE e 4 alto-falantes elevados).
[0065] Em algumas modalidades, a cena de áudio original pode compreender uma ampla quantidade de objetos de áudio. O processamento de uma ampla quantidade de objetos de áudio inclui o ônus de uma elevada complexidade computacional. Ademais, a quantidade de informações secundárias (as informações de posição 104 e os elementos de matriz de reconstrução 114) a serem incorporadas ao fluxo de bits 116 depende da quantidade de objetos de áudio. Tipicamente, a quantidade de informações cresce linearmente com o número de objetos de áudio. Assim, a fim de poupar a complexidade computacional e/ou para reduzir a taxa de bits necessária para codificar a cena de áudio, pode ser vantajoso reduzir o número de objetos de áudio antes da codificação. Para esse fim, o sistema do codificador/decodificador de áudio 100 pode compreender ainda um módulo de simplificação de cena (não exibido) disposto à montante do codificador 108. O módulo de simplificação de cena pega os objetos do áudio original e possivel-mente também os canais de leito como entrada e realiza o processa- mento a fim de enviar os objetos de áudio 106a. O módulo de simplificação de cena reduz o número, digamos K, dos objetos do áudio original a um número N mais viável de objetos de áudio 106a através da realização de agrupamento. Mais precisamente, o módulo de simplificação de cena organiza os objetos de áudio K original e possivelmente também os canais de leito em agrupamentos N. Normalmente, os agrupamentos são definidos com base na proximidade espacial na cena de áudio dos canais de leito/objetos de áudio originais K. A fim de determinar a proximidade espacial, o módulo de simplificação de cena pode pegar informações dos objetos do áudio original/canais de leito como entrada. Quando o módulo de simplificação de cena formou os agrupamentos N, ele seguiu para representar cada agrupamento por um objeto de áudio. Por exemplo, um objeto de áudio que representa um agrupamento pode ser formado como uma soma dos objetos de áudio/canais de leito que formam parte do agrupamento. Mais especificamente, o conteúdo de áudio dos objetos de áudio/canais de leito podem ser adicionados para gerar o conteúdo de áudio do objeto de áudio representativo. Além disso, as posições dos objetos de áu- dio/canais de leito no agrupamento podem ser calculadas para oferecer uma posição do objeto de áudio representativo. O módulo de simplificação de cena inclui as posições dos objetos de áudio representativos nos dados de posição 104. Além disso, o módulo de simplificação de cena envia os objetos de áudio representativos que constituem os N objetos de áudio 106a da Fig. 1.
[0066] Os M sinais de downmix 112 podem ser dispostos em um primeiro campo do fluxo de bits 116 utilizando um primeiro formato. Os elementos de matriz 114 podem ser dispostos em um segundo campo do fluxo de bits 116 utilizando um segundo formato. Desse modo, um decodificador que suporta apenas o primeiro formato é capaz de decodificar e reproduzir os M sinais de downmix 112 no primeiro campo e eliminar os elementos de matriz 114 no segundo campo.
[0067] O sistema do codificador/decodificador de áudio 100 da Fig. 1 suporta tanto o primeiro quanto o segundo formato. Mais precisamente, o decodificador 120 está configurado para interpretar o primeiro e o segundo formato, o que significa que ele é capaz de reconstruir os objetos 106' com base nos M sinais de downmix 112 e os elementos de matriz 114.
[0068] A Fig. 2 ilustra um sistema de codificador/decodificador de áudio 200. A parte da codificação 108, 110 do sistema 200 corresponde ao da Fig. 1. No entanto, a parte da descodificação do sistema co- dificador/decodificador difere daquele do sistema codifica- dor/decodificador 100 da Fig. 1. O sistema codificador/decodificador de áudio 200 compreende um decodificador de legado 230 que suporta o primeiro formato, mas não suporta o segundo formato. Desse modo, o decodificador de legado 230 do sistema de codificador/decodificador de áudio 200 não é capaz de reconstruir os objetos de áudio/canais de leito 106a-b. Não obstante, visto que o decodificador 230 suporta o primeiro formato, ele pode ainda decodificar os M sinais de downmix 112 para gerar uma saída 224 que seja uma representação com base em canal, como a representação 5.1, compatível com a reprodução direta em uma configuração de alto-falante multicanal correspondente. Essa propriedade dos sinais de downmix é denominada compatibilidade de regressão, o que significa que um decodificador de legado que não suporta o segundo formato, isto é, é incapaz de interpretar as informações secundárias que compreendem os elementos de matriz 114, podem ainda assim decodificar e reproduzir os M sinais de downmix 112.
[0069] A operação pelo lado do codificador do sistema de codifica- ção/descodificação de áudio 100 será descrita agora em mais detalhes com referência à Fig. 3 e ao fluxograma da Fig. 4.
[0070] A Fig. 4 ilustra o codificador 108 e o componente gerador de fluxo de bits 110 da Fig. 1 com mais detalhes. O codificador 108 possui um componente de recepção (não mostrado), um componente de geração de downmix 318 e um componente de análise 328.
[0071] Na etapa E02, o componente de recepção do codificador 108 recebe os N objetos de áudio 106a e os canais de leito 106b, se houver. O codificador 108 pode receber ainda os dados de posição 104. Utilizando-se a notação de vetor, os N objetos de áudio podem ser denotados por um vetor 5 = si 52 s.v]7 e os canais de leito por um vetors. Os N objetos de áudio e os canais de leito podem ser, juntos, representados por um vetor .2 = 'β~ s7]-.
[0072] Na etapa E04, o componente de geração de downmix 318 gera M sinais de downmix 112 a partir dos N objetos de áudio 106a e dos canais de leito 106b, se houver. Através do uso da notação de vetor, os M sinais de downmix podem ser representados por um vetor c = 3< 3 2 compreendendo os M sinais de downmix. Em ge ral, um downmix de uma pluralidade de sinais é uma combinação dos sinais, como uma combinação linear dos sinais. A título de exemplo, os M sinais de downmix podem corresponder a uma configuração de alto-falante particular, como a configuração dos alto-falantes 3 5 35 L 5 25 35 233] em uma configuração de alto-falante 5.1.
[0073] O componente gerador de downmix 318 poderá utilizar as informações de posição 104 quando gerar os M sinais de downmix, de modo que os objetos serão combinados em diferentes sinais de downmix com base em sua posição em um espaço tridimensional. Isso é particularmente relevante quando os próprios M sinais de downmix correspondem a uma configuração de alto-falante específica, como no exemplo acima. A título de exemplo, o componente de geração de downmix 318 pode gerar uma matriz de apresentação Fc (correspondente a uma matriz de apresentação aplicada no renderizador 122 da Fig. 1) com base nas informações de posição e usá-la para gerar o downmix de acordo com
[0074] Os N objetos de áudio 106a e os canais de leito 106b, se houver, também são saída para o componente de análise 328. O componente de análise 328 opera tipicamente em mosaicos individuais de tempo/frequência dos sinais de áudio de saída 106a-b. Para esse fim, os N objetos de áudio 106a e os canais de leito 106b podem ser alimentados através de um banco de filtros 338, por exemplo, um banco de QMF, o qual realiza uma transformação de tempo para frequência dos sinais de áudio de saída 106a-b. Em particular, o banco de filtros 338 é associado a uma pluralidade de sub-bandas de frequência. A solução de frequência de um mosaico de tempo/frequência corresponde a uma ou mais dessas sub-bandas de frequência. A solução de frequência dos mosaicos de tempo/frequência pode ser não uniforme, isto é, pode variar com a frequência. Por exemplo, uma resolução de frequência mais baixa pode ser usada para altas frequências, o que significa que um mosaico de tempo/frequência na gama de altas frequências pode corresponder a várias sub-bandas de frequência, como definido pelo banco de filtros 338.
[0075] Na etapa E06, o componente de análise 328 gera uma ma triz de reconstrução, aqui denotada por ??_. A matriz de reconstrução gerada é composta por uma pluralidade de elementos de matriz. A matriz de reconstrução í _ é tal que permite a reconstrução (uma aproximação) dos N objetos de áudio 106a e, possivelmente, também os canais de leito 106b dos M sinais de downmix 112 no decodificador.
[0076] O componente de análise 328 pode assumir diferentes abordagens para gerar a matriz de reconstrução. Por exemplo, pode ser usada uma abordagem preditiva Erro Quadrático Médio Mínimo (MMSE) que tem os N objetos de áudio/os canais de leito 106a-b como entrada, bem como os M sinais de downmix 112 como entrada. Isso pode ser descrito como uma abordagem que pretende encontrar a matriz de reconstrução que minimiza o erro quadrático médio dos objetos de áudio/canais de leito reconstruídos. Particularmente, a abordagem reconstrói os N objetos de áudio/canais de leito utilizando uma matriz de reconstrução candidata e os compara aos objetos de áudio de entrada/canais de leito 106a-b em termos de erro quadrático médio. A matriz de reconstrução candidata que minimiza o erro quadrático médio é selecionada como a matriz de reconstrução e seus elementos de matriz 114 são uma saída do componente de análise 328.
[0077] A abordagem de MMSE requer estimativas de correlação e covariância dos N objetos de áudio/dos canais de leito 106a-b e dos M sinais de downmix 112. De acordo com a abordagem acima, essas correlações e covariâncias são medidas com base nos N objetos de áudio/canais de leito 106a-b e nos M sinais de downmix 112. Em alternativa, baseada em modelos, a abordagem do componente de análise 328 tem os dados de posição 104 como entrada em vez dos M sinais de downmix 112. Ao fazer certos pressupostos, por exemplo, partindo do princípio de que os N objetos de áudio são mutuamente não correlacionados e usar esse pressuposto em combinação com as normas de downmix aplicadas ao componente de geração de downmix 318, o componente de análise 328 pode computar as relações e covariâncias necessárias para realizar o método de MMSE descrito acima.
[0078] Os elementos da matriz de reconstrução 114 e os M sinais de downmix 112 são então entrada para o componente de geração de fluxo de bits 110. Na etapa E08, o componente de geração de fluxo de bits 110 quantifica e codifica os M sinais de downmix 112 e pelo menos alguns dos elementos de matriz 114 da matriz de reconstrução e os organiza no fluxo de bits 116. Em particular, o fluxo de bits que gera o componente 110 pode organizar os M sinais de downmix 112 em um primeiro campo do fluxo de bits 116 utilizando um primeiro formato. Além disso, o componente de geração de fluxo de bits 110 pode organizar os elementos de matriz 114 em um segundo campo do fluxo de bits 116 utilizando um segundo formato. Como descrito anteriormente com referência à Fig. 2, isso permite que um decodificador de legado que suporta apenas o primeiro formato decodifique e reproduza os M sinais de downmix 112 e elimine os elementos de matriz 114 no segundo campo.
[0079] A Fig. 5 ilustra uma modalidade alternativa do codificador 108. Em comparação com o codificador mostrado na Fig. 3, o codificador 508 da Fig. 5 permite ainda um ou mais sinais auxiliares a serem incluídos no fluxo de bits 116.
[0080] Para esse fim, o codificador 508 compreende o componen te de geração de sinais auxiliares 548. O componente de geração de sinais auxiliares 548 recebe os objetos de áudio/canais de leito 106a-b e, com base neles, um ou mais sinais auxiliares 512 são gerados. O componente de geração de sinais auxiliares 548 pode, por exemplo, gerar os sinais auxiliares 512 como uma combinação de objetos de áudio/canais de leito 106a-b. Ao denotar os sinais auxiliares pelo vetor L = L2 L£] , os sinais auxiliares podem ser gerados como onde ;? é uma matriz que pode ser uma variante de tempo e frequência. Isso inclui o caso em que os sinais auxiliares são iguais a um ou mais objetos de áudio e em que os sinais auxiliares são combinações lineares dos objetos de áudio. Por exemplo, o sinal auxiliar pode representar ser um objeto particularmente importante, como um diálogo.
[0081] A função dos sinais auxiliares 512 é melhorar a reconstru ção dos objetos de áudio/canais de leito 106a-b no decodificador. Mais precisamente, pelo lado do decodificador, os objetos de áudio/ canais de leito 106a-b podem ser reconstruídos com base nos M sinais de downmix 112, bem como os L sinais auxiliares 512. A matriz de re construção, portanto, será composta por elementos de matriz 114 que permitem a reconstrução dos objetos de áudio/canais de leito a partir dos M sinais de downmix 112, bem como dos L sinais auxiliares.
[0082] Os L sinais auxiliares 512 podem, assim, ser entrada para o componente de análise 328, de modo que sejam levados em conta na hora de gerar a matriz de reconstrução. O componente de análise 328 também pode enviar um sinal de controle ao componente de geração dos sinais auxiliares 548. Por exemplo, o componente de análise 328 pode controlar quais objetos de áudio/canais de leito incluir nos sinais auxiliares e como eles serão incluídos. Em particular, o componente de análise 328 pode controlar a escolha do ^-matriz. O controle pode, por exemplo, ser baseado na abordagem de MMSE descrita acima, de modo que os sinais auxiliares sejam selecionados de modo tal que os objetos de áudio reconstruídos/canais de leito estejam o mais perto possível dos objetos de áudio/canais de leito 106a-b.
[0083] A operação pelo lado do codificador do sistema de codifica- ção/decodificação de áudio 100 será descrita agora em mais detalhes com referência à Fig. 6 e ao fluxograma da Fig. 7.
[0084] A Fig. 6 ilustra o componente de fluxo de bits 118 e o deco- dificador 120 da Fig. 1 em mais detalhes. O decodificador 120 compreende um componente de geração de matriz de reconstrução 622 e um componente de reconstrução 624.
[0085] Na etapa D02, o componente de decodificação de fluxo de bits 118 recebe o fluxo de bits 116. O componente de decodificação de fluxo de bits 118 decodifica e desquantifica as informações do fluxo de bits 116 a fim de extrair os M sinais de downmix 112 e pelo menos alguns elementos de matriz 114 da matriz de reconstrução.
[0086] O componente gerador de matriz de reconstrução 622 re cebe os elementos de matriz 114 e prossegue para gerar uma matriz de reconstrução 614 na etapa D04. O componente de geração de ma- triz de reconstrução 622 gera a matriz de reconstrução 614 dispondo os elementos de matriz 114 nas posições apropriadas na matriz. Se nem todos os elementos de matriz da matriz de reconstrução forem recebidos, o componente de geração de matriz de reconstrução 622 pode, por exemplo, inserir zeros em vez dos elementos ausentes.
[0087] A matriz de reconstrução 614 e os M sinais de downmix são, em seguida, enviados ao componente de reconstrução 624. O componente de reconstrução 624, em seguida, na etapa D06, reconstrói os N objetos de áudio e, se for o caso, os canais de leito. Em outras palavras, o componente de reconstrução 624 gera uma aproximação 106' dos N objetos de áudio/canais de leito 106a-b.
[0088] A título de exemplo, os M sinais de downmix podem corres ponder a uma configuração de alto-falante particular, como a configuração dos alto-falantes If f?f Cf Le RJ; em uma configuração de alto-falante 5.1. Se assim for, o componente de reconstrução 624 pode basear a reconstrução dos objetos 106 'apenas nos sinais de downmix correspondentes aos canais de banda completa da configuração do alto-falante. Como explicado acima, o sinal limitado em banda (o sinal LFE de baixa frequência) pode ser enviado basicamente inalterado para o renderizador.
[0089] O componente de reconstrução 624 tipicamente opera em um domínio de frequência. Mais precisamente, o componente de reconstrução 624 opera em mosaicos individuais de tempo/frequência dos sinais de entrada. Portanto, os M sinais de downmix 112 são tipicamente submetidos a uma transformação de tempo para frequência 623 antes de serem enviados ao componente de reconstrução 624. O tempo necessário para a transformação de frequência 623 tipicamente é igual ou semelhante à transformação 338 aplicada ao lado do codificador. Por exemplo, o tempo para a transformação de frequência 623 pode ser uma transformação de QMF.
[0090] A fim de reconstruir os objetos de áudio/canais de leito 106', o componente de reconstrução 624 aplica uma operação matri- zadora. Mais especificamente, utilizando a notação previamente introduzida, o componente de reconstrução 624 pode gerar uma aproximação ' do objeto de áudio/dos canais de leito como ' = RA - R. A matriz de reconstrução í _ pode variar como uma fun ção de tempo e frequência. Assim, a matriz de reconstrução pode variar entre os diferentes mosaicos de tempo/frequência processados pelo componente de reconstrução 624.
[0091] Os objetos de áudio reconstruídos/canais de leito 106' são retransformados tipicamente para o domínio de tempo 625 antes de serem enviados do decodificador 120.
[0092] A Fig. 8 ilustra a situação quando o fluxo de bits 116 com preende adicionalmente sinais auxiliares. Em comparação com a modalidade da Fig. 7, o componente de decodificação defluxo de bits 118 agora, adicionalmente, decodifica um ou mais sinais auxiliares 512 do fluxo de bits 116. Os sinais auxiliares 512 são de entrada para o componente de reconstrução 624 onde eles são incluídos na reconstrução dos objetos de áudio/canais de leito. Mais particularmente, o componente de reconstrução 624 gera os objetos de áudio/canais de leito aplicando a operação de matriz .-/= í _ - 7;7 •.’"]".
[0093] A Fig. 9 ilustra as diferentes transformações de tem- po/frequência usadas ao lado do decodificador no sistema de codifica- ção/decodificação de áudio 100 da Fig. 1. O componente de decodifi- cação de fluxo de bits 118 recebe o fluxo de bits 116. Um componente de decodificação e desquantificação 918 decodifica e desquantifica o fluxo de bits 116 a fim de extrair informações de posição 104, os M sinais de downmix 112 e os elementos de matriz 114 de uma matriz de reconstrução.
[0094] Nesta fase, os M sinais de downmix 112 são tipicamente representados em um primeiro domínio de frequência, correspondente a um primeiro conjunto de bancos de filtros de tempo/frequência denotado aqui por T/FC e F/TC para transformação do domínio de tempo para o primeiro domínio de frequência e a partir do primeiro domínio de frequência para o domínio de tempo, respectivamente. Tipicamente, os bancos de filtros correspondentes ao primeiro domínio de frequência pode implementar uma transformação de janela de sobreposi-ção, como um MDCT e um MDCT inverso. O componente de decodifi- cação de fluxo de bits 118 pode compreender um componente de transformação 901 que transforma os M sinais de downmix 112 para o domínio de tempo pelo uso do banco de filtros F/TC.
[0095] O decodificador 120, e em particular o componente de re construção 624, tipicamente processa sinais em relação a um segundo domínio de frequência. O segundo domínio de frequência corresponde a um segundo conjunto de bancos de filtros de tempo/frequência denotado aqui por T/FU e F/TU para a transformação do domínio de tempo para o segundo domínio de frequência e do segundo domínio de frequência para o domínio do tempo, respectivamente. O decodificador 120 pode, por conseguinte, compreender um componente 903 que transforma os M sinais de downmix 112, que são representados no domínio de tempo no segundo domínio de frequência pelo uso do banco de filtros T/FU. Quando o componente de reconstrução 624 reconstruiu os objetos 106' com base nos M sinais de downmix pela realização do processamento no segundo domínio de frequência, um componente de transformação 905 pode transformar os objetos reconstruídos 106' de volta ao domínio de tempo pelo uso do banco de filtros F/TU.
[0096] O renderizador 122 processa tipicamente sinais em relação a um terceiro domínio de frequência. O terceiro domínio de frequência corresponde a um terceiro conjunto de bancos de filtros de tem- po/frequência aqui denotado por T/FR e F/TR para a transformação do domínio de tempo ao terceiro domínio de frequência e do terceiro domínio de frequência ao domínio de tempo, respectivamente. O renderi- zador 122 pode, por conseguinte, compreender um componente 907 que transforma os objetos de áudio reconstruído 106' do domínio de tempo no terceiro domínio de frequência utilizando o banco de filtros T/FR. Uma vez que o renderizador 122, por meio de um componente de renderização 922, renderizou os canais de saída 124, os canais de saída podem ser transformados no domínio de tempo por um componente de transformação 909 pelo uso do banco de filtros F/TR.
[0097] Como fica evidente a partir da descrição acima, o lado do decodificador do sistema de codificação/decodificação de áudio inclui uma série de etapas de transformação de tempo/frequência. No entanto, se os domínios da primeira, segunda e terceira frequência forem selecionados de determinadas formas, algumas das etapas de transformação de tempo/frequência se tornam redundantes.
[0098] Por exemplo, alguns do primeiro, o segundo e o terceiro domínios de frequência podem ser escolhidos para serem os mesmos ou podem ser implementados conjuntamente para ir diretamente de um domínio de frequência para outro sem percorrer todo o caminho até o tempo-domínio nesse meio-tempo. Um exemplo deste último caso é o caso em que a única diferença entre o segundo e o terceiro domínio de frequência é que o componente de transformação 907 no renderizador 122 utiliza um banco de filtros Nyquist para uma resolução de frequência aumentada em baixas frequências em adição a um banco de filtros QMF que é comum aos componentes de transformação 905 e 907. Em tal caso, os componentes de transformação 905 e 907 podem ser implementados conjuntamente com a forma de um banco de filtros Nyquist, poupando, assim, a complexidade computacional.
[0099] Em outro exemplo, o segundo e o terceiro domínio de fre quência são os mesmos. Por exemplo, o segundo e o terceiro domínio de frequência podem ser, ambos, um domínio de frequência de QMF. Em tal caso, os componentes de transformação 905 e 907 são redundantes e podem ser removidos, poupando assim a complexidade computacional.
[00100] De acordo com outro exemplo, o primeiro e o segundo domínios de frequência podem ser o mesmo. Por exemplo, os primeiro e segundo domínios de frequência podem ser, ambos, um domínio de MDCT. Em tal caso, o primeiro e o segundo componentes de transformação 901 e 903 podem ser removidos, poupando, assim, a complexidade computacional. Equivalentes, extensões, alternativas e variados
[00101] Outras modalidades da presente divulgação ficarão evidentes a alguém versado na técnica após estudar a descrição acima. Apesar de a presente descrição e as figuras divulgarem modalidades e exemplos, a divulgação não é limitada a esses exemplos específicos. Numerosas modificações e variações podem ser feitas sem se afastar do escopo da presente invenção, que é definida pelas concretizações anexas. Quaisquer sinais de referência que aparecem nas concretizações não devem ser entendidos como uma limitação de seu escopo.
[00102] Além disso, variações às modalidades divulgadas podem ser compreendidas e efetuadas por alguém versado na técnica ao praticar a divulgação, a partir de um estudo das figuras, da divulgação e das concretizações em anexo. Nas concretizações, a palavra "compreendendo" não exclui outros elementos ou etapas, e o artigo indefinido "um" ou "uma" não exclui uma pluralidade. O simples fato de que certas medidas serem mencionadas em concretizações dependentes mutuamente diferentes não sugere que uma combinação dessas medidas não posa ser usadas vantajosamente.
[00103] Os sistemas e métodos divulgados acima podem ser im- plementados como software, firmware, hardware ou uma combinação destes. Em uma implementação de hardware, a divisão de tarefas entre unidades funcionais referidas na descrição acima não corresponde necessariamente à divisão em unidades físicas; ao contrário, um componente físico pode ter várias funcionalidades e uma tarefa pode ser levada a cabo por vários componentes físicos em cooperação. Certos componentes ou todos os componentes podem ser implementados como software executado por um processador de sinal digital ou um microprocessador ou ser implementados como hardware ou como um circuito integrado específico da aplicação. Esse tipo de software pode ser distribuído em meios legíveis por computador, que podem incluir meios de armazenamento de computador (ou mídia não transitória) e meios de comunicação (ou mídia transitória). Como bem sabe alguém versado na técnica, o termo mídia de armazenamento em computador inclui mídia volátil e não volátil e mídia removível e não removível implementadas em qualquer método ou tecnologia para armazenamento de informações como instruções legíveis de computador, estruturas de dados, módulos de programa ou outros dados. Mídias de armazena-mento de computador incluem, mas não estão limitados a, RAM, ROM, EEPROM, memória flash ou outras tecnologias de memória, CD-ROM, discos versáteis digitais (DVD) ou outro armazenamento ótico, cassetes magnéticas, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio que possa ser usado para armazenar as informações desejadas e que possam ser acessados por um computador. Ademais, é bem sabido por alguém versado na técnica que as mídias de comunicação costumam envolver instruções legíveis em computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado, como uma onda transmissora ou outro mecanismo de transporte e inclui qualquer mídia de distribuição de informações.

Claims (20)

1. Método para codificar um mosaico de tempo/frequência de uma cena de áudio (102) que compreende pelo menos N objetos de áudio (106a), o método caracterizado pelo fato de que compreende: receber (E02) os N objetos de áudio (106a); gerar (E04) M sinais de downmix (112) com base pelo menos nos N objetos de áudio (106a); gerar (E06) uma matriz de reconstrução (R1) com elementos de matriz (114) para reconstrução dos pelo menos N objetos de áudio (106a) a partir dos M sinais de downmix (112), em que aproximações dos pelo menos N objetos de áudio (106a) são passiveis de obtenção como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (R1) como coeficientes nas combinações lineares; e gerar (E08) um fluxo de bits (116) compreendendo M sinais de downmix (112) e pelo menos alguns dos elementos de matriz (114) de uma matriz de reconstrução (R1).
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os M sinais de downmix (112) são dispostos em um primeiro campo do fluxo de bits (116) usando um primeiro formato, e os elementos de matriz (114) são dispostos em um segundo campo do fluxo de bits (116) usando um segundo formato, permitindo assim um decodificador (120) que apenas suporte o primeiro formato a decodificar e reproduzir os M sinais de downmix (112) no primeiro campo e a eliminar os elementos de matriz (114) no segundo campo.
3. Método, de acordo com reivindicação 2, caracterizado pelo fato de que ainda compreende a etapa de receber dados de posição (104) correspondendo a cada um dos N objetos de áudio (106a), em que os M sinais de downmix (112) são gerados com base nos da- dos de posição (104).
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a cena de áudio (102) ainda compreende uma pluralidade de canais de leito (106b), em que os M sinais de downmix (112) são gerados com base nos pelo menos N objetos de áudio (106a) e na pluralidade de canais de leito (106b).
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a matriz de reconstrução (R1) compreende elementos de matriz (114) para reconstrução dos canais de leito (106b) a partir dos M sinais de downmix (112), em que aproximações dos N objetos de áudio (106a) e dos canais de leito (106b) são passíveis de obtenção como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (R1) como coeficientes nas combinações lineares.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: formar L sinais auxiliares (512) a partir dos N objetos de áudio (106a); incluir elementos de matriz (114) na matriz de reconstrução (R1) para reconstrução dos pelo menos N objetos de áudio (106a) a partir dos M sinais de downmix (112) e dos L sinais auxiliares (512), em que aproximações dos pelo menos N objetos de áudio (106a) são passíveis de obtenção como combinações lineares dos M sinais de downmix (112) e dos L sinais auxiliares (512) com os elementos de matriz (114) da matriz de reconstrução (R1) como coeficientes nas combinações lineares; e incluir os L sinais auxiliares (512) no fluxo de bits (116).
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os M sinais de downmix (112) expandem um hiper- plano, e em que pelo menos um dentre a pluralidade de sinais auxilia- res não fica no hiperplano expandido pelos M sinais de downmix (112).
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o pelo menos um dentre a pluralidade de sinais auxiliares é ortogonal ao hiperplano expandido pelos M sinais de downmix (112).
9. Meio legível em computador não transitório, caracteriza-do pelo fato de que compreende o método conforme definido na reivindicação 1.
10. Codificador (108) que codifica um mosaico de tem- po/frequência de uma cena de áudio (102) que compreende pelo menos N objetos de áudio (106a), caracterizado pelo fato de que compreende pelo menos um dentre um hardware e um processador em associação com uma memória configurada para implementar: um receptor que recebe os N objetos de áudio (106a); um gerador de downmix (310) que recebe os N objetos de áudio (106a) do receptor e gera M sinais de downmix (112) com base pelo menos nos N objetos de áudio (106a); um analisador (328) que gera uma matriz de reconstrução (R1) com elementos de matriz (114) para reconstrução dos pelo menos N objetos de áudio (106a) a partir dos M sinais de downmix (112), em que aproximações dos pelo menos N objetos de áudio (106a) são passiveis de obtenção como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (R1) como coeficientes nas combinações lineares; e um gerador de fluxo de bits (110) que recebe os M sinais de downmix (112) do gerador de downmix (310) e a matriz de reconstrução (R1) do analisador (328) e gera um fluxo de bits (116) compreendendo os M sinais de downmix (112) e pelo menos alguns dos elementos de matriz (114) da matriz de reconstrução (R1).
11. Método para decodificar um mosaico de tempo- frequência de uma cena de áudio (102) que compreende pelo menos N objetos de áudio (106a), o método caracterizado pelo fato que compreende as etapas de: receber (D02) um fluxo de bits (116) compreendendo M sinais de downmix (112) e pelo menos alguns elementos de matriz (114) de uma matriz de reconstrução (614); gerar (D04) a matriz de reconstrução (614) usando elementos de matriz (114); e reconstruir (D06) os N objetos de áudio (106a) dos M sinais de downmix (112) usando a matriz de reconstrução (614), em que aproximações dos pelo menos N objetos de áudio (106a) são obtidas como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (614) como coeficientes nas combinações lineares.
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que os M sinais de downmix (112) são dispostos em um primeiro campo do fluxo de bits (116) usando um primeiro formato, e os elementos de matriz (114) são dispostos em um segundo campo do fluxo de bits (116) usando um segundo formato, permitindo assim um decodificador (120) que apenas suporte o primeiro formato a decodificar e reproduzir os M sinais de downmix (112) no primeiro campo e a eliminar os elementos de matriz (114) no segundo campo.
13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a cena de áudio (102) ainda compreende uma pluralidade de canais de leito (106b), o método ainda compreendendo reconstruir os canais de leito (106b) a partir dos M sinais de downmix (112) usando a matriz de reconstrução (614), em que aproximações dos pelo menos N objetos de áudio (106a) e dos ca- nais de leito (106b) são obtidas como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (614) como coeficientes nas combinações lineares.
14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que ainda compreende: receber L sinais auxiliares (512) sendo formados a partir dos N objetos de áudio (106a); reconstruir os N objetos de áudio (106a) a partir dos M sinais de downmix (112) e dos L sinais auxiliares (512) usando a matriz de reconstrução (614), em que aproximações dos pelo menos N objetos de áudio (106a) são obtidas como combinações lineares dos M sinais de downmix (112) e dos L sinais auxiliares (512) com os elementos de matriz (114) da matriz de reconstrução (614) como coeficientes nas combinações lineares.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que os M sinais de downmix (112) expandem um hiperplano, e em que pelo menos um dentre a pluralidade de sinais auxiliares não fica no hiperplano expandido pelos M sinais de downmix (112).
16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que o pelo menos um dentre a pluralidade de sinais auxiliares que não ficam no hiperplano é ortogonal ao hiperplano expandido pelos M sinais de downmix (112).
17. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que ainda compreende: receber dados de posição (104) correspondendo aos N objetos de áudio (106a), e renderizar os N objetos de áudio (106a) usando os dados de posição (104) para criar pelo menos um canal de saída de áudio.
18. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que a matriz de reconstrução (614) é representada em relação a um segundo domínio de frequência correspondendo a um segundo banco de filtros, e a renderização é realizada em um terceiro domínio de frequência correspondendo a um terceiro banco de filtros, em que o segundo banco de filtros e o terceiro banco de filtros são pelo menos parcialmente o mesmo banco de filtros.
19. Meio legível em computador não transitório caracterizado pelo fato de que compreende o método conforme definido na reivindicação 11.
20. Decodificador (120) que decodifica um mosaico de tempo-frequência de uma cena de áudio (102) que compreende pelo menos N objetos de áudio (106a) caracterizado pelo fato de que compreende pelo menos um dentre um hardware e um processador em associação com uma memória configurada para implementar: um receptor que recebe um fluxo de bits (116) compreendendo M sinais de downmix (112) e pelo menos alguns elementos de matriz (114) de uma matriz de reconstrução (614); um gerador de matriz de reconstrução (622) que recebe os elementos de matriz (114) do receptor e com nos mesmos gera a matriz de reconstrução (614); e um reconstrutor (624) que recebe a matriz de reconstrução (614) a partir do gerador de matriz de reconstrução (622) e reconstrui os N objetos de áudio (106a) a partir dos M sinais de downmix (112) usando a matriz de reconstrução (614), em que aproximações dos pelo menos N objetos de áudio (106a) são obtidas como combinações lineares dos pelo menos M sinais de downmix (112) com os elementos de matriz (114) da matriz de reconstrução (614) como coeficientes nas combinações lineares.
BR112015029132-5A 2013-05-24 2014-05-23 Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador. BR112015029132B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827246P 2013-05-24 2013-05-24
US61/827246 2013-05-24
PCT/EP2014/060727 WO2014187986A1 (en) 2013-05-24 2014-05-23 Coding of audio scenes

Publications (2)

Publication Number Publication Date
BR112015029132A2 BR112015029132A2 (pt) 2017-07-25
BR112015029132B1 true BR112015029132B1 (pt) 2022-05-03

Family

ID=50884378

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112015029132-5A BR112015029132B1 (pt) 2013-05-24 2014-05-23 Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador.
BR122020017152-9A BR122020017152B1 (pt) 2013-05-24 2014-05-23 Método e aparelho para decodificar uma cena de áudio representada por n sinais de áudio e meio legível em computador não transitório

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR122020017152-9A BR122020017152B1 (pt) 2013-05-24 2014-05-23 Método e aparelho para decodificar uma cena de áudio representada por n sinais de áudio e meio legível em computador não transitório

Country Status (19)

Country Link
US (9) US10026408B2 (pt)
EP (1) EP3005355B1 (pt)
KR (1) KR101761569B1 (pt)
CN (7) CN109887516B (pt)
AU (1) AU2014270299B2 (pt)
BR (2) BR112015029132B1 (pt)
CA (5) CA2910755C (pt)
DK (1) DK3005355T3 (pt)
ES (1) ES2636808T3 (pt)
HK (1) HK1218589A1 (pt)
HU (1) HUE033428T2 (pt)
IL (8) IL296208B2 (pt)
MX (1) MX349394B (pt)
MY (1) MY178342A (pt)
PL (1) PL3005355T3 (pt)
RU (1) RU2608847C1 (pt)
SG (1) SG11201508841UA (pt)
UA (1) UA113692C2 (pt)
WO (1) WO2014187986A1 (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4120246A1 (en) * 2010-04-09 2023-01-18 Dolby International AB Stereo coding using either a prediction mode or a non-prediction mode
EP3005356B1 (en) 2013-05-24 2017-08-09 Dolby International AB Efficient coding of audio scenes comprising audio objects
ES2624668T3 (es) 2013-05-24 2017-07-17 Dolby International Ab Codificación y descodificación de objetos de audio
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
UA113692C2 (xx) 2013-05-24 2017-02-27 Кодування звукових сцен
KR102033304B1 (ko) 2013-05-24 2019-10-17 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
CN105432098B (zh) 2013-07-30 2017-08-29 杜比国际公司 针对任意扬声器布局的音频对象的平移
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
BR112017006325B1 (pt) 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US10861467B2 (en) 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US11514921B2 (en) * 2019-09-26 2022-11-29 Apple Inc. Audio return channel data loopback
CN111009257B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU1332U1 (ru) 1993-11-25 1995-12-16 Магаданское государственное геологическое предприятие "Новая техника" Гидромонитор
US5845249A (en) * 1996-05-03 1998-12-01 Lsi Logic Corporation Microarchitecture of audio core for an MPEG-2 and AC-3 decoder
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
GB2415639B (en) 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
EP1768107B1 (en) 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Audio signal decoding device
JP4828906B2 (ja) 2004-10-06 2011-11-30 三星電子株式会社 デジタルオーディオ放送でのビデオサービスの提供及び受信方法、並びにその装置
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
ATE532350T1 (de) 2006-03-24 2011-11-15 Dolby Sweden Ab Erzeugung räumlicher heruntermischungen aus parametrischen darstellungen mehrkanaliger signale
EP1999747B1 (en) * 2006-03-29 2016-10-12 Koninklijke Philips N.V. Audio decoding
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
BRPI0716854B1 (pt) 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
KR100917843B1 (ko) 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
PL2299734T3 (pl) 2006-10-13 2013-05-31 Auro Tech Sposób i koder do łączenia zestawów danych cyfrowych, sposób dekodowania i dekoder do takich połączonych zestawów danych cyfrowych oraz nośnik zapisu do przechowywania takiego połączonego zestawu danych cyfrowych
EP2437257B1 (en) 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
KR101012259B1 (ko) * 2006-10-16 2011-02-08 돌비 스웨덴 에이비 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현
JP5209637B2 (ja) 2006-12-07 2013-06-12 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
EP2595150A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
WO2008100098A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
CN101675472B (zh) 2007-03-09 2012-06-20 Lg电子株式会社 用于处理音频信号的方法和装置
JP5133401B2 (ja) 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
KR101244515B1 (ko) 2007-10-17 2013-03-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 업믹스를 이용한 오디오 코딩
KR101566025B1 (ko) 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
US20100284549A1 (en) 2008-01-01 2010-11-11 Hyen-O Oh method and an apparatus for processing an audio signal
WO2009093866A2 (en) 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing an audio signal
DE102008009024A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
DE102008009025A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
JP5249408B2 (ja) 2008-04-16 2013-07-31 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101171314B1 (ko) 2008-07-15 2012-08-10 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8139773B2 (en) 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN103489449B (zh) 2009-06-24 2017-04-12 弗劳恩霍夫应用研究促进协会 音频信号译码器、提供上混信号表示型态的方法
EP2461321B1 (en) 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
WO2011039195A1 (en) * 2009-09-29 2011-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
BR122021008665B1 (pt) 2009-10-16 2022-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
ES2529219T3 (es) 2009-10-20 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión
WO2011061174A1 (en) * 2009-11-20 2011-05-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
EA024310B1 (ru) * 2009-12-07 2016-09-30 Долби Лабораторис Лайсэнзин Корпорейшн Способ декодирования цифровых потоков кодированного многоканального аудиосигнала с использованием адаптивного гибридного преобразования
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
EP4120246A1 (en) 2010-04-09 2023-01-18 Dolby International AB Stereo coding using either a prediction mode or a non-prediction mode
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US20120076204A1 (en) 2010-09-23 2012-03-29 Qualcomm Incorporated Method and apparatus for scalable multimedia broadcast using a multi-carrier communication system
GB2485979A (en) 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
KR101227932B1 (ko) 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
JP2012151663A (ja) 2011-01-19 2012-08-09 Toshiba Corp 立体音響生成装置及び立体音響生成方法
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US9530421B2 (en) 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
TWI476761B (zh) * 2011-04-08 2015-03-11 Dolby Lab Licensing Corp 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統
US9966080B2 (en) * 2011-11-01 2018-05-08 Koninklijke Philips N.V. Audio object encoding and decoding
EP2829083B1 (en) 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CN104520924B (zh) 2012-08-07 2017-06-23 杜比实验室特许公司 指示游戏音频内容的基于对象的音频的编码和呈现
WO2014099285A1 (en) 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
RU2665214C1 (ru) 2013-04-05 2018-08-28 Долби Интернэшнл Аб Стереофонический кодер и декодер аудиосигналов
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
UA113692C2 (xx) 2013-05-24 2017-02-27 Кодування звукових сцен
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
KR102384348B1 (ko) 2013-05-24 2022-04-08 돌비 인터네셔널 에이비 오디오 인코더 및 디코더

Also Published As

Publication number Publication date
BR122020017152B1 (pt) 2022-07-26
IL290275A (en) 2022-04-01
CA2910755A1 (en) 2014-11-27
US20200020345A1 (en) 2020-01-16
US10026408B2 (en) 2018-07-17
US10468041B2 (en) 2019-11-05
IL265896A (en) 2019-06-30
IL278377B (en) 2021-08-31
US20210012781A1 (en) 2021-01-14
MX2015015988A (es) 2016-04-13
US20160125888A1 (en) 2016-05-05
US11682403B2 (en) 2023-06-20
US20220310102A1 (en) 2022-09-29
US10347261B2 (en) 2019-07-09
CN109887517B (zh) 2023-05-23
HUE033428T2 (en) 2017-11-28
CN109887517A (zh) 2019-06-14
SG11201508841UA (en) 2015-12-30
US10468039B2 (en) 2019-11-05
US20190295557A1 (en) 2019-09-26
CA3211308A1 (en) 2014-11-27
CA3123374A1 (en) 2014-11-27
IL296208B2 (en) 2023-09-01
CA3017077A1 (en) 2014-11-27
IL284586A (en) 2021-08-31
US20190295558A1 (en) 2019-09-26
IL296208A (en) 2022-11-01
IL290275B2 (en) 2023-02-01
PL3005355T3 (pl) 2017-11-30
IL302328B1 (en) 2024-01-01
KR20150136136A (ko) 2015-12-04
EP3005355B1 (en) 2017-07-19
CN110085239A (zh) 2019-08-02
CN105247611A (zh) 2016-01-13
US20230290363A1 (en) 2023-09-14
UA113692C2 (xx) 2017-02-27
IL242264B (en) 2019-06-30
IL302328A (en) 2023-06-01
IL290275B (en) 2022-10-01
IL284586B (en) 2022-04-01
CN109887516A (zh) 2019-06-14
US20180301156A1 (en) 2018-10-18
MX349394B (es) 2017-07-26
KR101761569B1 (ko) 2017-07-27
MY178342A (en) 2020-10-08
US11315577B2 (en) 2022-04-26
HK1218589A1 (zh) 2017-02-24
IL309130A (en) 2024-02-01
CA3211326A1 (en) 2014-11-27
CN117059107A (zh) 2023-11-14
RU2608847C1 (ru) 2017-01-25
US10726853B2 (en) 2020-07-28
US20190251976A1 (en) 2019-08-15
CN116935865A (zh) 2023-10-24
ES2636808T3 (es) 2017-10-09
US10468040B2 (en) 2019-11-05
CN105247611B (zh) 2019-02-15
CA3017077C (en) 2021-08-17
CN109887516B (zh) 2023-10-20
CN110085239B (zh) 2023-08-04
CA2910755C (en) 2018-11-20
CN117012210A (zh) 2023-11-07
AU2014270299B2 (en) 2017-08-10
WO2014187986A1 (en) 2014-11-27
EP3005355A1 (en) 2016-04-13
AU2014270299A1 (en) 2015-11-12
CA3123374C (en) 2024-01-02
DK3005355T3 (en) 2017-09-25
BR112015029132A2 (pt) 2017-07-25
IL296208B1 (en) 2023-05-01

Similar Documents

Publication Publication Date Title
BR112015029132B1 (pt) Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador.
BR122021009025B1 (pt) Método de decodificação para decodificar dois sinais de áudio e decodificador para decodificar dois sinais de áudio
BR122022004784B1 (pt) Método de decodificação em um sistema de processamento de áudio de múltiplos canais e decodificador para um sistema de processamento de áudio de múltiplos canais
BR112017006278B1 (pt) Método para aprimorar o diálogo num decodificador em um sistema de áudio e decodificador
BR112015025080B1 (pt) Método de decodificação e decodificador para decodificar dois sinais de áudio, método de codificação e codificador para codificar dois sinais de áudio, e meio legível não transitório

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/05/2014, OBSERVADAS AS CONDICOES LEGAIS.

B25G Requested change of headquarter approved

Owner name: DOLBY INTERNATIONAL AB (IE)