BR112017008015B1 - Métodos e sistemas de decodificação e codificação de áudio - Google Patents

Métodos e sistemas de decodificação e codificação de áudio Download PDF

Info

Publication number
BR112017008015B1
BR112017008015B1 BR112017008015-0A BR112017008015A BR112017008015B1 BR 112017008015 B1 BR112017008015 B1 BR 112017008015B1 BR 112017008015 A BR112017008015 A BR 112017008015A BR 112017008015 B1 BR112017008015 B1 BR 112017008015B1
Authority
BR
Brazil
Prior art keywords
signal
channel
unfolded
multitrack
channels
Prior art date
Application number
BR112017008015-0A
Other languages
English (en)
Other versions
BR112017008015A2 (pt
Inventor
Heiko Purnhagen
Heidi-Maria LEHTONEN
Janusz Klejsa
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR112017008015A2 publication Critical patent/BR112017008015A2/pt
Publication of BR112017008015B1 publication Critical patent/BR112017008015B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MÉTODOS E SISTEMAS DE DECODIFICAÇÃO E CODIFICAÇÃO DE ÁUDIO, E PRODUTO DE PROGRAMA DE COMPUTADOR. Uma seção de controle (1009) recebe uma sinalização (S) indicando um dentre pelo menos dois formatos de codificação (F1, F2, F3) de um sinal de áudio de M canais (L, LS, LB, TFL, TBL), os formatos de codificação correspondendo a diferentes partições dos canais do sinal de áudio nos respectivos primeiro e segundo grupos (601, 602), sendo que, no formato de codificação indicado, os primeiro e segundo canais (L1, L2) de um sinal desdobrado correspondem a combinações lineares dos primeiro e segundo grupos, respectivamente; e uma seção de decodificação (900) reconstrói o sinal de áudio com base no sinal desdobrado e nos parâmetros multipista associados (aL). Na seção de decodificação: um sinal de entrada de descorrelação (D1, D2, D3) é determinado com base no sinal desdobrado e no formato de codificação indicado; e os coeficientes multipista úmidos e secos, controlando os mapeamentos lineares do sinal desdobrado e do sinal descorrelacionado, gerados com base no sinal de entrada de descorrelação, são determinados com base nos parâmetros multipista e no formato de codificação indicado.

Description

REFERÊNCIA REMISSIVA A PEDIDOS DE DEPÓSITO CORRELATOS
[0001] Este pedido reivindica a prioridade sobre o pedido de patente provisório US n° 62/073.642, depositado em 31 de outubro de 2014, e sobre o pedido de patente provisório US n° 62/128.425, depositado em 4 de março de 2015, cada um dos quais estando aqui incorporados a título de referência, em sua totalidade.
CAMPO TÉCNICO
[0002] A invenção aqui descrita refere-se, de modo geral, às codificação e decodificação paramétricas de sinais de áudio, e, em particular, às codificação e decodificação paramétricas de sinais de áudio baseados em canais.
ANTECEDENTES
[0003] Sistemas de reprodução de áudio que compreendem múltiplos alto-falantes são frequentemente usados para reproduzir um cenário de áudio representado por um sinal de áudio multicanal, sendo que os respectivos canais do sinal de áudio multicanal são reproduzidos em alto- falantes respectivos. O sinal de áudio multicanal pode ter sido gravado, por exemplo, através de uma pluralidade de transdutores acústicos, ou pode ter sido gerado por um equipamento de criação de áudio. Em diversas situações, existem limitações de largura de banda para a transmissão do sinal de áudio para o equipamento de reprodução e/ou espaço limitado para o armazenamento do sinal de áudio em uma memória de um computador ou em um dispositivo de armazenamento portátil. Existem sistemas de codificação de áudio para a codificação paramétrica de sinais de áudio de modo a reduzir a largura da banda ou o tamanho de armazenamento. Em um lado de codificação, esses sistemas tipicamente desdobram (downmix) o sinal de áudio multicanal em um sinal desdobrado, que é tipicamente um desdobramento mono (um canal) ou estéreo (dois canais), e extraem informações que descrevem as propriedades dos canais por meio de parâmetros como diferenças de nível e correlação cruzada. O desdobramento e as informações secundárias são, então, enviados a um lado de decodificação. No lado de decodificação, o sinal de áudio multicanal é reconstruído, isto é, aproximado, a partir do desdobramento que está sob o controle dos parâmetros das informações secundárias.
[0004] Tendo em vista a ampla gama de diferentes tipos de dispositivos e sistemas disponíveis para reprodução de conteúdo de áudio multicanal, incluindo um segmento emergente direcionado a usuários finais em seus lares, há uma necessidade por formas novas e alternativas para se codificar eficientemente um conteúdo de áudio multicanal, de modo a reduzir as exigências de largura de banda e/ou o tamanho de memória necessário para armazenamento, facilitando a reconstrução do sinal de áudio multicanal em um lado de codificação e/ou o aumento da fidelidade do sinal de áudio multicanal conforme reconstruído no lado de decodificação.
BREVE DESCRIÇÃO DOS DESENHOS
[0005] A seguir, modalidades exemplificadoras serão descritas em maiores detalhes e com referência aos desenhos anexos, nos quais:
[0006] As Figuras 1 e 2 são diagramas de bloco generalizados de seções de codificação para a codificação de sinais de áudio de M canais em sinais desdobrados de dois canais e parâmetros multipista (upmix parameters) associados de acordo com as modalidades exemplificadoras;
[0007] A Figura 3 é um diagrama de bloco generalizado de um sistema de codificação de áudio que compreende a seção de codificação representada na Figura 1 de acordo com uma modalidade exemplificadora;
[0008] As Figuras 4 e 5 são fluxogramas de métodos de codificação de áudio para a codificação de sinais de áudio de M canais em sinais desdobrados de dois canais e parâmetros multipista associados de acordo com as modalidades exemplificadoras;
[0009] As Figuras 6 a 8 ilustram formas alternativas para particionar um sinal de áudio de 11.1 canais (ou de 7.1+4 canais ou de 7.1.4 canais) em grupos ou canais representados por respectivos canais desdobrados de acordo com modalidades exemplificadoras;
[0010] A Figura 9 é um diagrama de bloco generalizado de uma seção de decodificação para a reconstrução de um sinal de áudio de M canais com base em um sinal desdobrado de dois canais e parâmetros multipista associados de acordo com uma modalidade exemplificadora;
[0011] A Figura 10 é um diagrama de bloco generalizado de um sistema de decodificação de áudio que compreende a seção de decodificação representada na Figura 9 de acordo com uma modalidade exemplificadora;
[0012] A Figura 11 é um diagrama de bloco generalizado de um sistema de mistura compreendido na seção de decodificação representada na Figura 9 de acordo com uma modalidade exemplificadora;
[0013] A Figura 12 é um fluxograma de um método de decodificação de áudio para a reconstrução de um sinal de áudio de M canais com base em um sinal desdobrado de dois canais e parâmetros multipista associados de acordo com uma modalidade exemplificadora; e
[0014] A Figura 13 é um diagrama de bloco generalizado de uma seção de decodificação para a reconstrução de um sinal de áudio de 13.1 canais com base em um sinal desdobrado de 5.1 canais e parâmetros multipista associados de acordo com uma modalidade exemplificadora;
[0015] A Figura 14 é um diagrama de bloco generalizado de uma seção de codificação configurada para determinar um formato de codificação adequado a ser usado para a codificação de um sinal de áudio de M canais (e, possivelmente, mais canais) e, para o formato escolhido, representar o sinal de áudio de M canais como um sinal desdobrado de dois canais e parâmetros multipista associados;
[0016] A Figura 15 é um detalhe de uma seção de desdobramento de modo duplo na seção de codificação mostrada na Figura 14;
[0017] A Figura 16 é um detalhe de uma seção de análise de modo duplo na seção de codificação mostrada na Figura 14; e
[0018] A Figura 17 é um fluxograma de um método de codificação de áudio que pode ser realizado pelos componentes mostrados nas Figuras 14 a 16.
[0019] Todas as figuras são esquemáticas e, de modo geral, só mostram peças que são necessárias para elucidar a invenção, enquanto outras partes podem ser omitidas ou meramente sugeridas.
DESCRIÇÃO DAS MODALIDADES EXEMPLIFICADORAS
[0020] Para uso na presente invenção, um sinal de áudio pode ser um sinal de áudio autônomo, uma parte de áudio de um sinal audiovisual, ou um sinal multimídia, ou qualquer um destes em combinação com metadados. Para uso na presente invenção, um canal é um sinal de áudio associado a uma posição/orientação espacial predefinida/fixa, ou uma posição espacial não definida como "esquerda" ou "direita".
I. Visão geral - Lado de decodificação
[0021] De acordo com um primeiro aspecto, as modalidades exemplificadoras propõem sistemas de decodificação de áudio, métodos de decodificação de áudio e programas de computador associados. Os sistemas, métodos e programas de computador propostos, de acordo com o primeiro aspecto, podem, de modo geral, compartilhar as mesmas características e vantagens.
[0022] De acordo com as modalidades exemplificadoras, é fornecido um método de decodificação de áudio que compreende receber um sinal desdobrado de dois canais e parâmetros multipista para a reconstrução paramétrica de um sinal de áudio de M canais com base no sinal desdobrado, em que M > 4. O método de decodificação de áudio compreende recepção de sinalização indicando pelo menos um formato selecionado dentre pelo menos dois formatos de codificação do sinal de áudio de M canais, em que os formatos de codificação correspondem a diferentes partições respectivas dos canais do sinal de áudio de M canais em respectivos primeiro e segundo grupos de um ou mais canais. No formato de codificação indicado, um primeiro canal do sinal desdobrado corresponde a uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal do sinal desdobrado corresponde a uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais. O método de decodificação de áudio compreende, ainda: determinar um conjunto de coeficientes de pré- descorrelação com base no formato de codificação indicado; calcular um sinal de entrada de descorrelação como um mapeamento linear do sinal desdobrado, sendo que o conjunto de coeficientes de pré-descorrelação é aplicado ao sinal desdobrado; gerar um sinal descorrelacionado com base no sinal de entrada de descorrelação; determinar conjuntos de coeficientes desdobrados de um primeiro tipo, denominados como coeficientes multipista úmidos, e de um segundo tipo, denominados como coeficientes multipista secos, com base nos parâmetros multipista recebidos e o formato de codificação indicado; calcular um sinal multipista de um primeiro tipo, denominado como um sinal multipista seco, como um mapeamento linear do sinal desdobrado, sendo que o conjunto de coeficientes multipista secos é aplicado ao sinal desdobrado; calcular um sinal multipista de um segundo tipo, denominado como um sinal multipista úmido, como um mapeamento linear do sinal descorrelacionado, sendo que o conjunto de coeficientes multipista úmidos é aplicado ao sinal descorrelacionado; e combinar os sinais multipista secos e úmidos para obter um sinal reconstruído multidimensional que corresponde ao sinal de áudio de M canais a ser reconstruído.
[0023] Dependendo do conteúdo de áudio do sinal de áudio de M canais, diferentes partições dos canais do sinal de áudio de M canais em um primeiro e segundo grupos, sendo que cada grupo contribui para um canal do sinal desdobrado, podem ser adequadas para, por exemplo, facilitar a reconstrução do sinal de áudio de M canais do sinal desdobrado, melhorar a fidelidade (percebida) do sinal de áudio de M canais conforme reconstruído a partir do sinal desdobrado, e/ou melhorar a eficiência de codificação do sinal desdobrado. A capacidade do método de decodificação de áudio de receber sinais indicando um formato selecionado dentre os formatos de codificação e de adaptar a determinação dos coeficientes de pré-descorrelação, bem como dos coeficientes multipista úmidos e secos até o formato de codificação indicado, permite que um formato de codificação seja selecionado em um lado de codificação, por exemplo, com base no conteúdo de áudio do sinal de áudio de M canais, para explorar as vantagens comparativas de se empregar esse formato de codificação específico para representar o sinal de áudio de M canais.
[0024] Em particular, determinar os coeficientes de pré-descorrelação com base no formato de codificação indicado pode permitir que o canal, ou canais, do sinal desdobrado, a partir do qual o sinal descorrelacionado é gerado, seja selecionado e/ou pesado, com base no formato de codificação indicado, antes de se gerar o sinal descorrelacionado. A capacidade do método de decodificação de áudio para determinar os coeficientes de pré- descorrelação de modo diferente para formatos de codificação diferentes pode, portanto, permitir uma melhora na fidelidade do sinal de áudio de M canais conforme reconstruído.
[0025] O primeiro canal do sinal desdobrado pode, por exemplo, ter sido formado, por exemplo, em um lado de codificação, como uma combinação linear do primeiro grupo de um ou mais canais, de acordo com o formato de codificação indicado. De modo similar, o segundo canal do sinal desdobrado pode, por exemplo, ter sido formado em um lado de codificação, como uma combinação linear do segundo grupo de um ou mais canais, de acordo com o formato de codificação indicado.
[0026] Os canais do sinal de áudio de M canais podem, por exemplo, formar um subconjunto com um maior número de canais juntos, representando um campo de som.
[0027] O sinal descorrelacionado serve para aumentar a dimensionalidade do conteúdo de áudio do sinal desdobrado, conforme percebido por um ouvinte. Gerar o sinal descorrelacionado pode incluir, por exemplo, aplicar um filtro linear ao sinal de entrada de descorrelação.
[0028] Descorrelacionar o sinal de entrada sendo calculado como um mapeamento linear do sinal desdobrado significa que o sinal de entrada de descorrelação é obtido pela aplicação de uma primeira transformação linear ao sinal desdobrado. Esta primeira transformação linear recebe os dois canais do sinal desdobrado como entradas e fornece os canais do sinal de entrada de descorrelação como saídas, e os coeficientes de pré- descorrelação são coeficientes que definem as propriedades quantitativas desta primeira transformação linear.
[0029] Calcular o sinal multipista seco como um mapeamento linear do sinal desdobrado significa que o sinal multipista seco é obtido pela aplicação de uma segunda transformação linear ao sinal desdobrado. Essa segunda transformação linear recebe os dois canais do sinal desdobrado como entradas e fornece os M canais como saídas, e os coeficientes multipista secos são coeficientes definindo as propriedades quantitativas desta segunda transformação linear.
[0030] Calcular o sinal multipista úmido como um mapeamento linear do sinal descorrelacionado significa que o sinal multipista úmido é obtido pela aplicação de uma terceira transformação linear ao sinal descorrelacionado. Essa terceira transformação linear recebe os canais do sinal descorrelacionado como entradas e fornece os M canais como saídas, e os coeficientes multipista úmidos são coeficientes definindo as propriedades quantitativas desta terceira transformação linear.
[0031] A combinação dos sinais multipista secos e úmidos pode incluir a adição de um conteúdo de áudio a partir de canais respectivos do sinal multipista seco até o conteúdo de áudio de canais correspondentes respectivos do sinal multipista úmido, por exemplo, empregando uma mistura de aditivo em uma pré-amostra ou base de coeficiente pré- transformação.
[0032] A sinalização pode ser, por exemplo, recebida juntamente com o sinal desdobrado e/ou os parâmetros multipista. O sinal desdobrado, os parâmetros multipista e a sinalização podem, por exemplo, ser extraídos a partir de um fluxo de bits.
[0033] Em uma modalidade exemplificadora, pode ser que M = 5, isto é, o sinal de áudio de M canais pode ser um sinal de áudio de cinco canais. O método de decodificação de áudio da presente modalidade exemplificadora pode ser empregado, por exemplo, para a reconstrução de cinco canais regulares em um dos formatos de áudio 5.1 atualmente estabelecidos, a partir de um desdobramento de dois canais destes cinco canais no lado esquerdo, ou no lado direito, em um sinal de áudio de 11.1 multicanais, a partir de um desdobramento de dois canais destes cinco canais. Alternativamente, pode ser que M = 4 ou M > 6.
[0034] Em uma modalidade exemplificadora, o sinal de entrada de descorrelação e o sinal descorrelacionado podem compreender, cada um, M - 2 canais. Na presente modalidade exemplificadora, o canal do sinal descorrelacionado pode ser gerado com base em não mais que um canal do sinal de entrada de descorrelação. Por exemplo, cada canal do sinal descorrelacionado pode ser gerado com base em não mais que um canal do sinal de entrada de descorrelação, mas diferentes canais do sinal descorrelacionado podem, por exemplo, ser gerados com base em diferentes canais do sinal de entrada de descorrelação.
[0035] Na presente modalidade exemplificadora, os coeficientes de pré- descorrelação podem ser determinados de modo que, em cada um dos formatos de codificação, um canal do sinal de entrada de descorrelação receba uma contribuição de não mais que um canal do sinal desdobrado. Por exemplo, os coeficientes de pré-descorrelação podem ser determinados de modo que, em cada um dos formatos de codificação, cada canal do sinal de entrada de descorrelação coincida com um canal do sinal desdobrado. Entretanto, será reconhecido que pelo menos alguns dos canais do sinal de entrada descorrelacionado possam, por exemplo, coincidir com os diferentes canais do sinal desdobrado em um dado formato e/ou em diferentes formatos de codificação.
[0036] Uma vez que, em cada dado formato de codificação, os dois canais do sinal desdobrado representam uma desunião dos primeiro e segundo grupos de um ou mais canais, o primeiro grupo pode ser reconstruído a partir do primeiro canal de sinal desdobrado, por exemplo, empregando-se um ou mais canais do sinal descorrelacionado gerados com base no primeiro canal do sinal desdobrado, enquanto que o segundo grupo pode ser reconstruído a partir do segundo canal do sinal desdobrado, por exemplo, empregando-se um ou mais canais do sinal descorrelacionado gerados com base no segundo canal do sinal desdobrado. Na presente modalidade exemplificadora, a contribuição do segundo grupo de um ou mais canais, com uma versão reconstruída do primeiro grupo de um ou mais canais, através do sinal descorrelacionado, pode ser evitada em cada formato de codificação. De modo similar, a contribuição do primeiro grupo de um ou mais canais, com uma versão reconstruída do segundo grupo de um ou mais canais, através do sinal descorrelacionado, pode ser evitada em cada formato de codificação. A presente modalidade exemplificadora pode, portanto, permitir um aumento da fidelidade do sinal de áudio de M canais conforme reconstruído.
[0037] Em uma modalidade exemplificadora, os coeficientes de pré- descorrelação podem ser determinados de modo que um primeiro canal do sinal de áudio de M canais contribua, através do sinal desdobrado, com um primeiro canal fixo do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação. Isto quer dizer que o primeiro canal do sinal de áudio de M canais pode contribuir, através do sinal desdobrado, com o mesmo canal do sinal de entrada de descorrelação nestes dois formatos de codificação. Será reconhecido que, na presente modalidade exemplificadora, o primeiro canal do sinal de áudio de M canais pode contribuir, por exemplo, através do sinal desdobrado, com múltiplos canais do sinal de entrada de descorrelação em um dado formato de codificação.
[0038] Na presente modalidade exemplificadora, se o formato de codificação indicado mudar entre dois formatos de codificação, então ao menos uma porção do primeiro canal fixo do sinal de entrada de descorrelação permanece durante a mudança. Isso pode permitir uma transição mais suave e/ou menos abrupta entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído. Em particular, os inventores perceberam que, uma vez que o sinal descorrelacionado pode ser, por exemplo, gerado com base em uma seção do sinal desdobrado que corresponde a vários períodos de tempo, durante os quais uma mudança entre os formatos de codificação pode ocorrer no sinal desdobrado, artefatos audíveis podem ser potencialmente gerados no sinal descorrelacionado como resultado da mudança entre os formatos de codificação. Mesmo se os coeficientes multipista secos e úmidos forem interpolados em resposta a uma mudança entre os formatos de codificação, os artefatos gerados no sinal descorrelacionado podem ainda persistir no sinal de áudio de M canais conforme reconstruído. Fornecer um sinal de entrada de descorrelação, de acordo com a presente modalidade exemplificadora, permite a supressão de tais artefatos no sinal descorrelacionado, que são causados pela mudança entre os formatos de codificação, e pode melhorar a qualidade do sinal de áudio de M canais conforme reconstruído.
[0039] Em uma modalidade exemplificadora, os coeficientes de pré- descorrelação podem ser determinados de modo que, adicionalmente, um segundo canal do sinal de áudio de M canais contribua, através do sinal desdobrado, com um segundo canal fixo do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação. Isto quer dizer que o segundo canal do sinal de áudio de M canais contribui, através do sinal desdobrado, com o mesmo canal do sinal de entrada de descorrelação nestes dois formatos de codificação. Na presente modalidade exemplificadora, se o formato de codificação indicado mudar entre dois formatos de codificação, então ao menos uma porção do segundo sinal de entrada de descorrelação fixo permanece durante a mudança. Dessa forma, apenas um único fluxo de alimentação do descorrelacionador é afetado pela transição entre os formatos de codificação. Isso pode permitir uma transição mais suave e/ou menos abrupta entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído.
[0040] Os primeiro e segundo canais de sinal de áudio de M canais podem, por exemplo, ser distintos um do outro. Os primeiro e segundo canais fixos do sinal de entrada de descorrelação podem, por exemplo, ser distintos um do outro.
[0041] Em uma modalidade exemplificadora, a sinalização recebida pode indicar um formato selecionado dentre pelo menos três formatos de codificação, e os coeficientes de pré-descorrelação podem ser determinados de modo que o primeiro canal do sinal de áudio de M canais contribua, por meio do sinal desdobrado, com o primeiro canal fixo do sinal de entrada de descorrelação em pelo menos três dos formatos de codificação. Isto quer dizer que o primeiro canal do sinal de áudio de M canais contribui, através do sinal desdobrado, com o mesmo canal do sinal de entrada de descorrelação nestes três formatos de codificação. Na presente modalidade exemplificadora, se o formato de codificação indicado mudar entre qualquer um dos três formatos de codificação, então ao menos uma porção do primeiro canal fixo do sinal de entrada de descorrelação permanece durante a mudança, o que permite uma transição mais suave e/ou menos brusca entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído.
[0042] Em uma modalidade exemplificadora, os coeficientes de pré- descorrelação podem ser determinados de modo que um par de canais do sinal de áudio de M canais contribua, através do sinal desdobrado, com um terceiro canal fixo do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação. Isto quer dizer que o par de canais do sinal de áudio de M canais contribui, através do sinal desdobrado, com o mesmo canal do sinal de entrada de descorrelação nestes dois formatos de codificação. Na presente modalidade exemplificadora, se o formato de codificação indicado mudar entre dois formatos de codificação, então ao menos uma porção do terceiro canal fixo do sinal de entrada de descorrelação permanece durante a mudança, o que permite uma transição mais suave e/ou menos brusca entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído.
[0043] O par de canais pode, por exemplo, ser separado dos primeiro e segundo canais do sinal de áudio de M canais. O terceiro canal fixo do sinal de entrada de descorrelação pode, por exemplo, ser diferente dos primeiro e segundo canais fixos do sinal de entrada de descorrelação.
[0044] Em uma modalidade exemplificadora, o método de decodificação de áudio pode compreender, ainda: em resposta a detecção de uma mudança no formato de codificação indicado de um primeiro formato de codificação para um segundo formato de codificação, realizar uma transição gradual dos valores de coeficiente de pré-descorrelação associados ao primeiro formato de codificação para os valores de coeficiente de descorrelação associados ao segundo formato de codificação. Empregar uma transição gradual entre os coeficientes de pré-descorrelação durante a mudança entre formatos de codificação permite uma transição mais suave e/ou menos abrupta entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído. Em particular, os inventores perceberam que, uma vez que o sinal descorrelacionado pode ser, por exemplo, gerado com base em uma seção do sinal desdobrado que corresponde a vários períodos de tempo, durante os quais uma mudança entre os formatos de codificação pode ocorrer no sinal desdobrado, artefatos audíveis podem ser potencialmente gerados no sinal descorrelacionado como resultado da mudança entre os formatos de codificação. Mesmo se os coeficientes multipista secos e úmidos forem interpolados em resposta a uma mudança entre os formatos de codificação, os artefatos gerados no sinal descorrelacionado podem ainda persistir no sinal de áudio de M canais conforme reconstruído. Fornecer um sinal de entrada de descorrelação, de acordo com a presente modalidade exemplificadora, permite a supressão de tais artefatos no sinal descorrelacionado, que são causados pela mudança entre os formatos de codificação, e pode melhorar a qualidade do sinal de áudio de M canais conforme reconstruído.
[0045] A transição gradual pode ser realizada, por exemplo, através de interpolação linear ou contínua. A transição gradual pode ser realizada, por exemplo, através de interpolação com uma taxa de alteração limitada.
[0046] Em uma modalidade exemplificadora, o método de decodificação de áudio pode compreender, ainda: em resposta à detecção de uma mudança no formato de codificação indicado de um primeiro formato de codificação para um segundo formato de codificação, realizar uma interpolação dos valores de coeficiente multipista úmido e seco, incluindo os coeficientes zero, associados ao primeiro formato de codificação para os valores de coeficiente multipista úmido e seco, novamente incluindo os coeficientes zero, associados ao segundo formato de codificação. Recorda- se que os canais desdobrados correspondem a diferentes combinações de canais do sinal de áudio de M canais originalmente codificado, de modo que um coeficiente desdobrado que é zero no primeiro formato de codificação não precise também ser zero no segundo formato de codificação e vice- versa. De preferência, a interpolação age sobre os coeficientes multipista em vez ser uma representação compacta dos coeficientes, por exemplo, a representação discutida abaixo.
[0047] A interpolação linear ou contínua entre os valores de coeficiente multipista pode ser, por exemplo, empregada para fornecer uma transição mais suave entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído.
[0048] Uma interpolação abrupta, na qual novos valores de coeficiente multipista substituem os valores de coeficiente multipista antigos em um certo ponto no tempo associado à mudança entre os formatos de codificação, pode permitir, por exemplo, uma maior fidelidade ao sinal de áudio de M canais conforme reconstruído, por exemplo, em casos em que o conteúdo de áudio do sinal de áudio de M canais sofre uma rápida alteração, e em que o formato de codificação é alterado em um lado de codificação, em resposta a essas alterações, para aumentar a fidelidade do sinal de áudio de M canais conforme reconstruído.
[0049] Em uma modalidade exemplificadora, o método de decodificação de áudio pode compreender, ainda, receber uma sinalização indicando uma pluralidade de esquemas de interpolação a serem empregados para a interpolação de parâmetros de multipista úmidos e secos dentro de um formato de codificação (isto é, quando novos valores são atribuídos aos coeficientes multipista em um período de tempo no qual nenhuma alteração de formato de codificação ocorre), e empregar o esquema de interpolação indicado. A sinalização indicando um dentre uma pluralidade de esquemas de interpolação pode ser, por exemplo, observada juntamente com o sinal desdobrado e/ou os parâmetros multipista. De preferência, a esquema de interpolação indicado pela sinalização pode ser, ainda, empregado para transição entre os formatos de codificação.
[0050] Em um lado de codificação, no qual o sinal de áudio de M canais original está disponível, esquemas de interpolação podem ser, por exemplo, selecionados, os quais são particularmente adequados para o presente conteúdo de áudio do sinal de áudio de M canais. Por exemplo, uma interpolação linear ou contínua pode ser empregada, na qual uma mudança suave é importante para a impressão geral do sinal de áudio de M canais conforme reconstruído, embora uma interpolação abrupta, isto é, na qual novos valores de coeficiente multipista substituem valores de coeficiente multipista antigos em um certo ponto no tempo associado à transição entre os formatos de codificação, pode ser empregada quando uma mudança rápida é importante para a impressão geral do sinal de áudio de M canais conforme reconstruído.
[0051] Em uma modalidade exemplificadora, os pelo menos dois formatos de codificação podem incluir um primeiro formato de codificação e um segundo formato de codificação. Há um ganho que controla a contribuição, em cada formato de codificação, de um canal do sinal de áudio de M canais com uma das combinações lineares as quais os canais do sinal desdobrado correspondem. Na presente modalidade exemplificadora, um ganho no primeiro formato de codificação pode coincidir com um ganho no segundo formato de codificação que controla a contribuição do mesmo canal do sinal de áudio de M canais.
[0052] Empregar os mesmos ganhos no primeiro e no segundo formatos de codificação pode aumentar, por exemplo, a similaridade entre o conteúdo de áudio combinado dos canais do sinal desdobrado no primeiro formato de codificação e o áudio combinado dos canais do sinal desdobrado no segundo formato de codificação. Devido ao fato de que os canais do sinal desdobrado são usados para reconstruir o sinal desdobrado de M canais, isto pode contribuir para uma transição mais suave entre estes dois formatos de codificação, conforme percebido por um ouvinte.
[0053] Empregar os mesmos ganhos no primeiro e no segundo formatos de codificação pode, por exemplo, permitir que o conteúdo de áudio dos primeiro e segundo canais, respectivamente, do sinal desdobrado no primeiro formato de codificação seja mais similar ao conteúdo de áudio dos primeiro e segundo canais, respectivamente, do sinal desdobrado no segundo formato de codificação. Isto pode contribuir para uma transição mais suave entre estes dois formatos de codificação, conforme percebido por um ouvinte.
[0054] Na presente modalidade exemplificadora, ganhos diferentes podem ser, por exemplo, empregados em canais diferentes do sinal de áudio de M canais. Em um primeiro exemplo, todos os ganhos no primeiro e no segundo formatos de codificação podem ter o valor de 1. No primeiro exemplo, os primeiro e segundo canais do sinal desdobrado podem corresponder às somas não ponderadas dos primeiro e segundo grupos, respectivamente, em ambos os primeiro e segundo formatos de codificação. Em um segundo exemplo, pelo menos alguns dos ganhos podem ter valores diferentes de 1. No segundo exemplo, os primeiro e segundo canais do sinal desdobrado podem corresponder às somas ponderadas dos primeiro e segundo grupos, respectivamente.
[0055] Em uma modalidade exemplificadora, o sinal de áudio de M canais pode compreender três canais representando diferentes direções horizontais em um ambiente de reprodução para o sinal de áudio de M canais, e dois canais representando direções verticalmente separadas dos três canais no ambiente de reprodução. Em outras palavras, o sinal de áudio de M canais pode compreender três canais destinados à reprodução por fontes de áudio situadas substancialmente na mesma altura que o ouvinte (ou ouvido de um ouvinte) e/ou propagação de modo substancialmente horizontal, e dois canais destinados à reprodução por fontes de áudio situadas em outras alturas e/ou propagação (substancialmente) não horizontal. Os dois canais podem representar, por exemplo, direções elevadas.
[0056] Em uma modalidade exemplificadora, em um primeiro formato de codificação, o segundo grupo de canais pode compreender os dois canais que representam direções verticalmente separadas dos três canais no ambiente de reprodução. Ter estes dois canais no segundo grupo e empregar o mesmo canal do sinal desdobrado para representar estes dois canais pode, por exemplo, melhorar a fidelidade do sinal de áudio de M canais conforme reconstruído, em casos em que uma dimensão vertical no ambiente de reprodução é importante para a impressão geral do sinal de áudio de M canais.
[0057] Em uma modalidade exemplificadora, em um primeiro formato de codificação, o primeiro grupo de um ou mais canais pode compreender os três canais que representam direções horizontais diferentes em um ambiente de reprodução do sinal de áudio de M canais, e o segundo grupo de um ou mais canais pode compreender os dois canais representando direções verticalmente separadas daqueles três canais no ambiente de reprodução. Na presente modalidade exemplificadora, o primeiro formato de codificação permite que o primeiro canal do sinal desdobrado represente os três canais e o segundo canal do sinal desdobrado represente os dois canais, que podem, por exemplo, melhorar a fidelidade do sinal de áudio de M canais conforme reconstruído, em casos em que uma dimensão vertical no ambiente de reprodução é importante para a impressão geral do sinal de áudio de M canais.
[0058] Em uma modalidade exemplificadora, em um segundo formato de codificação, cada um dentre os primeiro e segundo grupos pode compreender um dos dois canais representando direções verticalmente separadas dos três canais em um ambiente de reprodução do sinal de áudio de M canais. Ter estes dois canais em grupos diferentes e empregar canais diferentes do sinal desdobrado para representar estes dois canais pode, por exemplo, melhorar a fidelidade do sinal de áudio de M canais conforme reconstruído, em casos em que uma dimensão vertical no ambiente de reprodução não é tão importante para a impressão geral do sinal de áudio de M canais.
[0059] Em uma modalidade exemplificadora, em um formato de codificação, chamado aqui de formato de codificação específico, o primeiro grupo de um ou mais canais pode consistir em N canais, em que N > 3. Na presente modalidade exemplificadora, em resposta ao formato de codificação indicado que é o formato de codificação específico: os coeficientes de pré-descorrelação podem ser determinados de modo que os N - 1 canais do sinal descorrelacionado sejam gerados com base no primeiro canal do sinal desdobrado; e os coeficientes multipista secos e úmidos podem ser determinados de modo que o primeiro grupo de um ou mais canais seja reconstruído como um mapeamento linear do primeiro canal do sinal desdobrado e os N - 1 canais do sinal descorrelacionado, sendo que um subconjunto de coeficientes multipista secos é aplicado ao primeiro canal do sinal desdobrado e um subconjunto de coeficientes multipista úmidos é aplicado aos N - 1 canais do sinal descorrelacionado.
[0060] Os coeficientes de pré-descorrelação podem ser determinados, por exemplo, de modo que os N - 1 canais do sinal de entrada de descorrelação coincidam com o primeiro canal do sinal desdobrado. Os N - 1 canais do sinal descorrelacionado podem ser, por exemplo, gerados pelo processamento destes N - 1 canais do sinal de entrada de descorrelação.
[0061] Entende-se, através da reconstrução do primeiro grupo de um ou mais canais como um mapeamento linear do primeiro canal do sinal desdobrado e pelos N - 1 canais do sinal descorrelacionado, que uma versão reconstruída do primeiro grupo de um ou mais canais é obtida aplicando-se uma transformação linear ao primeiro canal do sinal desdobrado e aos N - 1 canais do sinal descorrelacionado. Esta transformação linear recebe os N canais como entradas e fornece os N canais como saídas, em que o subconjunto dos coeficientes multipista secos e o subconjunto dos coeficientes multipista úmidos juntos consistem em coeficientes que definem as propriedades quantitativas desta transformação linear.
[0062] Em uma modalidade exemplificadora, os parâmetros multipista recebidos podem incluir parâmetros multipista de um primeiro tipo, chamados aqui de parâmetros multipista úmidos, e parâmetros multipista de um segundo tipo, chamados aqui de parâmetros multipista secos. Na presente modalidade exemplificadora, determinar os conjuntos de coeficientes multipista úmidos e secos, no formato de codificação específico, pode compreender: determinar, com base nos parâmetros multipista secos, o subconjunto dos coeficientes multipista secos; preencher uma matriz intermediária que tem mais elementos que o número de parâmetros multipista úmidos recebidos, com base nos parâmetros multipista úmidos recebidos, e sabendo-se que a matriz intermediária pertence a uma classe de matriz predefinida; e obter o subconjunto dos coeficientes multipista úmidos pela multiplicação da matriz intermediária por uma matriz predefinida, sendo que o subconjunto de coeficientes multipista úmidos corresponde à matriz resultante da multiplicação e inclui mais coeficientes que o número de elementos na matriz intermediária.
[0063] Na presente modalidade exemplificadora, o número de coeficientes multipista úmidos no subconjunto de coeficientes multipista úmidos é maior que o número de parâmetros multipista úmidos recebidos. Explorando-se o conhecimento da matriz predefinida e da classe da matriz predefinida para se obter o subconjunto de coeficientes multipista úmidos dos parâmetros multipista úmidos recebidos, a quantidade de informações necessárias para a reconstrução dos parâmetros do primeiro grupo de um ou mais canais pode ser reduzida, permitindo uma redução da quantidade de metadados transmitidos juntamente com o sinal desdobrado a partir de um lado de codificação. Reduzindo-se a quantidade de dados necessários para a reconstrução paramétrica, a largura de banda necessária para a transmissão de uma representação paramétrica do sinal de áudio de M canais, e/ou o tamanho da memória necessário para armazenar tal representação, pode ser reduzida.
[0064] A classe da matriz predefinida pode ser associada a propriedades conhecidas de pelo menos alguns elementos de matriz que são válidos para todas as matrizes na classe, como certas relações entre os elementos da matriz ou alguns elementos da matriz sendo zero. Conhecer estas propriedades permite preencher a matriz intermediária com base em menos parâmetros multipista úmidos que o número total de elementos de matriz na matriz intermediária. O lado de decodificação conhece pelo menos as propriedades e as relações entre os elementos de que precisa para calcular todos os elementos de matriz com base em menos parâmetros multipista úmidos.
[0065] Como determinar e empregar a matriz predefinida e a classe de matriz predefinida é descrito em maiores detalhes na página 16, linha 15 até a página 20, linha 2 do pedido de patente provisório US n° 61/974.544; primeiro inventor mencionado: Lars Villemoes; data de depósito: 3 de abril de 2014. Consulte, em particular, a equação (9) no mesmo para exemplos de matriz predefinida.
[0066] Em uma modalidade exemplificadora, os parâmetros multipista recebidos podem incluir N(N - 1)/2 parâmetros multipista úmidos. Na presente modalidade exemplificadora, preencher a matriz intermediária pode incluir a obtenção de valores para (N - 1)2 elementos de matriz com base nos N(N - 1)/2 parâmetros multipista úmidos recebidos, sabendo-se que a matriz intermediária pertence à classe de matriz predefinida. Isto pode incluir a inserção dos valores dos parâmetros multipista úmidos imediatamente como elementos de matriz ou o processamento dos parâmetros multipista úmidos de uma maneira adequada para derivar valores para os elementos de matriz. Na presente modalidade exemplificadora, a matriz predefinida pode incluir N(N - 1) elementos, e o subconjunto de coeficientes multipista úmidos pode incluir N(N - 1) coeficientes. Por exemplo, os parâmetros multipista recebidos podem incluir não mais que N(N - 1)/2 parâmetros multipista úmidos independentemente atribuíveis e/ou o número de parâmetros multipista úmidos pode ser não mais que metade do número de coeficientes multipista úmidos no subconjunto de coeficientes multipista úmidos.
[0067] Em uma modalidade exemplificadora, os parâmetros multipista recebidos podem incluir (N - 1) parâmetros multipista secos. Na presente modalidade exemplificadora, o subconjunto de coeficientes multipista secos pode incluir N coeficientes e o subconjunto de coeficientes multipista secos pode ser determinado com base nos (N - 1) parâmetros multipista secos recebidos e com base em uma relação predefinida entre os coeficientes no subconjunto de coeficientes multipista secos. Por exemplo, os parâmetros multipista recebidos podem incluir não mais que (N - 1) parâmetros multipista secos independentemente atribuíveis.
[0068] Em uma modalidade exemplificadora, a classe da matriz predefinida pode ser uma dentre: matrizes triangulares superiores e inferiores, sendo que as propriedades conhecidas de todas as matrizes nesta classe incluem elementos da matriz predefinida iguais a zero; matrizes simétricas, sendo que as propriedades conhecidas de todas as matrizes nesta classe incluem os elementos de matriz predefinidos (em cada lado da diagonal principal) que são iguais; e produtos de uma matriz ortogonal e de uma matriz diagonal, sendo que as propriedades conhecidas de todas as matrizes nesta classe incluem relações entre os elementos de matriz predefinidos. Em outras palavras, a classe de matriz predefinida pode ser a classe de matrizes triangulares inferiores, a classe de matrizes triangulares superiores, a classe de matrizes simétricas ou a classe de produtos de uma matriz ortogonal e uma matriz diagonal. Uma propriedade comum de cada uma das classes acima é que sua dimensão é menor que o número total de elementos de matriz.
[0069] Em uma modalidade exemplificadora, a matriz predefinida e/ou a classe de matriz predefinida pode ser associada ao formato de codificação indicado, por exemplo, permitindo que o método de decodificação ajuste a determinação do conjunto de coeficientes multipista úmidos de maneira adequada.
[0070] De acordo com modalidades exemplificadoras, é fornecido um método de decodificação de áudio que compreende: receber uma sinalização indicando uma dentre pelo menos duas configurações de canal predefinidas; em resposta à detecção da sinalização recebida indicando uma primeira configuração de canal predefinida, executar qualquer um dos métodos de decodificação de áudio do primeiro aspecto. O método de decodificação de áudio pode incluir, em resposta à detecção da sinalização recebida indicando uma segunda configuração de canal predefinida: receber um sinal desdobrado de dois canais e parâmetros multipista associados; realizar uma reconstrução paramétrica de um primeiro sinal de áudio de três canais, com base em um primeiro canal do sinal desdobrado, e pelo menos parte dos parâmetros multipista; e realizar uma reconstrução paramétrica de um segundo sinal de áudio de três canais, com base em um segundo canal do sinal desdobrado, e pelo menos parte dos parâmetros multipista.
[0071] A primeira configuração de canal predefinida pode corresponder ao sinal de áudio de M canais sendo representado pelo sinal desdobrado de dois canais recebido e pelos parâmetros multipista associados. A segunda configuração de canal predefinida pode corresponder aos primeiro e segundo sinais de áudio de três canais sendo representados pelos primeiro e segundo canais do sinal desdobrado recebido, respectivamente, e pelos parâmetros multipista associados.
[0072] A capacidade de receber uma sinalização indicando uma de pelo menos duas configurações de canal predefinidas e de executar a reconstrução paramétrica com base na configuração de canal indicada pode permitir que um formato comum seja empregado em um meio legível por computador carregando uma representação paramétrica do sinal de áudio de M canais ou dos dois sinais de áudio de três canais de um lado de codificação para um lado de decodificação.
[0073] De acordo com modalidades exemplificadoras, é fornecido um sistema de decodificação de áudio que compreende uma seção de decodificação configurada para reconstruir um sinal de áudio de M canais com base em um sinal desdobrado de dois canais e parâmetros multipista associados, em que M > 4. O sistema de decodificação de áudio compreende uma seção de controle configurada para receber uma sinalização indicando um formato selecionado dentre pelo menos dois formatos de codificação do sinal de áudio de M canais. Os formatos de codificação correspondem a diferentes partições respectivas dos canais do sinal de áudio de M canais em respectivos primeiro e segundo grupos de um ou mais canais. No formato de codificação indicado, um primeiro canal do sinal desdobrado corresponde a uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal do sinal desdobrado corresponde a uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais. A seção de decodificação compreende: uma seção de pré-descorrelação configurada para determinar um conjunto de coeficientes de pré-descorrelação com base no formato de codificação indicado e para calcular um sinal de entrada de descorrelação como um mapeamento linear do sinal desdobrado, sendo que o conjunto de coeficientes de pré-descorrelação é aplicado ao sinal desdobrado; e uma seção de descorrelação configurada para gerar um sinal descorrelacionado com base no sinal de entrada de descorrelação. A seção de decodificação compreende uma seção de mistura configurada para: determinar conjuntos de coeficientes multipista úmidos e secos com base nos parâmetros multipista recebidos e o formato de codificação indicado; calcular um sinal multipista seco como um mapeamento linear do sinal desdobrado, sendo que o conjunto de coeficientes multipista secos é aplicado ao sinal desdobrado; calcular um sinal multipista úmido como um mapeamento linear do sinal descorrelacionado, sendo que o conjunto de coeficientes multipista secos é aplicado ao sinal descorrelacionado; e combinar os sinais multipista secos e úmidos para obter um sinal reconstruído multidimensional que corresponde ao sinal de áudio de M canais a ser reconstruído.
[0074] Em uma modalidade exemplificadora, o sistema de decodificação de áudio pode compreender, ainda, uma seção de decodificação adicional configurada para reconstruir um sinal de áudio de M canais adicional com base em um sinal desdobrado de dois canais adicional e seus parâmetros multipista associados. A seção de controle pode ser configurada para receber uma sinalização indicando a um formato selecionado dentre pelo menos dois formatos de codificação do sinal de áudio de M canais adicional. Os formatos de codificação do sinal de áudio de M canais adicional podem corresponder a diferentes partições respectivas dos canais do sinal de áudio de M canais adicional nos respectivos primeiro e segundo grupos de um ou mais canais. No formato de codificação indicado do sinal de áudio de M canais adicional, um primeiro canal do sinal desdobrado adicional pode corresponder a uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais adicional, e um segundo canal do sinal desdobrado adicional pode corresponder a uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais adicional. A seção de decodificação adicional pode compreender: uma seção de pré-descorrelação adicional configurada para determinar um conjunto adicional de coeficientes de pré- descorrelação, com base no formato de codificação indicado do sinal de áudio de M canais adicional, e para calcular um sinal de entrada de descorrelação adicional como um mapeamento linear do sinal desdobrado adicional, sendo que o conjunto adicional de coeficientes de pré- descorrelação é aplicado ao sinal desdobrado adicional; e uma seção de descorrelação adicional configurada para gerar um sinal descorrelacionado adicional com base no sinal de entrada de descorrelação adicional. A seção de decodificação adicional pode compreender, ainda, uma seção de mistura adicional configurada para: determinar conjuntos adicionais de coeficientes multipista secos e úmidos com base nos parâmetros multipista adicionais recebidos e no formato de codificação indicado do sinal de áudio de M canais adicional; calcular um sinal multipista seco adicional como um mapeamento linear do sinal desdobrado adicional, sendo que o conjunto de coeficientes multipista secos adicional é aplicado ao sinal desdobrado adicional; calcular um sinal multipista úmido adicional como um mapeamento linear do sinal descorrelacionado adicional, sendo que o conjunto de coeficientes multipista úmidos adicional é aplicado ao sinal descorrelacionado adicional; e combinar os sinais multipistas secos e úmidos adicionais para obter um sinal reconstruído multidimensional adicional que corresponde ao sinal de áudio de M canais adicional a ser reconstruído.
[0075] Na presente modalidade exemplificadora, a seção de decodificação adicional, a seção de pré-descorrelação adicional, a seção de descorrelação adicional e a seção de mistura adicional podem ser, por exemplo, operáveis independentemente da seção de decodificação, da seção de pré-descorrelação, da seção de descorrelação e da seção de mistura.
[0076] Na presente modalidade exemplificadora, a seção de decodificação adicional, a seção de pré-descorrelação adicional, a seção de descorrelação adicional e a seção de mistura adicional podem ser funcionalmente equivalentes à (ou configuradas de maneira análoga) seção de decodificação, a seção de pré-descorrelação, a seção de descorrelação e a seção de mistura. Alternativamente, pelo menos uma dentre a seção de decodificação adicional, a seção de pré-descorrelação adicional, a seção de descorrelação adicional e a seção de mistura adicional pode, por exemplo, ser configurada para realizar pelo menos um tipo de interpolação diferente daquela realizada pela seção correspondente dentre a seção de decodificação, a seção de pré-descorrelação, a seção de descorrelação e a seção de mistura.
[0077] Por exemplo, a sinalização recebida pode indicar diferentes formatos de codificação para o sinal de áudio de M canais e para o sinal de áudio de M canais adicional. Alternativamente, os formatos de codificação dos dois sinais de áudio de M canais podem, por exemplo, sempre coincidir, e a sinalização recebida pode indicar um formato selecionado dentre pelo menos dois formatos de codificação comuns para os dois sinais de áudio de M canais.
[0078] Os esquemas de interpolação empregados para transições graduais entre coeficientes de pré-descorrelação, em resposta à mudança entre os formatos de codificação do sinal de áudio de M canais, podem coincidir ou podem ser diferentes dos esquemas de interpolação empregados para transições graduais entre coeficientes de pré- descorrelação adicionais, em resposta à mudança entre os formatos de codificação do sinal de áudio de M canais adicional.
[0079] De modo similar, os esquemas de interpolação empregados para interpolação de valores de coeficientes multipista secos e úmidos, em resposta à mudança entre os formatos de codificação do sinal de áudio de M canais, podem coincidir ou podem ser diferentes dos esquemas de interpolação empregados para a interpolação de valores de coeficientes multipista secos e úmidos adicionais em resposta à mudança entre os formatos de codificação do sinal de áudio de M canais adicional.
[0080] Em uma modalidade exemplificadora, o sistema de decodificação de áudio pode conter, ainda, um demultiplexador configurado para extrair, a partir de um fluxo de bits, o sinal desdobrado, os parâmetros multipista associados ao sinal desdobrado e um canal de áudio codificado separadamente. O sistema de decodificação pode compreender, ainda, uma seção de decodificação de canal único operável para decodificar o canal de áudio codificado separadamente. O canal de áudio codificado separadamente pode ser, por exemplo, codificado em um fluxo de bits com o uso de um codificador de áudio perceptual como DoLBy Digital, MPEG, AAC, ou desenvolvimentos dos mesmos, e a seção de decodificação de canal único pode compreender, por exemplo, um decodificador de núcleo para a decodificação do canal de áudio codificado separadamente. A seção de decodificação de canal único pode ser, por exemplo, operável para decodificar o canal de áudio codificado separadamente, independentemente da seção de decodificação.
[0081] De acordo com modalidades exemplificadoras, é fornecido um programa de computador que compreende um meio legível por computador com instruções para realização de qualquer um dos métodos do primeiro aspecto.
II. Visão geral - Lado de codificação.
[0082] De acordo com um segundo aspecto, as modalidades exemplificadoras propõem sistemas de codificação de áudio, bem como métodos de codificação de áudio e programas de computador associados. Os sistemas de codificação, métodos e programas de computador propostos, de acordo com o segundo aspecto, podem, de modo geral, compartilhar as mesmas características e vantagens. Além disso, as vantagens apresentadas acima para recursos dos sistemas de decodificação, métodos e programas de computador, de acordo com o primeiro aspecto, podem ser, de modo geral, válidos para os recursos correspondentes de sistemas de codificação, métodos e programas de computador, de acordo com o segundo aspecto.
[0083] De acordo com modalidades exemplificadoras, é fornecido um método de codificação de áudio que compreende: receber um sinal de áudio de M canais, em que M > 4. O método de codificação de áudio compreende selecionar repetidamente um dentre pelo menos dois formatos de codificação, com base em qualquer critério de seleção adequado, por exemplo, propriedades de sinal, carga do sistema, preferências do usuário, condições de rede. A seleção pode ser repetida uma vez para cada período de tempo do sinal de áudio, ou uma vez a cada enésimo período de tempo, possivelmente levando à seleção de um formato diferente daquele inicialmente escolhido; alternativamente, a seleção pode ser acionada por um evento. Os formatos de codificação correspondem a diferentes partições respectivas dos canais do sinal de áudio de M canais, em respectivos primeiro e segundo grupos de um ou mais canais. Em cada um dos formatos de codificação, um sinal desdobrado de dois canais inclui um primeiro canal formado como uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal formado como uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais. Para o formato de codificação selecionado, o canal desdobrado é calculado com base no sinal de áudio de M canais. Uma vez calculado, o sinal desdobrado do formato de codificação selecionado no momento produz informações, tal como a sinalização que indica o formato de codificação selecionado no momento, e as informações secundárias que permitem a reconstrução paramétrica do sinal de áudio de M canais. Se a seleção resulta em uma mudança de um primeiro formato de codificação para um segundo formato de codificação distinto selecionado, uma transição pode ser iniciada, de modo que um fading cruzado do sinal desdobrado de acordo com o primeiro formato de codificação selecionado e do sinal desdobrado de acordo com o segundo formato de codificação selecionado produz informações. Neste contexto, um fading cruzado pode ser uma interpolação de tempo linear ou não linear de dois sinais. Por exemplo, fornece um fading cruzado y da função x2 para a função x1 linearmente ao longo do tempo, sendo que x1, x2 podem ser funções de valor vetorial do tempo, representando os sinais desdobrados de acordo com seus respectivos formatos de codificação. Para simplicidade de notação, o intervalo de tempo, sobre o qual o fading cruzado é executado, foi redimensionado para [0, 1], sendo que t = 0 representa o início do fading cruzado e t = 1 representa o ponto no tempo em que o fading cruzado terminou.
[0084] A localização dos pontos t = 0 e t = 1 em unidades físicas pode ser importante para a percepção da qualidade de saída de áudio do áudio reconstruído. Como uma possível orientação para situar o fading cruzado, o início pode ocorrer o mais cedo possível, após a necessidade por um formato diferente ser determinada, e/ou o fading cruzado pode terminar no menor tempo possível que é perceptualmente imperceptível. Dessa forma, para implementações em que a seleção de um formato de codificação é repetida a cada quadro, algumas modalidades exemplificadoras estabelecem que o fading cruzado comece (t = 0) no início do quadro e tenha seu ponto final (t = 1) o mais próximo possível, mas distante o bastante para que um ouvinte normal seja incapaz de detectar artefatos ou degradações devido a uma transição entre duas reconstruções de um sinal de áudio de M canais comum (com conteúdo normal) com base em dois formatos de codificação diferentes. Em uma modalidade exemplificadora, a saída do sinal desdobrado através do método de codificação de áudio é segmentada em períodos de tempo e um fading cruzado pode ocupar um quadro. Em outra modalidade exemplificadora, a saída de sinal desdobrado do método de codificação de áudio é segmentada em períodos de tempo sobrepostos e a duração do fading cruzado corresponde ao passo de um período de tempo para o próximo.
[0085] Em modalidades exemplificadoras, a sinalização que indica o formato de codificação selecionado no momento pode ser codificada em uma base de quadro a quadro. Alternativamente, a sinalização pode ter uma diferença de tempo, no sentido de que tal sinalização pode ser omitida em um ou mais quadros consecutivos, se não houver mudança no formato de codificação selecionado. No lado de decodificação, tal sequência de quadros pode ser interpretada de modo a significar que o formato de codificação mais recentemente sinalizado permanece selecionado.
[0086] Dependendo do conteúdo de áudio do sinal de áudio de M canais, diferentes partições dos canais do sinal de áudio de M canais no primeiro e segundo grupos, representados pelos respectivos canais do sinal desdobrado, podem ser adequadas para capturar e codificar de maneira eficaz o sinal de áudio de M canais, e para conservar a fidelidade quando este sinal é reconstruído a partir do sinal desdobrado e dos parâmetros multipista associados. A fidelidade do sinal de áudio de M canais conforme reconstruído pode, portanto, ser aumentada pela seleção de um formato de codificação adequado, isto é, o mais adequado a partir de um número de formatos de codificação predefinidos.
[0087] Em uma modalidade exemplificadora, as informações secundárias incluem os coeficientes multipista secos e úmidos, no mesmo sentido que esses termos têm sido usados acima nesta revelação. Salvo razões de implementação específicas, é geralmente suficiente calcular as informações secundárias (em particular, os coeficientes multipista secos e úmidos) para o formato de codificação selecionado no momento. Em particular, o conjunto de coeficientes multipista (que pode ser representado como uma matriz de dimensões M x 2) pode definir um mapeamento linear do respectivo sinal multipista que se aproxima do sinal de áudio de M canais. O conjunto de coeficientes multipista úmidos (que pode ser representado como uma matriz de dimensões M x P, em que P, o número de descorrelacionadores, pode ser definido como P = M - 2) define um mapeamento linear do sinal descorrelacionado, de modo que uma covariância do sinal obtido pelo dito mapeamento linear do sinal descorrelacionado suplemente uma covariância do sinal de áudio de M canais como aproximado pelo mapeamento linear do sinal desdobrado do formato de codificação selecionado. O mapeamento do sinal descorrelacionado, o qual o conjunto de coeficientes multipista úmidos define, irá completar a covariância do sinal de áudio de M canais (como aproximado), no sentido de que a covariância da soma do sinal de áudio de M canais e o mapeamento do sinal descorrelacionado é, tipicamente, mais próximo à covariância do sinal de áudio de M canais recebido. Um efeito da adição da covariância complementar pode ser melhorar a fidelidade de um sinal reconstruído no lado de decodificação.
[0088] O mapeamento linear do sinal desdobrado fornece uma aproximação do sinal de áudio de M canais. Ao reconstruir o sinal de áudio de M canais em um lado de decodificação, o sinal descorrelacionado é empregado para aumentar a dimensionalidade do conteúdo de áudio do sinal desdobrado, e o sinal obtido pelo mapeamento linear do sinal descorrelacionado é combinado com o sinal obtido pelo mapeamento linear do sinal desdobrado para aumentar a fidelidade da aproximação do sinal de áudio de M canais. Uma vez que o sinal descorrelacionado é determinado com base em pelo menos um canal do sinal desdobrado e não compreende qualquer conteúdo de áudio do sinal de áudio de M canais que já não está disponível no sinal desdobrado, a diferença entre a covariância do sinal de áudio de M canais conforme recebido e a covariância do sinal de áudio de M canais, conforme aproximado pelo mapeamento linear do sinal desdobrado, pode ser indicativa não apenas de uma fidelidade do sinal de áudio de M canais, conforme aproximado pelo mapeamento linear do sinal desdobrado, mas também de uma fidelidade do sinal de áudio de M canais, conforme reconstruído usando-se ambos o sinal desdobrado e o sinal descorrelacionado. Em particular, uma diferença reduzida entre a covariância do sinal de áudio de M canais conforme recebido e a covariância do sinal de áudio de M canais conforme aproximado, pelo mapeamento linear do sinal desdobrado, pode ser uma indicativa da fidelidade aprimorada do sinal de áudio M canais conforme reconstruído. O mapeamento do sinal descorrelacionado, o qual o conjunto de coeficientes multipista úmidos define, completa a covariância do sinal de áudio de M canais (obtido a partir do sinal desdobrado), no sentido de que a covariância da soma do sinal de áudio de M canais e do mapeamento do sinal descorrelacionado está mais próxima à covariância do sinal de áudio de M canais recebido. Portanto, selecionar um dos formatos de codificação com base nas respectivas diferenças calculadas permite a melhora da fidelidade do sinal de áudio de M canais conforme reconstruído.
[0089] Será reconhecido que o formato de codificação pode ser selecionado, por exemplo, diretamente com base nas diferenças calculadas ou com base nos coeficientes e/ou valores determinados com base nas diferenças calculadas.
[0090] Também será reconhecido que o formato de codificação pode ser selecionado com base, por exemplo, em parâmetros multipista secos respectivos, em adição a diferenças calculadas respectivas.
[0091] O conjunto de coeficientes multipista pode ser, por exemplo, determinado através de uma aproximação de erro quadrático médio mínimo sob a suposição de que somente o sinal desdobrado está disponível para a reconstrução, isto é, sob a suposição de que o sinal descorrelacionado não é empregado na reconstrução.
[0092] As diferenças calculadas podem ser, por exemplo, diferenças entre uma matriz de covariância do sinal de áudio de M canais conforme recebido e as matrizes de covariância do sinal de áudio de M canais conforme aproximado pelos respectivos mapeamentos lineares do sinal desdobrado dos diferentes formatos de codificação. Selecionar um dos formatos de codificação pode incluir, por exemplo, calcular normas de matriz para as respectivas diferenças entre as matrizes de covariância, e selecionar um dos formatos de codificação com base nas normas de matriz calculadas, por exemplo, pela seleção de um formato de codificação associado a no mínimo uma norma de matriz calculada.
[0093] O sinal descorrelacionado pode incluir, por exemplo, pelo menos um canal e no máximo M - 2 canais.
[0094] Entende-se, pelo conjunto de coeficientes multipista que definem um mapeamento linear do sinal desdobrado que se aproxima do sinal desdobrado de M canais, que uma aproximação do sinal desdobrado de M canais é obtida mediante a aplicação de uma transformação linear ao sinal desdobrado. Essa transformação linear recebe os dois canais do sinal desdobrado como entradas, e fornece os M canais como saídas, e os coeficientes multipista secos são coeficientes definindo as propriedades quantitativas desta transformação linear.
[0095] De modo similar, os parâmetros multipista úmidos definem as propriedades quantitativas de uma transformação linear, recebendo o(s) canal(is) do sinal descorrelacionado como entradas e fornecendo os M canais como saídas.
[0096] Em uma modalidade exemplificadora, os parâmetros multipista úmidos podem ser determinados de modo que uma covariância do sinal obtido pelo mapeamento linear (que os parâmetros multipista úmidos definem) do sinal descorrelacionado aproxima uma diferença entre a covariância do sinal de áudio de M canais, conforme recebido, e uma covariância do sinal de áudio de M canais conforme aproximado pelo mapeamento linear do sinal desdobrado do formato de codificação selecionado. Em outras palavras, a covariância de uma soma de um primeiro mapeamento linear (definido pelos parâmetros multipista secos) do sinal linear e um segundo mapeamento linear (definido pelos parâmetros multipista úmidos, determinados de acordo com esta modalidade exemplificadora) do sinal descorrelacionado será próxima à covariância do sinal de áudio de M canais que constitui a entrada para o método de codificação de áudio discutido acima. Determinar os coeficientes multipista úmidos de acordo com a presente modalidade exemplificadora pode melhorar a fidelidade do sinal de áudio de M canais conforme reconstruído.
[0097] Alternativamente, os parâmetros multipista úmidos podem ser determinados de modo que uma covariância do sinal obtido pelo mapeamento linear do sinal descorrelacionado aproxima uma porção de uma diferença entre a covariância do sinal de áudio de M canais, conforme recebido, e uma covariância do sinal de áudio de M canais conforme aproximado pelo mapeamento linear do sinal desdobrado do formato de codificação selecionado. Se, por exemplo, um número limitado de descorrelacionadores estiver disponível em um lado de decodificação, pode não ser possível restabelecer totalmente a covariância do sinal de áudio de M canais, conforme recebido. Em tal exemplo, os parâmetros multipista adequados para a reconstrução parcial da covariância do sinal de áudio de M canais, empregando um número reduzido de descorrelacionadores, podem ser determinados no lado de codificação.
[0098] Em uma modalidade exemplificadora, o método de codificação de áudio pode compreender, adicionalmente, para cada um dos pelo menos dois formatos de codificação: determinar um conjunto de coeficientes multipista úmidos que, juntamente com os coeficientes multipista secos (daquele formato de codificação), permitem a reconstrução paramétrica do sinal de áudio de M canais do sinal desdobrado (daquele formato de codificação) e de um sinal descorrelacionado determinado com base no sinal desdobrado (daquele formato), sendo que o conjunto de coeficientes multipista úmidos define um mapeamento linear do sinal descorrelacionado de modo que uma covariância de um sinal obtido pelo mapeamento linear do sinal descorrelacionado aproxime uma diferença entre a covariância do sinal de áudio de M canais conforme recebido, e uma covariância entre o sinal de áudio de M canais conforme aproximado pelo mapeamento linear do sinal desdobrado (daquele formato). Na presente modalidade exemplificadora, o formato de codificação selecionado pode ser selecionado com base nos valores dos respectivos conjuntos de coeficientes multipista úmidos determinados.
[0099] Uma indicação da fidelidade do sinal de áudio de M canais conforme reconstruído pode ser, por exemplo, obtida com base nos coeficientes multipista úmidos determinados. A seleção de um formato de codificação pode se basear, por exemplo, nas somas ponderadas e não ponderadas dos coeficientes multipista úmidos determinados, nas somas ponderadas ou não ponderadas das magnitudes dos coeficientes multipista úmidos determinados e/ou nas somas ponderadas ou não ponderadas dos quadrados dos coeficientes multipista úmidos determinados, por exemplo, também com base em somas correspondentes de coeficientes multipista secos calculados respectivos.
[0100] Os parâmetros multipista úmidos podem ser, por exemplo, calculados para uma pluralidade de faixas de frequência do sinal de áudio de M canais, e a seleção de um formato de codificação pode ser feita, por exemplo, com base nos valores de conjuntos de coeficientes multipista úmidos respectivos determinados em faixas de frequência respectivas.
[0101] Em uma modalidade exemplificadora, uma transição entre um primeiro e um segundo formatos de codificação inclui emitir valores distintos de coeficientes multipista secos e úmidos do primeiro formato de codificação em um primeiro período de tempo e do segundo formato de codificação em um período de tempo subsequente. As funcionalidades em um decodificador que eventualmente reconstrói o sinal de áudio de M canais pode incluir a interpolação dos coeficientes multipista entre valores de saída distintos. Em virtude de tais funcionalidades no lado de decodificação, um fading cruzado do primeiro para o segundo formato ocorrerá de forma eficaz. Semelhantemente ao fading cruzado aplicado ao sinal desdobrado, conforme descrito acima, tal fading cruzado pode levar a uma transição menos perceptível entre os formatos de codificação quando o sinal de áudio de M canais for reconstruído.
[0102] Entende-se que os coeficientes empregados para calcular o sinal desdobrado com base no sinal de áudio de M canais podem ser interpolados, isto é, de valores associados a um quadro em que o sinal desdobrado é calculado de acordo com um primeiro formato de codificação, até valores associados a um quadro em que o sinal desdobrado é calculado de acordo com o segundo formato de codificação. Se o desdobramento ocorre pelo menos no domínio de tempo, um fading cruzado desdobrado do coeficiente de interpolação do tipo descrito será equivalente a um fading cruzado resultante da interpolação executada diretamente nos sinais desdobrados respectivos. Recorda-se que os valores dos coeficientes empregados para o cálculo do sinal desdobrado não são, tipicamente, sinais dependentes, mas podem ser predefinidos para cada um dos formatos de codificação disponíveis.
[0103] Voltando ao fading cruzado do sinal desdobrado e aos coeficientes multipista, é considerado vantajoso assegurar o sincronismo entre os dois fadings cruzados. De preferência, os períodos de transição respectivos para o sinal desdobrado e os coeficientes multipista podem coincidir. Em particular, as entidades responsáveis pelos respectivos fadings cruzados podem ser controladas por um fluxo de dados de controle comum. Tais dados de controle podem incluir pontos de partida e pontos de término do fading cruzado e, opcionalmente, uma forma de onda de fading cruzado, como linear, não linear, etc. No caso dos coeficientes multipista, a forma de onda do fading cruzado pode ser proporcionada por uma regra de interpolação predeterminada que governa o comportamento de um dispositivo de decodificação; os pontos de partida e término dos fadings cruzados podem, entretanto, ser controlados de modo implícito pelas posições nas quais os valores distintos dos coeficientes multipista são definidos e/ou fornecidos. A similaridade na dependência de tempo dos dois processos de fading cruzado garante uma boa correspondência entre o sinal desdobrado e os parâmetros fornecidos para sua reconstrução, o que pode levar a uma redução nos artefatos no lado de decodificação.
[0104] Em uma modalidade exemplificadora, a seleção de um formato de codificação tem por base a comparação da diferença, em termos de covariância, do sinal de M canais, conforme recebido, e o sinal de M canais conforme reconstruído com base no sinal desdobrado. Em particular, a reconstrução pode ser igual a um mapeamento linear do sinal desdobrado, conforme definido pelos coeficientes multipista secos, isto é, sem uma contribuição de um sinal que foi determinado usando-se a descorrelação (por exemplo, para aumentar a dimensionalidade do conteúdo de áudio do sinal desdobrado). Em particular, nenhuma contribuição do mapeamento linear definido por qualquer conjunto de coeficientes multipista úmidos será considerada na comparação. Em outras palavras, a comparação é feita como se nenhum sinal descorrelacionado estivesse disponível. Esta base para a seleção pode favorecer um formato de codificação que atualmente permite uma reprodução mais fiel. Opcionalmente, depois que essa comparação foi realizada e uma decisão foi feita em relação a seleção de um formato de codificação, um conjunto de coeficientes multipista úmidos é determinado. Uma vantagem associada a este processo é que não há determinação duplicada dos coeficientes multipista úmidos para uma dada seção do sinal de áudio de M canais recebido.
[0105] Em uma variação da modalidade exemplificadora descrita no parágrafo anterior, os coeficientes multipista secos e úmidos são calculados para todos os formatos de codificação, e uma medida quantitativa dos coeficientes multipista úmidos é usada como a base para a seleção de um formato de codificação. De fato, uma quantidade calculada com base nos coeficientes multipista úmidos determinados pode proporcionar uma indicação (inversa) da fidelidade do sinal de áudio de M canais conforme reconstruído. A seleção de um formato de codificação pode se basear, por exemplo, nas somas ponderadas e não ponderadas dos coeficientes multipista úmidos determinados, nas somas ponderadas ou não ponderadas das magnitudes dos coeficientes multipista úmidos determinados e/ou nas somas ponderadas ou não ponderadas dos quadrados dos coeficientes multipista úmidos determinados. Cada uma dessas opções pode ser combinada com somas correspondentes dos respectivos coeficientes multipista secos calculados. Os parâmetros multipista úmidos podem ser, por exemplo, calculados para uma pluralidade de faixas de frequência do sinal de áudio de M canais, e a seleção de um formato de codificação pode ser feita, por exemplo, com base nos valores de conjuntos de coeficientes multipista úmidos respectivos determinados em faixas de frequência respectivas.
[0106] Em uma modalidade exemplificadora, o método de codificação de áudio pode compreender, ainda: para cada um dos pelo menos dois formatos de codificação, calcular uma soma dos quadrados dos coeficientes multipista úmidos correspondentes e uma soma dos quadrados dos coeficientes multipista secos correspondentes. Na presente modalidade exemplificadora, o formato de codificação selecionado pode ser selecionado com base nas somas dos quadrados calculadas. Os inventores perceberam que as somas dos quadrados calculadas podem oferecer uma indicação particularmente boa da perda de fidelidade, conforme percebido por um ouvinte, que ocorre quando o sinal de áudio de M canais é reconstruído com base na mistura de contribuições úmidas ou secas.
[0107] Por exemplo, uma razão pode ser formada para cada formato de codificação, com base nas somas dos quadrados calculadas para o formato de codificação respectivo, e o formato de codificação selecionado pode ser associado a um mínimo ou máximo das razões formadas. Formar uma razão pode incluir, por exemplo, dividir, por um lado, uma soma dos quadrados dos coeficientes multipista úmidos, por outro lado, uma soma de uma soma dos quadrados dos coeficientes multipista secos e uma soma dos quadrados dos coeficientes úmidos. Alternativamente, a razão pode ser formada pela divisão de uma soma dos quadrados dos coeficientes multipista úmidos por uma soma dos quadrados dos coeficientes multipista secos.
[0108] Em uma modalidade exemplificadora, o método fornece codificação de um sinal de áudio de M canais e pelo menos um sinal de áudio (M2 canais) associado. Os sinais de áudio podem ser associados no sentido de que eles descrevem uma cena de áudio comum, por exemplo, por terem sido gravados simultaneamente ou gerados em um processo de autoria comum. Os sinais de áudio não precisam ser codificados por meio de um sinal desdobrado comum, mas podem ser codificados em processos separados. Em tal configuração, a seleção de um dos formatos de codificação leva em consideração, adicionalmente, os dados relacionados ao dito pelo menos um canal de áudio adicional, e o formato de codificação é, dessa forma, selecionado para ser usado para a codificação tanto do sinal de áudio de M canais quanto do sinal de áudio (M2 canais) associado.
[0109] Em uma modalidade exemplificadora, a saída do sinal desdobrado pelo método de codificação de áudio pode ser dividida em períodos de tempo, a seleção de um formato de codificação pode ser realizada uma vez por quadro, e o formato de codificação selecionado pode ser mantido durante pelo menos um número predefinido de períodos de tempo antes de um formato de codificação diferente ser selecionado. A seleção de um formato de codificação para um quadro pode ser realizada por qualquer um dos métodos descritos acima, por exemplo, levando-se em consideração as diferenças entre as covariâncias, considerando-se os valores dos coeficientes multipista úmidos para os formatos de codificação disponíveis e similares. Ao manter o formato de codificação selecionado por um número mínimo de quadros, saltos repetidos de trás para a frente entre formatos de codificação podem ser, por exemplo, evitados. A presente modalidade exemplificadora pode melhorar, por exemplo, a qualidade de reprodução, conforme percebida por um ouvinte, do sinal de áudio de M canais conforme reconstruído.
[0110] O número mínimo de períodos de tempo pode ser de, por exemplo, 10.
[0111] O sinal de áudio de M canais recebido pode ser, por exemplo, armazenado temporariamente para o número mínimo de períodos de tempo, e a seleção de um formato de codificação pode ser realizada, por exemplo, com base em uma decisão majoritária sobre uma janela móvel, que compreende um número de períodos de tempo escolhido em função do dito número mínimo de quadros em que um formato de codificação selecionado deve ser mantido. Uma implementação de tal funcionalidade estabilizante pode incluir um dentre vários filtros de suavização, em particular filtros de suavização de resposta de impulso finita, que são conhecidos no processamento de sinal digital. Em uma alternativa para esta abordagem, o formato de codificação pode ser alterado para um novo formato de codificação quando o novo formato de codificação foi selecionado para o dito número mínimo de quadros em sequência. Para reforçar esse critério, uma janela de tempo móvel, com o número mínimo de quadros consecutivos, pode ser aplicada a seleções de formato de codificação anteriores, por exemplo, para os quadros armazenados temporariamente. Se, depois de uma sequência de quadros de um primeiro formato de codificação, um segundo formato de codificação permaneceu selecionado para cada quadro dentro da janela móvel, a transição para o segundo formato de codificação é confirmada e é afetada a partir do início da janela móvel em diante. Uma implementação da funcionalidade estabilizante acima pode incluir uma máquina de estado.
[0112] Em uma modalidade exemplificadora, é fornecida uma representação compacta dos parâmetros multipista secos e úmidos, que, entre outros, inclui gerar uma matriz intermediária que, em virtude de pertencer a uma classe de matriz predefinida, é exclusivamente determinada por um número menor de parâmetros que os elementos na matriz. Aspectos desta representação compacta foram descritos em seções anteriores desta revelação e com referência, em particular, ao pedido de patente provisório US n° 61/974.544, primeiro inventor mencionado: Lars Villemoes; data de depósito: 3 de abril de 2014.
[0113] Em uma modalidade exemplificadora, no formato de codificação selecionado, o primeiro grupo de um ou mais canais do sinal de áudio de M canais pode consistir em N canais, em que N > 3. O primeiro grupo de um ou mais canais pode ser reconstruível a partir do primeiro canal do sinal desdobrado e N - 1 canais do sinal descorrelacionado aplicando-se pelo menos alguns dos coeficientes multipista secos e úmidos.
[0114] Na presente modalidade exemplificadora, determinar o conjunto de coeficientes multipista secos do formato de codificação selecionado pode incluir determinar um subconjunto de coeficientes multipista secos do formato de codificação selecionado, de modo a definir um mapeamento linear do primeiro canal do sinal desdobrado do formato de codificação selecionado que se aproxime do primeiro grupo de um ou mais canais do formato de codificação selecionado.
[0115] Na presente modalidade exemplificadora, determinar o conjunto de coeficientes multipista úmidos do formato de codificação selecionado pode incluir: determinar uma matriz intermediária com base em uma diferença entre uma covariância do primeiro grupo de um ou mais canais do formato de codificação selecionado, conforme recebido, e uma covariância do primeiro grupo de um ou mais canais do formato de codificação selecionado conforme aproximado pelo mapeamento linear do primeiro canal do sinal multipista do formato de codificação selecionado. Quando multiplicada por uma matriz predefinida, a matriz intermediária pode corresponder a um subconjunto de coeficientes multipista úmidos do formato de codificação selecionado, definindo um mapeamento linear dos N - 1 canais do sinal descorrelacionado como parte da reconstrução paramétrica do primeiro grupo de um ou mais canais do formato de codificação selecionado. O subconjunto de coeficientes multipista úmidos do formato de codificação selecionado pode incluir mais coeficientes que o número de elementos da matriz intermediária.
[0116] Na presente modalidade exemplificadora, os parâmetros multipista de saída podem incluir um conjunto de parâmetros multipista de um primeiro tipo, chamados aqui de parâmetros multipista secos, a partir do qual o subconjunto de coeficientes multipista secos é derivável, e um conjunto de parâmetros multipista de um segundo tipo, chamado aqui de parâmetros multipista úmidos, definindo de forma única a matriz intermediária, desde que a matriz intermediária pertença a uma classe de matriz predefinida. A matriz intermediária pode ter mais elementos que o número de elementos no subconjunto de parâmetros multipista úmidos do formato de codificação selecionado.
[0117] Na presente modalidade exemplificadora, uma cópia da reconstrução paramédica do primeiro grupo de um ou mais canais em um lado de decodificação inclui, como uma contribuição, um sinal multipista seco formado pelo mapeamento linear do primeiro canal do sinal desdobrado e, como uma contribuição adicional, um sinal multipista úmido formado pelo mapeamento linear dos N - 1 canais do sinal descorrelacionado. O subconjunto de coeficientes multipista secos define o mapeamento linear do primeiro canal do sinal desdobrado e o subconjunto de coeficientes multipista úmidos define o mapeamento linear do sinal descorrelacionado. Pela emissão de parâmetros multipista úmidos que estão em menor número que os coeficientes no subconjunto de coeficientes multipista úmidos, e a partir dos quais o subconjunto de coeficientes multipista úmidos é derivável com base na matriz predefinida e a classe de matriz predefinida, a quantidade de informações enviadas a um decodificador para permitir a reconstrução do sinal de áudio de M canais pode ser reduzida. Ao reduzir a quantidade de dados necessários para a reconstrução paramétrica, a largura de banda necessária para a transmissão de uma representação paramétrica do sinal de áudio de M canais e/ou o tamanho da memória necessário para armazenar tal representação pode ser reduzida.
[0118] A matriz intermediária pode ser, por exemplo, determinada de modo que uma covariância do sinal obtido pelo mapeamento linear dos N - 1 canais do sinal descorrelacionado complete a covariância do primeiro grupo de um ou mais canais conforme aproximado pelo mapeamento linear do primeiro canal do sinal desdobrado.
[0119] Como determinar e empregar a matriz predefinida e a classe de matriz predefinida é descrito em maiores detalhes na página 16, linha 15 até a página 20, linha 2 do pedido de patente provisório US n° 61/974.544 mencionado acima, Consulte a equação específica (9) no mesmo para exemplos de matriz predefinida.
[0120] Em uma modalidade exemplificadora, determinar a matriz intermediária pode incluir determinar a matriz intermediária de modo que uma covariância do sinal obtido pelo mapeamento linear dos N - 1 canais do sinal descorrelacionado, definida pelo subconjunto de coeficientes multipista úmidos, se aproxime ou substancialmente coincida com a diferença entre a covariância do primeiro grupo de um ou mais canais, conforme recebido, e a covariância do primeiro grupo de um ou mais canais conforme aproximado pela mapeamento linear do primeiro canal do sinal desdobrado. Em outras palavras, a matriz intermediária pode ser determinada de modo que uma cópia da reconstrução do primeiro grupo de um ou mais canais, obtida como uma soma de um sinal multipista formado pelo mapeamento linear do primeiro canal do sinal desdobrado e de um sinal multipista úmido formado pelo mapeamento linear dos N - 1 canais do sinal descorrelacionado completamente, ou pelo menos aproximadamente, restabelece a covariância do primeiro grupo de um ou mais canais conforme recebida.
[0121] Em uma modalidade exemplificadora, os parâmetros multipista úmidos podem incluir não mais que N(N-1)/2 parâmetros multipista úmidos transmissíveis independentemente. Na presente modalidade exemplificadora, a matriz intermediária pode ter (N - 1)2 elementos de matriz, e pode ser definida inequivocamente pelos parâmetros multipista úmidos, desde que a matriz intermediária pertença à classe de matriz predefinida. Na presente modalidade exemplificadora, o subconjunto de coeficientes multipista úmidos pode incluir N(N - 1) coeficientes.
[0122] Em uma modalidade exemplificadora, o subconjunto de coeficientes multipista secos pode incluir N coeficientes. Na presente modalidade exemplificadora, os parâmetros multipista secos podem incluir não mais que N - 1 parâmetros multipista secos, e o subconjunto de coeficientes multipista secos pode ser derivável dos N - 1 parâmetros multipista secos, usando-se uma regra predefinida.
[0123] Em uma modalidade exemplificadora, o subconjunto de coeficientes multipista secos determinado pode definir um mapeamento linear do primeiro canal do sinal desdobrado, que corresponde a uma aproximação de erro quadrático médio mínimo do primeiro grupo de um ou mais canais, isto é, dentre o conjunto de mapeamentos lineares do primeiro canal do sinal desdobrado, o conjunto de coeficientes multipista secos determinado pode definir o mapeamento linear que melhor se aproxima do primeiro grupo de um ou mais canais em um sentido de média quadrática mínima.
[0124] De acordo com uma modalidade exemplificadora, é fornecido um sistema de decodificação de áudio que compreende uma seção de codificação configurada para codificar um sinal de áudio de M canais como o sinal de áudio de dois canais e parâmetros multipista associados, em que M > 4. A seção de codificação compreende: uma seção desdobrada configurada para, para pelo menos um dentre pelo menos dois formatos de codificação correspondentes a partições diferentes correspondentes dos canais de sinal de áudio de M canais nos respectivos primeiro e segundo grupos de um ou mais canais, calcular, de acordo com o formato de codificação, um sinal desdobrado de dois canais com base no sinal de áudio de M canais. Um primeiro canal do sinal desdobrado é formado como uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal do sinal desdobrado é formado como uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais.
[0125] O sistema de codificação de áudio compreende adicionalmente uma seção de controle configurada para selecionar um dos formatos de codificação, com base em qualquer critério adequado, por exemplo, propriedades de sinal, sistema de carga, preferências do usuário, condições de rede. O sistema de codificação de áudio compreende adicionalmente um interpolador desdobrado, que realiza o fading cruzado do sinal desdobrado entre dois formatos de codificação quando uma transição foi ordenada pela seção de controle. Durante tal transição, sinais desdobrados para ambos os formatos de codificação podem ser calculados. Em adição ao sinal desdobrado - ou quando aplicável um fading cruzado do mesmo - o sistema de codificação de áudio emite pelo menos uma sinalização indicando um formato de codificação selecionado no momento, e informações secundárias permitindo a reconstrução paramétrica do sinal de áudio de M canais, com base no sinal desdobrado. Se o sistema compreende múltiplas seções de codificação operando em paralelo, por exemplo, para codificar grupos de canais de áudio respectivos, então a seção de controle pode ser implementada de maneira autônoma a partir de cada um destes e pode ser responsável pela seleção de um formato de codificação comum a ser usado por cada uma das seções de codificação.
[0126] Em uma modalidade exemplificadora, é fornecido um programa de computador que compreende um meio legível por computador com instruções para realização de qualquer um dos métodos descritos nessa seção.
III. Modalidades exemplificadoras
[0127] As Figuras 6 a 8 ilustram formas alternativas para a partição de um sinal de áudio de 11.1 canais em grupos de canais para codificação paramétrica do sinal de áudio de 11.1 canais em um sinal de áudio de 5.1 canais. O sinal de áudio de 11.1 canais compreende o canal L (esquerdo), LS (lado esquerdo), LB (esquerdo traseiro), TFL (superior esquerdo frontal), TBL (superior esquerdo posterior), R (direito), RS (lado direito), RB (direito traseiro), TFR (superior direito frontal), TBR (superior direito posterior), C (central) e LFE (efeitos de baixa frequência). Os cinco canais L, LS, LB, TFL e TBL formam um sinal de áudio de cinco canais, representando uma metade esquerda de um ambiente de reprodução do sinal de áudio de 11.1 canais. Os três canais L, LS e LB representam direções horizontais diferentes no ambiente de reprodução, e os dois canais TFL e TBL representam direções separadas verticalmente daqueles dentre os três canais L, LS e LB. Os dois canais TFL e TBL podem ser, por exemplo, projetados para reprodução em alto-falantes de teto. De modo similar, os cinco canais R, RS, RB, TFR e TBR formam um sinal de áudio de cinco canais adicional que representa uma metade direita de um ambiente de reprodução, os três canais R, RS e RB representando direções horizontais diferentes no ambiente de reprodução, e os dois canais TFR e TBR representando direções verticalmente separadas daqueles dentre os três canais R, RS e RB.
[0128] A fim de representar o sinal de áudio de 11.1 canais como um sinal de áudio de 5.1 canais, a coleção de canais L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, e LFE, pode ser fracionada em grupos de canais representados pelos canais desdobrados respectivos e parâmetros multipista associados. O sinal de áudio de cinco canais L, LS, LB, TFL, TBL pode ser representado por um sinal desdobrado de dois canais L1, L2 e parâmetros multipista associados, enquanto o sinal de áudio de cinco canais adicional R, RS, RB, TFR, TBR pode ser representado por um sinal desdobrado de dois canais adicional R1, R2 e parâmetros multipista associados adicionais. Os canais C e LFE podem ser mantidos como canais separados também na representação de 5.1 canais do sinal de áudio de 11.1 canais.
[0129] A Figura 6 ilustra um primeiro formato de codificação F1, no qual o sinal de áudio de cinco canais L, LS, LB, TFL, TBL é fracionado em um primeiro grupo 601 de canais L, LS, LB, e um segundo grupo 602 de canais TFL, TBL, e no qual o sinal de áudio de cinco canais adicional R, RS, RB, TFR, TBR, é fracionado em um primeiro grupo 603 de canais R, RS, RB, e um segundo grupo 604 de canais adicional TFR, TBR. No primeiro formato de codificação F1, o primeiro grupo de canais 601 é representado por um primeiro canal L1 do sinal desdobrado de dois canais, e o segundo grupo 602 de canais é representado por um segundo canal L2 do sinal desdobrado de dois canais. O primeiro canal L1 do sinal desdobrado pode corresponder a uma soma do primeiro grupo 601 de canais conforme L1 = L+LS+LB, e o segundo canal L2 do sinal desdobrado pode corresponder a uma soma do segundo grupo 602 de canais conforme L2 = TFL+TBL.
[0130] Em algumas modalidades exemplificadoras, alguns dos ou todos os canais podem ser redimensionados antes da soma, de modo que o primeiro canal L1 do sinal desdobrado possa corresponder a uma combinação linear do primeiro grupo 601 de canais, de acordo com L1=c1L+c2LS+c3LB, e o segundo canal L2 do sinal desdobrado possa corresponder a uma combinação linear do segundo grupo 602 de canais, de acordo com L2=c4TFL+c5TBL. Os ganhos c2, c3, c4, c5 podem coincidir, por exemplo, enquanto o ganho c1 pode, por exemplo, ter um valor diferente; por exemplo, o c1 pode corresponder a nenhum redimensionamento. Por exemplo, os valores ci=1 e C2=C3=C4=C5=1/V2 podem ser usados. Se, por exemplo, os ganhos c1,..., c5 aplicados aos respectivos canais L, LS, LB, TFL, TBL no primeiro formato de codificação F1 coincidirem com os ganhos aplicados a esses canais nos outros formatos de codificação F2 e F3, descritos abaixo com referência às Figuras 7 e 8, esses ganhos não afetam a forma como o sinal desdobrado se altera durante a mudança entre os formatos de codificação F1, F2, F3 diferentes e os canais redimensionados c1L, c2LS, c3LB, c4TFL, c5TBL podem, portanto, ser tratados como se eles fossem os canais originais L, LS, LB, TFL, TBL. Se, por outro lado, ganhos diferentes forem empregados para o redimensionamento do mesmo canal em diferentes formatos de codificação, esses formatos de codificação podem causar, por exemplo, pulos entre versões dimensionadas de modo diferente dos canais L, LS, LB, TFL, TBL no sinal desdobrado, o que pode causar artefatos audíveis em potencial no lado de decodificação. Tais artefatos podem ser, por exemplo, suprimidos mediante o emprego de interpolação dos coeficientes empregados para formar o sinal desdobrado antes da mudança de formato de codificação, para coeficientes empregados para formar o sinal desdobrado após a alteração do formato de codificação, e/ou mediante o emprego de interpolação dos coeficientes de pré-descorrelação, conforme descrito abaixo em relação às equações (3) e (4).
[0131] De modo similar, o primeiro grupo adicional de canais 603 é representado por um primeiro canal R1 do sinal desdobrado adicional e o segundo grupo adicional 604 de canais é representado por um segundo canal R2 do sinal desdobrado adicional.
[0132] O primeiro formato de codificação F1 fornece canais desdobrados dedicados L2 e R2 para representar os canais de teto TFL, TBL, TFR e TBR. O uso do primeiro formato de codificação F1 pode, portanto, permitir a reconstrução paramétrica do canal de áudio de 11.1 canais com uma fidelidade relativamente alta, em casos em que, por exemplo, uma dimensão vertical do ambiente de reprodução é importante para a impressão geral do sinal de áudio de 11.1 canais.
[0133] A Figura 7 ilustra um segundo formato de codificação F2, no qual o sinal de áudio de cinco canais L, LS, LB, TFL, TBL é fracionado em um primeiro 701 e um segundo 702 grupos de canais representados pelos respectivos canais L1, L2 de um sinal desdobrado, no qual os canais L1, L2 correspondem às somas dos respectivos grupos de canais 701 e 702, ou combinações lineares dos respectivos grupos de canais 701 e 702, mediante o emprego dos mesmos ganhos c1,..., c5 para redimensionamento dos respectivos canais L, LS, LB, TFL, TBL de acordo com o primeiro formato de codificação F1. De modo similar, o sinal de áudio de cinco canais adicional R, RS, RB, TFR, TBR é fracionado em um primeiro 703 e um segundo 704 grupos adicionais de canais representados pelos respectivos canais R1 e R2.
[0134] O segundo formato de codificação F2 não fornece canais desdobrados dedicados para representar os canais de teto TFL, TBL, TFR e TBR, mas pode permitir a reconstrução paramétrica do sinal de áudio de 11.1 canais com uma fidelidade relativamente alta, por exemplo, em casos em que a dimensão vertical no ambiente de reprodução não é tão importante para a impressão geral do sinal de áudio de 11.1 canais.
[0135] A Figura 8 ilustra um terceiro formato de codificação F3, no qual o sinal de áudio de cinco canais L, LS, LB, TFL, TBL é fracionado em um primeiro 801 e um segundo 802 grupos de um ou mais canais representados pelos respectivos canais L1 e L2 de um sinal desdobrado, no qual o sinal dos canais L1 e L2 corresponde às somas dos respectivos grupos de um ou mais canais 801 e 802, ou combinações lineares dos respectivos grupos de um ou mais canais 801 e 802, mediante o emprego dos mesmos coeficientes c1,..., c5 para redimensionamento dos respectivos canais L, LS, LB, TFL, TBL de acordo com o primeiro formato de codificação F1. De modo similar, o sinal de cinco canais adicional R, RS, RB, TFR, TBR é fracionado em um primeiro 803 e um segundo 804 grupos adicionais de canais representados pelos respectivos canais R1 e R2. No terceiro formato de codificação F3, apenas o canal L é representado pelo primeiro canal L1 do sinal desdobrado, enquanto os quatro canais LS, LB, TFL e TBL são representados pelo segundo canal L2 do sinal desdobrado.
[0136] Em um lado de codificação, que será descrito com referência às Figuras de 1 a 5, um sinal desdobrado de dois canais L1, L2 é calculado como um mapeamento linear do sinal de áudio de cinco canais X = [L LS LB TFL TBL]T de acordo com em que dn,m, n=1, 2, m=1..., 5 são coeficientes desdobrados representados pela matriz desdobrada D. Em um lado de decodificação, o qual será descrito com referência às Figuras de 9 a 13, a reconstrução paramétrica do cinco canais [L LS LB TFL TBL]T é realizada de acordo com em que cn,m, n=1, …, 5, m=1, 2 são coeficientes multipista secos representados por uma matriz multipista seca βL, pn,k, n=1, ., 5, k=1, 2, 3 são coeficientes multipista úmidos representados por uma matriz multipista úmida YL, e zk, k = 1, 2, 3 são os canais de um sinal descorrelacionado de três canais Z gerado com base no sinal desdobrado L1, L2.
[0137] A Figura 1 é um diagrama de bloco generalizado de uma seção de codificação 100 para a codificação de um sinal de áudio de M canais como um sinal desdobrado de dois canais e parâmetros multipista associados, de acordo com uma modalidade exemplificadora.
[0138] O sinal de áudio de M canais é exemplificado aqui pelo sinal de áudio de cinco canais L, LS, LB, TFL e TBL descrito com referência às Figuras 6 a 8. Também podem ser consideradas modalidades exemplificadoras podem também ser consideradas nas quais a seção de codificação 100 calcula um sinal desdobrado de dois canais com base em um sinal de áudio de M canais, em que M = 4 ou M > 6.
[0139] A seção de codificação 100 compreende uma seção desdobrada 110 e uma seção de análise 120. Para cada um dos formatos de codificação F1, F2, F3, descritos com referência às Figuras de 6 a 8, a seção desdobrada 110 calcula, de acordo com o formato de codificação, um sinal desdobrado de dois canais L1, L2 com base no sinal de áudio de cinco canais L, LS, LB, TFL, TBL. Por exemplo, no primeiro formato de codificação F1, o primeiro canal L1 do sinal desdobrado é formado como uma combinação linear (por exemplo, uma soma) do primeiro grupo 601 de canais do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, e o segundo canal L2 do sinal desdobrado é formado como uma combinação linear (por exemplo, uma soma) do segundo grupo 602 de canais do sinal de áudio de cinco canais L, LS, LB, TFL, TBL. A operação realizada pela seção desdobrada 110 pode ser, por exemplo, expressa como a equação (1).
[0140] Para cada um dos formatos de codificação F1, F2, F3, a seção de análise 120 determina um conjunto de coeficientes multipista secos βL que define um mapeamento linear do respectivo sinal desdobrado L1, L2 aproximando o sinal de áudio de cinco canais L, LS, LB, TFL, TBL, e calcula uma diferença entre uma covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, conforme recebido, e uma covariância do sinal de áudio de cinco canais, conforme aproximado pelo respectivo mapeamento linear do respectivo sinal desdobrado L1, L2. A diferença calculada é exemplificada aqui por uma diferença entre a matriz de covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, conforme recebido, e a matriz de covariância do sinal de áudio de cinco canais, conforme aproximado pelo respectivo mapeamento linear do respectivo sinal desdobrado L1, L2. Para cada um dos formatos de codificação F1, F2, F3, a seção de análise 120 determina adicionalmente um conjunto de coeficientes multipista úmidos YL, com base na diferença calculada respectiva, que, junto com os coeficientes multipista secos βL permite a reconstrução paramétrica, de acordo com a equação (2), a partir do sinal de áudio de cinco canais L, LS, LB, TFL, TBL do sinal multipista L1, L2 e a partir do sinal descorrelacionado de três canais determinado em um lado de decodificação com base no sinal desdobrado L1, L2. O conjunto de coeficientes multipista úmidos yL define um mapeamento linear do sinal descorrelacionado, de modo que a matriz de covariância do sinal obtido pelo mapeamento linear do sinal descorrelacionado aproxime a diferença entre a matriz de covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, conforme recebido, e a matriz de covariância do sinal de áudio de cinco canais, conforme aproximado pelo mapeamento linear do sinal desdobrado L1, L2.
[0141] A seção desdobrada 110 pode calcular, por exemplo, o sinal desdobrado L1, L2 no domínio de tempo, isto é, com base em uma representação do domínio de tempo do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, ou em um domínio de frequência, isto é, com base em uma representação do domínio de frequência do sinal de áudio de cinco canais L, LS, LB, TFL, TBL.
[0142] A seção de análise 120 pode determinar, por exemplo, os coeficientes multipista secos βL e os coeficientes multipista úmidos yL com base em uma análise de domínio de frequência do sinal de áudio de cinco canais L, LS, LB, TFL, TBL. A seção de análise 120 pode receber, por exemplo, o sinal desdobrado L1, L2 calculado pela seção desdobrada 110, ou pode calcular sua própria versão do sinal desdobrado L1, L2, para determinar os coeficientes multipista secos β e os coeficientes multipista úmidos YL.
[0143] A Figura 3 é um diagrama de bloco generalizado de um sistema de codificação de áudio 300 que compreende a seção de codificação 100 descrita com referência à Figura 1 de acordo com uma modalidade exemplificadora. Na presente modalidade exemplificadora, o conteúdo de áudio, por exemplo, registrado por um ou mais transdutores acústicos 301, ou gerados por equipamentos de autoria de áudio 301, é fornecido sob a forma do sinal de áudio de 11.1 canais descrito com referência às Figuras de 6 a 8. Uma seção de análise 302 de filtro espelho de quadratura (QMF, quadrature mirror filter) (ou banco de filtros) transforma o sinal de áudio de cinco canais L, LS, LB TFL, TBL, em segmento de tempo por segmento de tempo, em um domínio de QMF para processamento pela seção de codificação 100 do sinal de áudio de cinco canais L, LS, LB TFL, TBL, sob a forma de placas de tempo/frequência. (Como será explicado com mais detalhes abaixo, a seção de análise 302 de QMF e sua contraparte, uma seção de síntese 305 de QMF, são opcionais.) O sistema de codificação de áudio 300 compreende uma seção de codificação adicional 303 análoga à seção de codificação 100 e que é adaptada para codificar o sinal de áudio de cinco canais adicional R, RS, RB, TFR e TBR como o sinal desdobrado de dois canais adicional R1, R2, e parâmetros multipista secos associados adicionais βR, e parâmetros multipista úmidos adicionais yR. A seção de análise 302 de QMF também transforma o sinal de áudio de cinco canais adicional R, RS, RB, TFR e TBR em um domínio de QMF durante o processamento pela seção de codificação adicional 303.
[0144] Uma seção de controle 304 seleciona um dos formatos de codificação F1, F2, F3 com base nos coeficientes multipista secos e úmidos yL, yR e βL, βR determinados pela seção de codificação 100 e pela seção de codificação adicional 303 para os respectivos formatos de codificação F1, F2, F3. Por exemplo, para cada um dos formatos de codificação F1, F2, F3, a seção de controle 304 pode calcular uma razão em que Eúmido é a soma dos quadrados dos coeficientes multipista úmidos YL e YR, e Eseco é a soma dos quadrados dos coeficientes multipista secos βL, βR. O formato de codificação selecionado pode ser associado à razão mínima dentre as razões E dos formatos de codificação F1, F2, F3, isto é, a seção de controle 304 pode selecionar o formato de codificação correspondente à menor razão E. Os inventores perceberam que um valor reduzido para a razão E pode indicar uma maior fidelidade do sinal de áudio de 11.1 canais, conforme reconstruído a partir do formato de codificação associado.
[0145] Em algumas modalidades exemplificadoras, a soma dos Eseco quadrados dos coeficientes multipista secos βL, βR pode incluir, por exemplo, um termo adicional de valor 1, que corresponde ao fato de que o canal C é transmitido para o lado de decodificação e pode ser reconstruído sem qualquer descorrelação, por exemplo, apenas empregando-se um coeficiente multipista seco de valor 1.
[0146] Em algumas modalidades exemplificadoras, a seção de controle 304 pode selecionar os formatos de codificação para os dois sinais de áudio de cinco canais L, LS, LB TFL, TBL e R, RS, RB, TFR, TBR, independentemente um do outro, com base nos coeficientes multipista secos e úmidos yL, βL, e os coeficientes multipista secos e úmidos adicionais yR, βR, respectivamente.
[0147] O sistema de codificação de áudio 300 pode, então, gerar o sinal desdobrado L1, L2, e o sinal desdobrado adicional R1, R2 do formato de codificação selecionado, parâmetros multipista α a partir dos quais os coeficientes multipista secos e úmidos βL YL e os coeficientes multipista secos e úmidos adicionais βR YR associadas ao formato de codificação selecionado, são deriváveis, e uma sinalização S indicando o formato de codificação selecionado.
[0148] Na presente modalidade exemplificadora, a seção de controle 304 gera o sinal desdobrado L1, L2, e o sinal desdobrado adicional R1, R2 do formato de codificação selecionado, parâmetros multipista α a partir dos quais os coeficientes multipista secos e úmidos βL, yL e os coeficientes multipista secos e úmidos adicionais βR, yR associadas ao formato de codificação selecionado, são deriváveis, e uma sinalização S indicando o formato de codificação selecionado. O sinal desdobrado L1, L2 e o sinal desdobrado adicional R1, R2 são transformados de volta, a partir do domínio de QMF da seção de síntese 305 (ou banco de filtros), e são transformados em um domínio de transformada de cosseno distinto modificado (MDCT, modified discrete cosine transform) por uma seção de transformada 306. Uma seção de quantificação 307 quantifica os parâmetros multipista α. Por exemplo, uma quantificação uniforme com um tamanho de etapa de 0,1 ou 0,2 (adimensional) pode ser empregada, seguida por codificação por entropia sob a forma de codificação de Huffman. Uma quantificação mais grosseira com um tamanho de etapa de 0,2 pode ser, por exemplo, empregada para economizar a largura de banda de transmissão, e uma quantificação mais fina com um tamanho de etapa de 0,1 pode ser, por exemplo, empregada para otimizar a fidelidade da reconstrução em um lado de decodificação. Os canais C e LFE também são transformados em um domínio de MDCT por uma seção de transformada 308. Os sinais desdobrados e canais transformados por MDCT, os parâmetros multipista quantificados e a sinalização são, então, combinados em um fluxo de bits B por um multiplexador 309 para transmissão até um lado de decodificação. O sistema de codificação de áudio 300 pode compreender também um núcleo codificador (não mostrado na Figura 3) configurado para codificar o sinal desdobrado L1, L2, o sinal desdobrado adicional R1, R2 e os canais C e LFE com o uso de um codec de áudio perceptivo, tal como o Dolby Digital, MPEG AAC, ou um desenvolvimento dos mesmos, antes dos sinais desdobrados e os canais C e LFE serem fornecidos ao multiplexador 309. Um ganho de um clipe, por exemplo, correspondente a -8,7 dB, pode ser, por exemplo, aplicado ao sinal desdobrado L1, L2, ao sinal desdobrado adicional R1, R2, e ao canal C antes da formação do fluxo de bits B. Alternativamente, uma vez que os parâmetros são independentes do nível absoluto, os ganhos de um clipe podem ser aplicados a todos os canais de entrada antes da formação das combinações lineares correspondentes a L1, L2.
[0149] Também podem ser consideradas modalidades em que a seção de controle 304 recebe apenas os coeficientes multipista úmidos e secos YL, YR, βL βR para os diferentes formatos de codificação FI, F2, F3 (ou somas dos quadrados dos coeficientes multipista secos e úmidos para os diferentes formatos de codificação) para selecionar um formato de codificação, isto é, a seção de controle 304 não precisa necessariamente receber os sinais desdobrados L1, L2 R1, R2 para os diferentes formatos de codificação. Em tais modalidades, a seção de controle 304 pode controlar, por exemplo, as seções de codificação 100, 303 para liberar os sinais desdobrados L1, L2 R1, R2, os coeficientes multipista secos βL, βR e os coeficientes multipista úmidos yL, yR para o formato de codificação selecionado como saídas do sistema de codificação de áudio 300 ou como entradas para o multiplexador 309.
[0150] Se o formato de codificação selecionado mudar entre formatos de codificação, então a interpolação pode ser, por exemplo, realizada entre os valores de coeficiente desdobrados, empregados antes e depois da alteração do formato de codificação para formar o sinal desdobrado de acordo com a equação (1). Isso é, de modo geral, equivalente a uma interpolação dos sinais desdobrados produzidos de acordo com os respectivos conjuntos de valores de coeficiente desdobrados.
[0151] Embora a Figura 3 ilustre como o sinal desdobrado pode ser gerado no domínio de QMF e, então, subsequentemente transformado de volta ao domínio de tempo, um codificador alternativo que preenche as mesmas funções pode ser implementado sem as seções de QMF 302, 305, de modo que ele calcule o sinal desdobrado diretamente no domínio de tempo. Isto é possível em situações nas quais os coeficientes desdobrados não dependem da frequência, o que, de modo geral, é verdadeiro. Com o codificador alternativo, as transições do formato de codificação podem ser manuseadas tanto pelo fading cruzado entre os dois sinais desdobrados para os respectivos formatos de codificação, como pela interpolação entre os coeficientes desdobrados (incluindo coeficientes que têm valor zero em um dos formatos) produzindo os sinais desdobrados. Tal codificador alternativo pode ter um retardo/latência menores e/ou complexidade computacional inferior.
[0152] A Figura 2 é um diagrama de bloco generalizado de um sistema de codificação 200 similar a seção de codificação 100 descrita com referência à Figura 1 de acordo com uma modalidade exemplificadora. A seção de codificação 200 compreende uma seção desdobrada 210 e uma seção de análise 220. Como na seção de codificação 100, descrita com referência à Figura 1, a seção desdobrada 210 calcula um sinal desdobrado de dois canais L1, L2 com base no sinal de áudio de cinco canais L, LS, LB, TFL, TBL para cada um dos formatos de codificação F1, F2, F3, e a seção de análise 220 determina conjuntos respectivos de coeficientes multipista secos βL, e calcula diferenças ΔL entre uma matriz de covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, conforme recebido, e as matrizes de covariância do sinal de áudio de cinco canais, conforme aproximado pelos respectivos mapeamentos lineares dos respectivos sinais desdobrados.
[0153] Em contraste com a seção de análise 120 na seção de codificação 100, descrita com referência à Figura 1, a seção de análise 220 não calcula os parâmetros multipista úmidos para todos os formatos de codificação. Em vez disso, as diferenças ΔL calculadas são fornecidas à seção de controle 304 (consulte a Figura 3) para a seleção de um formato de codificação. Uma vez que um formato de codificação foi selecionado com base nas diferenças ΔL calculadas, os coeficientes úmidos (a serem incluídos em um conjunto de parâmetros multipista) para o formato de codificação selecionado podem ser, então, determinados pela seção de controle 304. Alternativamente, a seção de controle 304 é responsável pela seleção do formato de codificação com base nas diferenças ΔL calculadas entre as matrizes de covariância discutidas acima, mas instrui a seção de análise 220, através de sinalização na direção a montante, a calcular os coeficientes multipista úmidos YL de acordo com esta alternativa (não mostrada), a seção de análise 220 tem a capacidade de emitir tanto as diferenças quanto os coeficientes multipista úmidos.
[0154] Na presente modalidade exemplificadora, o conjunto de coeficientes multipista úmidos são determinados de modo que uma matriz de covariância de um sinal obtido por meio de um mapeamento linear do sinal descorrelacionado, definido pelos coeficientes multipista úmidos, complete uma matriz de covariância do sinal de áudio de cinco canais, conforme aproximado pelo mapeamento linear do sinal desdobrado do formato de codificação selecionado. Em outras palavras, os parâmetros multipista úmidos não precisam ser necessariamente determinados para se obter a reconstrução de covariância total ao se reconstruir o sinal de áudio de cinco canais L, LS, LB, TFL, TBL em um lado de decodificação. Os parâmetros multipista úmidos podem ser determinados para melhorar a fidelidade do sinal de áudio de cinco canais conforme reconstruído, mas se, por exemplo, o número de descorrelacionadores no lado de decodificação for limitado, os parâmetros multipista úmidos podem ser determinados de modo a permitir uma reconstrução de tanto quanto possível da matriz de covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL.
[0155] Podem ser previstas modalidades em que sistemas de codificação de áudio similares ao sistema de codificação de áudio 300, descrito com referência à Figura 3, compreendem uma ou mais seções de codificação 200 do tipo descrito com referência à Figura 2.
[0156] A Figura 4 é um fluxograma de um método de codificação de áudio 400 para codificar um sinal de áudio de M canais como um sinal desdobrado de dois canais e parâmetros multipista associados de acordo com uma modalidade exemplificadora. O método de codificação de áudio 400 é exemplificado aqui por um método realizado por um sistema de codificação de áudio que compreende a seção de codificação 200 descrita com referência à Figura 2.
[0157] O método de codificação de áudio 400 compreende: receber 410 o sinal de áudio de cinco canais L, LS, LB, TFL, TBL; calcular 420, de acordo com um primeiro formato dentre os formatos de codificação F1, F2, F3 descritos com referência às Figuras de 6 a 8, o sinal desdobrado de dois canais L1, L2 com base no sinal de áudio de cinco canais L, LS, LB, TFL, TBL; determinar 430 o conjunto de coeficientes multipista secos βL de acordo com o formato de codificação; e calcular 440 a diferença ΔL de acordo com o formato de codificação. O método de codificação de áudio 400 compreende: determinar 450 se as diferenças ΔL foram calculadas para cada um dos formatos de codificação F1, F2, F3. Enquanto uma diferença ΔL não for calculada para pelo menos um formato de codificação, o método de codificação de áudio 400 volta a calcular 420 o sinal desdobrado L1, L2 de acordo com o formato de codificação seguinte na linha, o que é indicado por N no fluxograma.
[0158] Se as diferenças ΔL foram calculadas para cada um dos formatos de codificação F1, F2, F3, indicados por Y no fluxograma, o método 400 prossegue com as etapas de selecionar 460 um dos formatos de codificação F1, F2, F3, com base nas respectivas diferenças ΔL calculadas; e determinar 470 o conjunto de coeficientes multipista úmidos, que junto com os coeficientes multipista secos βL do formato de codificação selecionado, permite a reconstrução paramétrica do sinal de áudio de cinco canais L, LS, LB, TFL, TBLM, de acordo com a equação (2). O método de codificação de áudio 400 compreende, ainda: emitir 480 o sinal desdobrado L1, L2 do formato de codificação selecionado e parâmetros multipista a partir dos quais os coeficientes multipista secos e úmidos associados ao formato de codificação selecionado são deriváveis; e emitir 490 a sinalização S indicando o formato de codificação selecionado.
[0159] A Figura 5 é um fluxograma de um método de codificação de áudio 500 para codificar um sinal de áudio de M canais como um sinal desdobrado de dois canais e parâmetros multipista associados de acordo com uma modalidade exemplificadora. O método de codificação de áudio 500 é exemplificado aqui por um método realizado pelo sistema de codificação de áudio 300 descrito com referência à Figura 3.
[0160] De maneira similar ao método de codificação de áudio 400 descrito com referência à Figura 4, o método de codificação de áudio 500 compreende: receber 410 o sinal de áudio de cinco canais L, LS, LB, TFL, TBL; calcular 420, de acordo com um primeiro dos formatos de codificação F1, F2, F3, o sinal desdobrado de dois canais L1, L2, com base no sinal de áudio de cinco canais L, LS, LB, TFL, TBL; determinar 430 o conjunto de coeficientes multipista secos βL de acordo com o formato de codificação; e calcular 440 a diferença ΔL de acordo com o formato de codificação. O método de codificação de áudio 500 compreende, ainda, determinar 560 os coeficientes multipista úmidos YL que, junto com os coeficientes multipista secos βL do formato de codificação, permitem a reconstrução paramétrica do sinal de áudio de M canais de acordo com a equação (2). O método de codificação de áudio 500 compreende: determinar 550 se os coeficientes multipista úmidos e secos yL, βL foram calculados para cada um dos formatos de codificação F1, F2, F3. Enquanto os coeficientes multipista secos e úmidos yL, βL não forem calculados para pelo menos um formato de codificação, o método de codificação de áudio 500 volta a calcular 420 o sinal desdobrado L1, L2 de acordo com o formato de codificação seguinte na linha, o que é indicado por N no fluxograma.
[0161] Se os coeficientes multipista úmidos e secos yL, βL foram calculados para cada um dos formatos de codificação F1, F2, F3, indicados pelo Y no fluxograma, o método de codificação de áudio 500 prossegue com as etapas de selecionar 570 um dos formatos de codificação F1, F2, F3, com base nos respectivos coeficientes multipista secos e úmidos yL, βL; emitir 480 o sinal desdobrado L1, L2 do formato de codificação selecionado e dos parâmetros multipista secos e úmidos, a partir dos quais os coeficientes multipista secos e úmidos βL, yL associados ao formato de codificação selecionado são deriváveis; e emitir 490 a sinalização indicando o formato de codificação selecionado.
[0162] A Figura 9 é um diagrama de bloco generalizado de uma seção de decodificação 900 para a reconstrução de um sinal de áudio de M canais com base em um sinal desdobrado de dois canais e parâmetros multipista associados αL de acordo com uma modalidade exemplificadora.
[0163] Na presente modalidade exemplificadora, o sinal desdobrado é exemplificado pelo sinal desdobrado L1, L2 produzido pela seção de codificação 100 descrito com referência à Figura 1. Na presente modalidade exemplificadora, os parâmetros multipista secos e úmidos βL YL emitidos pela seção de codificação 100, e que são adaptados para a reconstrução paramétrica do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, são deriváveis dos parâmetros multipista αL. Entretanto, também podem ser consideradas as modalidades em que os parâmetros multipista αL são adaptados para a reconstrução paramétrica de um sinal de áudio de M canais, em que M = 4 ou M > 6.
[0164] A seção de decodificação 900 compreende uma seção de pré- descorrelação 910, uma seção de descorrelação 920, e uma seção de mistura 930. A seção de pré-descorrelação 910 determina um conjunto de coeficientes de pré-descorrelação com base em um formato de codificação selecionado empregado em um lado de codificação para codificar o sinal de áudio de cinco canais L, LS, LB, TFL, TBL. Conforme descrito abaixo com referência à Figura 10, o formato de codificação selecionado pode ser indicado por meio de uma sinalização do lado de codificação. A seção de pré-descorrelação 910 calcula um sinal de entrada de descorrelação D1, D2, D3 como um mapeamento linear do sinal desdobrado L1, L2, em que o conjunto de coeficientes pré-descorrelação é aplicado ao sinal desdobrado L1, L2.
[0165] A seção de descorrelação 920 gera um sinal descorrelacionado com base no sinal de entrada de descorrelação D1, D2, D3. O sinal descorrelacionado é exemplificado aqui por três canais, cada um dos quais é gerado pelo processamento de um dos canais do sinal de entrada de descorrelação em um descorrelacionador 921-923 da seção de descorrelação 920, por exemplo, incluindo a aplicação de filtros lineares para os respectivos canais do sinal de entrada de descorrelação D1, D2, D3.
[0166] A seção de mistura 930 determina os conjuntos de coeficientes multipista secos e úmidos βL, YL com base nos parâmetros multipista recebidos αL e o formato de codificação selecionado empregado em um lado de codificação para codificar o sinal de áudio de cinco canais L, LS, LB, TFL, TBL. A seção de mistura 930 realiza a reconstrução paramétrica do sinal de áudio de cinco canais L, LS, LB, TFL, TBL de acordo com a equação (2), isto é, ela calcula um sinal multipista seco como um mapeamento linear do sinal desdobrado L1, L2, sendo que o conjunto de coeficientes multipista βL é aplicado ao sinal desdobrado L1, L2; calcula um sinal multipista úmido como um mapeamento linear do sinal descorrelacionado, no qual o conjunto de coeficientes multipista secos yL é aplicado ao sinal descorrelacionado; e combina os sinais multipista secos e úmidos para obter um sinal multipista multidimensional reconstruído £, £#, TFT, correspondendo ao sinal de áudio de cinco canais L, LS, LB, TFL, TBL a ser reconstruído.
[0167] Em algumas modalidades exemplificadoras, os parâmetros multipista recebidos αL podem incluir os coeficientes multipista úmidos e secos βL, yL em si, ou podem corresponder a uma forma mais compacta, incluindo menos parâmetros que o número de coeficientes multipista úmidos e secos βL, yL, a partir dos quais os coeficientes multipista úmidos e secos βL, yL podem ser derivados no lado de decodificação, com base no conhecimento da forma compacta específica empregada.
[0168] A Figura 11 ilustra a operação da seção de mistura 930, descrita com referência à Figura 9, em um cenário exemplificador, no qual o sinal desdobrado L1, L2 representa o sinal de áudio de cinco canais L, LS, LB, TFL, TBL de acordo com o primeiro formato de codificação F1 descrito com referência à Figura 6. Será reconhecido que a operação da seção de mistura 930 pode ser similar em cenários exemplificadores, em que o sinal desdobrado L1, L2 representa o sinal de áudio de cinco canais L, LS, LB, TFL, TBL de acordo com qualquer um dentre o segundo e o terceiro formatos de codificação F2, F3. Em particular, a seção de mistura 930 pode ativar temporariamente instâncias adicionais das seções multipista e seções de combinação a serem descritas iminentemente para permitir um fading cruzado entre dois formatos de codificação, o que pode requerer disponibilidade simultânea dos sinais desdobrados calculados.
[0169] No presente cenário exemplificador, o primeiro canal L1 do sinal desdobrado representa os três canais L, LS, LB, e o segundo canal L2 do sinal desdobrado representa os dois canais TFL, TBL. A seção de pré- descorrelação 910 determina os coeficientes de pré-descorrelação, de modo que dois canais do sinal descorrelacionado sejam gerados com base no primeiro canal L1 do sinal desdobrado, e de modo que um canal do sinal descorrelacionado seja gerado com base no segundo canal L2 do sinal desdobrado.
[0170] Uma primeira seção multipista seca 931 fornece um sinal multipista seco de três canais X1 como um mapeamento linear do primeiro canal L1 do sinal desdobrado, em que um subconjunto dos coeficientes multipista secos, derivável dos parâmetros multipista recebidos αL, é aplicado ao primeiro canal L1 do sinal desdobrado. Uma primeira seção multipista úmida 932 fornece um sinal multipista úmido de três canais Y1 como um mapeamento linear dos dois canais do sinal descorrelacionado, em que um subconjunto dos coeficientes multipista úmidos, derivável dos parâmetros multipista recebidos αL, é aplicado aos dois canais do sinal descorrelacionado. Uma primeira seção de combinação 933 combina o primeiro sinal multipista seco X1 e o primeiro sinal multipista úmido Y1 em versões reconstruídas L,os, LB, dos canais L, LS, LB.
[0171] De modo similar, a segunda seção multipista seca 934 fornece um sinal multipista de dois canais X2 como um mapeamento linear do segundo canal L2 do sinal desdobrado, e uma segunda seção multipista úmida 935 fornece um sinal multipista úmido de dois canais Y2 como uma combinação linear de um canal do sinal descorrelacionado. Uma segunda seção de combinação 936 combina o segundo sinal multipista seco X2 e o segundo sinal multipista úmido Y2 em versões reconstruídas ldÕS,TBL dos canais TFL, TBL.
[0172] A Figura 10 é um diagrama de bloco generalizado de um sistema de decodificação de áudio 1000 que compreende a seção de decodificação 900 descrita com referência à Figura 9 de acordo com uma modalidade exemplificadora. Uma seção de recepção 1001, por exemplo, incluindo um demultiplexador, recebe o fluxo de bits B transmitido a partir do sistema de codificação de áudio 300, descrito com referência à Figura 3, e extrai o sinal desdobrado L1, L2, o sinal desdobrado adicional R1, R2, e os parâmetros multipista α, bem como os canais C e LFE, a partir do fluxo de bits B. Os parâmetros multipista α podem compreender, por exemplo, os primeiro e segundo subconjuntos αL e αR, associados ao lado esquerdo e ao lado direito, respectivamente, do sinal de áudio de 11.1 canais L, LS, LB, TFL, TBL, R, R, RB, TFR, TBR, C, LFE para serem reconstruídos.
[0173] No caso do sinal desdobrado L1, L2, o sinal desdobrado adicional R1, R2 e/ou os canais C e LFE são codificados no fluxo de bits B com o uso de um codec de áudio perceptivo, tal como o Dolby Digital, o MPEG AAC, ou desenvolvimentos dos mesmos, o sistema de decodificação de áudio 1000 podendo compreender um decodificador de núcleo (não mostrado na Figura 10) configurado para decodificar os sinais e canais respectivos quando extraídos do fluxo de bits B.
[0174] Uma seção de transformada 1002 transforma o sinal desdobrado L1, L2 ao realizar uma MDCT inversa, e uma seção de análise de QMF 1003 transforma o sinal desdobrado L1, L2 em um domínio de QMF para processamento pela seção de decodificação 900 do sinal desdobrado L1, L2 sob a forma de blocos de tempo/frequência. A seção de dequantificação 1004 dequantifica o primeiro subconjunto de parâmetros multipista αL, por exemplo, a partir de um formato de entropia, antes de suprir o mesmo à seção de decodificação 900. Conforme descrito com referência à Figura 3, a quantificação pode ter sido realizada com um dentre dois tamanhos de etapa diferentes, por exemplo, 0,1 ou 0,2. O tamanho de etapa real utilizado pode ser predefinido, ou pode ser sinalizado ao sistema de decodificação de áudio 1000 a partir do lado de codificação, por exemplo, através do fluxo de bits B.
[0175] Na presente modalidade exemplificadora, o sistema de decodificação de áudio 1000 compreende um seção de decodificação adicional 1005 análoga à seção de decodificação 900. A seção de decodificação adicional 1005 está configurada para receber o sinal desdobrado de dois canais adicional R1, R2 descrito com referência à Figura 3, e o segundo subconjunto αR de parâmetros multipista, e para fornecer uma versão reconstruída R,RS,Rn,TFdeTdoR, do sinal de áudio de cinco canas adcona R, RS, RB, TFR, TBR, com base no sinal desdobrado adicional R1, R2 e o segundo subconjunto αR de parâmetros multipista.
[0176] Uma seção de transformada 1006 transforma o sinal desdobrado adicional R1, R2 ao realizar uma MDCT inversa, e uma seção de análise de QMF 1007 transforma o sinal desdobrado adicional R1, R2 em um domínio de QMF para processamento pela seção de decodificação adicional 1005 do sinal desdobrado adicional R1, R2 sob a forma de blocos de tempo/frequência. Uma seção de dequantificação 1008 dequantifica o segundo subconjunto de parâmetros multipista αR, por exemplo, a partir de um formato de entropia, antes de suprir os mesmos à seção de decodificação adicional 1005.
[0177] Em modalidades exemplificadoras, em que um ganho de clipe foi aplicado ao sinal desdobrado L1, L2, ao sinal desdobrado adicional R1, R2 e ao canal C em um lado de codificação, um ganho correspondente, por exemplo, correspondente a 8,7 dB, pode ser aplicado a esses sinais no sistema de decodificação de áudio 1000 para compensar o ganho de clipe.
[0178] Uma seção de controle 1009 recebe a sinalização S que indica um dos formatos de codificação F1, F2, F3 selecionados, empregado no lado de codificação para codificar o sinal de áudio na 11.1 canais no sinal desdobrado L1, L2 e no sinal desdobrado adicional R1, R2, e parâmetros multipista associados α. A seção de controle 1009 controla a seção de decodificação 900 (por exemplo, a seção de pré-descorrelação 910 e a seção de mistura 920 na mesma) e a seção de decodificação adicional (1005) para executar a reconstrução paramétrica de acordo com o formato de codificação indicado.
[0179] Na presente modalidade exemplificadora, as versões reconstruídas do sinal de áudio de cinco canais L, LS, LB, TFL, TBL e do sinal de áudio de cinco canais adicional R, RS, RB, TFL, TBL gerados pela seção de decodificação 900 e pela seção de decodificação adicional 1005, respectivamente, são transformados de volta ao domínio de QMF por uma seção de síntese de QMF 1011 antes de ser fornecido juntamente com os canais C e LFE como saídas do sistema de decodificação de áudio 1000 para reprodução em um sistema de múltiplos alto-falantes 1012. Uma seção de transformada 1010 transforma os canais C e LFE no domínio de tempo pela realização de MDCT inversa antes desses canais serem incluídos na saída do sistema de decodificação de áudio 1000.
[0180] Os canais C e LFE podem ser, por exemplo, extraídos do fluxo de bits B em uma forma codificada separadamente, e o sistema de decodificação de áudio 1000 pode compreender, por exemplo, seções de decodificação de canal único (não mostradas na Figura 10) configuradas para decodificar os respectivos canais codificados separadamente. As seções de decodificação de canal único podem incluir, por exemplo, decodificadores de núcleo para a decodificação do conteúdo de áudio codificado utilizando-se um codificador de áudio perceptual como o Dolby Digital, MPEG AAC, ou desenvolvimentos dos mesmos.
[0181] Na presente modalidade exemplificadora, os coeficientes de pré- descorrelação são determinados pela seção de pré-descorrelação 910, de modo que, em cada um dos formatos de codificação F1, F2, F3, cada um dos canais do sinal de entrada de descorrelação D1, D2, D3 coincida com um canal do sinal desdobrado Li, L2, de acordo com a Tabela 1.
[0182] Como pode ser visto na Tabela 1, o canal TBL contribui, através do sinal desdobrado L1, L2, com um terceiro canal D3 do sinal de entrada de descorrelação em todos os três formatos de codificação F1, F2, F3, enquanto cada um dos pares de canais LS, LB e TFL, TBL contribui, através do sinal desdobrado L1, L2, com o terceiro canal D3 do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação, respectivamente.
[0183] A Tabela 1 mostra que cada um dos canais L e TFL contribui, através do sinal desdobrado L1, L2, com um primeiro canal D1 do sinal de entrada de descorrelação em dois dos formatos de codificação, respectivamente, e o par de canais LS, LB contribui, através do sinal desdobrado L1, L2, com o primeiro canal D1 do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação.
[0184] A Tabela 1 também mostra que os três canais LS, LB, TBL contribuem, através do sinal desdobrado L1, L2, com um segundo canal D2 do sinal de entrada de descorrelação em ambos o segundo e o terceiro formatos de codificação F3, F3, enquanto o par de canais LS, LB contribui, através do sinal desdobrado L1, L2, para o segundo canal D2 do sinal de entrada de descorrelação em todos os três formatos de codificação F1, F2, F3.
[0185] Quando o formato de codificação indicado muda entre diferentes formatos de codificação, a entrada para os descorrelacionadores 921 a 923 muda. Na presente modalidade exemplificadora, pelo menos algumas porções dos sinais de entrada de descorrelação D1, D2, D3 irão permanecer durante a mudança, isto é, pelo menos um canal do sinal de áudio de cinco canais L, LS, LB, TFL, TBL permanecerá em cada canal do sinal de entrada de descorrelação D1, D2, D3 em qualquer mudança entre dois dos formatos de codificação F1, F2, F3, o que permite uma transição mais suave entre os formatos de codificação, conforme percebido por um ouvinte durante a reprodução do sinal de áudio de M canais conforme reconstruído.
[0186] Os inventores perceberam que uma vez que o sinal descorrelacionado pode ser gerado com base em uma seção do sinal desdobrado L1, L2 correspondente a diversos períodos de tempo, durante o qual uma alteração no formato de codificação pode ocorrer, artefatos audíveis podem ser potencialmente gerados no sinal descorrelacionado como um resultado da mudança entre formatos de codificação. Mesmo se os coeficientes multipista secos e úmidos βL YL forem interpolados em resposta a uma transição entre os formatos de codificação, os artefatos causados no sinal descorrelacionado podem ainda persistir no sinal de áudio de cinco canais L, LS, LB, TFL, TBL conforme reconstruído. Fornecer o sinal de entrada de descorrelação D1, D2, D3 de acordo com a Tabela 1 pode suprimir os artefatos audíveis no sinal descorrelacionado causado pela alteração do formato de codificação e pode melhorar a qualidade da reprodução de sinal de áudio de cinco canais L, LS, LB, TFL, TBL conforme reconstruído.
[0187] Embora a Tabela 1 seja expressa em termos de formatos de codificação F1, F2, F3 a partir dos quais os canais do sinal desdobrado L1, L2 são gerados como somas dos primeiro e segundo grupos de canais, respectivamente, os mesmos valores para os coeficientes de pré- descorrelação podem ser, por exemplo, empregados quando os canais do sinal desdobrado forem formados como combinações lineares dos primeiro e segundo grupos de canais, respectivamente, de forma que os canais do sinal de entrada de descorrelação D1, D2, D3 coincidem com os canais do sinal desdobrado L1, L2, de acordo com a Tabela 1. Será reconhecido que a qualidade da reprodução do sinal de áudio de cinco canais, conforme reconstruído, possa ser melhorada desta maneira, e também quando os canais do sinal desdobrado são formados como combinações lineares dos primeiro e segundo grupos de canais, respectivamente.
[0188] Para melhorar ainda mais a qualidade da reprodução do sinal de áudio de cinco canais, conforme reconstruído, a interpolação dos valores dos coeficientes de descorrelação pode ser, por exemplo, realizada em resposta à alteração do formato de codificação. No primeiro formato de codificação F1, o sinal de entrada de descorrelação D1, D2, D3 pode ser determinado como enquanto que, no segundo formato de codificação F2, o sinal de entrada de descorrelação D1, D2, D3 pode ser determinado como
[0189] Em resposta a uma mudança do primeiro formato de codificação F1 para o segundo formato de codificação F2, uma interpolação contínua ou linear pode ser, por exemplo, realizada entre a matriz de descorrelação na equação (3) e a matriz de pré-descorrelação na equação (4).
[0190] O sinal desdobrado L1, L2 nas equações (3) e (4) pode estar, por exemplo, no domínio de QMF, e, ao mudar entre os formatos de codificação, os coeficientes desdobrados empregados em um lado de codificação para calcular o sinal desdobrado L1, L2 de acordo com a equação (1) podem ter sido interpolados durante, por exemplo, 32 janelas de QMF. A interpolação dos coeficientes de pré-descorrelação (ou matrizes) pode ser, por exemplo, sincronizada com a interpolação dos coeficientes desdobrados, por exemplo, ela pode ser realizada durante as mesmas 32 janelas de QMF. A interpolação dos coeficientes de pré-descorrelação pode ser, por exemplo, uma interpolação de banda larga, por exemplo, empregada para todas as bandas de frequência decodificadas pelo sistema de decodificação de áudio 1000.
[0191] Os coeficientes multipista secos e úmidos βL, YL podem também ser interpolados. As interpolações dos coeficientes multipista secos e úmidos βL, yL podem ser controladas, por exemplo, através da sinalização S do lado de codificação para melhorar a manipulação temporária. No caso de uma mudança no formato de codificação, o esquema de interpolação selecionado no lado de codificação, para interpolação dos coeficientes multipista secos e úmidos βL, yL no lado de decodificação pode ser, por exemplo, um esquema de interpolação adequado para uma mudança no formato de codificação, que pode ser diferente dos esquemas de interpolação empregados nos coeficientes multipista secos e úmidos βL YL quando nenhuma mudança no formato de codificação ocorre.
[0192] Em algumas modalidades exemplificadoras, pelo menos um esquema de interpolação diferente pode ser empregado na seção de decodificação 900 do que na seção de decodificação 1005.
[0193] A Figura 12 é um fluxograma de um método de decodificação de áudio 1200 para a reconstrução de um sinal de áudio de M canais com base em um sinal desdobrado de dois canais e parâmetros multipista associados, de acordo com uma modalidade exemplificadora. O método de decodificação 1200 é exemplificado aqui por um método de decodificação que pode ser realizado pelo sistema de decodificação de áudio 1000, descrito com referência à Figura 10.
[0194] O método de decodificação de áudio 1200 compreende: receber 1201, o sinal desdobrado de dois canais L1, L2 e os parâmetros multipista αL para a reconstrução paramétrica do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, descrito com referência às Figuras de 6 a 8, com base no sinal desdobrado L1, L2; receber 1202 a sinalização S indicando um dos formatos de codificação F1, F2, F3 selecionados, descritos com referência às Figuras 6 a 8; e determinar 1203 o conjunto de coeficientes de pré-descorrelação com base no formato de codificação indicado.
[0195] O método de decodificação de áudio 1200 compreende detectar 1204 se o formato indicado muda de um formato de codificação para outro. Se uma mudança não for detectada, indicado por N no fluxograma, a próxima etapa é calcular 1205 o sinal de entrada de descorrelação D1, D2, D3 como um mapeamento linear do sinal desdobrado L1, L2, sendo que o conjunto de coeficientes de pré-descorrelação é aplicado ao sinal desdobrado. Se, por outro lado, uma mudança no formato de codificação for detectada, indicado por Y no fluxograma, a etapa seguinte é, em vez disso, realizar 1206 uma interpolação sob a forma de uma transição gradual de valores de coeficiente de pré-descorrelação de um formato de codificação para valores de coeficiente de pré-descorrelação de outro formato de codificação, e então calcular 1205 o sinal de entrada de descorrelação D1, D2, D3 empregando-se os valores de coeficiente de pré-descorrelação interpolados.
[0196] O método de decodificação de áudio 1200 compreende gerar 1207 um sinal descorrelacionado com base no sinal de entrada de descorrelação D1, D2, D3; e determinar 1208 os conjuntos de coeficientes multipista úmidos e secos βL YL com base nos parâmetros multipista recebidos e o formato de codificação indicado.
[0197] Se nenhuma mudança no formato de codificação for detectada, indicado por uma ramificação N de uma caixa de decisão 1209, o método 1200 prossegue calculando 1210 um sinal multipista seco como um mapeamento linear do sinal desdobrado, em que o conjunto de coeficientes multipista secos βL é aplicado ao sinal desdobrado L1, L2; e calcular 1211 um sinal multipista úmido como um mapeamento linear do sinal descorrelacionado, no qual o conjunto de coeficientes multipista secos yL é aplicado ao sinal descorrelacionado. Se, por outro lado, o formato de codificação indicado mudar de um formato de codificação para outro indicado pela ramificação Y da caixa de decisão 1209, o método continua, em vez disso, com as etapas de: realizar 1212 uma interpolação dos valores de coeficientes multipista secos e úmidos (incluindo coeficientes de valor zero) aplicáveis para um formato de codificação, para valores de coeficientes multipista secos e úmidos (incluindo coeficientes de valor zero) aplicáveis para outro formato de codificação; calcular 1210 um sinal multipista seco como um mapeamento linear do sinal desdobrado L1, L2, em que o conjunto de coeficientes multipista secos interpolados é aplicado ao sinal desdobrado L1, L2; e calcular 1211 um sinal multipista úmido como um mapeamento linear do sinal descorrelacionado, em que o conjunto de coeficientes multipista secos YL é aplicado ao sinal descorrelacionado. O método compreende, também: combinar 1213 os sinais secos e úmidos para obter os sinais multidimensionais reconstruídoscorrespondentes ao sinal de áudio de cinco canais a ser reconstruído.
[0198] A Figura 13 é um diagrama de bloco generalizado de uma seção de decodificação 1300 para a reconstrução de um sinal de áudio de 13.1 canais com base em um sinal de áudio de 5.1 canais e parâmetros multipista α associados, de acordo com uma modalidade exemplificadora.
[0199] Na presente modalidade exemplificadora, o sinal de áudio de 13.1 canais é exemplificado pelos canais LW (esquerdo amplo), LSCRN (tela esquerda), TFL (superior esquerdo frontal), LS (lado esquerdo), LB (esquerdo traseiro), TBL (superior esquerdo posterior), RW (direito amplo), RSCRN (tela direita), TFR (superior direito frontal), RS (direito), RB (direito traseiro), TBR (superior direito posterior), C (central), e LFE (efeitos de baixa frequência). O sinal de 5.1 canais compreende: um sinal desdobrado L1, L2, no qual um primeiro canal L1 corresponde a uma combinação linear dos canais LW, LSCRN, TFL, e no qual um segundo canal L2 corresponde a uma combinação linear dos canais LS, LB, TBL; um sinal desdobrado adicional R1, R2 no qual um primeiro canal R1 corresponde a uma combinação linear dos canais RW, RSCRN, TFR, e no qual um segundo canal R2 corresponde a uma combinação linear dos canais RS, RB, TBR; e os canais C e LFE.
[0200] Uma primeira seção multipista 1310 reconstrói os canais LW, LSCRN e TFL com base no primeiro canal L1 do sinal desdobrado sob o controle de pelo menos alguns dos parâmetros multipista α; uma segunda seção multipista 1320 reconstrói os canais LS, LB, TBL com base no segundo canal L2 do sinal desdobrado sob o controle de pelo menos alguns dos parâmetros multipista α; uma terceira seção multipista 1330 reconstrói os canais RW, RSCRN, TFR com base no primeiro canal R1 do sinal desdobrado adicional sob o controle de pelo menos alguns dos parâmetros multipista α, e uma quarta seção 1340 reconstrói os canais RS, RB, TBR com base no segundo canal R2 do sinal desdobrado sob o controle de pelo menos alguns dos parâmetros multipista α. Uma versão reconstruídado sinal de áudio de 13.1 c p r frc cm um í eção de decodificação 1310.
[0201] Em uma modalidade exemplificadora, o sistema de decodificação de áudio 1000, descrito com referência à Figura 10, pode compreender a seção de decodificação 1300 em adição às seções de decodificação 900 e 1005, ou pode ser pelo menos operável para reconstruir o sinal de 13.1 canais através de um método similar àquele realizado pela seção de decodificação 1300. A sinalização S extraída do fluxo de bits B pode indicar, por exemplo, se o sinal de áudio de 5.1 canais L1, L2, R1, R2, C, LFE recebido e os parâmetros multipista associados representam um sinal de áudio de 11.1 canais, conforme descrito com referência à Figura 10, ou se ele representa um sinal de áudio de 13.1 canais, conforme descrito com referência à Figura 13.
[0202] A seção de controle 1009 pode detectar se a sinalização S recebida indica uma configuração de áudio de 13.1 canais ou uma configuração de áudio de 11.1 canais, e pode controlar outras seções do sistema de decodificação de áudio 1000 para realizar a reconstrução paramétrica ou do sinal de áudio de 11.1 canais, conforme descrito com referência à Figura 10, ou do sinal de áudio de 13.1 canais, conforme descrito com referência à Figura 13. Um único formato de codificação pode ser empregado, por exemplo, para configurar os 13.1 canais, ao invés de dois ou três formatos de codificação, como na configuração de 11.1 canais. No caso de a sinalização S indicar uma configuração de 13.1 canais, o formato de codificação pode ser, portanto, indicado implicitamente, e pode não haver necessidade de a sinalização S indicar explicitamente um formato de codificação selecionado.
[0203] Será reconhecido que, embora as modalidades exemplificadoras descritas com referência às Figuras de 1 a 5 tenham sido formuladas em termos do sinal de áudio de 11.1 canais, descrito com referência às Figuras 6 a 8, codificar os sistemas pode ser previsto, o que pode incluir qualquer número de seções de codificação, e que pode ser configurado para codificar qualquer número de sinais de áudio de M canais, em que M > 4. De modo similar, será reconhecido que, embora as modalidades exemplificadoras descritas com referência às Figuras 9 a 12 tenham sido formuladas em termos do sinal de áudio de 11.1 canais, descrito com referência às Figuras 6 a 8, decodificar os sistemas pode ser previsto, o que pode incluir qualquer número de seções de decodificação, e que pode ser configurado para reconstruir qualquer número de sinais de áudio de M canais, em que M > 4.
[0204] Em algumas modalidades exemplificadoras, o lado de codificação pode selecionar um dentre todos os três formatos de codificação F1, F2, F3. Em outras modalidades exemplificadoras, o lado de codificação pode selecionar um dentre apenas dois formatos de codificação, por exemplo, os primeiro e segundo formatos de codificação F1, F2.
[0205] A Figura 14 é um diagrama de bloco generalizado de uma seção de codificação 1400 para a codificação de um sinal de áudio de M canais como um sinal desdobrado de dois canais e coeficientes multipista úmidos e secos associados, de acordo com uma modalidade exemplificadora. A seção de codificação 1400 pode estar disposta em um sistema de codificação de áudio do tipo mostrado na Figura 3. Mais precisamente, ele pode estar disposto na localização ocupada pela seção de codificação 100. Conforme ficará claro, quando as partes internas dos componentes mostrados são descritas, a seção de codificação 1400 é operável em dois formatos de codificação distintos; seções de codificação similares podem, entretanto, ser implementadas, sem se afastar do escopo da invenção, as quais são operáveis em três ou mais formatos de codificação.
[0206] A seção de codificação 1400 compreende uma seção desdobrada 1410 e uma seção de análise 1420. Para pelo menos um dos formatos de codificação (ver abaixo a descrição de uma seção de controle 1430 da seção de codificação 1400) F1, F2 selecionados, que podem ser um daqueles descritos com referência às Figuras 6 e 7, ou podem ser formatos diferentes, a seção desdobrada 1410 calcula, de acordo com o formato de codificação, um sinal desdobrado de dois canais L1, L2 com base no sinal de áudio de cinco canais L, LS, LB, TFL, TBL. Por exemplo, no primeiro formato de codificação F1, o primeiro canal L1 do sinal desdobrado é formado como uma combinação linear (por exemplo, uma soma) de um primeiro grupo de canais do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, e o segundo canal L2 do sinal desdobrado é formado como uma combinação linear (por exemplo, uma soma) de um segundo grupo de canais do sinal de áudio de cinco canais L, LS, LB, TFL, TBL. A operação realizada pela seção desdobrada 1410 pode ser, por exemplo, expressa como a equação (1).
[0207] Para o dito pelo menos um dos formatos de codificação F1, F2 selecionados, a seção de análise 1420 determina um conjunto de coeficientes multipista secos β_L definindo um mapeamento linear do sinal desdobrado L1, L2 respectivo, aproximando o sinal de áudio de cinco canais L, LS, LB, TFL, TBL. Para cada um dos formatos de codificação F1, F2, a seção de análise 1420 determina adicionalmente um conjunto de coeficientes multipista úmidos YL, com base na diferença calculada respectiva, que, junto com os coeficientes multipista secos βL permite a reconstrução paramétrica, de acordo com a equação (2), a partir do sinal de áudio de cinco canais L, LS, LB, TFL, TBL do sinal multipista L1, L2 e a partir do sinal descorrelacionado de três canais determinado em um lado de decodificação, com base no sinal desdobrado L1, L2. O conjunto de coeficientes multipista úmidos YL define um mapeamento linear do sinal descorrelacionado, de modo que a matriz de covariância do sinal obtido pelo mapeamento linear do sinal descorrelacionado aproxime a diferença entre a matriz de covariância do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, conforme recebido, e a matriz de covariância do sinal de áudio de cinco canais, conforme aproximado pelo mapeamento linear do sinal desdobrado L1, L2.
[0208] A seção desdobrada 1410 pode calcular, por exemplo, o sinal desdobrado L1, L2 no domínio de tempo, isto é, com base em uma representação do domínio de tempo do sinal de áudio de cinco canais L, LS, LB, TFL, TBL, ou em um domínio de frequência, isto é, com base em uma representação do domínio de frequência do sinal de áudio de cinco canais L, LS, LB, TFL, TBL. É possível calcular L1, L2 no domínio de tempo se pelo menos a decisão em um formato de codificação não for seletiva em matéria de frequência e, portanto, se aplica a todos os componentes de frequência do sinal de áudio de M canais; este é, atualmente, o caso preferencial.
[0209] A seção de análise 1420 pode determinar, por exemplo, os coeficientes multipista secos βL e os coeficientes multipista úmidos yL com base em uma análise de domínio de frequência do sinal de áudio de cinco canais L, LS, LB, TFL, TBL. A análise do domínio de frequência pode ser realizada em uma seção de janela do sinal de áudio de M canais. Por exemplo, para as janelas, janelas retangulares separadas ou triangulares sobrepostas podem ser usadas. A seção de análise 1420 pode receber, por exemplo, o sinal desdobrado L1, L2 calculado pela seção desdobrada 1410 (não mostrada na Figura 14), ou pode calcular sua própria versão do sinal desdobrado L1, L2, com o propósito específico de determinar os coeficientes multipista secos β_L e os coeficientes multipista úmidos YL.
[0210] A seção de codificação 1400 compreende, ainda, uma seção de controle 1430 que é responsável por selecionar um formato de codificação a ser usado no momento. Não é essencial que a seção de controle 1430 utilize um critério específico ou raciocínio específico para decidir qual formato de codificação será selecionado. O valor da sinalização S gerado pela seção de controle 1430 indica o resultado da tomada de decisão da seção de controle 1430 para uma seção atualmente considerada (por exemplo, um período de tempo) do sinal de áudio de M canais. A sinalização S pode estar incluída em um fluxo de bits B produzido pelo sistema de codificação 300, no qual a seção de codificação 1400 é incluída, de modo a facilitar a reconstrução do sinal de áudio codificado. Adicionalmente, a sinalização S é fornecida a cada seção desdobrada 1410 e seção de análise 1420 para informar a essas seções sobre o formato de codificação a ser usado. Como a seção de análise de 1420, a seção de controle 1430 pode considerar as seções de janela do sinal de M canais. Observa-se, para completeza, que a seção desdobrada 1410 pode operar com 1 ou 2 quadros de retardo e, possivelmente, com antecipação adicional, em relação à seção de controle 1430. Opcionalmente, a sinalização S também pode conter informações referentes a um fading cruzado do sinal desdobrado que a seção desdobrada 1410 produz e/ou informações referentes a uma interpolação do lado de descodificação de valores distintos dos coeficientes de matriz secos e úmidos que a seção de análise 1420 fornece, de forma a assegurar sincronia em uma escala de tempo de subquadro.
[0211] Como um componente opcional, a seção de codificação 1400 pode incluir um estabilizador 1440 disposto imediatamente a jusante da seção de controle 1430 e que age sobre seu sinal de saída imediatamente antes que ele seja processado por outros componentes. Com base neste sinal de saída, o estabilizador 1440 fornece as informações secundárias S aos componentes a jusante. O estabilizador 1440 pode implementar o objetivo desejado de não se alterar o formato de codificação selecionado de maneira muito frequente. Para este propósito, o estabilizador 1440 pode considerar inúmeras seleções de formato de código para períodos de tempo passados do sinal de áudio de M canais, e assegurar que um formato de codificação escolhido seja mantido durante pelo menos um certo número predefinido de períodos de tempo. Alternativamente, o estabilizador pode aplicar um filtro de nivelamento a um número de seleções de formato de codificação passadas (por exemplo, representado como uma variável distinta), que pode trazer a tona um efeito de alisamento. Como ainda outra alternativa, o estabilizador 1440 pode compreender uma máquina de estado configurada para suprir informações secundárias S a todos os períodos de tempo em uma janela de tempo móvel, se a máquina de estado determinar que a seleção do formato de codificação fornecido pela seção de controle 1430 permaneceu estável ao longo da janela de tempo móvel. A janela de tempo móvel pode corresponder a seleções de um formato de codificação de armazenamento temporário para um certo número de períodos de tempo anteriores. Conforme o versado na técnica estudando esta revelação prontamente entende, tais funcionalidades de estabilização podem precisar ser acompanhadas por um aumento no atraso operacional entre o estabilizador 1440 e pelo menos a seção desdobrada 1410 e a seção de análise 1420. O atraso pode ser implementado por meio de seções de armazenamento temporário do sinal de áudio de M canais.
[0212] Deve-se lembrar que a Figura 14 é uma vista parcial do sistema de codificação da Figura 3. Embora os componentes mostrados na Figura 14 sejam somente relacionados ao processamento dos canais esquerdos L, LS, LB, TFL, TBL, o sistema de codificação processa também pelo menos os canais direitos R, RS, RB, TFR, TBR. Por exemplo, uma instância adicional (por exemplo, uma réplica funcionalmente equivalente) da seção de codificação 1400 pode operar em paralelo para codificar um sinal direito incluindo os ditos canais R, RS, RB, TFR, TBR. Embora os canais esquerdo e direito contribuam para dois sinais desdobrados separados (ou pelo menos para separar grupos de canais de um sinal desdobrado comum), é preferível usar um formato de codificação comum para todos os canais. Isto quer dizer que a seção de controle 1430 da seção de codificação esquerda 1400 pode ser responsável por decidir um formato de codificação comum a ser usado para ambos os canais esquerdo e direito; é então preferencial que a seção de controle 1430 tenha acesso também aos canais direitos R, RS, RB, TFR, TBR ou a quantidades derivadas destes sinais, como uma covariância, um sinal desdobrado, etc, e pode levar os mesmos em consideração ao decidir um formato de codificação a ser usado. A sinalização S é então fornecida não apenas à seção desdobrada 1410 e à seção de análise 1420 da seção de controle (esquerda) 1430, mas também a seções equivalentes de uma seção de codificação direita (não mostrada). Alternativamente, o propósito de se usar um formato de codificação comum para todos os canais pode ser alcançado ao deixar a própria seção de controle 1430 ser comum tanto a uma instância esquerda da seção de codificação 1400 quanto a instância direita da mesma. Em uma disposição do tipo mostrado na Figura 3, a seção de codificação 1430 pode ser fornecida fora tanto da seção de codificação 100 quanto da seção de codificação adicional 303, que são responsáveis pelos canais esquerdo e direito, respectivamente, recebendo todos os canais esquerdos e direitos L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR e gerando uma sinalização S que indica a seleção de um formato de codificação, e que é fornecido pelo menos à seção de codificação 100 e à seção de codificação adicional 303.
[0213] A Figura 15 mostra esquematicamente uma possível implementação de uma seção desdobrada 1410 configurada para alternar, de acordo com a sinalização S, entre dois formatos de codificação predefinidos F1, F2 e fornecer um fading cruzado dos mesmos. A seção desdobrada 1410 compreende duas subseções desdobradas 1411, 1412 configuradas para receber o sinal de áudio de M canais, e gerar um sinal desdobrado de dois canais. As duas subseções desdobradas 1411, 1412 podem ser cópias funcionalmente equivalentes de um design, embora configuradas com diferentes configurações de desdobramento (por exemplo, valores de coeficientes para produzir o sinal desdobrado L1, L2 com base no sinal de áudio de M canais). Em condições normais, as duas subseções desdobradas 1411, 1412 fornecem, juntas, um sinal desdobrado L1(F1), L2(F1) de acordo com o primeiro formato de codificação F1 e/ou um sinal desdobrado L1(F2), L2(F2) de acordo com o segundo formato de codificação F2. A jusante das subseções desdobradas 1411, 1412, estão dispostas uma primeira seção de interpolação desdobrada 1413 e uma segunda seção de interpolação desdobrada 1414. A primeira seção de interpolação desdobrada 1413 está configurada para interpolar, incluindo fading cruzado, um primeiro canal L1 do sinal desdobrado, e a segunda seção de interpolação desdobrada 1414 está configurada para interpolar, incluindo o fading cruzado, um segundo canal L2 do sinal desdobrado. A primeira seção de interpolação desdobrada 1413 é operável pelo menos nos seguintes estados: a) primeiro formato de codificação apenas (L1=L1 (F1)), conforme pode ser usado na operação de estado estável no primeiro formato de codificação; b) segundo formato de codificação apenas (L1=L1 (F2)), conforme pode ser usado na operação de estado estável no segundo formato de codificação; e c) mistura dos canais desdobrados de acordo com ambos os formatos de codificação (L1=α1 L1 (F1)+α2 L1 (F2), sendo que 0<α1<1 e 0<α2<1), como pode ser usado em uma transição do primeiro para o segundo formato de codificação, ou vice-versa.
[0214] O estado de mistura (c) pode exigir que os sinais estejam disponíveis a partir de ambas a primeira e a segunda subseções desdobradas 1411, 1412. De preferência, a primeira seção de interpolação desdobrada 1413 é operável em uma pluralidade de estados de mistura (c), de modo que uma transição em subetapas finas, ou mesmo um fading cruzado semicontínuo, seja possível. Isto tem a vantagem de produzir um fading cruzado menos perceptível. Por exemplo, em um design de interpolação em que α1+α2=1, um fading cruzado de cinco etapas é possível se os seguintes valores de (α1, α2) forem definidos: (0,2, 0,8), (0,4, 0,6), (0,6, 0,4), (0,8, 0,2). A segunda seção de interpolação desdobrada 1414 pode ter recursos idênticos ou similares.
[0215] Em uma variação da modalidade acima da seção desdobrada 1410, conforme sugerido pela linha tracejada na Figura 15, a sinalização S pode também ser fornecida à primeira e à segunda subseções desdobradas 1411, 1412. Conforme explicado acima, a produção do sinal desdobrado associado ao formato de codificação não selecionado pode então ser suprimida. Isso pode reduzir a carga computacional média.
[0216] Adicional ou alternativamente a esta variação, o fading cruzado entre sinais desdobrados de dois formatos de codificação diferentes pode ser alcançado pelo fading cruzado dos coeficientes desdobrados. A primeira subseção desdobrada 1411 pode, então, ser alimentada por coeficientes desdobrados interpolados, que são produzidos por um interpolador de coeficiente (não mostrado) que armazena valores de coeficientes desdobrados a serem utilizados nos formatos de codificação F1, F2 disponíveis, e receber como uma entrada a sinalização S. Nesta configuração, toda a segunda subseção desdobrada 1412 e a primeira e segunda subseções de interpolação 1413, 1414 podem ser eliminadas ou permanentemente desativadas.
[0217] A sinalização S que a seção desdobrada 1410 recebe é fornecida pelo menos às seções desdobradas de interpolação 1413, 1414, mas não necessariamente às subseções desdobradas 1411, 1412. É necessário fornecer a sinalização S às subseções desdobradas 1411, 1412, se uma operação de mudança é desejada, ou seja, se a quantidade de desdobramento redundante deve ser diminuída fora das transições entre formatos de codificação. A sinalização pode ser comandos de baixo nível, por exemplo, com referência a diferentes modos operacionais das seções de interpolação desdobradas 1413, 1414, ou pode referir-se a instruções de alto nível, como um pedido para executar um programa de fading cruzado predefinido (por exemplo, uma sucessão de modos operacionais nos quais cada um tem uma duração predefinida), como indicado pelo ponto de partida.
[0218] Voltando-se para a Figura 16, nela é mostrada uma possível implementação de uma seção de análise 1420 configurada para alternar, de acordo com a sinalização S, entre dois formatos de codificação predefinidos F1, F2. A seção de análise 1420 compreende duas subseções de análise 1421, 1422 configuradas para receber o sinal de áudio de M canais e gerar coeficientes multipista secos e úmidos. As duas subseções de análise 1421, 1422 podem ser cópias funcionalmente equivalentes de um design. Em condições normais de funcionamento, as duas subseções de análise 1421, 1422 fornecem juntas um conjunto de coeficientes multipista secos e úmidos βi(Fi),YL(Fi) de acordo com o primeiro formato de codificação Fi, e/ou um conjunto de coeficientes multipista secos e úmidos βL(F2),YL(F2) de acordo com o segundo formato de codificação F2.
[0219] Como explicado acima, para a seção de análise 1420 como um todo, o sinal desdobrado atual pode ser recebido a partir da seção desdobrada 1410, ou uma duplicata desse sinal pode ser produzida na seção de análise 1420. Mais precisamente, a primeira subseção de análise 1421 pode ou receber o sinal desdobrado L1(F1),L2(F1), de acordo com o primeiro formato de codificação F1 da primeira subseção desdobrada 1411 na seção desdobrada 1410, ou pode produzir uma duplicata por si só. De modo similar, a segunda subseção de análise 1422 pode receber o sinal desdobrado L1(F2),L2(F2), de acordo com o segundo formato de codificação F2 da segunda subseção desdobrada 1412, ou pode produzir uma duplicata deste sinal por si só.
[0220] A jusante das seções de análise 1421, 1422, há um seletor de coeficiente multipista seco 1423 e um seletor de coeficiente multipista úmido 1424. O seletor de coeficiente multipista seco 1423 está configurado para transmitir um conjunto de coeficientes multipista secos βL a partir ou da primeira ou da segunda subseção de análise 1421, 1422, e o seletor de coeficiente multipista úmido 1424 está configurado para transmitir um conjunto de coeficientes multipista úmidos YL a partir da primeira ou da segunda subseção de análise 1421, 1422. O seletor de coeficiente multipista seco 1423 é operável pelo menos nos estados (a) e (b) discutidos acima para a primeira seção de interpolação desdobrada 1413. Entretanto, se o sistema de codificação da Figura 3, do qual uma porção está aqui sendo descrita, está configurado para cooperar com um sistema de decodificação, o qual, como aquele mostrado na Figura 9, executa uma reconstrução paramétrica com base em valores interpolados distintos dos coeficientes multipista que ele recebe, então não há necessidade de configurar um estado de mistura como o (c) definido para as seções de interpolação desdobradas 1413, 1414. O seletor de coeficiente multipista seco 1424 pode ter capacidades similares.
[0221] A sinalização S que a seção de análise 1420 recebe é fornecida a pelo menos um dos seletores de coeficiente multipista úmido e seco 1423, 1424. Não é necessário que as subseções de análise 1421, 1422 recebam a sinalização, embora isso seja vantajoso para evitar cálculos redundantes dos coeficientes multipista fora das transições. A sinalização pode ser comandos de baixo nível, por exemplo, com referência a diferentes modos operacionais dos seletores de coeficiente multipista seco e úmido 1423, 1424, ou pode referir-se a instruções de alto nível, como um pedido para a transição de um formato de codificação para outro em um dado período de tempo. Conforme explicado acima, isto não envolve, de preferência, uma operação de fading cruzado, mas pode corresponder a definir valores de coeficientes multipista para um ponto no tempo adequado ou definir esses valores para aplicação em um ponto no tempo adequado.
[0222] Agora será descrito um método 1700 que é uma variação do método para codificação de um sinal de áudio de M canais como um sinal desdobrado de dois canais, de acordo com uma modalidade exemplificadora, que é representado esquematicamente como um fluxograma na Figura 17. O método exemplificado aqui pode ser realizado por um sistema de codificação de áudio que compreende a seção de codificação 1400 que foi descrita acima com referência às Figuras 14 a 16.
[0223] O método de codificação de áudio 1700 compreende: receber 1710 o sinal de áudio de M canais L, LS, LB, TFL, TBL; selecionar 1720 um dentre pelo menos dois dos formatos de codificação F1, F2, F3 descritos com referência às Figuras 6 a 8; calcular 1730, para o formato de codificação selecionado, um sinal desdobrado de dois canais L1, L2 com base no sinal de áudio de M canais L, LS, LB, TFL, TBL; gerar 1740 o sinal desdobrado L1, L2 do formato de codificação selecionado e as informações secundárias α, permitindo a reconstrução paramétrica do sinal de áudio de M canais com base no sinal desdobrado; e produzir 1750 a sinalização S indicando o formato de codificação selecionado. O método se repete, por exemplo, para cada período de tempo do sinal de áudio de M canais. Se o resultado da seleção 1720 é um formato de codificação diferente daquele imediatamente selecionado anteriormente, então o sinal desdobrado é substituído, durante uma duração adequada, por um fading cruzado entre os sinais desdobrados de acordo com os formatos de codificação anteriores e atuais. Conforme já discutido, não é necessário nem possível realizar fading cruzado das informações secundárias, que podem ser submetidas a uma interpolação inerente ao lado de decodificação.
[0224] Nota-se que o método descrito aqui pode ser implementado sem uma ou mais das quatro etapas 430, 440, 450 e 470 mostradas na Figura 4.
IV. Equivalentes, extensões, alternativas e variados
[0225] Embora a presente descrição descreva e ilustre modalidades exemplificadoras específicas, a invenção não é limitada a estes exemplos específicos. Modificações e variações das modalidades exemplificadoras acima podem ser feitas sem se afastar do escopo da invenção, que é definido somente pelas reivindicações anexas.
[0226] Nas reivindicações, a palavra "compreende" não exclui outros elementos ou etapas, e o artigo indefinido "um" ou "uma" não exclui uma pluralidade. O mero fato de que certas medidas são citadas em reivindicações dependentes mutuamente diferentes não indica que uma combinação destas medidas não pode ser usada vantajosamente. Quaisquer sinais de referência que aparecem nas reivindicações não devem ser considerados como limitando seu escopo.
[0227] Os dispositivos e métodos descritos acima podem ser implementados como software, firmware, hardware ou uma combinação dos mesmos. Em uma implementação de hardware, a divisão das tarefas entre as unidades funcionais mencionadas na descrição acima não corresponde necessariamente à divisão em unidades físicas; ao contrário, um componente físico pode ter múltiplas funcionalidades e uma tarefa pode ser executada de uma maneira distribuída por vários componentes físicos em conjunto. Certos componentes ou todos os componentes podem ser implementados como um software executado por um processador digital, processador de sinal ou microprocessador, ou podem ser implementados como um hardware ou como um circuito integrado específico a uma aplicação. Tal software pode ser distribuído em meios legíveis por computador, que pode compreender meios de armazenamento de computador (ou meios não temporários) e meios de comunicação (ou meios temporários). Conforme é bem conhecido a um versado na técnica, o termo meios de armazenamento de computador inclui ambos os meios voláteis e não voláteis, removíveis e não removíveis implementados em qualquer método ou tecnologia para armazenamento de informações como instruções legíveis por computador, estruturas de dados, módulos de programas ou outros dados. Meios de armazenamento de computador incluem, mas não se limitam a, RAM, ROM, EEPROM, memória flash ou outra tecnologia de memória, CD-ROM, disco digital de vídeo (DVD) ou outro armazenamento em disco óptico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar as informações desejadas e que possa ser acessado por um computador. Adicionalmente, é bem conhecido aos versados na técnica que meios de comunicação tipicamente incorporam instruções legíveis por computador, estruturas de dados, módulos de programas, ou outros dados em um sinal de dados modulado como uma onda portadora ou outro mecanismo de transporte, e inclui qualquer meio de distribuição de informações.

Claims (14)

1. Método de decodificação de áudio (1200) compreendendo as etapas de: receber (1201) um sinal desdobrado (downmix signal) de dois canais (L1, L2) e parâmetros multipista (upmix parameters) (αL) para a reconstrução paramétrica de um sinal de áudio de M canais (L, LS, LB, TFL, TBL) com base no sinal desdobrado, em que M > 4; receber (1202) uma sinalização (S) indicando um formato selecionado dentre pelo menos dois formatos de codificação (F1, F2, F3) do sinal de áudio de M canais, em que os formatos de codificação correspondem a diferentes partições respectivas dos canais do sinal de áudio de M canais em seus respectivos primeiro e segundo grupos (601, 602) de um ou mais canais, em que, no formato de codificação indicado, um primeiro canal do sinal desdobrado corresponde a uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal do sinal desdobrado corresponde a uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais; determinar (1203) um conjunto de coeficientes de pré- descorrelação com base no formato de codificação indicado; calcular (1205) um sinal de entrada de descorrelação (D1, D2, D3) como um mapeamento linear do sinal desdobrado, em que o conjunto de coeficientes de pré-descorrelação é aplicado ao sinal desdobrado, em que os coeficientes de pré-descorrelação são determinados de modo que um primeiro canal (TBL) do sinal de áudio de M canais contribua, através do sinal desdobrado, com um primeiro canal fixo (D3) do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação; gerar (1207) um sinal descorrelacionado com base no sinal de entrada de descorrelação; determinar (1208) conjuntos de coeficientes multipista secos e úmidos (YL, βL) com base nos parâmetros multipista recebidos e o formato de codificação indicado; calcular (1210) um sinal multipista seco (X1, X2) como um mapeamento linear do sinal desdobrado, em que o conjunto de coeficientes multipista secos é aplicado ao sinal desdobrado; calcular (1211) um sinal multipista úmido (Y1, Y2) como um mapeamento linear do sinal descorrelacionado, em que o conjunto de coeficientes multipista secos é aplicado ao sinal descorrelacionado; e combinar (1213) os sinais multipista secos e úmidos para obter um sinal reconstruído multidimensional correspondente ao sinal de áudio de M canais a ser reconstruído, CARACTERIZADO pelo fato de que o sinal de áudio de M canais tem uma configuração de canais predefinida, e o formato de codificação selecionado indicado muda entre os pelo menos dois formatos de codificação.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o sinal de entrada e o sinal de descorrelação compreendem, cada um, M - 2 canais, em que um canal do sinal descorrelacionado é gerado com base em não mais que um canal do sinal de entrada de descorrelação, e em que os coeficientes de pré-descorrelação são determinados de modo que, em cada um dos formatos de codificação, um canal do sinal de entrada de descorrelação receba uma contribuição de não mais que um canal do sinal desdobrado.
3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que os coeficientes de pré-descorrelação são determinados de modo que, adicionalmente, um segundo canal (L) do sinal de áudio de M canais contribua, através do sinal desdobrado, com um segundo canal fixo (D1) do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação; e/ou em que os coeficientes de pré-descorrelação são determinados de modo que um par de canais (LS, LB) do sinal de áudio de M canais contribua, através do sinal desdobrado, com um terceiro canal fixo (D2) do sinal de entrada de descorrelação em pelo menos dois dos formatos de codificação.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que ainda compreende: em resposta à detecção de uma mudança no formato de codificação indicado de um primeiro formato de codificação para um segundo formato de codificação, realizar (1206) uma transição gradual dos valores de coeficiente de pré-descorrelação associados ao primeiro formato de codificação para os valores de coeficiente de descorrelação associados ao segundo formato de codificação.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato de que o sinal de áudio de M canais compreende três canais (L, LS, LB) representando diferentes direções horizontais em um ambiente de reprodução para o sinal de áudio de M canais, e dois canais (TFL, TBL) representando direções verticalmente separadas daquelas dos três canais no ambiente de reprodução.
6. Método, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que, em um primeiro formato de codificação (F1), o segundo grupo compreende os dois canais e/ou em que, em um primeiro formato de codificação (F1), o primeiro grupo compreende os três canais e o segundo grupo compreende os dois canais e/ou em que, em um segundo formato de codificação (F2), cada um dentre os primeiro e segundo grupos compreende um dos dois canais.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que, em um formato de codificação específico (Fi, F2), o primeiro grupo consiste em N canais, em que N > 3, e em que, em resposta ao formato de codificação indicado que é o formato de codificação específico: os coeficientes de pré-descorrelação são determinados de modo que os N - 1 canais do sinal descorrelacionado sejam gerados com base no primeiro canal do sinal desdobrado; e os coeficientes multipista secos e úmidos são determinados de modo que o primeiro grupo seja reconstruído como um mapeamento linear do primeiro canal do sinal desdobrado e os N - 1 canais do sinal descorrelacionado, em que um subconjunto de coeficientes multipista secos é aplicado ao primeiro canal do sinal desdobrado e um subconjunto de coeficientes desdobrados úmidos é aplicado aos N - 1 canais do sinal descorrelacionado.
8. Método de decodificação de áudio CARACTERIZADO pelo fato de que compreende: receber uma sinalização (S) indicando uma de pelo menos duas configurações de canal predefinidas; em resposta à detecção da sinalização recebida indicando uma primeira configuração de canal predefinida (L, LS, LB, TFL, TBL), realizar o método de decodificação de áudio conforme definido em qualquer uma das reivindicações anteriores; e em resposta à detecção da sinalização recebida indicando uma segunda configuração de canal predefinida (LW, LSCRN, TFL, LS, LB, TBL) receber um sinal desdobrado (downmix signal) de dois canais (L1, L2) e parâmetros multipista (upmix parameters) associados (α), realizar uma reconstrução paramétrica de um primeiro sinal de áudio de três canais (LW, LSCRN, TFL), com base em um primeiro canal (L1) do sinal desdobrado, e pelo menos parte dos parâmetros multipista, e realizar uma reconstrução paramétrica de um segundo sinal de áudio de três canais (LS, LB, TBL), com base em um segundo canal (L2) do sinal desdobrado, e pelo menos parte dos parâmetros multipista.
9. Sistema de decodificação de áudio (1000) CARACTERIZADO pelo fato de que compreende um ou mais componentes configurados para realizar o método de qualquer uma das reivindicações anteriores.
10. Sistema, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os um ou mais componentes são adicionalmente configurados para: reconstruir um sinal de áudio de M canais adicional (R, RS, RB, TFR, TBR) com base em um sinal desdobrado (downmix signal) de dois canais adicional (R1, R2) e parâmetros multipista associados adicionais (upmix parameters) (αR); receber uma sinalização (S) indicando um formato selecionado dentre pelo menos dois formatos de codificação selecionados do sinal de áudio de M canais adicional, os formatos de codificação do sinal de áudio de M canais adicional correspondendo a partições diferentes respectivas dos canais do sinal de áudio de M canais adicional nos respectivos primeiro e segundo grupos (603, 604) de um ou mais canais, em que, no formato de codificação indicado do sinal de áudio de M canais adicional, um primeiro canal (R1) do sinal desdobrado adicional corresponde a uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais adicional, e um segundo canal (R2) do sinal desdobrado adicional corresponde a uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais adicional; determinar um conjunto adicional de coeficientes de pré- descorrelação com base no formato de codificação indicado do sinal de áudio de M canais adicional; calcular um sinal de entrada de descorrelação adicional como um mapeamento linear do sinal desdobrado adicional, em que o conjunto adicional de coeficientes de pré-descorrelação é aplicado ao sinal desdobrado adicional; gerar um sinal descorrelacionado adicional com base no sinal de entrada de descorrelação adicional; determinar conjuntos adicionais de coeficientes multipista secos e úmidos com base em parâmetros multipista adicionais recebidos e o formato de codificação indicado do sinal de áudio de M canais adicional; calcular um sinal multipista seco adicional como um mapeamento linear do sinal desdobrado adicional, em que o conjunto de coeficientes multipista secos adicional é aplicado ao sinal desdobrado adicional; calcular um sinal multipista úmido adicional como um mapeamento linear do sinal descorrelacionado adicional, em que o conjunto de coeficientes multipista úmidos adicional é aplicado ao sinal descorrelacionado adicional; e combinar os sinais multipista secos e úmidos adicionais para obter um sinal reconstruído multidimensional correspondente ao sinal de áudio de M canais adicional a ser reconstruído.
11. Sistema, de acordo com a reivindicação 9 ou 10, CARACTERIZADO pelo fato de que os um ou mais componentes são adicionalmente configurados para: extrair, a partir de um fluxo de bits (B), o sinal desdobrado, os parâmetros multipista associados ao sinal desdobrado e um canal de áudio codificado separadamente (C); e decodificar o canal de áudio codificado separadamente.
12. Método de codificação de áudio (1700) compreendendo as etapas de: receber (1710) um sinal de áudio de M canais (L, LS, LB, TFL, TBL), em que M > 4; selecionar repetidamente (1720) um dentre pelo menos dois formatos de codificação (F1, F2, F3) correspondentes às respectivas partições diferentes do sinal de áudio de M canais nos respectivos primeiro e segundo grupos (601, 602) de um ou mais canais cada, em que cada um dos formatos de codificação define um sinal desdobrado (downmix signal) de dois canais (L1, L2), no qual um primeiro canal (L1) do sinal desdobrado é formado como uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e em que um segundo canal (L2) do sinal desdobrado é formado como uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais; para o formato de codificação atualmente selecionado, determinar um conjunto de coeficientes multipista (upmix coefficients) secos (βi) e um conjunto de coeficientes multipista úmidos (YL); calcular (1730), de acordo com o formato de codificação selecionado no momento, um sinal desdobrado de dois canais (L1, L2) com base no sinal de áudio de M canais; emitir (1740) o sinal desdobrado do formato de codificação atualmente selecionado, o sinal desdobrado sendo segmentado em períodos de tempo e informações secundárias permitindo a reconstrução paramétrica do sinal de áudio de M canais, com base no sinal desdobrado, e um sinal descorrelacionado determinado com base em pelo menos um canal do sinal desdobrado do formato de codificação selecionado, as informações secundárias compreendendo valores discretos dos conjuntos de coeficientes multipista secos e úmidos (βL YL), em que pelo menos um valor discreto por período de tempo é emitido; e emitir (1750) a sinalização (S) indicando o formato de codificação selecionado no momento, CARACTERIZADO pelo fato de que o sinal de áudio de M canais tem uma configuração de canal predefinida, em resposta a uma alteração de um primeiro formato de codificação selecionado para um segundo formato de codificação selecionado distinto, um sinal desdobrado de acordo com o segundo formato de codificação selecionado é calculado, e um fading cruzado entre o sinal desdobrado de acordo com o primeiro formato de codificação selecionado e o sinal desdobrado de acordo com o segundo formato de codificação selecionado é emitido no lugar do sinal desdobrado, e a reconstrução paramétrica do sinal de áudio de M canais entre os valores discretos é baseada em valores interpolados dos conjuntos de coeficientes multipista secos e úmidos (βL, yL), de acordo com uma regra de interpolação predefinida, em que o fading cruzado do sinal desdobrado e os valores discretos dos conjuntos de coeficientes multipista secos e úmidos são gerados de tal maneira que o fading cruzado e a interpolação serão sincronizados.
13. Sistema de codificação de áudio (300) compreendendo uma seção de codificação (1400) configurada para codificar um sinal de áudio de M canais (L, LS, LB, TFL, TBL) como um sinal desdobrado (channel downmix) de dois canais e parâmetros multipista (upmix parameters) associados, em que M > 4, a seção de codificação compreendendo: uma seção desdobrada (1411, 1412) configurada para, para pelo menos um dos pelos menos dois formatos de codificação (F1, F2, F3) correspondentes às respectivas partições diferentes dos canais do sinal de áudio de M canais em seus respectivos primeiro e segundo grupos (601, 602) de um ou mais canais cada, calcular, de acordo com o formato de codificação, um sinal desdobrado de dois canais (L1, L2), com base no sinal de áudio de M canais, o sinal desdobrado sendo segmentado em períodos de tempo, em que um primeiro canal (L1) do sinal desdobrado é formado como uma combinação linear do primeiro grupo de um ou mais canais do sinal de áudio de M canais, e um segundo canal (L2) do sinal desdobrado é formado como uma combinação linear do segundo grupo de um ou mais canais do sinal de áudio de M canais; uma seção de controle (1430) configurada para selecionar repetidamente um dos formatos de codificação, em que o sistema de codificação de áudio é configurado para, para o formato de codificação atualmente selecionado, determinar um conjunto de coeficientes multipista secos (βL) e um conjunto de coeficientes multipista úmidos (YL), e emite uma sinalização (S) indicando o formato de codificação atualmente selecionado e as informações secundárias (α) permitindo a reconstrução paramétrica do sinal de áudio de M canais com base no sinal desdobrado, e um sinal descorrelacionado determinado com base em pelo menos um canal do sinal desdobrado do formato de codificação selecionado, as informações secundárias compreendendo valores discretos dos conjuntos de coeficientes multipista secos e úmidos (βL, YL), em que pelo menos um valor discreto por período de tempo é emitido, CARACTERIZADO pelo fato de que o sinal de áudio de M canais tem uma configuração de canal predefinida, em que o sistema de codificação de áudio (300) compreende um interpolador desdobrado (1413, 1414) configurado para produzir um fading cruzado do sinal desdobrado de acordo com um primeiro formato de codificação, que foi selecionado pela seleção de controle, e o sinal desdobrado de acordo com um segundo formato de codificação, que foi selecionado pela seção de controle imediatamente depois do primeiro formato de codificação, e a reconstrução paramétrica do sinal de áudio de M canais entre os valores discretos é baseada em valores interpolados dos conjuntos de coeficientes multipista secos e úmidos (βL YL), de acordo com uma regra de interpolação predefinida, em que o sistema de codificação de áudio é configurado para emitir o fading cruzado do sinal desdobrado e os valores discretos dos conjuntos de coeficientes multipista secos e úmidos de tal maneira que o fading cruzado e a interpolação serão sincronizados.
14. Sistema, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que é configurado para codificar adicionalmente um sinal de áudio de M2 canais (R, RS, RB, TFR, TBR), em que que a seção de controle é configurada para selecionar repetidamente um dos formatos de codificação com efeito para o sinal de áudio de M canais e o sinal de áudio M2 canais, o sistema compreendendo ainda uma seção de codificação adicional, que é acoplada de modo comunicativo à seção de controle, e é configurada para codificar o sinal de áudio de M2 canais de acordo com o formato de codificação selecionado pela seção de controle.
BR112017008015-0A 2014-10-31 2015-10-29 Métodos e sistemas de decodificação e codificação de áudio BR112017008015B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462073642P 2014-10-31 2014-10-31
US62/073,642 2014-10-31
US201562128425P 2015-03-04 2015-03-04
US62/128,425 2015-03-04
PCT/EP2015/075115 WO2016066743A1 (en) 2014-10-31 2015-10-29 Parametric encoding and decoding of multichannel audio signals

Publications (2)

Publication Number Publication Date
BR112017008015A2 BR112017008015A2 (pt) 2017-12-19
BR112017008015B1 true BR112017008015B1 (pt) 2023-11-14

Family

ID=54705555

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112017008015-0A BR112017008015B1 (pt) 2014-10-31 2015-10-29 Métodos e sistemas de decodificação e codificação de áudio

Country Status (9)

Country Link
US (1) US9955276B2 (pt)
EP (2) EP3213323B1 (pt)
JP (2) JP6640849B2 (pt)
KR (1) KR102486338B1 (pt)
CN (2) CN107004421B (pt)
BR (1) BR112017008015B1 (pt)
ES (1) ES2709661T3 (pt)
RU (1) RU2704266C2 (pt)
WO (1) WO2016066743A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2829413T3 (es) * 2015-05-20 2021-05-31 Ericsson Telefon Ab L M Codificación de señales de audio de múltiples canales
EP3337066B1 (en) 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
CN107576933B (zh) * 2017-08-17 2020-10-30 电子科技大学 多维拟合的信源定位方法
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
JP2008529364A (ja) 2005-01-24 2008-07-31 ティ エイチ エックス リミテッド 周辺及び直接サラウンドサウンドシステム
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
EP1829424B1 (en) 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
MX2008000504A (es) * 2005-07-14 2008-03-07 Koninkl Philips Electronics Nv Codificacion y decodificacion de audio.
US8019614B2 (en) 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
US8811621B2 (en) * 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
WO2010115850A1 (en) 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
RU2011147119A (ru) * 2009-04-21 2013-05-27 Конинклейке Филипс Электроникс Н.В. Синтез аудиосигнала
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
US9219972B2 (en) 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
WO2012094338A1 (en) 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013122388A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmission apparatus, data receiving apparatus, data transceiving system, data transmission method and data receiving method
EP2817802B1 (en) * 2012-02-24 2016-12-07 Dolby International AB Audio processing
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP4207817A1 (en) 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
JP6186436B2 (ja) 2012-08-31 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング
PL2896221T3 (pl) 2012-09-12 2017-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do i sposób zapewniania rozszerzonych możliwości kierowanego downmixu dla 3D audio
WO2014068583A1 (en) 2012-11-02 2014-05-08 Pulz Electronics Pvt. Ltd. Multi platform 4 layer and x, y, z axis audio recording, mixing and playback process
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
WO2014126689A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
CN110047496B (zh) * 2013-04-05 2023-08-04 杜比国际公司 立体声音频编码器和解码器
JP6479786B2 (ja) 2013-10-21 2019-03-06 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Also Published As

Publication number Publication date
RU2017114642A (ru) 2018-10-31
RU2019131327A (ru) 2019-11-25
BR112017008015A2 (pt) 2017-12-19
JP2017536756A (ja) 2017-12-07
KR20170078648A (ko) 2017-07-07
CN111816194A (zh) 2020-10-23
RU2017114642A3 (pt) 2019-05-24
ES2709661T3 (es) 2019-04-17
WO2016066743A1 (en) 2016-05-06
US9955276B2 (en) 2018-04-24
KR102486338B1 (ko) 2023-01-10
EP3213323B1 (en) 2018-12-12
CN107004421B (zh) 2020-07-07
EP3213323A1 (en) 2017-09-06
EP3540732A1 (en) 2019-09-18
JP6640849B2 (ja) 2020-02-05
EP3540732B1 (en) 2023-07-26
US20170339505A1 (en) 2017-11-23
RU2704266C2 (ru) 2019-10-25
JP2020074007A (ja) 2020-05-14
CN107004421A (zh) 2017-08-01
JP7009437B2 (ja) 2022-01-25

Similar Documents

Publication Publication Date Title
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP6510541B2 (ja) 環境高次アンビソニックス係数の遷移
ES2934646T3 (es) Sistema de procesamiento de audio
JP6674981B2 (ja) 音響信号のレンダリング方法、装置及び記録媒体
KR101761569B1 (ko) 오디오 현장의 코딩
JP7009437B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
BR112016016008B1 (pt) Método para renderizar um sinal de áudio
KR20170109023A (ko) 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
KR102486365B1 (ko) 오디오 신호들의 파라메트릭 재구성
BRPI0607166B1 (pt) Codificação paramétrica conjunta de fontes de áudio
BR112016008787B1 (pt) Método para decodificação e codificação de uma matriz de downmix, método para apresentação de conteúdo de áudio, codificador e decodificador para uma matriz de downmix, codificador de áudio e decodificador de áudio
BR122020017144B1 (pt) Método para a codificação de objetos de áudio em um fluxo de dados, codificador para a codificação de objetos de áudio em um fluxo de dados, método em um decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados
CN106471578B (zh) 用于较高阶立体混响信号之间的交叉淡化的方法和装置
KR20200116968A (ko) 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들
JP2018534617A (ja) 複数の遷移の間の高次アンビソニック係数のコーディング
BR112017006325B1 (pt) Método de decodificação e decodificador para o realce de diálogo
CN107112020B (zh) 音频信号的参数化混合
RU2798759C2 (ru) Параметрическое кодирование и декодирование многоканальных аудиосигналов
BR112017007521B1 (pt) Método e sistema de decodificação de áudio e meio legível por computador

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/008 , G10L 19/22 , H04S 7/00

Ipc: G10L 19/008 (2013.01), G10L 19/22 (2013.01), H04S

B15G Petition not considered as such [chapter 15.7 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 29/10/2015, OBSERVADAS AS CONDICOES LEGAIS

B12F Other appeals [chapter 12.6 patent gazette]

Free format text: RECURSO: 870230106165 - 1/12/2023