BR112015026963B1 - Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado - Google Patents

Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado Download PDF

Info

Publication number
BR112015026963B1
BR112015026963B1 BR112015026963-0A BR112015026963A BR112015026963B1 BR 112015026963 B1 BR112015026963 B1 BR 112015026963B1 BR 112015026963 A BR112015026963 A BR 112015026963A BR 112015026963 B1 BR112015026963 B1 BR 112015026963B1
Authority
BR
Brazil
Prior art keywords
channel
frequency components
audio
encoded
input signal
Prior art date
Application number
BR112015026963-0A
Other languages
English (en)
Other versions
BR112015026963A2 (pt
Inventor
Robin Thesing
Phillip Williams
Michael Schug
Original Assignee
Dolby International Ab
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab, Dolby Laboratories Licensing Corporation filed Critical Dolby International Ab
Publication of BR112015026963A2 publication Critical patent/BR112015026963A2/pt
Publication of BR112015026963B1 publication Critical patent/BR112015026963B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

codificação híbrida de áudio de múltiplos canais a presente invenção refere-se a um método para codificar um sinal de entrada de áudio de múltiplos canais, que inclui as etapas de gerar um downmix de componentes de baixa frequência de um subconjunto de canais do sinal de entrada, codificar por forma de onda cada canal do downmix, o que, desse modo, gera dados que receberam downmix codificados por forma de onda, realizar a codificação paramétrica em pelo menos alguns componentes de frequência mais alta de cada canal do sinal de entrada, o que, desse modo, gera dados codificados parametricamente, e gerar um sinal de áudio codificado (por exemplo, um sinal codificado e-ac-3) que indica os dados que receberam downmix codificados por forma de onda e os dados codificados parametricamente. outros aspectos são métodos para decodificar tal sinal codificado, e sistemas configurados para realizar qualquer modalidade do método da invenção.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[0001] Este pedido reivindica a prioridade sobre o Pedido de Patente Provisório no US 61/817.729, depositado em 30 de abril de 2013, o qual está incorporado a título de referência ao presente documento em sua totalidade.
ANTECEDENTES DA INVENÇÃOCAMPO DA INVENÇÃO
[0002] A presente invenção refere-se ao processamento de sinalde áudio e, mais particularmente, à codificação e decodificação de áudio de múltiplos canais (por exemplo, codificação de dados que indicam um sinal de áudio de múltiplos canais). Em modalidades típicas, um downmix de componentes de baixa frequência de canais individuais de áudio de entrada de múltiplos canais é submetido à codificação por forma de onda e os outros componentes de frequência (frequência mais alta) do áudio de entrada são submetidos à codificação paramétrica. Algumas modalidades codificam dados de áudio de múltiplos canais de acordo com um dos formatos conhecidos como AC-3 e E-AC-3 (AC-3 Aprimorado), ou de acordo com outro formato de codificação.
ANTECEDENTES DA INVENÇÃO
[0003] O Dolby Laboratories fornece implantações exclusivas deAC-3 e E-AC-3 conhecidas como Dolby Digital e Dolby Digital Plus, respectivamente. Dolby, Dolby Digital e Dolby Digital Plus são marcas registradas de Dolby Laboratories Licensing Corporation.
[0004] Embora a invenção não seja limitada ao uso em codificaçãode dados de áudio de acordo com o formato E-AC-3 (ou AC-3), por conveniência, o mesmo será descrito nas modalidades nas quais o mesmo codifica uma corrente de bits de áudio de acordo com o formato E-AC-3.
[0005] Uma corrente de bits codificada AC-3 ou E-AC-3 compreende metadados e pode compreender de um a seis canais de conteúdo de áudio. O conteúdo de áudio são dados de áudio que foram comprimidos com o uso de codificação de áudio perceptual. Os detalhes da codificação AC-3 são bem conhecidos e são estabelecidos em muitas referências publicadas que incluem as seguintes:
[0006] ATSC Standard A52/A: Digital Audio Compression Standard(AC-3), Revision A, Advanced Television Systems Comitee, 20 de agosto de 2001; e
[0007] Patentes no U.S. 5.583.962; 5.632.005; 5.633.981;5.727.119 e 6.021.386.
[0008] Os detalhes da codificação Dolby Digital Plus (E-AC-3) sãoestabelecidos, por exemplo, em "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", Informe da Convenção AES 6196, 117a Convenção AES, 28 de outubro de 2004.
[0009] Cada quadro de uma corrente de bits de áudio codificadapor AC-3 contém conteúdo de áudio e metadados para 1.536 amostras de áudio digital. Para uma taxa de amostragem de 48 kHz, isso representa 32 milissegundos de áudio digital ou uma taxa de 31,25 quadros por segundo de áudio.
[0010] Cada quadro de uma corrente de bits de áudio codificada porE-AC-3 contém conteúdo de áudio e metadados para 256, 512, 768 ou 1.536 amostras de áudio digital, dependendo se o quadro contém um, dois, três ou seis blocos de dados de áudio respectivamente.
[0011] A codificação de conteúdo de áudio realizada por implantações típicas de codificação por E-AC-3 inclui codificação por forma de onda e codificação paramétrica.
[0012] A codificação por forma de onda de um sinal de entrada deáudio (tipicamente realizada para comprimir o sinal para que o sinal codificado compreenda menos bits que o sinal de entrada) codifica o sinal de entrada de um modo que preserve a forma de onda do sinal de entrada submetido tanto quanto possível a restrições aplicáveis (por exemplo, para que a forma de onda do sinal codificado corresponda a do sinal de entrada à medida do possível). Por exemplo, na codificação por E-AC-3 convencional, a codificação por forma de onda é realizada nos componentes de baixa frequência (tipicamente, até 3,5 kHz ou 4,6 kHz) de cada canal de um sinal de entrada de múltiplos canais para comprimir tal conteúdo de baixa frequência do sinal de entrada, gerando-se (no domínio de frequência) uma representação quantizada (mantissa e expoente quantizados) de cada amostra (que é um componente de frequência) de cada faixa de baixa frequência de cada canal do sinal de entrada.
[0013] De modo mais específico, as implantações típicas de codificadores E-AC-3 (e alguns outros codificadores de áudio convencionais) implantam um modelo psicoacústico para analisar dados de domínio de frequência que indicam o sinal de entrada em uma base de faixa (isto é, tipicamente 50 faixas não uniformes que se aproximam das faixas de fre-quência da escala psicoacústica bem conhecida denominada de escala Bark) para determinar uma alocação ideal de bits para cada mantissa. Para realizar a codificação por forma de onda nos componentes de baixa frequência do sinal de entrada, os dados de mantissa (que indicam o conteúdo de baixa frequência) são quantizados a um número de bits que corresponde à alocação de bit determinada. Os dados de mantissa quan- tizados (e dados de expoente correspondentes e metadados também tipicamente correspondentes) são, então, formatados em uma corrente de bits de saída codificada.
[0014] A codificação paramétrica, outro tipo bem conhecido de codificação de sinal de áudio, extrai e codifica parâmetros de recurso do sinal de áudio de entrada, de modo que o sinal reconstruído (após codificação e subsequente decodificação) seja tão inteligível quanto possível (sujeito a restrições aplicáveis), mas de modo que a forma de onda do sinal codificado possa ser muito diferente da do sinal de entrada.
[0015] Por exemplo, a Publicação de Pedido de Patente Internacional junto ao PCT no WO 03/083834 A1, publicada em 9 de outubro de 2003 e a Publicação de Pedido de Patente Internacional junto ao PCT no WO 2004/102532 A1, publicada em 25 de novembro de 2004, descrevem um tipo de codificação paramétrica conhecida como codificação por extensão espectral. Na codificação por extensão espectral, os componentes de frequência de um sinal de entrada de áudio de alcance de frequência total são codificados como uma sequência de componentes de frequência de um sinal de alcance de frequência limitado (um sinal de faixa de base) e uma sequência correspondente de parâmetros de codificação (que indica um sinal residual) que determina (com o sinal de faixa de base) uma versão aproximada do sinal de entrada de alcance de frequência total.
[0016] Outro tipo bem conhecido de codificação paramétrica é acodificação por acoplamento de canal. Na codificação por acoplamento de canal, um downmix monofônico dos canais de um sinal de entrada de áudio é construído. O sinal de entrada é codificado como esse downmix (uma sequência dos componentes de frequência) e uma sequência correspondente de parâmetros de acoplamento. Os parâmetros de acoplamento são parâmetros de nível que determinam (com o downmix) uma versão aproximada de cada um dos canais do sinal de entrada. Os parâmetros de acoplamento são metadados em faixa de frequência que correspondem a energia do downmix monofônico à energia de cada canal do sinal de entrada.
[0017] Por exemplo, a codificação por E-AC-3 convencional de umsinal de entrada de canal 5.1 (com uma taxa de bits disponível de 192 kbps para entrega do sinal codificado) tipicamente implanta a codificação por acoplamento de canal para codificar os componentes de frequência intermediária (na faixa F1 < f > F2, em que F1 é tipicamente igual a 3,5 kHz ou 4,6 kHz, e F2 é tipicamente igual a 10 kHz ou 10,2 kHz) de cada canal do sinal de entrada, e codificação por extensão espectral para codificar os componentes de alta frequência (na faixa F2 < f > F3, em que F2 é tipicamente igual a 10 kHz ou 10,2 kHz, e F3 é tipicamente igual a 14,8 kHz ou 16 kHz) de cada canal do sinal de entrada. O downmix monofônico determinado durante o desempenho da codificação por acoplamento de canal é codificado por forma de onda, e o downmix codificado por forma de onda é entregue (no sinal de saída codificado) junto com os parâmetros de acoplamento. O downmix determinado durante o desempenho da codificação por acoplamento de canal é empregado como o sinal de faixa de base para a codificação por extensão espectral. A codificação por extensão espectral determina (a partir do sinal de faixa de base e dos componentes de alta frequência de cada canal do sinal de entrada) outro conjunto de parâmetros de codificação (parâmetros SPX). Os parâmetros SPX estão incluídos e são entregues com o sinal de saída codificado.
[0018] Em outro tipo de codificação paramétrica, às vezes referidacomo codificação por áudio espacial, um downmix (por exemplo, um downmix mono ou estéreo) dos canais de um sinal de entrada de áudio de múltiplos canais é gerado. O sinal de entrada é codificado como um sinal de saída que inclui esse downmix (uma sequência de componentes de frequência) e uma sequência correspondente de parâmetros espaciais (ou como uma versão codificada por forma de onda de cada canal do downmix, com uma sequência correspondente de parâmetros espaciais). Os parâmetros espaciais preveem a restauração tanto do envelope de amplitude de cada canal do sinal de entrada de áudio quanto das correlações intercanal entre os canais do sinal de entrada de áudio a partir do downmix do sinal de entrada. Esse tipo de codificação paramétrica pode ser realizado em todos os componentes de frequência do sinal de entrada (isto é, sobre o alcance de frequência total do sinal de entrada) ao invés de em apenas os componentes de frequência em uma subfaixa do alcance de frequência total do sinal de entrada (isto é, para que a versão codificada do sinal de entrada inclua o downmix e os parâmetros espaciais para todas as frequências do alcance de frequência total do sinal de entrada, ao invés de apenas um subconjunto do mesmo).
[0019] Na codificação E-AC-3 ou AC-3 de uma corrente de bits deáudio, os blocos de amostras de áudio de entrada a serem codificados são submetidos à transformação de domínio de tempo para frequência que resulta em blocos de dados de domínio de frequência, normalmente referidos como coeficientes de transformada (ou coeficientes de frequência ou componentes de frequência) localizados em binários de frequência espaçados de modo uniforme. O coeficiente de frequência em cada binário é, então, convertido (por exemplo, no estágio BFPE 7 do sistema da Figura 1) em um formato de ponto de flutuação que compreende um expoente e uma mantissa.
[0020] Tipicamente, a atribuição de bit de mantissa tem base nadiferença entre um espectro de sinal de grão fino (representado por um valor de densidade espectral de potência ("PSD") para cada binário de frequência) e uma curva de mascaramento de grão grosseiro (representado por um valor de máscara para cada faixa de frequência).
[0021] A Figura 1 é um codificador configurado para realizar codificação por E-AC-3 convencional nos dados de áudio de entrada de domínio de tempo 1. O banco de filtros de análise 2 do codificador converte os dados de áudio de entrada de domínio de tempo 1 em dados de áudio de domínio de frequência 3, e o estágio de codificação por ponto de flutuação em bloco (BFPE) 7 gera uma representação de ponto de flutuação de cada componente de frequência de dados 3, que compreende um expoente e uma mantissa para cada binário de frequência. Os dados de domínio de frequência emitidos do estágio 7 também serão referidos no presente documento como dados de áudio de domínio de frequência 3. Os dados de áudio de domínio de frequência emitidos do estágio 7 são, então, codificados, o que inclui a realização de codificação por forma de onda (nos elementos 4, 6, 10 e 11 do sistema da Figura 1) nos componentes de baixa frequência (que têm frequência menor ou igual a "F1", em que F1 tipicamente é igual a 3,5 kHz ou 4,6 kHz) dos dados de domínio de frequência emitidos do estágio 7, e a realização de codificação paramétrica (no estágio de codificação paramétrica 12) nos outros componentes de frequência (aqueles que têm frequência maior que F1) dos dados de domínio de frequência emitidos do estágio 7.
[0022] A codificação por forma de onda inclui a quantização dasmantissas (dos componentes de baixa frequência emitidos do estágio 7) no quantizador 6 e abarracamento dos expoentes (dos componentes de baixa frequência emitidos do estágio 7) no estágio de abarracamento 10 e codificação (no estágio de codificação de expoente 11) dos expoentes abarracados gerados no estágio 10. O formatador 8 gera uma corrente de bits codificada por E-AC-3 9 em resposta aos dados quantizados emitidos do quantizador 6, os dados de expoente diferencial codificados emitidos do estágio 11, e os dados codificados parametricamente emitidos do estágio 12.
[0023] O quantizador 6 realiza alocação de bits e quantização combase em dados de controle (que inclui dados de mascaramento) gera- dos pelo controlador 4. Os dados de mascaramento (que determina uma curva de mascaramento) são gerados a partir dos dados de domínio de frequência 3, com base em um modelo psicoacústico (implantado pelo controlador 4) de audição humana e percepção aural. A modelagem psicoacústica leva em consideração os limiares dependentes de frequência de audição humana, e um fenômeno psicoacústico referido como mascaramento, pelo qual um componente de frequência forte próximo a um ou mais componentes de frequência mais fraca tende a mascarar os componentes mais fracos, o que torna os mesmos inaudíveis a um ouvinte humano. Isso torna possível omitir os componentes de frequência mais fraca quando codifica os dados de áudio, e o que, desse modo, alcança um grau mais alto de compressão, sem afetar a qualidade percebida dos dados de áudio codificado (corrente de bits 9) de modo adverso. Os dados de mascaramento compreendem um valor de curva de mascaramento para cada faixa de frequência dos dados de áudio de domínio de frequência 3. Esses valores de curva de mascaramento representam o nível de sinal mascarado pelo ouvido humano em cada faixa de frequência. O quantizador 6 usa essas informações para decidir como melhor usar o número de bits de dados disponíveis para representar os dados de domínio de frequência de cada faixa de frequência do sinal de áudio de entrada.
[0024] Sabe-se que na codificação por E-AC-3 convencional, expoentes diferenciais (isto é, a diferença entre expoentes consecutivos) são codificados em vez de expoentes absolutos. Os expoentes diferenciais só podem tem um dentre cinco valores: 2, 1, 0, -1 e -2. Se um expoente diferencial fora dessa faixa for encontrado, um dos expoentes que é subtraído é modificado para que o expoente diferencial (após a modificação) esteja dentro da faixa notada (esse método convencional é conhecido como "abarracamento de expoente" ou "abarracamento"). O estágio de abarracamento 10 do codificador da Figura 1 gera expoentes abarracados em resposta aos expoentes brutos estabelecidos ao mesmo, realizando-se tal operação de abarracamento.
[0025] Em uma modalidade típica da codificação E-AC-3, um sinalde áudio de 5 ou 5.1 canais é codificado em uma taxa de bits na faixa de cerca de 96 kbps a cerca de 192 kbps. Atualmente, em 192 kbps um codificador E-AC-3 típico codifica um sinal de entrada de 5 canais (ou de 5.1 canais) com o uso de uma combinação de codificação discreta por forma de onda para os componentes de frequência mais baixa (por exemplo, até 3,5 kHz ou 4,6 kHz) de cada canal do sinal, acoplamento de canal para os componentes de frequência intermediária (por exemplo, de 3,5 kHz a cerca de 10 kHz ou de 4,6 kHz a cerca de 10 kHz) de cada canal do sinal, e extensão espectral para os componentes de frequência mais alta (por exemplo, de cerca de 10 kHz a 16 kHz ou de cerca de 10 kHz a 14,8 kHz) de cada canal do sinal. Embora isso produza uma qualidade aceitável, conforme uma taxa de bits máxima disponível para entregar o sinal de saída codificado é reduzida para abaixo de 192 kbps, a qualidade (de uma versão decodificada do sinal de saída codificado) se degrada rapidamente. Por exemplo, quando se usa E-AC-3 para codificar áudio de 5.1 canais para fluxo contínuo, as limitações de largura de faixa de dados temporários podem requerer uma taxa de dados inferior a 192 kbps (por exemplo, até 64 kbps). Entretanto, o uso de E-AC-3 para codificar um sinal de 5.1 canais para entrega em uma taxa de bits abaixo de 192 kbps não produz áudio codificado "qualidade de difusão". A fim de codificar um sinal (com o uso de codificação por E-AC-3) para entrega em uma taxa de bits substancialmente abaixo de 192 kbps (por exemplo, 96 kbps, ou 128 kbps, ou 160 kbps), a melhor troca disponível entre largura de faixa de áudio (disponível para entregar o sinal de áudio codificado), artefatos de codificação e o colapso espacial devem ser encontrados. De modo mais geral, os inventores reconheceram que a melhor troca en- tre largura de faixa de áudio, artefatos de codificação e colapso espacial deve ser encontrada para, de outro modo, codificar áudio de entrada de múltiplos canais para entrega em taxas de bits baixas (ou menores que as típicas).
[0026] Uma solução pura é aplicar downmix ao áudio de entradade múltiplos canais para o número de canais que podem ser produzidos em qualidade adequada (por exemplo, "qualidade de difusão" se esse for a qualidade mínima adequada) para a taxa de bits disponível, e, então, realizar codificação convencional de cada canal do downmix. Por exemplo, uma pessoa pode aplicar downmix em um sinal de entrada de cinco canais a um downmix de três canais (em que a taxa de bits disponível é 128 kbps) ou a um downmix de dois canais (em que a taxa de bits disponível é 96 kbps). Entretanto, essa solução mantém a qualidade de codificação e a largura de faixa de áudio ao custo de um severo colapso espacial.
[0027] Outra solução pura é evitar a aplicação de downmix (porexemplo, para produzir um sinal de 5.1 canais completos de saída codificado em resposta a um sinal de entrada 5.1 canais), e, em vez disso, forçar o codec ao seu limite. Entretanto, essa solução pode introduzir mais artefatos de codificação e sacrificar a largura de faixa de áudio, embora possa manter tanto espaço livre quanto possível.
BREVE DESCRIÇÃO DA INVENÇÃO
[0028] Em modalidades típicas, a invenção é um método para acodificação híbrida de um sinal de entrada de áudio de múltiplos canais (por exemplo, um método de codificação em conformidade com o padrão E-AC-3). O método inclui as etapas de gerar um downmix de componentes de baixa frequência (por exemplo, que tem frequência até um valor máximo na faixa de cerca de 1,2 kHz a cerca de 4,6 kHz, ou de cerca de 3,5 kHz a cerca de 4,6 kHz) de canais individuais do sinal de entrada, realizar codificação por forma de onda em cada canal do downmix, e realizar codificação paramétrica dos outros componentes de frequência (pelo menos alguma componentes de frequência intermediária e/ou de alta frequência) de cada canal do sinal de entrada (sem realizar a aplicação preliminar de downmix dos outros componentes de frequência de qualquer um dos canais do sinal de entrada).
[0029] Em modalidades típicas, o método de codificação da invenção comprime o sinal de entrada para que o sinal de saída codificado compreenda menos bits que o sinal de entrada, e para que o sinal codificado possa ser transmitido com boa qualidade em uma taxa de bits baixa (por exemplo, na faixa de cerca de 96 kbps a cerca de 160 kbps para uma modalidade em conformidade E-AC-3, em que "kbps" denota kilobits por segundo). Nesse contexto, a taxa de bits de transmissão é "baixa" no sentido de que é substancialmente menor que a tipicamente disponível para a transmissão de áudio codificado de modo convencional (por exemplo, a taxa de bits típica de 192 kbps para áudio convencionalmente codificado por E-AC-3), mas maior que a taxa de bits mínima abaixo da qual a codificação completamente paramétrica do sinal de entrada pode requerer alcançar qualidade adequada (de uma versão decodificada do sinal codificado transmitido). A fim de fornecer a qualidade adequada (de uma versão decodificada do sinal codificado após a transmissão do sinal codificado, por exemplo, em uma taxa de bits baixa), o sinal de entrada de múltiplos canais é codificado como uma combinação de um downmix codificado por forma de onda de conteúdo de baixa frequência dos canais originais do sinal de entrada, e uma versão codificada parametricamente do conteúdo de alta (maior que a baixa) frequência de cada canal original do sinal de entrada. Economias significativas de taxa de bits são conseguidas por codificação por forma de onda de um downmix do conteúdo de baixa frequência em oposição à codificação discreta por forma de onda do conteúdo de baixa frequência de cada canal de entrada original. Devido ao fato da quantidade de dados necessária (a serem incluídos no sinal codificado) para codificar parametricamente as altas frequências de cada canal de entrada ser relativamente pequena, é possível codificar pa- rametricamente as frequências mais altas de cada canal de entrada sem aumentar significativamente a taxa de bits na qual o sinal codificado pode ser entregue, o que resulta no imageamento espacial melhorado com custo relativamente baixo de "taxa de bits". As modalidades típicas do método de codificação híbrida da invenção (por forma de onda e paramétrica) preveem mais controle sobre o balanço entre artefatos que resultam de colapso de imagem espacial (devido à aplicação de downmix) e ruído de codificação, e geralmente resulta em uma melhoria geral na qualidade percebida (de uma versão decodificada do sinal codificado) em relação ao que pode ser conseguido por métodos convencionais.
[0030] Em algumas modalidades, a invenção é um método ou sistema de codificação por E-AC-3 que gera áudio codificado especificamente para entrega como conteúdo de fluxo contínuo em ambientes extremamente limitados em largura de faixa. Em outras modalidades, o método e o sistema de codificação inventivos geram áudio codificado para entrega em taxas de bits mais altas para aplicações mais gerais.
[0031] Em uma classe de modalidades, a aplicação de downmixapenas das faixas de frequência baixa de cada canal do áudio de entrada de múltiplos canais (seguida pela codificação por forma de onda do downmix resultante de componentes de baixa frequência) economiza um grande número de bits (isto é, reduz o número de bits do sinal de saída codificado) eliminando-se a necessidade de incluir (no sinal de saída codificado) bits codificados por forma de onda para as faixas de frequência baixa do conteúdo de áudio, e também minimiza (ou reduz) o colapso espacial durante a formação de uma versão decodificada do sinal codificado entregue como resultado de inclusão (no sinal codificado) de conteúdo codificado parametricamente (por exemplo, canal acoplado e conteúdo estendido espectralmente) de todos os canais do áudio de entrada original. O sinal codificado gerado por tais modalidades tem uma troca mais balanceada de espacial, largura de faixa e artefatos de codificação que teria se fosse gerado por um método convencional de codificação (por exemplo, um dos métodos de codificação puros mencionados acima).
[0032] Em algumas modalidades, a invenção é um método paracodificar um sinal de entrada de áudio de múltiplos canais, que inclui as etapas de: gerar um downmix de componentes de baixa frequência de pelo menos alguns canais do sinal de entrada; codificar por forma de onda cada canal do downmix, desse modo, gera dados que receberam downmix codificados por forma de onda do conteúdo de áudio; realizar codificação paramétrica em pelo menos alguns componentes de frequência mais alta (por exemplo, componentes de frequência intermediária e/ou componentes de alta frequência) de cada canal do sinal de entrada (por exemplo, realizar codificação por acoplamento de canal dos componentes de frequência intermediária e codificação por extensão espectral dos componentes de alta frequência), o que, desse modo, gera dados codificados parametricamente que indicam os ditos pelo menos alguns componentes de frequência mais alta do dito cada canal do sinal de entrada; e gerar um sinal de áudio codificado que indica os dados que receberam downmix codificados por forma de onda e os dados codificados parametricamente. Em algumas tais modalidades, o sinal de áudio codificado é um sinal de áudio codificado E-AC-3.
[0033] Outro aspecto da invenção é um método para decodificardados de áudio codificado, que inclui as etapas de recebimento de um sinal que indica dados de áudio codificados, em que os dados de áudio codificado foram gerados codificando-se dados de áudio de acordo com qualquer modalidade do método de codificação da invenção, e a decodificação dos dados de áudio codificados para gerar um sinal que indica os dados de áudio.
[0034] Por exemplo, em algumas modalidades, a invenção é ummétodo para decodificar um sinal de áudio codificado que indica dados codificados por forma de onda e dados codificados parametricamente, em que o sinal de áudio codificado foi gerado gerando-se um downmix de componentes de baixa frequência de pelo menos alguns canais de um sinal de entrada de áudio de múltiplos canais, codificar por forma de onda cada canal do downmix, o que, desse modo, gera os dados codificados por forma de onda de modo que os ditos dados codificados por forma de onda indiquem conteúdo de áudio do downmix, realizar codificação paramétrica em pelo menos alguns componentes de frequência mais alta de cada canal do sinal de entrada, o que, desse modo, gera os dados codificados parametricamente de modo que os ditos dados codificados parametricamente indiquem os ditos pelo menos alguns componentes de frequência mais alta do dito cada canal do sinal de entrada, e gerar o sinal de áudio codificado em resposta aos dados codificados por forma de onda e os dados codificados parame- tricamente. O método de decodificação inclui as etapas de: extrair os dados codificados por forma de onda e dos dados codificados parame- tricamente do sinal de áudio codificado; realizar a decodificação por forma de onda nos dados codificados por forma de onda extraídos para gerar um primeiro conjunto de componentes de frequência recuperados que indica conteúdo de áudio de baixa frequência de cada canal do downmix; e realizar a decodificação paramétrica nos dados codificados parametricamente extraídos para gerar um segundo conjunto de componentes de frequência recuperados que indica conteúdo de áudio de frequência mais alta (por exemplo, frequência intermediária e alta frequência) de cada canal do sinal de entrada de áudio de múltiplos canais. Em algumas tais modalidades, o sinal de entrada de áudio de múltiplos canais tem N canais, em que N é um número inteiro, e o método de decodificação também inclui uma etapa de gerar N canais de dados de domínio de frequência decodificados que inclui combinar o dito primeiro conjunto de componentes de frequência recuperados e o dito segundo conjunto de componentes de frequência recuperados, de modo que cada canal dos dados de domínio de frequência decodificados indique conteúdo de áudio de frequência intermediária e de alta frequência de um diferente dentre os canais do sinal de entrada de áudio de múltiplos canais, e cada um de pelo menos um subconjunto dentre os canais dos dados de domínio de frequência decodificados indique conteúdo de áudio de baixa frequência do sinal de entrada de áudio de múltiplos canais.
[0035] Outro aspecto da invenção é um sistema que inclui um codificador configurado (por exemplo, programado) para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificado em resposta a dados de áudio e um decodi- ficador configurado para decodificar os dados de áudio codificados para recuperar os dados de áudio.
[0036] Outros aspectos da invenção incluem um sistema ou dispositivo (por exemplo, um codificador, um decodificador ou um processador) configurado (por exemplo, programado) para realizar qualquer modalidade do método da invenção, e um meio legível por computador (por exemplo, um disco) que armazena o código para implantar qualquer modalidade do método da invenção ou etapas do mesmo. Por exemplo, o sistema da invenção pode ser ou incluir um processador de propósito geral programável, um processador de sinal digital ou um microprocessador, programado com software ou firmware e/ou, de outro modo, configurado para realizar uma variedade de operações em dados, que incluem uma modalidade do método da invenção ou etapas do mesmo. Tal processador de propósito geral pode ser ou incluir um sistema de computador que inclui um dispositivo de entrada, uma memória e um conjunto de circuitos de processamento programado (e/ou, de outro modo, configurado) para realizar uma modalidade do método da invenção (ou etapas do mesmo) em resposta a dados afirmados sobre o mesmo.
BREVE DESCRIÇÃO DOS DESENHOS
[0037] A Figura 1 é um diagrama de blocos de um sistema de codificação convencional.
[0038] A Figura 2 é um diagrama de blocos de um sistema de codificação configurado para realizar uma modalidade do método de codificação da invenção.
[0039] A Figura 3 é um diagrama de blocos de um sistema de de-codificação configurado para realizar uma modalidade do método de decodificação da invenção.
[0040] A Figura 4 é um diagrama de blocos de um sistema queinclui um codificador configurado para realizar qualquer modalidade do método de codificação da invenção para gerar dados de áudio codificado em resposta a dados de áudio e um decodificador configurado para decodificar os dados de áudio codificados para recuperar os dados de áudio.DESCRIÇÃO DETALHADA DE MODALIDADES DA INVENÇÃO
[0041] Uma modalidade do método de codificação da invenção ede um sistema configurado para implantar o método será descrita com referência à Figura 2. O sistema da Figura 2 é um codificador E-AC-3 que é configurado para gerar uma corrente de bits de áudio codificada por E-AC-3 (31) em resposta a um sinal de entrada de áudio de múltiplos canais (21). O sinal 21 pode ser um sinal de domínio de tempo de "5.0 canais" que compreende cinco canais de faixa total de conteúdo de áudio.
[0042] O sistema da Figura 2 também é configurado para gerar uma corrente de bits de áudio codificada por E-AC-3 31 em resposta a um sinal de entrada de áudio de 5.1 canais 21 que compreende cinco canais de faixa total e um canal de efeitos de baixa frequência (LFE). Os elementos mostrados na Figura 2 têm a capacidade de codificar os cinco canais de entrada de faixa total, e fornecer bits que indicam os canais codificados de faixa total para o estágio de formatação 30 para inclusão na corrente de bits de saída 31. Os elementos convencionais do sistema para codificar o canal LFE (de um modo convencional) e fornecer bits que indicam o canal LFE codificado para o estágio de formatação 30 para inclusão na corrente de bits de saída 31 não são mostrados na Figura 2.
[0043] O estágio de transformada de domínio de tempo para domínio de frequência 22 da Figura 2 é configurado para converter cada canal de sinal de entrada de domínio de tempo 21 em um canal de dados de áudio de domínio de frequência. Devido ao fato do sistema da Figura 2 ser um codificador E-AC-3, os componentes de frequência de cada canal são postos em faixa de frequência em 50 faixas não uniformes que se aproximam das faixas de frequência das escalas psico- acústicas bem conhecidas como a escala Bark. Em variações da modalidade da Figura 2 (por exemplo, nas quais o áudio de saída codificado 31 não tem um formato em conformidade E-AC-3), os componentes de frequência de cada canal do sinal de entrada são postos em faixa de frequência de outro modo (isto é, com base em qualquer conjunto de faixas de frequência uniformes ou não uniformes).
[0044] Os componentes de baixa frequência de todos ou de algunsdos canais emitidos do estágio 22 são submetidos à aplicação de downmix no estágio de downmix 23. Os componentes de baixa frequência têm frequências menores ou iguais a uma frequência máxima "F1" (em que F1 tipicamente está em uma faixa de cerca de 1,2 kHz a cerca de 4,6 kHz).
[0045] Os componentes de frequência intermediária de todos oscanais emitidos do estágio 22 são submetidos à codificação por acoplamento de canal no estágio 26. Os componentes de frequência intermediária têm frequências, f, na faixa F1 </> F2, em que F1 tipicamente está em uma faixa de cerca de 1,2 kHz a cerca de 4,6 kHz, e F2 tipicamente está na faixa de cerca de 8 kHz a cerca de 12,5 kHz (por exemplo, F2 é igual a 8 kHz ou 10 kHz ou 10,2 kHz).
[0046] Os componentes de alta frequência de todos os canais emitidos do estágio 22 são submetidos a codificação por extensão espectral no estágio 28. Os componentes de alta frequência têm frequências, f, na faixa F2 <f> F3, em que F2 tipicamente está na faixa de cerca de 8 kHz a cerca de 12,5 kHz, e F3 tipicamente está em uma faixa de cerca de 10,2 kHz a cerca de 18 kHz.
[0047] Os inventores determinaram que a codificação por forma deonda de um downmix (por exemplo, um downmix de três canais de um sinal de entrada que tem cinco canais de faixa total) dos componentes de baixa frequência do conteúdo de áudio de alguns ou de todos os canais de um sinal de entrada de múltiplos canais (ao invés de codificação por forma de onda de modo discreto dos componentes de baixa frequência do conteúdo de áudio de todos os cinco canais de entrada de faixa total) e codificação de modo paramétrico dos outros componentes de frequência de cada canal do sinal de entrada, resulta em um sinal de saída codificado que tem qualidade melhorada em relação à obtida com o uso de uma codificação E-AC-3 padrão na taxa de bits reduzida e evita colapso espacial questionável. O sistema da Figura 2 é configurado para realizar tal modalidade do método de codificação da invenção. Por exemplo, o sistema da Figura 2 pode realizar tal modalidade do método da invenção para gerar o sinal de saída codificado 31 com qualidade melhorada (e de um modo a evitar o colapso espacial questionável) no caso do sinal de entrada de múltiplos canais 21 ter cinco canais de faixa total (isto é, for um sinal de áudio de 5 ou 5.1 canais) e é codificado a uma taxa de bits reduzida (por exemplo, 160 kbps, ou outra taxa de bits maior que cerca de 96 kbps e substancialmente menor que 192 kbps, em que "kbps" denota quilobits por segundo), em que taxa de bits "reduzida" indica que a taxa de bits está abaixo da taxa de bits na qual um codificador padrão E-AC-3 tipicamente opera durante a codificação do mesmo sinal de entrada. Embora tanto a modalidade do método da invenção notado quanto o método de codificação convencional por E-AC-3 codifiquem os componentes de frequência intermediária e mais alta do conteúdo de áudio do sinal de entrada com o uso de técnicas paramétricas (isto é, codificação por acoplamento de canal, conforme realizado no estágio 26 do sistema da Figura 2, e codificação por extensão espectral, conforme realizado no estágio 28 do sistema da Figura 2), o método da invenção realiza codificação por forma de onda dos componentes de baixa frequência do conteúdo de apenas um número reduzido (por exemplo, três) de canais de downmix ao invés de todos os cinco canais discretos do sinal de áudio de entrada. Isso resulta em uma troca benéfica pela qual o ruído de codificação nos canais de downmix é reduzido (por exemplo, devido ao fato de que a codificação por forma de onda ser realizada em componentes de baixa frequência de menos de cinco ao invés de cinco canais) ao custo de uma perda de informações espaciais (devido ao fato dos dados de baixa frequência provenientes de alguns dos ca-nais, tipicamente os canais surround, serem misturados em outros canais, tipicamente os canais frontais). Os inventores determinaram que essa troca tipicamente resulta um uma melhor qualidade sinal de saída (que fornece melhor qualidade de som após entrega, decodificação e formação do sinal de saída codificado) em comparação ao produzido realizando-se a codificação padrão E-AC-3 no sinal de entrada na taxa de bits reduzida.
[0048] Em uma modalidade típica, o estágio de downmix 23 dosistema da Figura 2 substitui os componentes de baixa frequência de cada canal de um primeiro subconjunto dos canais do sinal de entrada (tipicamente, os canais surround direito e esquerdo, Ls e Rs) por valores iguais a zero, e atravessa inalterado (para codificar por forma de onda estágio 24) os componentes de baixa frequência dos outros canais do sinal de entrada (por exemplo, o canal frontal esquerdo, L, canal central, C, e canal frontal direito, R, conforme mostrado na Figura 2) conforme o downmix dos componentes de baixa frequência dos canais de entrada. De modo alternativo, o downmix do conteúdo de baixa frequência é gerado de outro modo. Por exemplo, em uma implantação alternativa, a operação de gerar o downmix inclui uma etapa de mistura de componentes de baixa frequência de pelo menos um canal do primeiro subconjunto com componentes de baixa frequência de pelo menos um dos outros canais do sinal de entrada (por exemplo, o estágio 23 pode ser implantado para misturar o canal surround direito, Rs, e o canal frontal direito, R, estabelecidos ao mesmo para produzir o canal direito do downmix, e para misturar o canal surround esquerdo, Ls, e canal frontal esquerdo, L, estabelecidos aos mesmos para produzir o canal esquerdo do downmix).
[0049] Cada canal do downmix gerado no estágio 23 é submetidoà codificação por forma de onda (de um modo convencional) no estágio de codificação por forma de onda 24. Em uma implantação típica na qual o estágio de downmix 23 substitui os componentes de baixa frequência de cada canal de um primeiro subconjunto dos canais do sinal de entrada (por exemplo, os canais surround esquerdo e direito, Ls e Rs, conforme indicado na Figura 2) com um canal de componente de frequência baixa que compreende valores iguais a zero, e cada tal canal que compreende valores iguais a zero (às vezes referido no presente documento como um canal "silencioso") é emitido do estágio 23 junto com cada canal diferente de zero (não silencioso) do downmix. Quando cada canal diferente de zero do downmix (gerado no estágio 23) é submetido à codificação por forma de onda no estágio 24, cada canal "silencioso" estabelecido do estágio 23 ao estágio 24 também é tipicamente codificado por forma de onda (em um custo de processamento e de bit muito baixo). Todos canais codificados por forma de onda gerados no estágio 24 (o que inclui quaisquer canais silenciosos codificados por forma de onda) são emitidos do estágio 24 para o estágio de formatação 30 para inclusão no formato apropriado no sinal de saída codificado 31.
[0050] Em modalidades típicas, quando o sinal de saída codificado31 for entregue (por exemplo, transmitido) a um decodificador (por exemplo, o decodificador a ser descrito com referência à Figura 3), o decodificador vê o número total de canais codificados por forma de onda (por exemplo, cinco canais codificados por forma de onda) de conteúdo de áudio de baixa frequência, mas um subconjunto dos mesmos (por exemplo, dois dos mesmos no caso de um a downmix de três canais, ou três dos mesmos no caso de um downmix de dois canais) são canais "silenciosos" que consistem inteiramente em zeros.
[0051] A fim de gerar o downmix do conteúdo de baixa frequência,diferentes modalidades da invenção (por exemplo, diferentes implantações do estágio 23 da Figura 2) empregam diferentes métodos. Em algumas modalidades, nas quais o sinal de entrada tem cinco canais de faixa total (frontal esquerdo, surround esquerdo, frontal direito, surround direito e central) e um downmix de 3 canais é gerado, os componentes de baixa frequência do canal surround esquerdo sinal do sinal de entrada são misturados nos componentes de baixa frequência do canal frontal esquerdo do sinal de entrada para gerar o canal frontal esquerdo do downmix, e os componentes de baixa frequência do sinal do sinal de entrada surround direito são misturados aos componentes de baixa frequência do canal frontal direito do sinal de entrada para gerar o canal frontal direito do downmix. O canal central do sinal de entrada está inalterado (isto é, não é submetido à mistura) antes da codificação por forma de onda e paramétrica, e os componentes de baixa frequência dos canais surround esquerdo e direito do downmix são definidos a zeros.
[0052] De modo alternativo, se um downmix de 2 canais é gerado(isto é, para taxas de bits ainda mais baixas), adicionalmente à mistura de componentes de baixa frequência do canal surround esquerdo do sinal de entrada com componentes de baixa frequência do canal frontal esquerdo do sinal de entrada, os componentes de baixa frequência do canal central do sinal de entrada também são misturados com os componentes de baixa frequência do canal frontal esquerdo do sinal de entrada, e os componentes de baixa frequência do canal surround direito e o canal central do sinal de entrada são misturados com os componentes de baixa frequência do canal frontal direito do sinal de entrada, tipicamente após reduzir o nível dos componentes de baixa frequência do canal central do sinal de entrada por 3 dB (para considerar separar a potência do canal central entre os canais esquerdo e direito).
[0053] Em outras modalidades alternativas, um downmix monofô-nico (de um canal) é gerado, ou um downmix é gerado, sendo que tem algum número de canais (por exemplo, quatro) que não sejam dois ou três canais.
[0054] Com referência novamente à Figura 2, os componentes defrequência intermediária de todos os canais emitidos do estágio 22 (isto é, todos os cinco canais de componentes de frequência intermediária produzidos em resposta a um sinal de entrada 21 que tem cinco canais de faixa total) são submetidos à codificação convencional por acoplamento de canal no estágio de codificação por acoplamento de canal 26. A saída do estágio 26, um downmix monofônico dos compo- nentes de frequência intermediária (identificado como "áudio mono" na Figura 2) e uma sequência correspondente de parâmetros de acoplamento.
[0055] O downmix monofônico é codificado por forma de onda (deum modo convencional) no estágio de codificação por forma de onda 27, e o downmix codificado por forma de onda emitidos do estágio 27, e a sequência correspondente de parâmetros de acoplamento emitidos do estágio 26, são estabelecidos para o estágio de formatação 30 para a inclusão no formato apropriado no sinal de saída codificado 31.
[0056] O downmix monofônico gerado pelo estágio 26 como resultado da codificação por acoplamento de canal também é estabelecido para o estágio de codificação por extensão espectral 28. Esse downmix monofônico é empregado pelo estágio 28 como o sinal de faixa de base para a codificação por extensão espectral dos componentes de alta frequência de todos os canais emitidos do estágio 22. O estágio 28 é configurado para realizar a codificação por extensão espectral dos componentes de alta frequência de todos os canais emitidos do estágio 22 (isto é, todos os cinco canais de componentes de alta frequência produzidos em resposta a um sinal de entrada 21 que tem cinco canais de faixa total), com o uso do downmix monofônico a partir do estágio 26. A codificação por extensão espectral inclui a determina-ção de um conjunto de parâmetros de codificação (parâmetros SPX) correspondente aos componentes de alta frequência.
[0057] Os parâmetros SPX podem ser processados por um decodi-ficador (por exemplo, o decodificador da Figura 3) com o sinal de faixa de base (emitidos do estágio 26), para reconstruir uma boa aproximação dos componentes de alta frequência do conteúdo de áudio de cada um dos canais de sinal de entrada 21. Os parâmetros SPX são estabelecidos do estágio de codificação 28 ao estágio de formatação 30 para inclusão no formato apropriado no sinal de saída codificado 31.
[0058] Em seguida, com referência à Figura 3, é descrita uma modalidade do método e sistema da invenção para decodificar o sinal de saída codificado 31 gerado pelo codificador da Figura 2.
[0059] O sistema da Figura 3 é um decodificador E-AC-3 que implanta uma modalidade do sistema e método de decodificação da invenção, e é configurado para recuperar um sinal de saída de áudio de múltiplos canais 41 em resposta a uma corrente de bits de áudio codificada por E-AC-3 (por exemplo, sinal codificado E-AC-3 31 gerado pelo codificador da Figura 2, e, então, transmitido ou, de outro modo, entregue para o decodificador da Figura 3). O sinal 41 pode ser um sinal de domínio de tempo de 5.0 canais que compreende cinco canais de faixa total de conteúdo de áudio, em que o sinal 31 indica o conteúdo de áudio de tal sinal de 5.0 canais.
[0060] De modo alternativo, o sinal 41 pode ser um sinal de domínio de tempo de 5.1 canais que compreende cinco canais de faixa total e um canal de efeitos de baixa frequência (LFE), se o sinal 31 indicar o conteúdo de tal sinal de 5.1 canais. Os elementos mostrados na Figura 3 têm a capacidade de decodificar os cinco canais de faixa total indicados por tal sinal 31 (e fornecer bits que indicam os canais de faixa total decodificados para o estágio 40 para uso na geração de sinal de saída 41). Para a decodificação de um sinal 31 que indica o conteúdo de áudio de um sinal de 5.1 canais, o sistema da Figura 3 pode incluir elementos convencionais (não mostrados na Figura 3) para decodificar o canal LFE de tal sinal de 5.1 canais (de um modo convencional) e fornecer bits que indicam o canal LFE decodificado para o estágio 40 para uso na geração do sinal de saída 41.
[0061] O estágio de desformatação 32 do decodificador da Figura 3é configurado para extrair a partir do sinal 31 os componentes de baixa frequência codificados por forma de onda (gerados pelo estágio 24 do codificador da Figura 2) de um downmix de componentes de baixa fre- quência de todos ou alguns dos canais originais do sinal 21, o downmix monofônico codificado por forma de onda de componentes de frequência intermediária do sinal 21 (gerado pelo estágio 27 do codificador da Figura 2), a sequência de parâmetros de acoplamento gerada pelo estágio de codificação por acoplamento de canal 26 do codificador da Figura 2, e a sequência de parâmetros SPX gerada pelo estágio de codificação por extensão espectral 28 do codificador da Figura 2.
[0062] O estágio 32 é acoplado e configurado para declarar ao estágio de decodificação por forma de onda 34 cada canal de downmix extraído de componentes de baixa frequência codificados por forma de onda. O estágio 34 é configurado para realizar a decodificação por forma de onda em cada tal canal de downmix de componentes de baixa frequência codificados por forma de onda, para recuperar cada canal de downmix de componentes de baixa frequência que saiu do estágio de downmix 23 do codificador da Figura 2. Tipicamente, esses canais de downmix recuperados de componentes de baixa frequência incluem canais silenciosos (por exemplo, o canal surround esquerdo silencioso, Ls = 0, indicado na Figura 3, e o canal surround direito silencioso, Rs = 0, indicado na Figura 3) e cada canal não silencioso de componentes de baixa frequência do downmix gerado pelo estágio 23 do codificador da Figura 2 (por exemplo, o canal frontal esquerdo, L, o canal central, C, e o canal frontal direito, R, indicados na Figura 3). Os componentes de baixa frequência de cada canal de downmix emitidos do estágio 34 têm frequências menores ou iguais a "F1", em que F1 tipicamente está na faixa de cerca de 1,2 kHz a cerca de 4,6 kHz.
[0063] Os canais de downmix recuperados de componentes debaixa frequência são estabelecidos do estágio 34 até o estágio de combinação de domínio de frequência e transformada de domínio de frequência para domínio de tempo 40.
[0064] Em resposta ao downmix monofônico codificado por forma de onda de componentes de frequência intermediária extraídos pelo estágio 32, um estágio de decodificação por forma de onda 36 do de- codificador da Figura 3 é configurado para realizar a decodificação por forma de onda no mesmo para recuperar o downmix monofônico de componentes de frequência intermediária que saiu do estágio de codificação por acoplamento de canal 26 do codificador da Figura 2. Em resposta ao downmix monofônico de componentes de frequência in-termediária recuperado pelo estágio 36, e a sequência de parâmetros de acoplamento extraídos pelo estágio 32, a decodificação por acoplamento de canal estágio 37 da Figura 3 é configurada para realizar a decodificação por acoplamento de canal para recuperar os componentes de frequência intermediária dos canais originais do sinal 21 (que foram estabelecidos ás entradas do estágio 26 do codificador da Figura 2). Esses componentes de frequência intermediária têm frequências, f, na faixa F1 </> F2, em que F1 tipicamente está na faixa de cerca de 1,2 kHz a cerca de 4,6 kHz, e F2 tipicamente está na faixa de cerca de 8 kHz a cerca de 12,5 kHz (por exemplo, F2 é igual a 8 kHz ou 10 kHz ou 10,2 kHz).
[0065] Os componentes de frequência intermediária recuperadossão estabelecidos do estágio 37 até o estágio de combinação de domínio de frequência e transformada de domínio de frequência para domínio de tempo 40.
[0066] O downmix monofônico de componentes de frequência intermediária gerados pelo estágio de decodificação por forma de onda 36 também é estabelecido para o estágio de decodificação por extensão espectral 38. Em resposta ao downmix monofônico de componentes de frequência intermediária, e a sequência de parâmetros SPX extraídos pelo estágio 32, o estágio de decodificação por extensão espectral 38 é configurado para realizar a decodificação por extensão espectral para recuperar os componentes de alta frequência dos ca- nais originais do sinal 21 (que foram estabelecidos ás entradas do estágio 28 do codificador da Figura 2). Esses componentes de alta frequência têm frequências, f, na faixa F2 </> F3, em que F2 tipicamente está em uma faixa de cerca de 8 kHz a cerca de 12,5 kHz, e F3 tipicamente está na faixa de cerca de 10,2 kHz a cerca de 18 kHz (por exemplo, de cerca de 14,8 kHz a cerca de 16 kHz).
[0067] Os componentes de alta frequência recuperados são estabelecidos do estágio 38 até o estágio de combinação de domínio de frequência e transformada de domínio de frequência para domínio de tempo 40.
[0068] O estágio 40 é configurado para combinar (por exemplo,somar) os componentes de frequência intermediária recuperados, os componentes de alta frequência e os componentes de baixa frequência que correspondem ao canal frontal esquerdo do sinal de múltiplos canais original 21, para gerar um alcance de frequência total, versão recuperada do domínio de frequência do canal frontal esquerdo.
[0069] De modo similar, o estágio 40 é configurado para combinar(por exemplo, somar) os componentes de frequência intermediária recuperados, os componentes de alta frequência e os componentes de baixa frequência que correspondem ao canal frontal direito do sinal de múltiplos canais original 21, para gerar um alcance de frequência total, versão recuperada do domínio de frequência do canal frontal direito, e para combinar (por exemplo, somar) os componentes de frequência intermediária recuperados, os componentes de alta frequência e os componentes de baixa frequência que correspondem ao centro do sinal de múltiplos canais original 21, para gerar um alcance de frequência total, versão recuperada do domínio de frequência do canal central.
[0070] O estágio 40 também é configurado para combinar (porexemplo, somar) os componentes de baixa frequência recuperados do canal surround esquerdo do sinal de múltiplos canais original 21 (que têm valores iguais a zero, visto que o canal surround esquerdo do downmix de componente de frequência baixa é um canal silencioso) com os componentes de frequência intermediária recuperados e os componentes de alta frequência que correspondem ao canal surround esquerdo do sinal de múltiplos canais original 21, para gerar uma versão recuperada do domínio de frequência do canal frontal esquerdo surround que tem um alcance de frequência total (embora não tenha conteúdo de baixa frequência devido à aplicação de downmix realizado no estágio 23 do codificador da Figura 2).
[0071] O estágio 40 também é configurado para combinar (porexemplo, somar) os componentes de baixa frequência recuperados do canal surround direito do sinal de múltiplos canais original 21 (que têm valores iguais a zero, visto que o canal surround direito do downmix de componente de frequência baixa é um canal silencioso) com os componentes de frequência intermediária recuperados e os componentes de alta frequência que correspondem ao canal surround direito do sinal de múltiplos canais original 21, para gerar uma versão recuperada do domínio de frequência do canal frontal direito surround que tem um alcance de frequência total (embora não tenha conteúdo de baixa frequência devido à aplicação de downmix realizado no estágio 23 do codificador da Figura 2).
[0072] O estágio 40 também é configurado para realizar umatransformada de domínio de frequência para domínio de tempo em cada canal recuperado (domínio de frequência) de alcance de frequência total de componentes de frequência, para gerar cada canal de sinal de saída decodificado 41. O sinal 41 é um sinal de áudio de domínio de tempo, de múltiplos canais cujos canais são versões recuperadas dos canais de sinal de múltiplos canais original 21.
[0073] De modo mais geral, as modalidades típicas do método e do sistema de decodificação inventivos recuperam (a partir de um sinal de áudio codificado que foi gerado de acordo com uma modalidade da invenção) cada canal de um downmix codificado por forma de onda de componentes de baixa frequência do conteúdo de áudio de canais (alguns ou todos os canais) de um sinal original de entrada de múltiplos canais, e também recuperam cada canal de componentes de frequência intermediária e alta codificados parametricamente do conteúdo de cada canal do sinal de entrada de múltiplos canais. Para realizar a de- codificação, os componentes de baixa frequência recuperados do downmix são submetidos à decodificação por forma de onda e podem, então, ser combinados com versões parametricamente decodificadas dos componentes de frequência intermediária e alta recuperados em qualquer um dos vários modos diferentes. Em uma primeira classe de modalidades, os componentes de baixa frequência de cada canal de downmix são combinados com os componentes de frequência intermediária e alta de um canal codificado parametricamente correspondente. Por exemplo, considera-se o caso de que o sinal codificado inclua um downmix de 3 canais (canais Frontal Esquerdo, Central e Frontal Direito) dos componentes de baixa frequência de um sinal de entrada de cinco canais, e que o codificador tenha valores iguais a zero emitidos (em conexão com a gerar o downmix de componente de frequência baixa) em lugar dos componentes de baixa frequência dos canis surround esquerdo e surround direito do sinal de entrada. A saída esquerda do decodificador pode ser o canal de downmix frontal esquerdo decodificado por forma de onda (que compreende componentes de baixa frequência) combinados com o sinal de canal esquerdo decodificado parametricamente (que compreende componentes de frequência intermediária e alta). A saída de canal central proveniente do decodificador pode ser o canal de downmix central decodificado por forma de onda combinado com o canal central decodificado parametri- camente. A saída direita do decodificador pode ser o canal de downmix frontal direito decodificado por forma de onda combinado com o canal direito decodificado parametricamente. A saída de canal surround esquerdo do decodificador pode ser apenas o sinal decodificado parametricamente surround esquerdo (isto é, não haveria conteúdo algum de canal surround esquerdo de baixa frequência diferente de zero). De modo similar, a saída de canal surround direito do decodifi- cador pode ser apenas o sinal decodificado parametricamente surround direito (isto é, não haveria conteúdo algum de canal surround direito de baixa frequência diferente de zero).
[0074] Em algumas modalidades alternativas, o método de decodi-ficação da invenção inclui as etapas de (e o sistema de decodificação da invenção é configurado para realizar) recuperação de cada canal de um downmix codificado por forma de onda de componentes de baixa frequência do conteúdo de áudio de canais (alguns ou todos os canais) de um sinal original de entrada de múltiplos canais, e aplicação oculta de upmix (isto é, "oculta" no sentido de ser realizada não em resposta a quaisquer dados paramétricos recebidos a partir de um codificador) em uma versão decodificada por forma de onda de cada canal de downmix de componentes de baixa frequência do downmix, seguida pela recombinação de cada canal dos componentes de baixa frequência que receberam upmix com um canal correspondente de conteúdo decodificado parametricamente de frequência intermediária e alta recuperado do sinal codificado. Os aplicadores de upmix ocultos são bem conhecidos na técnica e um exemplo de aplicação oculta de upmix é descrita na Publicação de Pedido de Patente no U.S. 2011/0274280 A1, publicada em 10 de novembro de 2011. Nenhum aplicador de upmix oculto específico é necessário para a invenção, e métodos diferentes de aplicação oculta de upmix podem ser empregados para implantar diferentes modalidades da invenção. Por exemplo, considera-se uma modalidade que recebe e decodifica um sinal de áudio codificado que inclui um downmix de 3 canais (que compreende canais Frontal Esquerdo, Central e Frontal Direito canais) dos componentes de baixa frequência de um sinal de entrada de cinco canais (que compreende canais Frontal Esquerdo, Surround Esquerdo, Central, Surround Direito e Frontal Direito). Nessa modalidade, o decodifi- cador inclui um aplicador de upmix oculto (por exemplo, implantado no domínio de frequência pelo estágio 40 da Figura 3) configurado para realizar a aplicação oculta de upmix em uma versão decodificada por forma de onda de cada canal de downmix (frontal esquerdo, central e frontal direito) de componentes de baixa frequência do downmix de 3 canais. O decodificador também é configurado para combinar (por exemplo, o estágio 40 da Figura 3 é configurado para combinar) o canal de saída frontal esquerdo (que compreende componentes de baixa frequência) do aplicador de upmix oculto do decodificador com o canal frontal esquerdo decodificado parametricamente (que compreende componentes de frequência intermediária e alta) do sinal de áudio codificado recebido pelo decodificador, o canal de saída surround esquerdo do aplicador de upmix oculto (que compreende componentes de baixa frequência) com o canal surround esquerdo decodificado pa- rametricamente (que compreende componentes de frequência intermediária e alta) do sinal de áudio recebido pelo decodificador, o canal de saída central do aplicador de upmix oculto (que compreende com-ponentes de baixa frequência) com o canal central decodificado para- metricamente (que compreende componentes de frequência intermediária e alta) do sinal de áudio recebido pelo decodificador, o canal de saída frontal direito do aplicador de upmix oculto (que compreende componentes de baixa frequência) com o canal frontal direito decodificado parametricamente (que compreende componentes de frequência intermediária e alta) do sinal de áudio, e a saída surround direita do aplicador de upmix oculto com o canal surround direito decodificado parametricamente do sinal de áudio recebido pelo decodificador.
[0075] Em uma modalidade típica do decodificador da invenção, arecombinação de conteúdo de baixa frequência decodificado de um sinal de áudio codificado com conteúdo decodificado parametricamente de frequência intermediária e alta do sinal é realizada no domínio de frequência (por exemplo, no estágio 40 do decodificador da Figura 3) e, então, uma única transformada domínio de frequência para domínio de tempo é aplicada a cada canal recombinado (por exemplo, no estágio 40 do decodificador da Figura 3) para gerar o sinal de domínio de tempo totalmente decodificado. De modo alternativo, o decodificador da invenção é configurado para realizar tal recombinação no domínio de tempo transformando-se inversamente os componentes de baixa frequência decodificados por forma de onda com o uso de uma primeira transformada, transformando-se inversamente os componentes de frequência intermediária e alta decodificados parametricamente com o uso de uma segunda transformada, e, então, somando-se os resultados.
[0076] Em uma modalidade exemplificativa da invenção, o sistemada Figura 2 é operável para realizar codificação por E-AC-3 de um sinal de entrada de áudio de 5.1 canais que indica aplauso de plateia, de um odo que assuma uma taxa de bits disponível (para transmissão do sinal de saída codificado) em uma faixa de 192 kbps até uma taxa de bits substancialmente menor que 192 kbps (por exemplo, 96 kbps). Os cálculos de custo de bit exemplificativo a seguir assumem que tal sistema é operado para codificar um sinal de entrada de múltiplos canais que indica aplauso de plateia e tem cinco canais de faixa total, e que os componentes de frequência de cada canal do sinal de entrada de faixa total têm pelo menos substancialmente a mesma distribuição que uma função de frequência. Os cálculos de custo de bit exemplifi- cativos também assumem que o sistema realiza codificação por E-AC- 3 do sinal de entrada, que inclui a realização de codificação por forma de onda em componentes de frequência que têm frequência até 4,6 kHz de cada canal do sinal de entrada de faixa total, codificação por acoplamento de canal em componentes de frequência de 4,6 kHz a 10,2 kHz de cada canal do sinal de entrada de faixa total, e codificação por extensão espectral em componentes de frequência de 10,2 kHz a 14,8 kHz de cada canal do sinal de entrada de faixa total. Assume-se que os parâmetros de acoplamento (que acopla metadados de cadeia separada) incluídos no sinal de saída codificado consomem cerca de 1,5 kbps por canal de faixa total, e que as mantissas e expoentes do acoplamento canal consomem aproximadamente 25 kbps (isto é, cerca de 1/5 dos bits em comparação com o que a transmissão dos canais individuais de faixa total consumiria, assumindo-se a transmissão do sinal de saída codificado em uma taxa de bits de 192 kbps). A economia de bits que resulta da realização do acoplamento de canal se deve à transmissão de um único canal (canal de acoplamento) de mantissas e expoentes ao invés de cinco canais de mantissas e expoentes (para componentes de frequência na faixa relevante).
[0077] Dessa forma, se fosse para o sistema aplicar downmix atodo o conteúdo de áudio de 5.1 para estéreo antes de codificar todos os componentes de frequência do downmix (com o uso de codificação por forma de onda em componentes de frequência até 4,6 kHz, codificação por acoplamento de canal em componentes de frequência de 4,6 kHz a 10,2 kHz, e codificação por extensão espectral em componentes de frequência de 10,2 kHz a 14,8 kHz de cada canal de faixa total do downmix), o canal acoplado continuaria a necessitar consumir cerca de 25 kbps para conseguir a qualidade de difusão. Dessa forma, a economia de bits (para implantar o acoplamento de canal) que resulta do downmix seria devido apenas ao fato da omissão de parâmetros de acoplamento para os três canais que não necessitam mais de pa- râmetros de acoplamento, que tem quantidades de cerca de 1,5 kbps para cada um dos três canais, ou cerca de 4,5 kbps no total. Dessa forma, o custo de realização de acoplamento de canal no downmix estéreo é quase a mesma (apenas cerca de 4,5 kbps ou mesmos) que para realizar o acoplamento de canal nos cinco canais de faixa total originais do sinal de entrada.
[0078] A realização de codificação por extensão espectral em todos os cinco canais de faixa total do sinal de entrada exemplificativo necessitaria da inclusão de parâmetros de extensão espectral ("SPX") (metadados de cadeia separada de SPX) no sinal de saída codificado. Isso necessitaria da inclusão no sinal de saída codificado de cerca de 3 kbps de metadados de SPX por canal de faixa total (um total de cerca de 15 kbps para todos os cinco canais de faixa total), ainda assumindo-se a transmissão do sinal de saída codificado em uma taxa de bits de 192 kbps.
[0079] Dessa forma, se fosse para o sistema aplicar downmix aoscinco canais de faixa total do sinal de entrada a dois canais (um downmix estéreo) antes de codificar todos os componentes de frequência do downmix (com o uso de codificação por forma de onda em componentes de frequência até 4,6 kHz, codificação por acoplamento de canal em componentes de frequência de 4,6 kHz a 10,2 kHz, e codificação por extensão espectral em componentes de frequência de 10,2 kHz a 14,8 kHz de cada canal de faixa total do downmix), a economia de bits (para implantar o acoplamento por extensão espectral) que resulta do downmix seria devido apenas à omissão de parâmetros SPX para os três canais que não necessitam mais de tais parâmetros, cujas quantidades são de cerca de 3 kbps para cada um dos três canais, ou cerca de 9 kbps no total.
[0080] O custo de acoplamento e codificação por spx no exemploé resumido abaixo na Tabela 1. TABELA 1 (custo de acoplamento e codificação por extensão espectral para 5, 3 e 2 canais)
Figure img0001
[0081] É aparente a partir da Tabela 1 que uma entrada de sinalde entrada 5.1 canais de downmix total para um downmix 3/0 (três canais de faixa total) antes da codificação economiza apenas 9 kbps (nas faixas de frequência de acoplamento e de extensão espectral), e uma entrada de sinal de entrada 5.1 canais de downmix total para um downmix 2/0 (dois canais de faixa total) antes da codificação economiza apenas 13,5 kbps nas faixas de frequência de acoplamento e de extensão espectral. Certamente, cada tal downmix também reduziria o número de bits necessários para a codificação por forma de onda dos componentes de baixa frequência (que têm frequência abaixo da frequência mínima para a codificação de canal) do downmix, mas a um custo de colapso espacial.
[0082] Os inventores reconheceram que visto que o custo de bitspara realizar a codificação por acoplamento e codificação por extensão espectral de múltiplos canais (por exemplo, cinco, três ou dois canais como no exemplo acima) é muito similar, é desejável codificar tantos canais de um sinal de áudio de múltiplos canais quanto possível com codificação paramétrica (por exemplo, codificação por acoplamento e codificação por extensão espectral como no exemplo acima). Dessa forma, modalidades típicas da invenção aplicam downmix apenas aos componentes de baixa frequência (abaixo da frequência mínima para a codificação de canal) de canais (isto é, alguns ou todos os canais) de um sinal de entrada de múltiplos canais a ser codificado, e realizar codificação por forma de onda em cada canal do downmix, e também realizar a codificação paramétrica (por exemplo, codificação por acoplamento e codificação por extensão espectral) nos componentes de frequência mais alta (acima da frequência mínima para codificação paramétrica) de cada canal original do sinal de entrada. Isso economiza um grande número de bits removendo-se expoentes e mantissas de canal discreto do sinal de saída codificado, enquanto minimiza-se o colapso espacial graças à inclusão de uma versão codificada parame- tricamente do conteúdo de alta frequência de todos os canais originais do sinal de entrada.
[0083] Uma comparação do custo de bits e economia que resultamde duas modalidades da invenção, em relação ao método convencional de realizar codificação por E-AC-3 do sinal de 5.1 canais é descrita com referência ao exemplo acima conforme o seguinte:
[0084] O custo total de codificação por E-AC-3 convencional dosinal de 5.1 canais é de 172,5 kbps, que é o 47,5 kbps resumido na coluna esquerda da Tabela 1 (para codificação paramétrica do conteúdo de alta frequência, acima de 4,6 kHz, do sinal de entrada), mais 25 kbps para cinco canais De expoentes (que resultam de codificação por forma de onda do conteúdo de baixa frequência, abaixo de 4,6 kHz, de cada canal do sinal de entrada), mais 100 kbps para cinco canais de mantissas (que resultam de codificação por forma de onda do conteúdo de baixa frequência de cada canal do sinal de entrada).
[0085] O custo total de codificação do sinal de entrada 5.1 canaisde acordo com uma modalidade da invenção na qual um downmix de 3 canais dos componentes de baixa frequência (abaixo de 4,6 kHz) dos cinco canais de faixa total do sinal de entrada é gerado, e em que um sinal de saída codificado em conformidade E-AC-3 é gerado (o que inclui codificação por forma de onda do downmix, e codificação de modo paramétrico dos componentes de alta frequência de cada canal original do sinal de entrada de faixa total) é 122,5 kbps, que é o 47,5 kbps resumido na coluna esquerda da Tabela 1 (para codificação paramétrica do conteúdo de alta frequência, acima de 4,6 kHz, de cada canal do sinal de entrada), mais 15 kbps para três canais de expoentes (que resultam de codificação por forma de onda do conteúdo de baixa frequência de canal do downmix), mais 60 kbps para três canais de mantissas (que resultam de codificação por forma de onda do conteúdo de baixa frequência de cada canal do downmix). Isso representa uma economia de 50 kbps em relação ao método convencional. Essa economia prevê a transmissão do sinal de saída codificado (com qualidade equivalente àquela do sinal de saída codificado de modo convencional) a uma taxa de bits de 142 kbps, ao invés dos 192 kbps que seriam necessários para a transmissão do sinal de saída codificado de modo convencional.
[0086] É esperado que uma implantação real do método da invenção descrito no parágrafo anterior, a codificação paramétrica do conteúdo de alta frequência (acima de 4,6 kHz) do sinal de entrada necessitaria de algo menor que os 7,5 kbps indicados na Tabela 1 para os metadados de parâmetro de acoplamento e os 15 kbps indicados na Tabela 1 para metadados de parâmetro de SPX, devido ao compartilhamento de tempo máximo dos dados de valor zero nos canais silenciosos. Dessa forma, tal implantação real forneceria uma economia de algo mais de 50 kbps em relação ao método convencional.
[0087] De modo similar, o custo total de codificação do sinal de5.1 canais de acordo com uma modalidade da invenção na qual um downmix de 2 canais dos componentes de baixa frequência (abaixo de 4,6 kHz) dos cinco canais de faixa total do sinal de entrada é gerado, e em que um sinal de saída codificado em conformidade E-AC- 3 é, então, gerado (o que inclui codificação por forma de onda do downmix, e codificação de modo paramétrico dos componentes de alta frequência de cada canal original do sinal de entrada de faixa total) é 102,5 kbps, que é o 47,5 kbps resumido na coluna esquerda da Tabela 1 (para codificação paramétrica do conteúdo de alta frequência, acima de 4,6 kHz, do sinal de entrada), mais 10 kbps para dois canais de expoentes (que resultam de codificação por forma de onda do conteúdo de baixa frequência de canal do downmix), mais 45 kbps para dois canais de mantissas (que resultam de codificação por forma de onda do conteúdo de baixa frequência de cada canal do downmix). Isso representa uma economia de 70 kbps em relação ao método convencional. Essa economia prevê a transmissão do sinal de saída codificado (com qualidade equivalente àquela do sinal de saída codificado de modo convencional) a uma taxa de bits de 122 kbps, ao invés dos 192 kbps que seriam necessários para a transmissão do sinal de saída codificado de modo convencional. É esperado que uma implantação real do método da invenção descrito no parágrafo anteri-or, a codificação paramétrica do conteúdo de alta frequência (acima de 4,6 kHz) do sinal de entrada necessitaria de algo menor que os 7,5 kbps indicados na Tabela 1 para os metadados de parâmetro de acoplamento e os 15 kbps indicados na Tabela 1 para metadados de parâmetro de SPX, devido ao compartilhamento de tempo máximo dos dados de valor zero nos canais silenciosos. Dessa forma, tal implantação real forneceria uma economia de algo mais de 70 kbps em relação ao método convencional.
[0088] Em algumas modalidades, o método de codificação da invenção implanta codificação por "acoplamento aprimorado" no sentido de que os componentes de baixa frequência que recebem downmix e, então, são submetidos a codificação por forma de onda têm uma frequência máxima reduzida (abaixo da típica) (por exemplo, 1,2 kHz, ao invés da frequência mínima típica (3,5 kHz ou 4,6 kHz, em codificadores E-AC-3 convencionais) acima da qual o acoplamento de canal é realizado e abaixo da qual a codificação por forma de onda é realizada no conteúdo de áudio de entrada. Em tais modalidades, os componentes de frequência de áudio de entrada em um alcance de frequência mais amplo que o típico (por exemplo, de 1,2 kHz a 10 kHz, ou de 1,2 kHz a 10,2 kHz) são submetidos a codificação por acoplamento de canal. Também em tais modalidades, os parâmetros de acoplamento (parâmetros de nível) que são incluídos no sinal de saída codificado com o conteúdo de áudio codificado que resultam da codificação de canal podem ser quantizados de modo diferente (de um modo que será aparente às pessoas de habilidade comum na técnica) que seriam se apenas os componentes de frequência em uma faixa típica (mais estreita) fossem submetidos a codificação por acoplamento de canal.
[0089] As modalidades da invenção que implantam a codificaçãoaprimorada por acoplamento podem ser desejáveis visto que as mesmas entregarão tipicamente expoentes de valor zero (no sinal de saída codificado) para componentes de frequência que têm frequência menor que a frequência mínima para codificação por acoplamento de canal, e que reduz essa frequência mínima (implantando-se codificação aprimorada por acoplamento), o que, assim, reduz o número geral de bits desperdiçados (bits zero) incluídos no sinal de saída codificado e fornece mais espaço livre (quando o sinal codificado for decodificado e formado), com apenas um ligeiro aumento no custo de taxa de bits.
[0090] Conforme notado acima, em algumas modalidades da invenção, os componentes de baixa frequência de um primeiro sub- conjunto dos canais do sinal de entrada (por exemplo, os canais L, C e R conforme indicado na Figura 2) são selecionados como um downmix que é submetido a codificação por forma de onda, e os componentes de baixa frequência de cada canal de um segundo subconjunto dos canais do sinal de entrada (tipicamente os canais surround, por exemplo, os canais Ls e Rs conforme indicado na Figura 2) são definidos a zero (e também podem ser submetidos a codificação por forma de onda). Em algumas tais modalidades, nas quais o sinal de áudio codificado gerado de acordo com a invenção está em conformidade com o padrão E-AC-3, mesmo que apenas o conteúdo de áudio de baixa frequência do primeiro subconjunto de canais do sinal codificado E-AC-3 seja útil, codificado por forma de onda, o conteúdo de áudio de baixa frequência (e o conteúdo de áudio de baixa frequência do segundo subconjunto de canais do sinal codificado E-AC-3 seja inútil, conteúdo de áudio "silencioso" codificado por forma de onda), o conjunto total de canais (tanto o primeiro quanto o segundo subconjunto) devem ser formatados e entregues como um sinal E-AC-3. Por exemplo, os canais surround esquerdo e direito estarão presentes no sinal codificado E-AC-3 mas seu conteúdo de baixa frequência será silencioso, o que necessita de uma sobrecarga para transmissão. Os canais "silenciosos" (correspondentes ao segundo subconjunto de canais descrito acima) podem ser configurados de acordo com as orientações a seguir para minimizar tal sobrecarga.
[0091] As comutações de bloco podem aparecer convencionalmente em canais de um sinal codificado E-AC-3 que são as que indicam sinais transitórios, e essas comutações de bloco resultariam na repartição (em um decodificador E-AC-3) de blocos MDCT de conteúdos codificados por forma de onda de tal canal em um número maior de blocos menores (que, então, são submetidos a decodificação por forma de onda), e impediriam a decodificação paramétrica (acoplamento de canal e extensão espectral) do conteúdo de alta frequência de tal canal. A sinalização de uma comutação de bloco em um canal silencioso (um canal que inclui conteúdo "silencioso" de baixa frequência) necessitaria de mais sobrecarga e também impediriam a decodifi- cação paramétrica De conteúdo de alta frequência (que tem frequência acima da frequência mínima de "decodificação por acoplamento de canal") do canal silencioso. Dessa forma, as comutações de bloco para cada canal silencioso de um sinal codificado E-AC-3 gerado de acordo com modalidades típicas da presente invenção seriam impedidas.
[0092] De modo similar, o processamento convencional por AHT eTPNP (às vezes realizado em operação de um decodificador convencional E-AC-3) não oferecem benefício durante a decodificação de um canal silencioso de um sinal codificado E-AC-3 gerado de acordo com uma modalidade da presente invenção. Dessa forma, o processamento por AHT e TPNP é desabilitado, de preferência, durante a decodifi- cação de cada canal silencioso de tal sinal codificado E-AC-3.
[0093] O parâmetro DITHFLAG normalmente incluído em um canalde um sinal codificado E-AC-3 indica a um decodificador E-AC-3 se deve reconstruir as mantissas (no canal) que foram alocadas como bits zero pelo codificador com ruído aleatório. Visto que cada canal silencioso de um sinal codificado E-AC-3 gerado de acordo com uma modalidade está destinado a ser verdadeiramente silencioso, o dithflag para cada tal canal silencioso deve ser definido a zero durante a geração do sinal codificado E-AC-3. Como resultado, as mantissas (em cada tal canal silencioso) que são alocadas como bits zero não serão reconstruídas com o uso de ruído durante decodificação.
[0094] O parâmetro de estratégia de expoente convencionalmenteincluído em um canal de um sinal codificado E-AC-3 é usado por um decodificador E-AC-3 para controlar a solução do tempo e da frequên- cia dos expoentes no canal. Para cada canal silencioso de um sinal codificado E-AC-3 gerado de acordo com uma modalidade, a estratégia de expoente que minimiza o custo de transmissão para os expoentes é, de preferência, selecionada. A estratégia de expoente que consegue isso é conhecida como a estratégia "D45, e inclui um expoente a cada quatro binários de frequência para o primeiro bloco de um quadro codificado (os blocos restantes do quadro reutilizam os expoentes para o bloco anterior).
[0095] Um problema com algumas modalidades do método de codificação da invenção que são implantadas no domínio de frequência é que o downmix (de conteúdo de baixa frequência dos canais de sinal de entrada) pode saturar quando transformado de volta no domínio de tempo, e não há maneira de prever quando isso acontecerá com o uso apenas da análise de domínio de frequência. Esse problema é endereçado em algumas das tais modalidades (por exemplo, algumas que implantam a codificação por E-AC-3) simulando-se o downmix no domínio de tempo (antes de gerar, de fato, o mesmo no domínio de frequência) para avaliar se ocorrerá clipagem. Um limitador de pico tradicional pode ser usado para calcular fatores de escala, que são, então, aplicados a todos os canais de destinação no downmix. Apenas os canais que receberam downmix são atenuados pelos fatores de escala de prevenção de clipagem. Por exemplo, em um downmix no qual o conteúdo de canais Esquerdo e Esquerdo Surround do sinal de entrada recebem downmix para um canal de downmix esquerdo, e conteúdo de canais Direito e Direito Surround do sinal de entrada recebem downmix para um canal de downmix direito, o canal Central pode não ser escalonado visto que não é um canal de fonte ou de destino no downmix. Após tal proteção contra clipagem de downmix ter sido aplicada, esse efeito pode ser compensado aplicando-se proteção convencional contra E-AC-3 DRC/downmix.
[0096] Outros aspectos da invenção incluem um codificador configurado para realizar qualquer modalidade do método de codificação da invenção para gerar um sinal de áudio codificado em resposta a um sinal de entrada de áudio de múltiplos canais (por exemplo, em resposta a dados de áudio que indicam um sinal de entrada de áudio de múltiplos canais), um decodificador configurado para decodificar tal sinal codificado, e um sistema que inclui tal codificador e tal decodificador. O sistema da Figura 4 é um exemplo de tal sistema. O sistema da Figura 4 inclui o codificador 90, que é configurado (por exemplo, programado) para realizar qualquer modalidade do método de codificação da invenção para gerar um sinal de áudio codificado em resposta a dados de áudio (que indicam um sinal de entrada de áudio de múltiplos canais), subsistema de entrega 91 e decodificador 92. O subsistema de entrega 91 é configurado para armazenar o sinal de áudio codificado (por exemplo, para armazenar dados que indicam o sinal de áudio codificado) gerado pelo codificador 90 e/ou para transmitir o sinal de áudio codificado. O decodi- ficador 92 e acoplado e configurado (por exemplo, programado) para receber o sinal de áudio codificado (ou dados que indicam o sinal de áudio codificado) a partir do subsistema 91 (por exemplo, por leitura ou recuperação de tais dados do armazenamento no subsistema 91, ou recebimento de tal sinal de áudio codificado que foi transmitido pelo subsistema 91), e para decodificar o sinal de áudio codificado (ou dados que indicam o mesmo). O decodificador 92 é configurado tipicamente para gerar e fazer sair (por exemplo, para um sistema de formação) um sinal de áudio decodificado que indica conteúdo de áudio do sinal original de entrada de múltiplos canais.
[0097] Em algumas modalidades, a invenção é um codificador deáudio configurado para gerar um sinal de áudio codificado codificando- se um sinal de entrada de áudio de múltiplos canais. O codificador inclui: um subsistema de codificação (por exemplo, os elementos 22, 23, 24, 26, 27 e 28 da Figura 2) configurado para gerar um downmix de componentes de baixa frequência de pelo menos alguns canais do sinal de entrada, para codificar por forma de onda cada canal do downmix, o que, desse modo, gera dados que receberam downmix codificados por forma de onda que indicam conteúdo de áudio do downmix, e para realizar codificação paramétrica em componentes de frequência intermediária e componentes de alta frequência de cada canal do sinal de entrada, o que, desse modo, gera dados codificados parametricamente que indicam os componentes de frequência intermediária e os componentes de frequência alta do dito cada canal do sinal de entrada; eum subsistema de formatação (por exemplo, o elemento 30 da Figura 2) acoplado e configurado para gerar o sinal de áudio codificado em resposta aos dados que receberam downmix codificados por forma de onda e os dados codificados parametricamente, de modo que o sinal de áudio codificado indique os ditos dados que receberam downmix codificados por forma de onda e os ditos dados codificados parametricamente.
[0098] Em algumas tais modalidades, o subsistema de codificaçãoé configurado para realizar (por exemplo, no elemento 22 da Figura 2) uma transformada de domínio de tempo para domínio de frequência no sinal de entrada para gerar dados de domínio de frequência que incluem os componentes de baixa frequência de pelo menos alguns canais do sinal de entrada e os componentes de frequência intermediária e os componentes de frequência alta do dito cada canal do sinal de entrada.
[0099] Em algumas modalidades, a invenção é um decodificadorde áudio configurado para decodificar um sinal de áudio codificado (por exemplo, o sinal 31 da Figura 2 ou da Figura 3) que indica dados codificados por forma de onda e dados codificados parametricamente, em que o sinal de áudio codificado foi gerado gerando-se um downmix de componentes de baixa frequência de pelo menos alguns canais de um sinal de entrada de áudio de múltiplos canais que tem N canais, em que N é um número inteiro, codificar por forma de onda cada canal do downmix, o que, desse modo, gera os dados codificados por forma de onda de modo que os ditos dados codificados por forma de onda indiquem conteúdo de áudio do downmix, realizar codificação paramétrica em componentes de frequência intermediária e componentes de alta frequência de cada canal do sinal de entrada, o que, desse modo, gera os dados codificados parametricamente de modo que os ditos dados codificados parametricamente os componentes de frequência intermediária e os componentes de alta frequência do dito cada canal do sinal de entrada, e gerar o sinal de áudio codificado em resposta aos dados codificados por forma de onda e os dados codificados pa- rametricamente. Nessas modalidades, o decodificador inclui:um primeiro subsistema (por exemplo, o elemento 32 da Figura 3) configurado para extrair os dados codificados por forma de onda e os dados codificados parametricamente do sinal de áudio codificado; eum segundo subsistema (por exemplo, os elementos 34, 36, 37, 38 e 40 da Figura 3) acoplado e configurado para realizar a de- codificação por forma de onda nos dados codificados por forma de onda extraídos pelo primeiro subsistema para gerar um primeiro conjunto de componentes de frequência recuperados que indicam conteúdo de áudio de baixa frequência de cada canal do downmix, e para realizar a decodificação paramétrica nos dados codificados parametricamente extraídos pelo primeiro subsistema para gerar um segundo conjunto de componentes de frequência recuperados que indicam conteúdo de áudio de frequência intermediária e alta de cada canal do sinal de en- trada de áudio de múltiplos canais.
[00100] Em algumas tais modalidades, o segundo subsistema do decodificador também é configurado para gerar N canais de dados de domínio de frequência decodificados que incluem combinar (por exemplo, no elemento 40 da Figura 3) o primeiro conjunto de componentes de frequência recuperados e o segundo conjunto de componentes de frequência recuperados, de modo que cada canal dos dados de domínio de frequência decodificados indique conteúdo de áudio de frequência intermediária e de alta frequência de um diferente dentre os canais do sinal de entrada de áudio de múltiplos canais, e cada um de pelo menos um subconjunto dentre os canais dos dados de domínio de frequência decodificados indique conteúdo de áudio de baixa frequência do sinal de entrada de áudio de múltiplos canais.
[00101] Em algumas modalidades, o segundo subsistema do deco- dificador é configurado para realizar (por exemplo, no elemento 40 da Figura 3) uma transformada de domínio de frequência para domínio de tempo em cada um dos canais de dados de domínio de frequência decodificados para gerar um sinal de áudio decodificado por domínio de tempo de N canais.
[00102] Outro aspecto da invenção é um método (por exemplo, um método realizado pelo decodificador 92 da Figura 4 ou pelo decodifi- cador da Figura 3) para decodificar um sinal de áudio codificado que foi gerado de acordo com uma modalidade do método de codificação da invenção.
[00103] A invenção pode ser implantada em hardware, firmware ou software, ou uma combinação dos mesmos (por exemplo, como uma matriz lógica programável). A não ser que especificado de outro modo, os algoritmos ou processos incluídos como parte da invenção não estão relacionados inerentemente a qualquer computador particular ou outro aparelho. Em particular, várias máquinas de propósito geral po- dem ser usadas com programas escritos de acordo com os ensinamentos no presente documento, ou pode ser mais conveniente construir um aparelho mais especializado (por exemplo, circuitos integrados) para realizar as etapas de método necessárias. Dessa forma, a invenção pode ser implantada em um ou mais programas de computador que executa um ou mais sistemas de computador programáveis (por exemplo, um sistema de computador que implanta o codificador da Figura 2 ou o decodificador da Figura 3), sendo que cada um compreende pelo menos um processador, pelo menos um sistema de armazenamento de dados (que inclui memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado para inserir dados para realizar as funções descritas no presente documento e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos de saída, de modo conhecido.
[00104] Cada tal programa pode ser implantado em qualquer linguagem de computador desejada (o que inclui linguagens de programação orientada por máquina, montagem ou alto nível de procedimento, lógica ou objeto) para se comunicar com um sistema de computador. De qualquer maneira, a linguagem pode ser uma linguagem compilada ou interpretada.
[00105] Por exemplo, quando implantado por sequências de instruções de software de computador, várias funções e etapas de modalidades da invenção podem ser implantadas por sequências de instruções de software em multilinhas que funcionam em hardware de processamento de sinal digital adequado, em que, no caso, vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.
[00106] Cada tal programa de computador é armazenado, de prefe- rência, armazenado em ou descarregado para um meio ou dispositivo de armazenamento (por exemplo, memória ou mídia de estado sólido, ou meio magnético ou óptico) legível por um computador programado para propósito geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento for lido pelo sistema de computador para realizar os procedimentos descritos no presente documento. O sistema da invenção também pode ser implantado como um meio de armazenamento legível por computador, configurado com (isto é, armazenado) um programa de computador, em que o meio de armazenamento configurado desse modo faz com que um sistema de computador opere de um modo específico e predefinido para realizar as funções descritas no presente documento.
[00107] Várias modalidades da invenção foram descritas. No entanto, será entendido que várias modificações podem ser feiras sem que se desvie do espírito e escopo da invenção. Numerosas modificações e variações da invenção são possíveis à luz dos ensinamentos acima. Deve ser entendido que, dentro do escopo das reivindicações anexas, a invenção pode ser praticada de outra maneira além de como especificamente descrita no presente documento.

Claims (15)

1. Método para codificar um sinal de entrada de áudio de múltiplos canais (21) que tem componentes de baixa frequência e componentes de frequência mais alta, o referido método caracterizado pelo fato de que inclui as etapas de:(a) gerar (23) um downmix apenas dos componentes de baixa frequência de pelo menos alguns canais do sinal de entrada;(b) codificar (24) por forma de onda cada canal do downmix, desse modo, gerando dados que receberam downmix codificados por forma de onda indicativos de conteúdo de áudio do downmix;(c) realizar codificação paramétrica em pelo menos alguns dos componentes de frequência mais alta de cada canal do sinal de entrada, incluindo a realização da codificação por extensão espectral (28) dos componentes de alta frequência de cada canal do sinal de entrada, desse modo, gerando dados codificados parametricamente que indicam os referidos pelo menos alguns dos componentes de frequência mais alta de cada referido canal do sinal de entrada; e(d) gerar um sinal de áudio codificado (31) que indica os dados que receberam downmix codificados por forma de onda e os dados codificados parametricamente.
2. Codificador de áudio configurado para gerar um sinal de áudio codificado (31), codificando um sinal de entrada de áudio de múltiplos canais que tem componentes de baixa frequência e componentes de frequência mais alta, o referido codificador caracterizado pelo fato de que inclui:um subsistema de codificação (23, 24, 28) configurado para gerar um downmix apenas dos componentes de baixa frequência de pelo menos alguns canais do sinal de entrada, para codificar por forma de onda cada canal do downmix, desse modo gerando dados que receberam downmix codificados por forma de onda que indicam conteú- do de áudio do downmix, e para realizar a codificação paramétrica em pelo menos alguns dos componentes de frequência mais alta de cada canal do sinal de entrada, incluindo a realização da codificação por extensão espectral dos componentes de alta frequência de cada canal do sinal de entrada, desse modo gerando dados codificados parame- tricamente que indicam os referidos pelo menos alguns dos componentes de frequência mais alta do referido cada canal do sinal de entrada; eum subsistema de formatação (30) acoplado e configurado para gerar o sinal de áudio codificado em resposta aos dados que receberam downmix codificados por forma de onda e aos dados codificados parametricamente, de modo que o sinal de áudio codificado é indicativo dos referidos dados que receberam downmix codificados por forma de onda e dos referidos dados codificados parametricamente.
3. Codificador, de acordo com a reivindicação 2, caracterizado pelo fato de que o subsistema de codificação é configurado para realizar uma transformada de domínio de tempo para domínio de frequência no sinal de entrada para gerar dados de domínio de frequência que incluem os componentes de baixa frequência de pelo menos alguns canais do sinal de entrada e os componentes de frequência mais alta do referido cada canal do sinal de entrada.
4. Codificador, de acordo com a reivindicação 2, caracterizado pelo fato de que os componentes de frequência mais alta incluem componentes de frequência intermediária e componentes de alta frequência, e o subsistema de codificação é configurado para gerar os dados codificados parametricamente por realizar codificação por acoplamento de canal dos componentes de frequência intermediária e codificação por extensão espectral dos componentes de alta frequência.
5. Codificador, de acordo com a reivindicação 2, caracterizado pelo fato de que os componentes de baixa frequência têm fre- quências não maiores que um valor máximo, F1, em uma faixa de cerca de 1,2 kHz a cerca de 4,6 kHz, os componentes de frequência intermediária têm frequências, f, na faixa F1 <f> F2, em que F2 está em uma faixa de cerca de 8 kHz a cerca de 12,5 kHz, e os componentes de alta frequência têm frequências, f, na faixa F2 <f> F3, em que F3 está na faixa de cerca de 10,2 kHz a cerca de 18 kHz.
6. Codificador, de acordo com a reivindicação 2, caracterizado pelo fato de que o sinal de entrada tem pelo menos dois canais de áudio de faixa total, e o subsistema de codificação é configurado para gerar o downmix substituindo os componentes de baixa frequência de pelo menos um dos canais de áudio de faixa total do sinal de entrada com valores zero.
7. Codificador, de acordo com a reivindicação 2, caracterizado pelo fato de que o codificador é configurado para gerar o sinal de áudio codificado de modo que o referido sinal de áudio codificado compreende menos bits que o sinal de entrada.
8. Método para decodificar um sinal de áudio codificado que indica dados codificados por forma de onda e dados codificados para- metricamente, caracterizado pelo fato de que o sinal de áudio codificado foi gerado por gerar um downmix apenas de componentes de baixa frequência de pelo menos alguns canais de um sinal de entrada de áudio de múltiplos canais, codificar por forma de onda cada canal do downmix, desse modo gerando os dados codificados por forma de onda de modo que os referidos dados codificados por forma de onda codificada indiquem conteúdo de áudio do downmix, realizar codificação paramétrica em pelo menos alguns componentes de frequência mais alta de cada canal do sinal de entrada, incluindo a realização da codificação por extensão espectral dos componentes de alta frequência de cada canal do sinal de entrada, desse modo gerando os dados codificados parametricamente de modo que os referidos dados codifi- cados parametricamente indiquem os referidos pelo menos alguns componentes de frequência mais alta do referido cada canal do sinal de entrada, e gerar o sinal de áudio codificado em resposta aos dados codificados por forma de onda e aos dados codificados parametrica- mente, o referido método incluindo as etapas de:(a) extrair os dados codificados por forma de onda e os dados codificados parametricamente do sinal de áudio codificado;(b) realizar decodificação por forma de onda nos dados codificados por forma de onda extraídos na etapa (a) para gerar um primeiro conjunto de componentes de frequência recuperados que indicam conteúdo de áudio de baixa frequência de cada canal do downmix; e(c) realizar decodificação paramétrica nos dados codificados parametricamente extraídos na etapa (a) para gerar um segundo conjunto de componentes de frequência recuperados, que indicam pelo menos algum conteúdo de áudio de frequência mais alta de cada canal do sinal de entrada de áudio de múltiplos canais.
9. Decodificador de áudio configurado para decodificar um sinal de áudio codificado que indica dados codificados por forma de onda e dados codificados parametricamente, caracterizado pelo fato de que o sinal de áudio codificado foi gerado por gerar um downmix apenas de componentes de baixa frequência de pelo menos alguns canais de um sinal de entrada de áudio de múltiplos canais que tem N canais, em que N é um número inteiro, codificar por forma de onda cada canal do downmix, desse modo gerando os dados codificados por forma de onda de modo que os referidos dados codificados por forma de onda codificada indiquem conteúdo de áudio do downmix, realizar codificação paramétrica em pelo menos alguns componentes de frequência mais alta de cada canal do sinal de entrada, incluindo a realização da codificação por extensão espectral dos componentes de alta frequência de cada canal do sinal de entrada, desse modo gerando os dados codificados parametricamente de modo que os referidos dados codificados parametricamente indiquem os referidos pelo menos alguns componentes de frequência mais alta do referido cada canal do sinal de entrada, e gerar o sinal de áudio codificado em resposta aos dados codificados por forma de onda e aos dados codificados parame- tricamente, o referido decodificador incluindo:um primeiro subsistema configurado para extrair os dados codificados por forma de onda e os dados codificados parametrica- mente do sinal de áudio codificado; eum segundo subsistema acoplado e configurado para realizar a decodificação por forma de onda nos dados codificados por forma de onda extraídos pelo primeiro subsistema para gerar um primeiro conjunto de componentes de frequência recuperados que indicam conteúdo de áudio de baixa frequência de cada canal do downmix, e para realizar decodificação paramétrica nos dados codificados parametri- camente extraídos pelo primeiro subsistema para gerar um segundo conjunto de componentes de frequência recuperados que indicam pelo menos algum conteúdo de áudio de frequência mais alta de cada canal do sinal de entrada de áudio de múltiplos canais.
10. Decodificador, de acordo com a reivindicação 9, caracterizado pelo fato de que o segundo subsistema também é configurado para gerar N canais de dados de domínio de frequência decodificados incluindo por combinar o referido primeiro conjunto de componentes de frequência recuperados e o referido segundo conjunto de componentes de frequência recuperados, de modo que cada canal dos dados de domínio de frequência decodificados indique conteúdo de áudio de frequência intermediária e de alta frequência de um diferente dentre os canais do sinal de entrada de áudio de múltiplos canais, e cada um de pelo menos um subconjunto dentre os canais dos dados de domínio de frequência decodificados indique conteúdo de áudio de baixa frequência do sinal de entrada de áudio de múltiplos canais.
11. Decodificador, de acordo com a reivindicação 10, carac-terizado pelo fato de que o segundo subsistema é configurado para realizar uma transformação de domínio de frequência para domínio de tempo em cada um dos canais de dados de domínio de frequência decodificados para gerar um sinal de áudio decodificado por domínio de tempo de N canais.
12. Decodificador, de acordo com a reivindicação 11, carac-terizado pelo fato de que o segundo subsistema é configurado para realizar a aplicação oculta de upmix no primeiro conjunto de componentes de frequência recuperados para gerar componentes de frequência que receberam upmix, e para combinar os componentes de frequência que receberam upmix e o referido segundo conjunto de componentes de frequência recuperados para gerar os referidos N canais de dados de domínio de frequência decodificados.
13. Decodificador, de acordo com a reivindicação 9, caracterizado pelo fato de que o sinal de áudio codificado é um sinal de áudio codificado E-AC-3.
14. Decodificador, de acordo com a reivindicação 9, caracterizado pelo fato de que o segundo subsistema é configurado para realizar decodificação por acoplamento de canal em pelo menos alguns dos dados codificados parametricamente extraídos pelo primeiro subsistema, e para realizar a decodificação por extensão espectral em pelo menos alguns dos dados codificados parametricamente extraídos pelo primeiro subsistema.
15. Decodificador, de acordo com a reivindicação 9, caracterizado pelo fato de que o primeiro conjunto de componentes de frequência recuperados têm frequências menores ou iguais a um valor máximo, F1, em uma faixa de cerca de 1,2 kHz a cerca de 4,6 kHz.
BR112015026963-0A 2013-04-30 2014-04-22 Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado BR112015026963B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361817729P 2013-04-30 2013-04-30
US61/817,729 2013-04-30
PCT/US2014/034981 WO2014179119A1 (en) 2013-04-30 2014-04-22 Hybrid encoding of multichannel audio

Publications (2)

Publication Number Publication Date
BR112015026963A2 BR112015026963A2 (pt) 2017-07-25
BR112015026963B1 true BR112015026963B1 (pt) 2022-01-04

Family

ID=51267375

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015026963-0A BR112015026963B1 (pt) 2013-04-30 2014-04-22 Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado

Country Status (10)

Country Link
US (1) US8804971B1 (pt)
EP (1) EP2992528B1 (pt)
JP (1) JP6181854B2 (pt)
KR (1) KR101750732B1 (pt)
CN (1) CN105164749B (pt)
BR (1) BR112015026963B1 (pt)
HK (1) HK1215490A1 (pt)
RU (1) RU2581782C1 (pt)
TW (1) TWI521502B (pt)
WO (1) WO2014179119A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014210284A1 (en) * 2013-06-27 2014-12-31 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
WO2016163329A1 (ja) * 2015-04-08 2016-10-13 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
JP6650651B2 (ja) 2015-08-25 2020-02-19 Nittoku株式会社 パレット搬送装置及びそれを用いたパレット搬送方法
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
GB2561594A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Spatially extending in the elevation domain by spectral extension
EP3422738A1 (en) * 2017-06-29 2019-01-02 Nxp B.V. Audio processor for vehicle comprising two modes of operation depending on rear seat occupation
US11361772B2 (en) * 2019-05-14 2022-06-14 Microsoft Technology Licensing, Llc Adaptive and fixed mapping for compression and decompression of audio data
AU2020291190B2 (en) * 2019-06-14 2023-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Parameter encoding and decoding
US20220240012A1 (en) * 2021-01-28 2022-07-28 Sonos, Inc. Systems and methods of distributing and playing back low-frequency audio content

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
TW405328B (en) 1997-04-11 2000-09-11 Matsushita Electric Ind Co Ltd Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7106943B2 (en) 2000-09-21 2006-09-12 Matsushita Electric Industrial Co., Ltd. Coding device, coding method, program and recording medium
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
WO2003094369A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
DE10234130B3 (de) 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US6937737B2 (en) * 2003-10-27 2005-08-30 Britannia Investment Corporation Multi-channel audio surround sound from front located loudspeakers
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
JPWO2005081229A1 (ja) * 2004-02-25 2007-10-25 松下電器産業株式会社 オーディオエンコーダ及びオーディオデコーダ
US7756713B2 (en) 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
CN101276587B (zh) * 2007-03-27 2012-02-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
TWI449442B (zh) 2009-01-14 2014-08-11 Dolby Lab Licensing Corp 用於無回授之頻域主動矩陣解碼的方法與系統
CN101800048A (zh) * 2009-02-10 2010-08-11 数维科技(北京)有限公司 基于dra编码器的多声道数字音频编码方法及其编码系统
BR122019023924B1 (pt) * 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2510515B1 (en) * 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
CN103854651B (zh) * 2009-12-16 2017-04-12 杜比国际公司 Sbr比特流参数缩混
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
JP5582027B2 (ja) * 2010-12-28 2014-09-03 富士通株式会社 符号器、符号化方法および符号化プログラム

Also Published As

Publication number Publication date
TWI521502B (zh) 2016-02-11
JP6181854B2 (ja) 2017-08-16
TW201513096A (zh) 2015-04-01
KR101750732B1 (ko) 2017-06-27
EP2992528B1 (en) 2019-06-12
EP2992528A4 (en) 2017-01-18
HK1215490A1 (zh) 2016-08-26
EP2992528A1 (en) 2016-03-09
KR20150138328A (ko) 2015-12-09
RU2581782C1 (ru) 2016-04-20
CN105164749B (zh) 2019-02-12
BR112015026963A2 (pt) 2017-07-25
US8804971B1 (en) 2014-08-12
WO2014179119A1 (en) 2014-11-06
JP2016522909A (ja) 2016-08-04
CN105164749A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
JP7427715B2 (ja) プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ
BR112015026963B1 (pt) Método para codificar um sinal de entrada de áudio de múltiplos canais, codificador de áudio configurado para gerar um sinal de áudio codificado, método para decodificar um sinal de áudio codificado e decodificador de áudio configurado para decodificar um sinal de áudio codificado
JP7122076B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
RU2690885C1 (ru) Стереофонический кодер и декодер аудиосигналов
RU2659490C2 (ru) Концепция для объединенного сжатия динамического диапазона и управляемого предотвращения отсечения для аудиоустройств
CA3026267C (en) Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
JP6874151B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
JP7413418B2 (ja) 信号をインタリーブするためのオーディオ復号器
US9741351B2 (en) Adaptive quantization noise filtering of decoded audio data
PT2483887T (pt) Descodificador de sinal de áudio mpeg-saoc, método para fornecer uma representação de sinal de mistura ascendente usando descodificação mpeg-saoc e programa de comutador usando um valor comum de parâmetros de correlação inter-objetos dependente de tempo/frequência
JP2021529354A (ja) マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
JP7035154B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
WO2021086965A1 (en) Bitrate distribution in immersive voice and audio services
CN114175151A (zh) Ivas比特流的编码和解码
BR122023022316A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
BR122023022314A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
WO2022119946A1 (en) Spatial noise filling in multi-channel codec

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 22/04/2014, OBSERVADAS AS CONDICOES LEGAIS.

B25G Requested change of headquarter approved

Owner name: DOLBY INTERNATIONAL AB (IE) ; DOLBY LABORATORIES LICENSING CORPORATION (US)