BRPI0910516B1 - Esquema de codificação / descodificação audio de baixo débito com um pré-processamento comum - Google Patents

Esquema de codificação / descodificação audio de baixo débito com um pré-processamento comum Download PDF

Info

Publication number
BRPI0910516B1
BRPI0910516B1 BRPI0910516-6A BRPI0910516A BRPI0910516B1 BR PI0910516 B1 BRPI0910516 B1 BR PI0910516B1 BR PI0910516 A BRPI0910516 A BR PI0910516A BR PI0910516 B1 BRPI0910516 B1 BR PI0910516B1
Authority
BR
Brazil
Prior art keywords
signal
audio
encoding
encoded
branch
Prior art date
Application number
BRPI0910516-6A
Other languages
English (en)
Inventor
Jeremie Lecomte
Yoshikazu Yokotani
Stefan WABNIK
Stefan Bayer
Bernhard Grill
Guillaume Fuchs
Stefan Geyersberger
Ralf Geiger
Johannes Hilpert
Ulrich Kraemer
Markus Multrus
Max Neuendorf
Harald Popp
Nikolaus Rettelbach
Frederik Nagel
Sascha Disch
Juergen Herre
Gerald Schuller
Jens Hirschfeld
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09002272A external-priority patent/EP2144231A1/en
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority to BR122021017391-5A priority Critical patent/BR122021017391B1/pt
Priority to BR122020025711-3A priority patent/BR122020025711B1/pt
Priority to BR122020025776-8A priority patent/BR122020025776B1/pt
Priority to BR122021017287-0A priority patent/BR122021017287B1/pt
Publication of BRPI0910516A2 publication Critical patent/BRPI0910516A2/pt
Publication of BRPI0910516B1 publication Critical patent/BRPI0910516B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

esquema de codificação / descodificação audio de baixo débito com um pré- processamento comum um codificador audio comprende uma fase de pré-processamento comum, um ramo de codificação baseado num coiector de informação tal como um ramo de codificação do domínio espectral, um ramo de codificação baseado numa fonte de informação tal como um ramo de codificação do domínio da clp e um comutador para comutar entre estes ramos a entradas nestes ramos ou saídas destes ramos controladas por uma fase de decisão. um descodificador audio comprende um ramo de descodificação do domínio espectral, um ramo de descodificação do domínio da clp, um ou vários comutadores para comutar entre os ramos e uma fase de pós-processamento comum para pós-processar um sinal audio do domínio temporal para obter um sinal audio pós- processado.

Description

Campo da invenção
A presente invenção refere-se à codificação audio, particularmente, aos esquemas de codificação / descodificação audio de baixo débito.
Histórico da invenção e arte anterior
No arte são conhecidos esquemas de codificação no domínio das frequências tais como MP3 ou AAC. Estes codificadores no domínio das frequências são baseados numa conversão de domínio temporal / domínio das frequências, numa fase de quantificação subsequente na qual o erro de quantificação é controlado utilizando 15 informação de um módulo psicoacústico, e uma fase de codificação na qual os coeficientes espectrais quantificados e a informação lateral correspondente são codificados por entropia utilizando tabelas de código.
Por outro lado, existem codificadores que são muito convenientes para o 20 processamento de fala tais como AMR-WB+ como descrito no documento 3GPP TS • 26.290. Tais esquemas de codificação de fala desempenham, por exemplo, uma filtragem da CLP de um sinal no domínio temporal. A informação da filtragem da CLP tal como os coeficientes de predição da CLP é calculada e transmitida como informação lateral. O sinal residual de predição ou o sinal de erro de predição que é 25 também conhecido como sinal de excitação é codificado utilizando um codificador de ACELP ou, alternativamente, é codificado utilizando um codificador de transformação, o qual utiliza uma transformação de Fourier com uma sobreposição. A decisão entre a codificação de excitação de ACELP e a codificação de transformação de excitação, que é também chamada codificação TCX, é realizada utilizando um ciclo fechado ou 30 um algoritmo de ciclo aberto.
Os esquemas de codificação audio no domínio das frequências tais como o esquema de codificação de AAC de alta eficiência, o qual combina um esquema de codificação de AAC e uma técnica de replicação de largura de banda espectral, podem também 35 ser combinados num instrumento de codificação de estéreo combinado ou multicanal que é conhecido sob o termo de “MPEG envolvente”.
Por outro lado, os codificadores de voz tais como AMR-WB+ também têm uma fase de melhoramento da alta frequência e uma funcionalidade estéreo.
Os esquemas de codificação no domínio das frequências são vantajosos no que 5 mostram uma alta qualidade a baixos débitos para os sinais musicais. Mas a qualidade dos sinais vocais a baixos débitos é problemática.
Os esquemas de codificação de voz mostram uma alta qualidade dos sinais vocais mesmo a baixos débitos, mas mostram uma baixa qualidade para os sinais musicais a 10 baixos débitos.
Resumo da invenção
Num aspecto da presente invenção, uma fase de decisão que controla um comutador 15 é utilizada para alimentar a saída de uma fase de pré-processamento comum no qualquer dos dois ramos. O primeiro é principalmente motivado por um modelo de fonte ou por cálculos da RSR, o outro por um modelo de colector e/ou um modelo ' psicoacústico, isto é por mascaragem. Por exemplo, um ramo tem um codificador no domínio das frequências e o outro ramo tem um codificador da CLP tal como um 20 codificador de voz. O modelo de fonte é normalmente o processamento de .voz e por • conseguinte uma CLP é geralmente utilizada. Assim, as fases de pré-processamento típicas tais como uma fase de codificação estéreo combinado ou multicanal e/ou uma fase de extensão da largura de banda são geralmente utilizadas para ambos algoritmos, o que salva uma quantidade considerável de armazenagem, de espaço de 25 pastilha, de consumo de energia, etc., relativamente à situação na qual um codificador audio completo e um codificador de voz completo são utilizados para o mesmo objectivo.
Descrição breve dos desenhos 30
Implementações preferidas da presente invenção são descritas no que segue relativamente aos desenhos anexos, nos quais:
A Figura 1a é um diagrama de blocos de um esquema de codificação de acordo com 35 um primeiro aspecto da presente invenção;
A Figura 1b é um diagrama de blocos de um esquema de descodificação de acordo com o primeiro aspecto da presente invenção;
A Figura 2a é um diagrama de blocos de um esquema de codificação de acordo com um segundo aspecto da presente invenção; e
A Figura 2b é um diagrama esquemático de um esquema de descodificação de acordo com o segundo aspecto da presente invenção.
Descrição detalhada ou Implementações preferidas
Um sinal mono, um sinal estéreo ou um sinal multicanal é entrado numa fase de pré- processamento comum da Figura 1a. O esquema de pré-processamento comum pode ter uma funcionalidade de estéreo combinado, uma funcionalidade de envolvente, e/ou uma funcionalidade de extensão da largura de banda. A saída do bloco 100 há um canal mono, um canal estéreo ou canais múltiplos que são entrados num comutador 15 200 ou em múltiplos comutadores do tipo 200.
O comutador 200 pode existir para cada saída da fase 100, quando a fase 100 tem .duas ou mais saídâs, isto é, quando a fase 100 sae um sinal estéreo ou um sinal multicanal. Por exemplo, o primeiro canal de um sinal estéreo pode ser um canal de 20 voz e o segundo canal do sinal estéreo pode ser um canal musical. Nesta situação, a decisão na fase de decisão pode sèr diferente entre os dois canais para o mesmo instante de tempo.
O comutador 200 é controlado por uma fase de decisão 300. A fase de decisão 25 recebe, como entrada, uma entrada de sinal no bloco 100 ou uma saída de sinal pelo bloco 100. Alternativamente, a fase de decisão 300 pode também receber uma informação lateral que é incluída no sinal mono, no sinal estéreo ou no sinal multicanal ou é pelo menos associada a tal sinal no qual existe a informação que foi, por exemplo, gerada durante a produção original do sinal mono, do sinal estéreo ou do 30 sinal multicanal.
Numa implementação, a fase de decisão não controla a fase de pré-processamento 100, e a flecha entre os blocos 300 e 100 não existe. Numa outra implementação, o processamento no bloco 100 é controlado até certo ponto pela fase de decisão 300 35 para marcar um ou mais parâmetros no bloco 100 a base da decisão. Isto não vai no entanto influir no algoritmo geral no bloco 100, de modo que a funcionalidade principal no bloco 100 seja activa sem considerar a decisão na fase 300.
A fase de decisão 300 acciona o comutador 200 para alimentar a saída da fase de pré- processamento seja na porção de codificação de frequências 400 ilustrada a um ramo superior da Figura 1a ou na porção de codificação no domínio da CLP 500 ilustrada a um ramo inferior na Figura 1a. Um elemento chave do ramo de codificação no domínio 5 das frequências é um bloco de conversão espectral 410 o qual é operacional para converter o sinal de saída da fase de pré-processamento comum num domínio espectral. O bloco de conversão espectral pode incluir um algoritmo de MDCT, um QMF, um algoritmo de FFT, uma análise de onda ou um banco de filtros tal como um banco de filtros criticamente amostrados que tem algum número de canais de banco 10 de filtros, onde os sinais de sub-bandas neste banco de filtros podem ser sinais avaliados reais ou sinais avaliados complexos. A saída do bloco de conversão espectral 410 é codificada utilizando um codificador audio espectral 420 que pode incluir blocos de processamento como conhecido do esquema de codificação AAC.
No ramo de codificação inferior 500, um elemento chave é um analisador de modelo de fonte tal como uma CLP 510 que sae dois tipos de sinais. Um sinal é um sinal de informação da CLP que é utilizado para controlar a característica de filtro de um filtro _ _ de síntese da CLP. Esta informação da CLP é transmitida a um descodificador. O sinal de saída da outra fase da CLP 510 é um sinal de excitação ou um sinal do domínio da 20 CLP que é entrado num codificador de excitação 520.
A decisão na fase de decisão pode ser adaptive ao sinal de modo que a fase de decisão desmpenhe uma discriminação entre música e voz e controle o comutador 200 de modo que os sinais musicais sejam entrados no ramo superior 400 e os sinais 25 vocais sejam entrados no ramo inferior 500. Numa implementação, a fase de decisão alimenta a sua informação de decisão num fluxo de bits de saída de modo que um descodificador possa utilizar esta informação de decisão para desempenhar as operações de descodificação correctas.
Tal descodificador é ilustrado na Figura 1b. O sinal saído pelo codificador audio espectral 420 é, depois da transmissão, entrado num descodificador audio espectral 430. A saída do descodificador audio espectral 430 é entrada num conversor de tempo-domínio 440. De maneira análoga, a saída do codificador de excitação 520 da Figura 1a é entrada num descodificador de excitação 530 o qual sae um sinal do 35 domínio da CLP. O sinal do domínio da CLP é entrado numa fase de síntese da CLP 540 que recebe, como outra entrada, a informação da CLP gerada pela fase de análise da CLP correspondente 510. A saída do conversor de tempo-domínio 440 e/ou a saída da fase de síntese da CLP 540 são entradas num comutador 600. O comutador 600 é controlado através de um sinal de controlo da comutação o qual foi, por exemplo, gerado pela fase de decisão 300, ou o qual foi provisto externamente por exemplo por um criador do sinal mono original, do sinal estéreo ou do sinal multicanal.
A saída do comutador 600 é um sinal mono completo que é, subsequentemente, entrado numa fase de pós-processamento comum 700 e que pode desempenhar um processamento estéreo combinado ou um processamento de extensão da largura de banda etc. Dependente da funcionalidade específica da fase de pós-processamento comum, um sinal mono, um sinal estéreo ou um sinal mutlicanal é entrado que tem, 10 quando a fase de pós-processamento comum 700 desempenha uma operação de extensão da largura de banda, uma largura de banda mais grande do sinal entrado no bloco 700.
Dependente da decisão do comutador, a qual pode ser derivada do sinal de entrada 15 no comutador 200 ou de qualquer fonte externa tal como um productor do sinal audio original subjacente ao sinal entrado na fase 200, o comutador comuta entre o ramo de codificação de frequências 400 e o ramo de codificação da. CLP 500. O ramo de codificação de frequências 4Ó0 comprende uma fase de conversão espectral 410 e uma fase de quantificação / codificação conectada subsequentemente 421 (como 20 mostrada na Figura 2a). A fase de quantificação / codificação pode inclujcqualquer das - - - funçionalidades-como conhecidas dós codificadores modernos de frequências-domínio tais como o codificador AAC. Além disso, a operação de quantificação na fase de quantificação/codificação 421 pode ser controlada através de um módulo psicoacústico que gera informação psicoacústica tal como um limiar de mascaragem 25 psicoacústica acima da frequência, onde esta informação é entrada na fase 421.
No ramo de codificação da CLP, o sinal de saída de comutação é processado através de uma fase de análise da CLP 510 que gera uma informação lateral da CLP e um sinal de excitação da CLP no domínio da CLP. O codificador de excitação pode 30 comprender qualquer codificador de voz tal como um codificador de PLEC, um codificador APLEC ou qualquer outro algoritmo de codificação para codificar um sinal do domínio da CLP.
Um outro esquema de descodificação é ilustrado na Figura 2b. Geralmente, existe um 35 descodificador de excitação 530. O algoritmo implementado no bloco 530 é adaptado ao algoritmo correspondente utilizado no bloco 520 ao lado do codificador. Enquanto a fase 431 sae um espectro de tempo que é convertido no domínio temporal utilizando o conversor de frequências/tempo 440, a fase 530 sae um sinal do domínio da CLP. Os dados de saída da fase 530 são transformados atrás no domínio temporal utilizando uma fase de síntese 540, a qual é controlada através de uma informação da CLP gerada e transmitida ao lado do codificador. Depois, subsequente ao bloco 540, ambos ramos têm uma informação do domínio temporal que é comutada de acordo 5 com um sinal de controlo de comutação para obter finalmente um sinal audio tal como um sinal mono, um sinal estéreo ou um sinal multicanal.
Como mencionado acima, a Figura 2a ilustra um esquema de codificação preferido de acordo com um segundo aspecto da invenção. O esquema de pré-processamento 10 comum em 100 da Figura 1a comprende agora um bloco de envolvente/estéreo combinado 101 que gera, como saída, parâmetros de estéreo combinado e um sinal mono de saída, o qual é gerado por uma mistura descendente do sinal de entrada que é um sinal que tem dois ou mais canais. Geralmente, o sinal à saída do bloco 101 pode também ser un sinal que tem mais canais, mas devido à funcionalidade de 15 mistura descendente do bloco 101, o número de canais à saída do bloco 101 vai ser mais pequeno do que o número dos canais entrados no bloco 101.
A saída do bloco 101 é entrada no bloco de extensão da largura de banda 102 o qual, no codificador da Figura 2a, sae um sinal de banda limitada tal como o sinal de banda de baixas frequências ou o sinal de passa baixo à sua saída. Além disso, para a.banda • • — de altas frequências do sinal entrado nó bloco 102, os parâmetros de extensão de largura de banda tais como os parâmetros do envelope espectral, os parâmetros da filtragem inversa, os parâmetros da plataforma de ruído etc., como conhecido do perfil de HE-AAC de MPEG-4, são gerados e transmitidos a um multiplexador de fluxo de bits 800.
Preferentemente, a fase de decisão 300 recebe o sinal entrado no bloco 101 ou entrado no bloco 102 para decidir, por exemplo, entre um modo musical ou um modo vocal. No modo musical, o ramo de codificação superior 400 é selecionado, enquanto 30 no modo vocal o ramo de codificação inferior 500 é selecionado. Preferentemente, a fase de decisão controla adicionalmente o bloco de estéreo combinado 101 e/ou o bloco de extensão da largura de banda 102 para adaptar a funcionalidade destes blocos ao sinal específico. Assim, quando a fase de decisão determina que uma certa porção de tempo do sinal de entrada é do primeiro modo tal como o modo musical, as 35 características específicas do bloco 101 e/ou do bloco 102 podem ser controladas pela fase de decisão 300. Alternativamente, quando a fase de decisão 300 determina que o sinal é num modo vocal ou, geralmente, num segundo modo do domínio da CLP, as características específicas dos blocos 101 e 102 podem ser controladas de acordo com a saída da fase de decisão.
Preferentemente, a conversão espectral é realizada utilizando uma operação de 5 MDCT, a qual, ainda mais preferentemente, é a operação de MDCT deformada com o tempo, onde a resistência ou, geralmente, a resistência à deformação pode ser controlada entre zero e a alta resistência à deformação. Numa resistência à deformação zero, a operação de MDCT no bloco 411 é uma operação de MDCT directa conhecida no arte. A resistência à deformação do tempo junto com a 10 informação lateral da deformação do tempo pode ser transmitida / entrada no multiplexador de fluxo de bits 800 como informação lateral.
No ramo de codificação da CLP, o codificador do domínio da CLP pode incluir um núcleo de ACELP que calcula um ganho de tom, um atraso de tom e/ou uma 15 informação do livro de código tal como um índice do livro de código. Um conversor espectral comprende preferentemente uma operação de MDCT especificamente adaptada que tem algumas funções de janela seguidas por uma fase de codificação de quantificação/entropia que pode ser uma fase de quantificação de vector, mas preferentemente é um quantificador/codificador similar ao quantificador/codificador no 20 ramo de codificação do domínio das frequências, isto é, no elemento 421 na Figura 2a. * * *
A Figura 2b ilustra um esquema de descodificação que corresponde ao esquema de codificação da Figura 2a. O fluxo de bits gerado pelo multiplexador de fluxo de bits 800 da Figura 2a é entrado num desmultiplexador de fluxo de bits 900. Dependente de 25 uma informação derivada por exemplo do fluxo de bits através de um bloco de detecção de modo 601, um comutador ao lado do descodificador 600 é controlado para transmitir seja sinais do ramo superior ou sinais do ramo inferior ao bloco de extensão da largura de banda 701. O bloco de extensão da largura de banda 701 recebe, do desmultiplexador de fluxo de bits 900, uma informação lateral e, baseado 30 nesta informação lateral, reconstrui a banda de altas frequências baseada na saída de banda de baixas frequências pelo comutador 600.
O sinal de banda completo gerado pelo bloco 701 é entrado na fase de processamento de estéreo combinado/envolvente 702, a qual reconstrui dois canais estéreo ou vários 35 multicanais. Geralmente, o bloco 702 vai sair mais canais do que foram entrados neste bloco. Dependente da aplicação, a entrada no bloco 702 pode mesmo incluir dois canais tais como num modo estéreo e pode mesmo incluir mais canais contanto que a saída por este bloco tenha mais canais do que entrados neste bloco.
O comutador 200 foi mostrado comutar entre ambos ramos de modo que só um ramo reciba um sinal a processar e o outro ramo não reciba um sinal a processar. Numa implementação alternativa, no entanto, o comutador pode também ser arranjado 5 subsequente, por exemplo, ao codificador audio 420 e o codificador de excitação 520, o que significa que ambos ramos 400, 500 processam o mesmo sinal em paralelo. Para não dobrar o débito, no entanto, só o sinal saído por um destes ramos de codificação 400 ou 500 é selecionado para ser escrito no fluxo de bits de saída. A fase de decisão vai então operar de modo que o sinal escrito no fluxo de bits desempenhe 10 alguma função de alvo, onde a função de alvo pode ser um débito inferior ou uma qualidade superior ou uma função de alvo combinada de débito/qualidade. Por conseguinte, seja neste modo ou no modo ilustrado nas Figuras, a fase de decisão pode também operar num modo de ciclo fechado para assegurar que, finalmente, só a saída do ramo de codificação seja escrita no fluxo de bits que tem a melhor qualidade 15 e o fluxo de bits o mais baixo ou, para algum débito de alvo, tenha a qualidade superior.
Geralmente, o processamento no ramo 400 é um processamento num modelo baseado num modelo baseado na percepção ou num modelo de colector de 20 informação. Assim, este ramo modela o sistema auditivoJiumano que recebe o som: - - Ao contrário, o processamento no ramo 500 tem que gerar um sinal no domínio de excitação, residual ou da CLP. Geralmente, o processamento no ramo 500 é um processamento num modelo de voz ou um modelo de geração de informação. Para os sinais vocais, este modelo é um modelo do sistema de geração de voz/som que gera 25 um som. Se, contudo, um som de uma fonte diferente que exige um modelo diferente de geração de som tem que ser codificado, então o processamento no ramo 500 pode ser diferente.
Embora as Figuras de 1a até 2b sejam ilustradas como diagramas de bloco de um 30 aparelho, estas figuras são simultaneamente uma ilustração de um método, onde as funcionalidades do bloco correspondem às etapas do método.
As implementações descritas acima são só ilustrativas para os princípios da presente invenção. Comprende-se que modificações e variações nas regras e detalhes 35 descritos acima vão ser aparentes para os especialistas no arte. A intenção é, por conseguinte, de limitar-se só pelo campo de aplicação das reivindicações anexas e não pelos detalhes específicos apresentados como descrição e explicação das implementações aqui.
Dependente de algumas exigências de implementação dos métodos da invenção, os métodos inventivos podem ser implementados no hardware ou no software. A implementação pode ser realizada utilizando um meio de armazenagem digital, em 5 particular, um disco, um DVD ou um CD que têm armazenados sinais de controlo legíveis electronicamente e que cooperam com sistemas de computador programáveis de modo que os métodos inventivos sejam desempenhados. Geralmente, a presente invenção é por conseguinte um produto de programa de computador com um código de programa armazenado num transportador legível por máquina, sendo o código do 10 programa operado para realizar os métodos inventivos quando o programa de computador desempenha num computador. Em outras palavras, os métodos inventivos são, por conseguinte, um programa de computador que tem um código de programa para desempenhar pelo menos um dos métodos inventivos quando o programa de computador desempenha num computador.

Claims (18)

1. CODIFICADOR DE ÁUDIO PARA GERAÇÃO DE UM SINAL DE ÁUDIO CODIFICADO, caracterizado por compreender: uma primeira ramificação de codificação (400) para codificar um sinal intermediário de áudio (195) de acordo com um primeiro algoritmo de codificação, o primeiro algoritmo de codificação tendo um modelo de escoadouro de informações e gerando, em um primeiro sinal de saída de ramificação de codificação, informações espectrais codificadas representando o sinal intermediário de áudio, a primeira ramificação de codificação compreendendo um bloco de conversão espectral (410) para converter o sinal intermediário de áudio em um domínio espectral e um codificador de áudio espectral (420) para codificar um sinal de saída do bloco de conversão espectral (410) para obter as informações espectrais codificadas; uma segunda ramificação de codificação (500) para codificar um sinal intermediário de áudio (195) de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informações e gerando, em um segundo sinal de saída da ramificação de codificação, parâmetros codificados para o modelo da fonte de informações representando o sinal intermediário de áudio (195), a segunda ramificação de codi ficação compreendendo o analisador de LPC (510) para analisar o sinal intermediário de áudio e para gerar um sinal de informações de LPC utilizável para controlar um filtro de síntese de LPC e um sinal de excitação, e um codificador de excitação (520) para codificar o sinal de excitação para obter os parâmetros codificados; e uma etapa de pré-processamento comum (100) para preprocessar um sinal de entrada de áudio (99) para obter o sinal intermediário de áudio (195), em que a etapa de pré-processamento comum (100) é operante para processar o sinal de entrada de áudio (99) para que o sinal intermediário de áudio (195) seja uma versão compacta do sinal de entrada de áudio (99).
2. Codificador de áudio de acordo com a reivindicação 1, caracterizado por compreender também uma etapa de alternância (200) conectada entre a primeira ramificação de codificação (400) e a segunda ramificação de codificação (500) nas entradas nas ramificações ou nas saídas das ramificações, a etapa de alternância sendo controlada por um sinal de controle de alternância.
3. Codificador de áudio de acordo com a reivindicação 2, caracterizado por compreender também uma etapa de decisão (300, 300a, 300b) para analisar o sinal de entrada de áudio (99) ou o sinal intermediário de áudio (195) ou um sinal intermediário na etapa de pré-processamento comum (100) no tempo ou fre-quência para encontrar uma parte de tempo ou frequência de um sinal a ser transmitido em um sinal de saída do codificador como o sinal de saída codificado gerado pela primeira ramificação de codificação ou o sinal de saída codificado gerado pela segunda ramificação de codificação.
4. Codificador de áudio de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de pré-processamento comum (100) estar operante para calcular parâmetros de pré-processamento comuns para uma parte do sinal de entrada de áudio não incluída em uma primeira e em uma segunda parte diferente do sinal intermediário do áudio (195) e para introduzir uma representação codificada dos parâmetros de pré-processamento no sinal de saída codificado, em que o sinal de saída codificado compreende também um primeiro sinal de saída de ramificação de codificação para a representação de uma primeira parte do sinal intermediário de áudio e um segundo sinal de saída de ramificação de codificação para representar uma segunda parte do sinal intermediário de áudio.
5. Codificador de áudio de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de pré-processamento comum (100) compreende um módulo multicanal conjugado (101), o módulo multicanal conjugado compreendendo: um down-mixer (101a) para gerar uma série de canais downmixados sendo maiores ou iguais a 1 e sendo menores que um número de canais inseridos no down-mixer (101a); e um mecanismo de cálculo de parâmetros multicanais (101b) para calcular parâmetros multicanais de forma que, usando os parâmetros multicanais e o número de canais downmixados, uma representação do canal original possa ser desempenhada.
6. Aparatos, de acordo com a reivindicação 5, caracterizado pelos parâmetros multicanais serem parâmetros de diferenças de níveis intercanais, parâmetros de correlação e coerência intercanais, parâmetros de diferenças de fases intercanais, parâmetros de diferenças de tempo intercanais, parâmetros de objetos de áudio ou parâmetros de direção ou difusão.
7. Codificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de pré-processamento comum (100) compreender uma etapa de análise de extensão de largura de banda (102), compreendendo: um dispositivo limitador de bandas (102b) para rejeitar uma banda alta em um sinal de entrada e para gerar um sinal de banda baixa; e um mecanismo de cálculo de parâmetros (102a) para calcular os parâmetros de extensão da largura de banda para a banda alta rejeitada pelo dispositivo de limitação de banda, em que o mecanismo de cálculo de parâmetros (102a) é tal que, usando os parâmetros calculados e o sinal de banda baixa, é possível desempenhar uma reconstrução de um sinal de entrada estendida de largura de banda.
8. Codificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de pré-processamento comum (100) incluir um módulo multicanal conjugado (101), uma etapa de extensão de largura de banda (102) e uma chave (200) para alternar entre a primeira ramificação de codifi-cação (400) e a segunda ramificação de codificação (500), em que uma saída da etapa multicanal conjugada (101) é conectada a uma entrada da etapa de extensão de largura de banda (102) e uma saída da etapa de extensão de largura de banda é conectada a uma saída da chave (200), uma primeira saída da chave é conectada a uma entrada da primeira ramificação de codificação e uma segunda saída da chave é conectada a uma entrada da segunda ramificação de codificação (500), e saídas das ramificações de codificação são conectadas a um mecanismo de formação de fluxo de bits (800).
9. Codificador de áudio, de acordo com a reivindicação 3, caracterizado pela etapa de decisão (300) ser operante para analisar um sinal de entrada de etapa de decisão para pesqui- sar partes a serem codificadas pela primeira ramificação de codificação (400) com um sinal melhor para a proporção de ruído em uma determinada taxa de bits comparada à segunda ramificação de codificação (500), em que a etapa de decisão (300) é operante para análise, com base em um algoritmo de loop aberto sem um sinal codificado e novamente decodificado ou com base em um algoritmo de loop fechado usando um sinal codificado e novamente decodificado.
10. Codificador de áudio, de acordo com a reivindicação 3, caracterizado pela etapa de pré-processamento comum ter um número específico de funcionalidades (101a, 101b, 102a, 102b) e em que pelo menos uma funcionalidade é adaptável por um sinal de saída da etapa de decisão (300) e em que pelo menos uma funcionalidadeé não adaptável.
11. Codificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela primeira ramificação de codificação compreender um módulo do mecanismo de distorção de tempo para calcular uma característica de distorção variável dependendo de uma parte do sinal de áudio; na qual a primeira ramificação de codificação compreende um resampler para samplear novamente de acordo com uma característica de distorção determinada; e na qual a primeira ramificação de codificação compreende um conversor de domínio de tempo/domínio de frequência e um codificador de entropia para converter um resultado da conversão de domínio de tempo/domínio de frequência em uma representação codificada; em que a característica de distorção variável está incluída no sinal de áudio codificado.
12. Codificador de áudio de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de pré-processamento comum é operante para gerar pelo menos dois sinaisintermediários e em que, para cada sinal intermediário de áudio, a primeira e a segunda ramificação de codificação e uma chave para alternar entre as duas ramificações é fornecida.
13. Método de codificação de áudio para gerar um sinal de áudio codificado, caracterizado por compreender: codificação (400) de um sinal intermediário de áudio (195) de acordo com um primeiro algoritmo de codificação, o primeiro algoritmo de codificação tendo um modelo de escoadouro de informações e gerando, em um primeiro sinal de saída, informações espectrais codificadas representando o sinal de áudio, o primeiro algoritmo de codificação compreendendo uma etapa de conversão espectral (410) de conversão do sinal intermediário do áudio em um domínio espectral e uma etapa de codificação de áudio espectral (420) da codificação de um sinal de saída da etapa de conversão espectral (410) para obter as informações espectrais codificadas; codificação (500) de um sinal intermediário de áudio (195) de acordo com um segundo algoritmo de codificação, o segundo algoritmo de codificação tendo um modelo de fonte de informações e gerando, em um segundo sinal de saída, parâmetros codificados para o modelo de fonte de informações representando o sinal intermediário (195), a segunda ramificação de codificação compreendendo uma etapa de análise de LPC (510), o sinal intermediário de áudio e a geração de um sinal de informações de LPC uti-lizável para controlar um filtro de síntese de LPC, um sinal de excitação, uma etapa de codificação de excitação (520), o sinal de excitação para obter os parâmetros codificados; e pré-processamento comum (100) de um sinal de entrada de áudio (99) para obter o sinal intermediário de áudio (195) em que, na etapa de pré-processamento comum, o sinal de entrada de áudio (99) é processado de forma que o sinal intermediário de áudio (195) seja uma versão compacta do sinal de entrada de áudio (99), em que o sinal de áudio codificado inclui, para uma determinada parte do sinal de áudio, o primeiro sinal de saída ou o segundo sinal de saída.
14. Decodificador de áudio para decodificar um sinal de áudio codificado, caracterizado por compreender: uma primeira ramificação de decodificação (430, 440) para decodificar um sinal codificado, codificado de acordo com um primeiro algoritmo de codificação tendo um modelo de escoadouro de informações, a primeira de ramificação de decodificação compreendendo um decodificador de áudio spectral (430) para a de- codificação do áudio espectral do sinal codificado, codificado de acordo com o primeiro algoritmo de codificação tendo um modelo de escoadouro de informações e um conversor de domínio de tempo (440) para converter um sinal de saída do decodificador de áudio spectral (430) no domínio de tempo; uma segunda ramificação de decodificação (530, 540) para decodificar um sinal codificado, codificado de acordo com um segundo algoritmo de codificação tendo um modelo de fonte de informações, a segunda ramificação de decodificação compreendendo um decodificador de excitação (530) para decodificar o sinal de áudio codificado, codificado de acordo com um segundo algoritmo de codificação para obter um sinal de domínio LPC e uma etapa de síntese de LPC (540) para receber um sinal de informações LPC gerado por uma etapa de análise de LPC e para converter o sinal de domínio LPC no domínio de tempo; um mecanismo de combinação (600) para combinar sinais de saída da primeira ramificação de decodificação (430, 440) e a segunda ramificação de decodificação (530, 540) para obter um sinal combinado (699); e uma etapa de pós-processamento comum (700) para processar o sinal combinado (699) para que um sinal de saída decodificado (799) da etapa de pós-processamento comum seja uma versão expandida do sinal combinado (699).
15. Decodificador de áudio de acordo com a reivindicação 14, caracterizado pelo mecanismo de combinação (600) compreende uma chave para alternar os sinais decodificados da pri-meiraramificação de decodificação (450) e da segunda ramificação de decodificação (550) de acordo com uma indicação de modo explícita ou implícita incluída no sinal de áudio codificado para que o sinal de áudio combinado (699) seja um sinal de domínio de tempo distinto contínuo.
16. Decodificador de áudio de acordo com qualquer uma das reivindicações 14 a 15, caracterizado pela etapa de pós- processamento comum ter um número específico de funcionalidades (700, 701, 702) e em que pelo menos uma funcionalidade é adaptável por uma função de detecção de modo (601) e em que pelo menos uma função é não adaptável.
17. Método de decodificação de áudio de um sinal de áudio codificado, caracterizado por compreender: decodificação (450) de um sinal codificado, codificado de acordo com um primeiro algoritmo de codificação tendo um modelo de escoadouro de informações, compreendendo a decodificação de áudio spectral (430) do sinal codificado, codificado de acordo com um primeiro algoritmo de codificação tendo um modelo de escoadouro de informações, e um domínio de tempo convertendo (440) um sinal de saída da etapa de decodificação de áudio spectral (430) no domínio de tempo; decodificação (550) de um sinal de áudio codificado de acordo com um segundo algoritmo de codificação tendo um modelo de fonte de informações, compreendendo a decodificação de excitação (530) do sinal de áudio codificado, codificado de acordo com um Segundo algoritmo de codificação para obter um sinal de domínio LPC, e para receber um sinal de informações de LPC gerado por uma etapa de análise de LPC e síntese de LPC (540) para converter o sinal de domínio de LPC no domínio de tempo; combinação (600) de sinais de saída da primeira ramificação de decodificação (430, 440) e da segunda ramificação de decodificação (530, 540) para obter um sinal combinado (699); e processamento comum (700) do sinal combinado (699) de forma que um sinal de saída decodificado (799) da etapa de pós-processamento comum seja uma versão expandida do sinal combinado (799).
18. Mídia de armazenamento não transitória tendo gravada instruções lida por um computador caracterizada por compreenderinstruções que quando executadas realizam o método da reivindicação 14 ou da reivindicação 17.
BRPI0910516-6A 2008-07-11 2009-07-06 Esquema de codificação / descodificação audio de baixo débito com um pré-processamento comum BRPI0910516B1 (pt)

Priority Applications (4)

Application Number Priority Date Filing Date Title
BR122021017391-5A BR122021017391B1 (pt) 2008-07-11 2009-07-06 Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
BR122020025711-3A BR122020025711B1 (pt) 2008-07-11 2009-07-06 Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
BR122020025776-8A BR122020025776B1 (pt) 2008-07-11 2009-07-06 Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
BR122021017287-0A BR122021017287B1 (pt) 2008-07-11 2009-07-06 Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US7986108P 2008-07-11 2008-07-11
US61/09,861 2008-07-11
US61/079,861 2008-07-11
EP08017662.1 2008-10-08
EP08017662 2008-10-08
EP09002272.4 2009-02-18
EP09002272A EP2144231A1 (en) 2008-07-11 2009-02-18 Low bitrate audio encoding/decoding scheme with common preprocessing
PCT/EP2009/004873 WO2010003617A1 (en) 2008-07-11 2009-07-06 Low bitrate audio encoding/decoding scheme with common preprocessing

Publications (2)

Publication Number Publication Date
BRPI0910516A2 BRPI0910516A2 (pt) 2020-08-11
BRPI0910516B1 true BRPI0910516B1 (pt) 2021-12-28

Family

ID=72241986

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0910516-6A BRPI0910516B1 (pt) 2008-07-11 2009-07-06 Esquema de codificação / descodificação audio de baixo débito com um pré-processamento comum

Country Status (1)

Country Link
BR (1) BRPI0910516B1 (pt)

Also Published As

Publication number Publication date
BRPI0910516A2 (pt) 2020-08-11

Similar Documents

Publication Publication Date Title
US20220246155A1 (en) Selectable linear predictive or transform coding modes with advanced stereo coding
CA2730232C (en) An apparatus and a method for decoding an encoded audio signal
US10319384B2 (en) Low bitrate audio encoding/decoding scheme having cascaded switches
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR100648760B1 (ko) 고주파 재생 기술 향상을 위한 방법들 및 그를 수행하는 프로그램이 저장된 컴퓨터 프로그램 기록매체
US8321210B2 (en) Audio encoding/decoding scheme having a switchable bypass
RU2487428C2 (ru) Устройство и способ для вычисления числа огибающих спектра
TWI444990B (zh) 用以利用複數預測來處理多聲道音訊信號之音訊編碼器、音訊解碼器及相關方法
BR112012026324B1 (pt) Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
KR101411901B1 (ko) 오디오 신호의 부호화/복호화 방법 및 장치
BR122023025709A2 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua
BR122022012519B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122020025776B1 (pt) Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
BRPI0910516B1 (pt) Esquema de codificação / descodificação audio de baixo débito com um pré-processamento comum
BR122022012597B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122020026216B1 (pt) Codificador de áudio ou vídeo, decodificador de áudio ou vídeo e métodos relacionados para o processamento do sinal de áudio ou vídeo de múltiplos canais usando uma direção de previsão variável

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/14

Ipc: G10L 19/00 (2013.01)

B06I Publication of requirement cancelled [chapter 6.9 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 6.1 NA RPI NO 2607 DE 22/12/2020 POR TER SIDO INDEVIDA.

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/07/2009, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.