BR112015018023B1

BR112015018023B1 - Aparelho e método para sintetizar um sinal de áudio, decodificador, codificador e sistema

Info

Publication number: BR112015018023B1
Application number: BR112015018023-0A
Authority: BR
Inventors: Fuchs Guillaume; Backstrom Tom; Geiger Ralf; Jaegers Wolfgang; Ravelli Emmanuel
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2022-06-07
Also published as: MX347316B; CA2899059A1; TW201435862A; AR094683A1; CN105009210B; RU2618919C2; MY183444A; EP2951819B1; TWI544481B; HK1217564A1; AU2014211524A1; US11996110B2; BR112015018023A2; US20190378528A1; US20150332694A1; EP2951819A1; AU2014211524B2; KR20150112028A; US11373664B2; US20220293114A1

Abstract

APARELHO E MÉTODO PARA SINTETIZAR UM SINAL DE ÁUDIO, DECODIFICADOR, CODIFICADOR, SISTEMA E PROGRAMA DE COMPUTADOR Um método e um aparelho para sintetizar um sinal de áudio são descritos. Uma inclinação espectral é aplicada ao código de um codebook (202) utilizado para sintetizar uma estrutura atual do sinal de áudio. A inclinação espectral é baseada na inclinação espectral da estrutura atual do sinal de áudio. Ainda, um decodificador de áudio operando de acordo com a abordagem inventiva é descrito. Figura 3

Description

DESCRIÇÃO

[0001] A presente invenção se refere ao campo de codificação de áudio, mais especificamente ao campo para sintetizar um sinal de áudio. As aplicações se referem a codificação de fala, particularmente a técnica da codificação de fala chamada codificação preditiva linear excitada por código (CELP | code excited linear predictive). As aplicações fornecem uma abordagem para compensação de inclinação adaptativa na formação dos códigos de uma CELP em um codebook inovador ou fixo.

[0002] O esquema de codificação de CELP é amplamente utilizado em comunicações de fala e é uma forma eficiente para codificar a fala. CELP sintetiza um sinal de áudio pela condução em um filtro preditivo linear (por exemplo, filtro de síntese de LPC 1/A(z)) a soma de duas excitações. Uma excitação está surgindo do passado codificado, que é chamada de codebook adaptativo, e a outra contribuição está surgindo de um codebook fixo ou inovador que é povoado pelos códigos fixos. Um problema com o esquema de codificação de CELP é que em baixas taxas de bit o codebook inovador não é povoado suficiente para modelar eficientemente a estrutura de fala de modo que a qualidade perceptual seja degradada e o sinal de saída sintetizado emite o som com ruído.

[0003] Para mitigar as perturbações de codificação, diferentes soluções já foram propostas e são descritas na referência [1] e na referência [2]. Nestas referências, os códigos do codebook inovador são de forma adaptativa e espectral. Formados pela melhoria das regiões espectrais correspondentes aos formatos da estrutura atual do sinal de áudio. As posições de formato e as formas podem ser deduzidas diretamente dos coeficientes de LPC que são coeficientes disponíveis tanto no codificador quanto no decodificador. A melhoria do formato dos códigos c(n) do codebook inovador são feitos por uma operação simples de filtragem:

[0004] Neste processo de filtragem fe(n) é a resposta de impulso do filtro tendo a seguinte função de transferência:

[0005] onde w1 e w2 são duas constantes de ponderação que enfatizam mais ou menos a estrutura formântica da função de transferência Fe(z). Os códigos formados resultantes do codebook inovador herdam uma característica do sinal de fala e dos sons com menos ruído do sinal sintetizado.

[0006] No esquema de codificação de CELP é ainda comum para adicionar uma inclinação espectral aos códigos do codebook inovador, que é feita pela filtragem dos códigos do codebook inovador como segue:

[0007] O fator β é relacionado à voz da estrutura de áudio anterior, e a voz pode ser estimada da contribuição de energia do codebook adaptativo. Por exemplo, se a estrutura anterior tem voz, espera-se que a estrutura atual também terá voz e que os códigos terão mais energia nas frequências baixas, ou seja, o espectro tem inclinação negativa.

[0008] É um objeto da presente invenção fornecer uma abordagem melhorada para sintetizar um sinal de áudio.

[0009] Este objeto é obtido por um aparelho, de acordo com a reivindicação 1, e por um método, de acordo com a reivindicação 19.

[0010] A presente invenção fornece um aparelho para sintetizar um sinal de áudio que compreende uma unidade de processamento configurada para aplicar uma inclinação espectral ao código de codebook utilizado para sintetizar uma estrutura atual do sinal de áudio, em que a inclinação espectral é baseada na inclinação espectral da estrutura atual do sinal de áudio.

[0011] A presente invenção fornece um método para sintetizar um sinal de áudio, o método compreendendo aplicar uma inclinação espectral ao código de um codebook utilizado para sintetizar uma estrutura atual do sinal de áudio, em que a inclinação espectral é determinada com base na inclinação espectral da estrutura atual do sinal de áudio.

[0012] Os inventores do presente pedido observaram que a sintetização de um sinal de áudio pode ser ainda melhorada tanto em taxas de bit baixas quanto em mais altas explorando a natureza da inclinação espectral do sinal de áudio na sintetização do sinal para melhorar o ganho de codificação alcançável. De acordo com as aplicações, a presente invenção fornece uma codificação de fala, por exemplo, utilizando a técnica de codificação de fala de CELP, que permite melhorar o ganho de codificação de CELP, assim melhorando a qualidade perceptual do sinal decodificado ou sintetizado. A abordagem inventiva é baseada na constatação dos inventores que esta melhoria pode ser obtida adaptando a inclinação espectral dos códigos de um codebook, por exemplo, os códigos do codebook inovador de CELP, como uma função da inclinação espectral do sinal de entrada real atualmente processado. A abordagem inventiva é vantajosa por, além do ganho de codificação melhorado, em baixas taxas de bit, onde o codebook inovador não é povoado suficiente pata modelar eficientemente a fina estrutura da fala, ainda segue a outra melhoria do formato. Em taxas de bit mais altas, onde o codebook inovador é suficientemente povoado, aplicar a abordagem inventiva melhorará o ganho de codificação. Mais especificamente, em taxas de bit mais altas a melhoria do formato não pode ser necessária, pois o codebook inovador é grande o suficiente para modelar corretamente a fina estrutura da fala, e outro melhoramento do formato tornará o som do sinal sintetizado muito sintético. Entretanto, os ótimos códigos não são espectralmente planos e adicionar uma inclinação espectral melhorará o ganho de codificação. De acordo com as aplicações, a inclinação ideal para aplicar ao códigos do codebook inovador é estimada mais precisamente, mais especificamente, é correlacionada à inclinação da estrutura atual do sinal de entrada.

[0013] De acordo com as aplicações, a inclinação espectral da estrutura atual do sinal de áudio é determinada com base na informação do envelope espectral para a estrutura atual do sinal de áudio, em que a informação do envelope espectral pode ser definida pelos coeficientes de LPC. Esta aplicação é desvantajosa, pois permite determinar a inclinação espectral da estrutura atual com base na informação prontamente disponível tanto no codificador quanto no decodificador, a saber, os coeficientes de LPC.

[0014] De acordo com outras aplicações, a inclinação espectral da estrutura atual do sinal de áudio, com base nos coeficientes de LPC, pode ser determinada com base em uma resposta de impulso infinito truncada do filtro de síntese de LPC. De acordo com as aplicações, o truncamento pode ser determinado pelo tamanho do codebook inovador, ou seja, pelo número de códigos no codebook inovador. Esta abordagem é vantajosa, pois permite se referir diretamente à determinação da inclinação espectral ao tamanho real do codebook inovador.

[0015] De acordo com outras aplicações, a resposta de impulso infinito pode ser de um filtro de síntese de LPC tendo uma função de transferência não ponderada ou uma função de transferência ponderada. Utilizando a função de transferência não ponderada permite uma determinação simplificada da inclinação espectral, enquanto utiliza a função de transferência ponderada é vantajoso, pois permite uma inclinação espectral tendo um declive mais próximo à inclinação ideal.

[0016] De acordo com as aplicações, a inclinação espectral determinada é aplica ao respectivo código pela filtragem do código do codebook com base em uma função de transferência que inclui a inclinação espectral. Esta aplicação é vantajosa, pois por um processo de filtragem simples a melhoria pode ser obtida.

[0017] Ainda de acordo com outra aplicação, a inclinação espectral da estrutura atual pode ser combinada com um fator relacionado à voz da estrutura anterior do sinal de áudio, por exemplo, pela filtragem do código do codebook com base em uma função de transferência incluindo a inclinação espectral e o fator. Esta abordagem é vantajosa, pois fornece uma possibilidade para obter uma melhor estimativa da inclinação ideal.

[0018] A presente invenção fornece um decodificador de áudio compreendendo o aparelho inventivo para sintetizar um sinal de áudio.

[0019] A presente invenção fornece um decodificador de áudio para decodificar um sinal de áudio, em que o decodificador de áudio é configurado para aplicar uma inclinação espectral ao código de um codebook utilizado para sintetizar uma estrutura atual do sinal de áudio, em que a inclinação espectral é baseada na inclinação espectral da estrutura atual do sinal de áudio.

[0020] A presente invenção fornece um codificador para codificar um sinal de áudio, em que o codificador de áudio é configurado para determinar de uma inclinação espectral de uma estrutura atual do sinal de áudio uma inclinação espectral para um código de um codebook que representa uma estrutura atual do sinal de áudio.

[0021] A presente invenção fornece um sistema, compreendendo o decodificador de áudio inventivo e o codificador de áudio inventivo.

[0022] A presente invenção fornece um meio de computador não transitório que armazena instruções para realizar, ao executar em um computador, o método inventivo para sintetizar um sinal de áudio.

[0023] As aplicações da presente invenção agora serão descritas em mais detalhes com referência aos desenhos anexos, nos quais:

[0024] A Figura 1 mostra uma representação esquemática do aparelho inventivo para sintetizar um sinal de áudio de acordo com uma primeira aplicação;

[0025] A Figura 2 mostra um diagrama em blocos simplificado de um sintetizador de sinal de acordo com uma segunda aplicação da invenção, que opera com base no esquema de CELP;

[0026] A Figura 3 mostra um diagrama em blocos simplificado de um sintetizador de sinal de acordo com outra aplicação da presente invenção, novamente aplicando o esquema de codificação de CELP que incorpora a voz de uma estrutura anterior;

[0027] A Figura 4 mostra uma aplicação de um decodificador, por exemplo, um decodificador de fala operando de acordo com os ensinamentos da presente invenção; e

[0028] A Figura 5 mostra uma aplicação de um codificador, por exemplo, um codificador de fala operando de acordo com os ensinamentos da presente invenção.

[0029] A seguir, as aplicações da abordagem inventiva serão descritas. É observado que na descrição subsequente elementos/etapas semelhantes são referidos pelos mesmos sinais de referência.

[0030] A figura 1 mostra uma representação esquemática do aparelho inventivo para sintetizar um sinal de áudio de acordo com uma primeira aplicação. O aparelho 100 recebe em uma entrada 102 um sinal codificado, por exemplo, um sinal de áudio codificado, como um sinal de fala. Para codificar o sinal de áudio, o aparelho 100 compreende um codebook 104 incluindo uma pluralidade de códigos. Para sintetizar o sinal, ao processar uma estrutura atual, com base no sinal codificado recebido na entrada 102, um código ou palavra código apropriado é selecionado do codebook 104 e fornecido ao sintetizador ou filtro de síntese 106. De acordo com a presente invenção, o aparelho compreende a unidade de processamento 108 que determina, com base na inclinação espectral da estrutura atual do sinal de áudio, ou seja, a estrutura do sinal de áudio atualmente processada pelo aparelho 100, uma inclinação espectral a ser aplicada ao código c(n) lido do codebook 104, como é esquematicamente representado em 110, O código modificado c(n)*Y é aplicado ao filtro de síntese 106 que gera com base no código modificado um sinal sintetizado que é fornecido à saída 112 do aparelho 100, A unidade de processamento 108 pode determinar a inclinação espectral com base na informação do envelope espectral para a estrutura atual, por exemplo, coeficientes de filtro para o filtro de síntese 106 que estão disponíveis no aparelho 100.

[0031] De acordo com outras aplicações, uma compensação de inclinação adaptativa para formar os códigos de um codebook inovador de CELP será descrita. A figura 2 mostra um diagrama em blocos simplificado de um sintetizador de sinal 200 de acordo com uma segunda aplicação da invenção, que opera com base no esquema de CELP. De acordo com o esquema de CELP, o sintetizador 200 inclui um codebook fixo ou inovador 202 e um codebook adaptativo 204. Dependente do sinal codificado, para uma estrutura atual que é atualmente processada pelo sintetizador 200, um código é emitido dos respectivos codebooks 202 e 204. O sintetizador 200 compreende um somador ou combinador 206 para combinar os códigos recebidos dos respectivos codebooks 202 e 204. A saída do somador 206 é conectada a um filtro de síntese de LPC 208 para sintetizar o sinal de áudio de saída e emitir em uma saída 210, De acordo com as aplicações, o sintetizador 200 pode incluir um primeiro amplificador 212 para multiplicar uma contribuição do codebook fixo 202 por um ganho de código desejado. Ainda, um segundo amplificador 214 pode ser fornecido para multiplicar a contribuição do codebook adaptativo 204 de acordo com um ganho de tom, pois a contribuição do codebook adaptativo modela o tom da fala. De acordo com outra aplicação ainda um armazenamento do coeficiente de LPC 216, como uma memória ou semelhante, pode ser fornecido para armazenar os coeficientes de LPC que são disponíveis no decodificador incluindo o sintetizador 200, Os coeficientes de LPC são fornecidos ao filtro de síntese 208 para fornecer a filtragem de síntese de LPC desejada.

[0032] O sintetizador 200 inclui o filtro 218 que é conectado entre o codebook fixo 202 e o primeiro amplificador 212. O filtro 218 recebe do armazenamento 216 os coeficientes de LPC para a estrutura atual. Por meios da estrutura inventiva a inclinação da estrutura de áudio que é atualmente processada é recuperada dos coeficientes de LPC já transmitidos que são armazenados no armazenamento 216. De acordo com a aplicação da figura 2, assume-se que fs(n) é a resposta de impulso do filtro de síntese de LPC 208 tendo a função de transferência Fs(z) = 1M(z), e a inclinação é determinada como segue pelo filtro 218:

[0033] onde N é o tamanho do truncamento da resposta de impulso infinito fs(n). De acordo com uma aplicação, N é igual ao tamanho do codebook inovador, ou seja, N é igual ao número de códigos ou palavras código armazenados no codebook inovador. A inclinação espectral é aplicada, de acordo com a aplicação da figura 2, ao código c(n) recuperado do codebook fixo 202 por uma operação de filtragem fornecida no filtro 218. A operação de filtragem é definida como segue:

[0034] onde ft1(n) é a resposta de impulso da seguinte função de transferência:

[0035] A aplicação da figura 2 é vantajosa, pois permite melhorar a qualidade perceptual do sinal decodificado melhorando o ganho de codificação. A melhoria do ganho de codificação é obtida pela filtragem de uma palavra código ou código recuperado do codebook fixo 202 por uma função de transferência incluindo uma inclinação espectral que é determinada com base na resposta de impulso da função de transferência do filtro de síntese de LPC 208.

[0036] De acordo com uma terceira aplicação, para melhorar mais a inclinação espectral a estar mais próxima a uma inclinação ideal, ou seja, para estar mais próxima à inclinação da estrutura atual real do sinal de entrada, o filtro de síntese de LPC 208 tem a seguinte função de transferência:

[0037] com w1 = 0,8 e w2 = 0,9. Neste caso, a inclinação espectral é definida como segue:

[0038] As constantes de ponderação w1 e w2 são utilizados para controlar a dinâmica do envelope espectral. Por exemplo, se w1 = 0 e w2 = 1, então Fe(z) segue de forma próxima o envelope do sinal verdadeiro. A inclinação espectral resultante Y mostrará uma alta dinâmica e pode flutuar muito. Essa pode ser a solução para taxas de bit muito baixas onde o codebook definitivamente não possui estrutura de inclinação. Entretanto, foi observado perceptualmente que é melhor deduzir a inclinação espectral Y de uma versão nivelada do envelope espectral. Um bom nivelamento foi observado ser obtido com os valores acima w1 = 0,8 e w2 = 0,9, que mostra um bom equilíbrio para uma grande faixa de taxas de bit. De acordo com as aplicações, w1 e w2 são dependentes da taxa de bit. Em taxas muito altas se o codebook for grande o suficiente e puder modelar quaisquer inclinações espectrais Y, um pode desligar a influência da inclinação espectral Y definindo w1 = w2 = 1.

[0039] Quando comparado com a segunda aplicação, que produz uma inclinação tendo um declive mais íngreme do que a inclinação ideal teria, a terceira aplicação utilizando uma função de transferência “ponderada” fornecer uma inclinação que é mais próxima à inclinação da estrutura atual real.

[0040] A figura 3 mostra outro diagrama em blocos simplificado de um sintetizador de sinal 200’ de acordo com uma quarta aplicação da presente invenção, novamente aplicando o esquema de codificação de CELP. Quando comparado às aplicações descritas com relação à figura 2, a aplicação descrita com relação à figura 3 ainda aplica o fator mencionado acima relacionado à voz de uma estrutura anterior. Como pode ser visto da figura 3, a estrutura do sintetizador 200’ é substancialmente a mesma que a estrutura do sintetizador 200 da figura 2, exceto que além de um estimador de voz 220 ser fornecido, ele recebe a saída no amplificador 214 e as contribuições combinadas dos codebooks adaptativos e inovadores emitidos pelo somador 206. O estimador de voz emite um sinal ao filtro 280 de modo que o código ou palavra código obtido do codebook inovador 202 seja modificado com base em uma inclinação determinada (veja a figura 2 e a descrição acima) combinada com um fator de voz. Mais especificamente, de acordo com a aplicação da figura 3, a inclinação espectral determinada é combinada com o fator β que se refere a voz da estrutura anterior. A abordagem descrita com relação à figura 3 é vantajosa, pois permite obter uma estimativa ainda melhor da inclinação a ser aplicada à palavra código quando comparada às aplicações descritas com relação às figuras 1 e 2. A modificação do código ou formação do código podem ainda ser consideradas como uma operação de filtragem utilizando uma função de transferência como segue:

[0041] onde a e b são constantes. Em uma aplicação preferida, a = 0,5 e b = 0,25. O fator β pode ser deduzido da voz de uma estrutura anterior como segue:

[0042] e o fator real β pode ser determinado como segue:

[0043] As constantes a e b são aplicadas para controlar a mistura de inclinação de voz β e a inclinação espectral Y- Conforme mencionado acima com relação às constantes de ponderação w1 e w2, para taxas de bit médias ou baixas, pode ser relevante formar o codebook afinando as baixas frequências ou altas frequências com base na inclinação espectral Y. Também foi observado que quanto mais voz o sinal tiver melhor para afinar as altas frequências. As constantes a e b podem ser utilizadas para normalizar os fatores de inclinação β e Y e ponderar suas tensões a fim de combinar os dois efeitos conforme desejado. De acordo com as aplicações, as constantes a e b podem ser encontradas empiricamente avaliando a qualidade perceptual. Isso fornece sobre a mesma tensão em ambos os fatores: Y é limitado entre -1 e 1, assim b^Y está entre -0,25 e 0,25 e β é limitado entre 0 e 0,5 assim a • β é limitado entre 0 e 0,25. Como para as constantes de ponderação w1 e w2, ainda as constantes a e b podem se tornar dependentes da taxa de bit.

[0044] De acordo com a quarta aplicação, a síntese de áudio conforme mostrado na figura 3 é de modo que a contribuição do codebook adaptativo é multiplicada por um ganho chamado ganho de tom, pois a contribuição modela o tom da fala. O código inovador é primeiro filtrado por Ft2(z) para adicionar a inclinação espectral ao código, em que a inclinação, conforme descrito acima, é correlacionada a inclinação da estrutura atual do sinal a ser sintetizado. A saída do filtro 218 é multiplicada pelo ganho de código, e as duas contribuições, a contribuição multiplicada do codebook adaptativo e a contribuição multiplicada modificada do codebook inovador são resumidos pelo somador 206 antes de serem filtrados pelo filtro de síntese para gerar o sinal de saída sintetizado na saída 210.

[0045] A figura 4 mostra uma aplicação de um decodificador, por exemplo um decodificador de fala operando de acordo com os ensinamentos da presente invenção. O decodificador 300 inclui um sintetizador 100, 200, 200’ de acordo com uma das aplicações descritas acima. O decodificador tem uma entrada 302 que recebe um sinal codificado que é processado pelo decodificador e o sintetizador para gerar em uma saída 304 do decodificador 300 um sinal decodificado.

[0046] A figura 5 mostra uma aplicação de um codificador, por exemplo, um codificador de fala operando de acordo com os ensinamentos da presente invenção. O codificador 400 inclui uma unidade de processamento 402 para codificar um sinal de áudio. Ainda, a unidade de processamento determinar de uma inclinação espectral de uma estrutura atual da informação do sinal de áudio (por exemplo, dos coeficientes de LPC disponíveis no codificador) que representa uma inclinação espectral para um código de um, codebook no decodificador que representa uma estrutura atual do sinal de áudio. Esta informação pode ser transmitida junto com os códigos do sinal de áudio ao lado do decodificador onde pode ser aplicado na sintetização do sinal de áudio. A inclinação espectral pode ser determinada no codificador em uma forma descrita acima com relação às figuras de 1 a 3 e pode ser aplicada no decodificador conforme descrito acima com relação às figuras de 1 a 3. Assim, as aplicações da invenção fornecem o codificador de áudio acima conforme mostrado na figura 5 junto com um decodificador de áudio para decodificar um sinal de áudio, em que o decodificador de áudio não precisa necessariamente determinar a inclinação espectral, ainda, é configurado para aplicar a inclinação espectral recebida do codificador ao código de um codebook utilizado para sintetizar uma estrutura atual do sinal de áudio. Por exemplo, o decodificador pode ter um sintetizador como o nas figuras de 1 a 3, exceto que a unidade de processamento 108 ou filtro 218 recebem a inclinação calculada e transmitida do codificador. A inclinação recebida pode ser armazenada, por exemplo, no armazenamento 216 ou em outro armazenamento.

[0047] Embora alguns aspectos foram descritos no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas (ou utilizando) por um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.

[0048] Dependendo de certas exigências da implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, e EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis armazenados nelas, que cooperam (ou podem cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.

[0049] Algumas aplicações de acordo com a invenção compreendem um transportador de dados tendo sinais de controle eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

[0050] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0051] Outra aplicação do método inventivo é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o código do programa para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitório.

[0052] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para, ou programado, para realizar um dos métodos descritos aqui.

[0053] Em algumas aplicações, um dispositivo lógico programável (por exemplo, uma matriz de campo de portas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, uma matriz de campo de portas programáveis pode cooperar com um microprocessador a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0054] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende- se que as modificações e variações das disposições e detalhes descritos aqui serão evidentes aos técnicos no assunto. É a intensão, assim, ser limitada apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.

REFERÊNCIAS

[0055] [1] Recomendação ITU-T G.718 : “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”

[0056] [2] Patente Norte-Americana 6,678,651 B2, “Short-Term Enhancement in CELP Speech Coding”.

Claims

1. Um aparelho para sintetizar um sinal de áudio, compreendendo: uma unidade de processamento (108, 110, 218) configurado para aplicar uma inclinação espectral ao código de um codebook (104, 202) utilizado para sintetizar uma estrutura atual do sinal de áudio, caracterizado pela inclinação espectral ser baseada na inclinação espectral da estrutura atual do sinal de áudio, em que o aparelho é configurado para determinar a inclinação espectral da estrutura atual do sinal de áudio com base na informação do envelope espectral para a estrutura atual do sinal de áudio, e em que a unidade de processamento (108, 110, 218) é configurada para aplicar a inclinação espectral pela filtragem do código do codebook (104, 202) com base em uma função de transferência que modela a inclinação espectral.

2. O aparelho, de acordo com a reivindicação 1, caracterizado pela informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral da estrutura atual do sinal de áudio é definida como segue:

com: fs(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência Fs(z) = 1/A (z), e N o tamanho do truncamento da resposta de impulso infinito fs(n).

3. O aparelho, de acordo com a reivindicação 1, caracterizado pela informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral da estrutura atual do sinal de áudio é definida como segue:

com: fe(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência

N o tamanho do truncamento da resposta de impulso infinito fs(n), e w1, w2 constantes de ponderação para definir a estrutura formântica da função de transferência Fe(z).

4. O aparelho, de acordo com a reivindicação 2 ou 3, caracterizado por N ser igual ao número de códigos no codebook (104, 202).

5. O aparelho, de acordo com a reivindicação 1, caracterizado pela função de transferência incluindo a inclinação espectral ser definida como segue:

com: Y inclinação espectral.

6. O aparelho, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pela unidade de processamento (108, 110, 218) ainda ser configurada para combinar a inclinação espectral determinada da estrutura atual do sinal de áudio com um fator relacionado à voz da estrutura anterior do sinal de áudio.

7. O aparelho, de acordo com a reivindicação 6, caracterizado pelo fator relacionado à voz da estrutura anterior do sinal de áudio ser definido como segue:

com:

8. O aparelho, de acordo com a reivindicação 6 ou 7, caracterizado pela unidade de processamento (108, 110, 218) ser configurada para aplicar a inclinação espectral pela filtragem do código do codebook (104, 202) com base em uma função de transferência incluindo a inclinação espectral e o fator relacionado à voz da estrutura anterior do sinal de áudio.

9. O aparelho, de acordo com a reivindicação 8, caracterizado pela função de transferência incluindo a inclinação espectral ser definida como segue:

com: a, b constantes.

10. O aparelho, de acordo com qualquer uma das reivindicações de 1 a 19, caracterizado pelo sinal de áudio ser um sinal de fala, em que a unidade de processamento para aplicar a inclinação espectral compreende um filtro (218), e em que o aparelho ainda compreende: um codebook adaptativo (204), um codebook fixo (202), o filtro (218) acoplado ao codebook fixo (202), o filtro (218) sendo configurado para aplicar a inclinação espectral determinada ao código do codebook fixo (202) para obter um código filtrado do codebook fixo (202) , um somador (206) acoplado ao codebook adaptativo (204) e ao filtro (218), o somador (206) configurado para combinar um código do codebook adaptativo (204) e o código filtrado do codebook fixo (202) para obter um código combinado, e um filtro de síntese de LPC (208) acoplado ao somador (206).

11. O aparelho, de acordo com a reivindicação 10, caracterizado por compreender: um amplificador de ganho de tom (214) acoplado entre o codebook adaptativo (204) e o somador (206), o amplificador de ganho de tom (214) configurado para multiplicar o código do codebook adaptativo (204) com um ganho de tom, e um amplificador de ganho de código (212) acoplado entre o filtro (218) e o somador (206), o amplificador de ganho de código (212) configurado para multiplicar o código filtrado do codebook fixo (202) com um ganho de código.

12. O aparelho, de acordo com a reivindicação 10 ou 11, caracterizado por compreender: um estimador de voz (220) acoplado ao codebook adaptativo (204) e ao somador (206), o estimador de voz (220) configurado para emitir um fator relacionado à voz da estrutura anterior do sinal de áudio ao filtro (218), e um armazenamento (216) configurado para armazenar coeficientes de LPC que descrevem a informação do envelope espectral para a estrutura atual do sinal de áudio, o armazenamento (216) sendo acoplado ao filtro (218).

13. Um decodificador de áudio, caracterizado por compreender um aparelho para sintetizar um sinal de áudio, de acordo com qualquer uma das reivindicações 1 ou 12.

14. Um sistema, caracterizado por compreender: um decodificador de áudio, de acordo com a reivindicação 13, e um codificador de áudio configurado para determinar de uma inclinação espectral de uma estrutura atual do sinal de áudio uma inclinação espectral para um código de um codebook (104, 202) que representa uma estrutura atual do sinal de áudio.

15. Um método para sintetizar um sinal de áudio, o método compreendendo: aplicar uma inclinação espectral ao código de um codebook (104, 202) utilizado para sintetizar uma estrutura atual do sinal de áudio, caracterizado pela inclinação espectral ser determinada com base na inclinação espectral da estrutura atual do sinal de áudio, em que a inclinação espectral da estrutura atual do sinal de áudio ser determinada com base na informação do envelope espectral para a estrutura atual do sinal de áudio, e em que a aplicação da inclinação espectral compreende filtragem do código do codebook (104, 202) com base em uma função de transferência que modela a inclinação espectral.

16. O método, de acordo com a reivindicação 15, caracterizado pela informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral da estrutura atual do sinal de áudio é determinada como segue:

17. O método, de acordo com a reivindicação 15, caracterizado pela informação do envelope espectral ser definida pelos coeficientes de LPC, e em que a inclinação espectral da estrutura atual do sinal de áudio é determinada como segue:

com: fe(n) a resposta de impulso infinito de um filtro de síntese de LPC (106, 208) tendo a função de transferência ,

N o tamanho do truncamento da resposta de impulso infinito fs(n), e w1, w2 constantes de ponderação para definir a estrutura formântica da função de transferência Fβ(z).

18. O método, de acordo com a reivindicação 16 ou 17, caracterizado por N ser igual ao número de códigos no codebook (104, 202).

19. O método, de acordo com a reivindicação 15 caracterizado pela função de transferência incluindo a inclinação espectral ser determinada como segue:

com: Y inclinação espectral.

20. O método, de acordo com qualquer uma das reivindicações de 15 a 19, caracterizado por compreender a combinação da inclinação espectral determinada da estrutura atual do sinal de áudio com um fator relacionado à voz da estrutura anterior do sinal de áudio.

21. O método, de acordo com a reivindicação 20, caracterizado pelo fator relacionado à voz da estrutura anterior do sinal de áudio ser determinado como segue:

22. O método, de acordo com a reivindicação 20 ou 21, caracterizado pela aplicação da inclinação espectral compreender a filtragem do código do codebook (104, 202) com base em uma função de transferência incluindo a inclinação espectral e o fator relacionado à voz da estrutura anterior do sinal de áudio.

23. O método, de acordo com a reivindicação 22, caracterizado pela função de transferência incluindo a inclinação espectral ser determinada como segue:

com: a, b constantes.

24. O método, de acordo com qualquer uma das reivindicações de 15 a 23, caracterizado pelo sinal de áudio ser um sinal de fala, e em que a síntese do sinal de áudio compreende uma estrutura do sinal de áudio: aplicar a inclinação espectral determinada ao código de um codebook fixo (202) para obter um código filtrado do codebook fixo (202), combinar um código de um codebook adaptativo (204) e o código filtrado do codebook fixo (202) para obter um código combinado, e filtrar o código combinado por um filtro de síntese de LPC (208).

25. O método, de acordo com a reivindicação 24, caracterizado por compreender multiplicar o código do codebook adaptativo (204) com um ganho de tom, e multiplicar o código filtrado do codebook fixo (202) com um ganho de código.

26. O método, de acordo com a reivindicação 24 ou 25, caracterizado por compreender: com base no código do codebook adaptativo (204) e o código combinado, gerar um fator relacionado à voz da estrutura anterior do sinal de áudio, e armazenar coeficientes de LPC que descrevem a informação do envelope espectral para a estrutura atual do sinal de áudio.