BR112018005910B1

BR112018005910B1 - Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema

Info

Publication number: BR112018005910B1
Application number: BR112018005910-2A
Authority: BR
Inventors: Johannes Fischer; Tom Bäckström; Emma JOKINEN
Original assignee: Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2023-10-10
Also published as: EP3353783A1; JP2018528480A; BR112018005910A2; WO2017050972A1; RU2712125C2; KR20180054823A; CA2998689A1; MX2018003529A; RU2018115191A3; ES2769061T3; RU2018115191A; CA2998689C; EP3353783B1; JP6654237B2; KR102152004B1; US10692510B2; CN108352166B; CN108352166A; US20180204580A1

Abstract

codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema. trata-se de um codificador para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear. o codificador compreende um estimador de ruído de fundo configurado para estimar ruído de fundo do sinal de áudio, um redutor de ruído de fundo configurado para gerar sinal de áudio com ruído de fundo reduzido subtraindo-se o ruído de fundo estimado do sinal de áudio do sinal de áudio e um preditor configurado para submeter o sinal de áudio à análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear (lpc) e para submeter o sinal de áudio com ruído de fundo reduzido à análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear (lpc). além disso, o codificador compreende um filtro de análise composto por uma cascata de filtros de domínio de tempo controlados pelo primeiro conjunto obtido de coeficientes de lpc e pelo segundo conjunto obtido de coeficientes de lpc.

Description

RELATÓRIO DESCRITIVO

[001] A presente invenção refere-se a um codificador para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear, um método correspondente e um sistema que compreende o codificador e um decodificador. Em outras palavras, a presente invenção se refere a um aprimoramento de fala unida e/ou abordagem de codificação, tal como, por exemplo, aprimoramento e conversão unidos de fala em código incorporando-se em um codec de CELP (livro de códigos excitado linear preditivo).

[002] Uma vez que dispositivos de fala e comunicação se tornaram universais e têm alta probabilidade de serem usados em condições adversas, a demanda por métodos de aprimoramento de fala que podem lidar com ambientes adversos aumentou. Consequentemente, por exemplo, em telefones móveis é, atualmente, comum utilizar métodos de atenuação de ruído como um bloco/etapa de pré- processamento para todo o processamento de fala subsequente, tal como conversão de fala em código. Existem diversas abordagens que incorporam aprimoramento de fala em conversores de fala em código [1, 2, 3, 4]. Embora tais projetos aperfeiçoem qualidade de fala transmitida, processamento em cascata não permite uma otimização/minimização perceptual unida de qualidade ou uma minimização unida de ruído e interferência de quantização tem sido pelo menos difícil.

[003] O objetivo de codecs de fala é permitir a transmissão de fala de alta qualidade com uma quantidade mínima de dados transmitidos. Para alcançar esse objetivo, representações eficientes do sinal é necessário, tal como modelagem do envelope espectral do sinal de fala por meio de previsão linear, a frequência fundamental por meio de um preditor a longo prazo e o restante com um livro de códigos de ruído. Essa representação é a base de codecs de fala com o uso do paradigma de código excitado por previsão linear (CELP), o qual é usado em padrões principais de conversão de fala em código, tais como Múltipla Taxa Adaptativa (AMR), AMR de Banda Larga (AMR-WB), Fala Unificada e Conversão de Áudio em Código (USAC) e Serviço de Voz Aprimorado (EVS) [5, 6, 7, 8, 9, 10, 11].

[004] Para comunicação de fala natural, falantes normalmente usam dispositivos em modos de mãos livres. Em tais casos, o microfone está normalmente longe da boca, pelo qual o sinal de fala pode se tornar facilmente distorcido por meio de interferências, tais como reverberação ou ruído de fundo. A degradação não afeta apenas a qualidade de fala percebida, mas também a inteligibilidade do sinal de fala e pode, portanto, obstruir severamente a naturalidade da conversa. Para aperfeiçoar a experiência de comunicação, é, então, benéfico aplicar métodos de aprimoramento de fala para atenuar ruído e reduzir os efeitos de reverberação. O campo de aprimoramento de fala é maduro e muitos métodos estão prontamente disponíveis [12]. Entretanto, uma maioria de algoritmos existentes é baseada em métodos de adição de sobreposição, tais como transformadas, como a transformada de Fourier a curto prazo (STFT), que aplicam adição de sobreposição com base em esquemas de janela, enquanto, por outro lado, codecs de CELP modelam o sinal com um preditor linear/filtro preditivo linear e aplicam janelas apenas no residual. Tais diferenças fundamentais tornam difícil fundir métodos de aprimoramento e conversão em código. Ainda assim, é claro que otimização unida de aprimoramento e conversão em código pode aperfeiçoar potencialmente qualidade, reduzir o atraso e a complexidade computacional.

[005] Portanto, há uma necessidade de uma abordagem melhorada.

[006] É um objetivo da presente invenção fornecer um conceito aperfeiçoado para processar um sinal de áudio com o uso de conversão em código preditiva linear. Esse objetivo é solucionado pela matéria das reivindicações independentes.

[007] As modalidades da presente invenção mostram um codificador para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear. O codificador compreende um estimador de ruído de fundo configurado para estimar ruído de fundo do sinal de áudio, um redutor de ruído de fundo configurado para gerar sinal de áudio com ruído de fundo reduzido subtraindose o ruído de fundo estimado do sinal de áudio do sinal de áudio e um preditor configurado para submeter o sinal de áudio a análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear (LPC) e para submeter o sinal de áudio com ruído de fundo reduzido a análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear (LPC). Além disso, o codificador compreende um filtro de análise composto por uma cascata de filtros de domínio de tempo controlados pelo primeiro conjunto obtido de coeficientes de LPC e pelo segundo conjunto obtido de coeficientes de LPC.

[008] A presente invenção é baseada na constatação de que um filtro de análise aperfeiçoado em um ambiente de conversão em código preditiva linear aumenta as propriedades de processamento de sinal do codificador. Mais especificamente, o uso de uma cascata ou uma série de filtros de domínio de tempo serialmente conectados aperfeiçoa a velocidade de processamento ou o tempo de processamento do sinal de áudio de entrada se os ditos filtros forem aplicados a um filtro de análise do ambiente de conversão em código preditiva linear. Isso é vantajoso uma vez que a conversão de tempo e frequência tipicamente usada e a conversão de tempo e frequência inversa do sinal de áudio de domínio de tempo de entrada para reduzir ruído de fundo filtrando- se bandas de frequência que são dominadas por ruído é omitida. Em outras palavras, realizando-se a redução ou o cancelamento de ruído de fundo como uma parte do filtro de análise, a redução de ruído de fundo pode ser realizada no domínio de tempo. Dessa forma, o procedimento de sobreposição e adição de, por exemplo, uma MDCT/IDMCT (transformada de cosseno distinta modificada [inversa]), a qual pode ser usada para conversão de tempo/frequência/tempo, é omitido. Esse método de sobreposição e adição limita a característica de processamento em tempo real do codificador, uma vez que a redução de ruído de fundo não pode ser realizada em um único quadro, mas apenas em quadros consecutivos.

[009] Em outras palavras, o codificador descrito tem capacidade para realizar a redução de ruído de fundo e, portanto, todo o processamento do filtro de análise em um único quadro de áudio e, dessa forma, permite processamento em tempo real de um sinal de áudio. O processamento em tempo real pode se referir a um processamento do sinal de áudio sem um atraso perceptível para os usuários participantes. Um atraso perceptível pode ocorrer, por exemplo, em uma teleconferência se um usuário tiver que esperar por uma resposta do outro usuário devido a um atraso de processamento do sinal de áudio. Esse atraso máximo permitido pode ser menor que 1 segundo, preferencialmente abaixo de 0,75 segundo ou ainda mais preferencialmente abaixo de 0,25 segundo. Observou-se que esses tempos de processamento se referem a todo o processamento do sinal de áudio do remetente ao destinatário e, dessa forma, incluem, além do processamento de sinal do codificador além do tempo de transmissão do sinal de áudio e do processamento de sinal no decodificador correspondente.

[010] De acordo com modalidades, a cascata de filtros de domínio de tempo, e, portanto, o filtro de análise, compreende duas vezes um filtro de previsão linear com o uso do primeiro conjunto obtido de coeficientes de LPC e uma vez uma inversão de um filtro de previsão linear adicional com o uso do segundo conjunto obtido de coeficientes de LPC. Esse processamento de sinal pode ser denominado como filtração de Wiener. Dessa forma, em outras palavras, a cascata de filtros de domínio de tempo pode compreender um filtro de Wiener.

[011] De acordo com modalidades adicionais, o estimador de ruído de fundo pode estimar uma autocorrelação do ruído de fundo como uma representação do ruído de fundo do sinal de áudio. Além disso, o redutor de ruído de fundo pode gerar a representação do sinal de áudio com ruído de fundo reduzido subtraindo-se a autocorrelação do ruído de fundo a partir de uma autocorrelação estimada do sinal de áudio, em que a correlação de áudio estimada do sinal de áudio é a representação do sinal de áudio e em que a representação do sinal de áudio com ruído de fundo reduzido é uma autocorrelação do sinal de áudio com ruído de fundo reduzido. O uso da estimativa de funções de autocorrelação em vez do uso do domínio de tempo sinal de áudio para calcular os coeficientes de LPC e para realizar a redução de ruído de fundo permite um processamento completo de sinal no domínio de tempo. Portanto, a autocorrelação do sinal de áudio e a autocorrelação do ruído de fundo podem ser calculadas convoluindo-se ou usando-se uma convolução integral de um quadro de áudio ou uma subparte do quadro de áudio. Dessa forma, a autocorrelação do ruído de fundo pode ser realizada em um quadro ou até apenas em um subquadro, o qual pode ser definido como o quadro ou a parte do quadro em que (quase) nenhum sinal de áudio de primeiro plano, tal como fala, está presente. Além disso, a autocorrelação do sinal de áudio com ruído de fundo reduzido pode ser calculada subtraindo-se a autocorrelação de ruído de fundo e a autocorrelação do sinal de áudio (compreendendo ruído de fundo). O uso da autocorrelação do sinal de áudio com ruído de fundo reduzido e do sinal de áudio (que tem, tipicamente, ruído de fundo) permite calcular os coeficientes de LPC para o sinal de áudio com ruído de fundo reduzido e o sinal de áudio, respectivamente. Os coeficientes de LPC com ruído de fundo reduzido pode ser denominado como o segundo conjunto de coeficientes de LPC, em que os coeficientes de LPC do sinal de áudio podem ser denominados como o primeiro conjunto de coeficientes de LPC. Portanto, o sinal de áudio pode ser completamente processado no domínio de tempo, uma vez que a aplicação da cascata de filtros de domínio de tempo também realiza sua filtração no sinal de áudio no domínio de tempo.

[012] Antes de as modalidades serem descritas em detalhes com o uso das Figuras anexas, deve ser mostrado que aos mesmos elementos ou elementos funcionalmente iguais são dados os mesmos números de referência nas Figuras e que uma descrição repetida para elementos dotados dos mesmos números de referência é omitida. Logo, as descrições fornecidas para os elementos que têm os mesmos números de referência são mutuamente intercambiáveis.

[013] As modalidades da presente invenção serão discutidas subsequentemente com referência aos desenhos anexos, em que: A Figura 1 mostra um diagrama de blocos esquemático de um sistema que compreende o codificador para codificar um sinal de áudio e um decodificador; A Figura 2 mostra um diagrama de blocos esquemático de a) um esquema de codificação de aprimoramento em cascata, b) um esquema de conversão de fala em código de CELP e c) o esquema de codificação de aprimoramento unido inventivo; A Figura 3 mostra um diagrama de blocos esquemático da modalidade da Figura 2 com uma notação diferente; A Figura 4 mostra um gráfico em linha esquemático da SNR de magnitude perceptual (razão de sinal para ruído), conforme definido na equação 23 para a abordagem unida proposta (J) e o método em cascata (C), em que o sinal de entrada foi degradado por ruído de carro não estacionário e os resultados são apresentados para duas faixas de bits diferentes (7,2 kbit/s indicada pelo subscrito 7 e 13,2 kbit/s indicado pelo subscrito 13); A Figura 5 mostra um gráfico em linha esquemático da SNR de magnitude perceptual, conforme definido na equação 23 para a abordagem unida proposta (J) e o método em cascata (C), em que o sinal de entrada foi degradado por ruído branco estacionário e os resultados são apresentados para duas faixas de bits diferentes (7,2 kbit/s indicada pelo subscrito 7 e 13,2 kbit/s indicado pelo subscrito 13); A Figura 6 mostra uma plotagem esquemática que mostra uma ilustração das pontuações de MUSHRA para os falantes de Inglês diferentes (feminino (F) e masculino (M)) para duas interferências diferentes (ruído branco (W) e ruído de carro (C)), para duas SNRs de entrada diferentes (10 dB (1) e 20 dB (2)), em que todos os itens foram codificados em duas taxas de bits (7,2 kbit/s (7) e 13,2 kbit/s (13)), para a abordagem unida proposta (JE) e o aprimoramento em cascata (CE), em que REF foi a referência escondida, LP a âncora de passa-baixa de 3,5 kHz e Mix a mistura distorcida; A Figura 7 mostra uma plotagem de pontuações de MUSHRA diferenças, simuladas através de duas faixas de bits diferentes, comparando o novo aprimoramento unido (JE) com uma abordagem em cascata (CE); e A Figura 8 mostra um fluxograma esquemático de um método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear.

[014] A seguir, as modalidades da invenção serão descritas em detalhes adicionais. Os elementos mostrados nas respectivas Figuras que têm a mesma funcionalidade ou uma funcionalidade semelhante têm associados aos mesmos os mesmos símbolos de referência.

[015] O seguinte descreverá um método para aprimoramento e conversão em código unidos, com base na filtração de Wiener [12] e conversão de CELP em código. As vantagens dessa fusão são que 1) a inclusão de filtração de Wiener na cadeia de processamento não aumenta o atraso algorítmico baixo do codec de CELP e que 2) a otimização unida minimiza simultaneamente a distorção devido à quantização e ao ruído de fundo. Além disso, a complexidade computacional do esquema unido é menor que a complexidade da abordagem em cascata. A implantação depende de trabalho recente em janelas residuais nos codecs de estilo CELP [13, 14, 15], o que permite incorporar a filtração de Wiener nos filtros do codec de CELP de uma nova forma. Com essa abordagem, pode ser demonstrado que a qualidade tanto objetiva quanto subjetiva é aperfeiçoada em comparação com um sistema em cascata.

[016] O método proposto para aprimoramento e conversão unidos de fala em código evita, portanto, o acúmulo de erros devido ao processamento em cascata e aperfeiçoa adicionalmente qualidade de saída perceptual. Em outras palavras, o método proposto evita o acúmulo de erros devido ao processamento em cascata, como uma minimização unida de distorção de interferência e quantização é realizado por uma filtração de Wiener ideal em um domínio perceptual.

[017] A Figura 1 mostra um diagrama de blocos esquemático de um sistema 2 que compreende um codificador 4 e um decodificador 6. O codificador 4 é configurado para codificar um sinal de áudio 8’ com ruído de fundo reduzido com o uso de conversão em código preditiva linear. Portanto, o codificador 4 pode compreender um estimador de ruído de fundo 10 configurado para estimar uma representação de ruído de fundo 12 do sinal de áudio 8’. O codificador pode compreender adicionalmente um redutor de ruído de fundo 14 configurado para gerar uma representação de um sinal de áudio com ruído de fundo reduzido 16 subtraindo-se a representação do ruído de fundo estimado 12 do sinal de áudio 8’ de uma representação do sinal de áudio 8. Portanto, o redutor de ruído de fundo 14 pode receber a representação de ruído de fundo 12 a partir do estimador de ruído de fundo 10. Uma entrada adicional do redutor de ruído de fundo pode ser o sinal de áudio 8’ ou a representação do sinal de áudio 8. Opcionalmente, o redutor de ruído de fundo pode compreender um gerador configurado para gerar internamente a representação do sinal de áudio 8, tal como, por exemplo, uma autocorrelação 8 do sinal de áudio 8’.

[018] Além disso, o codificador 4 pode compreender um preditor 18 configurado para submeter a representação do sinal de áudio 8 a análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear (LPC) 20a e para submeter a representação do sinal de áudio com ruído de fundo reduzido 16 a análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear 20b. De modo semelhante ao redutor de ruído de fundo 14, o preditor 18 pode compreender um gerador para gerar internamente a representação do sinal de áudio 8 a partir do sinal de áudio 8’. Entretanto, pode ser vantajoso usar um gerador comum ou central 17 para calcular a representação 8 do sinal de áudio 8’ uma vez e fornecer a representação do sinal de áudio, tal como a autocorrelação do sinal de áudio 8’, ao redutor de ruído de fundo 14 e ao preditor 18. Dessa forma, o preditor pode receber a representação do sinal de áudio 8 e a representação do sinal de áudio com ruído de fundo reduzido 16, por exemplo, a autocorrelação do sinal de áudio e a autocorrelação do sinal de áudio com ruído de fundo reduzido, respectivamente, e determinar, com base nos sinais de entrada, o primeiro conjunto de coeficientes de LPC e o segundo conjunto de coeficientes de LPC, respectivamente.

[019] Em outras palavras, o primeiro conjunto de coeficientes de LPC pode ser determinado a partir da representação do sinal de áudio 8 e o segundo conjunto de coeficientes de LPC pode ser determinado a partir da representação do sinal de áudio com ruído de fundo reduzido 16. O preditor pode realizar o algoritmo de Levinson- Durbin para calcular o primeiro e o segundo conjunto de coeficientes de LPC a partir da respectiva autocorrelação.

[020] Além disso, o codificador compreende um filtro de análise 22 composto por uma cascata 24 de filtros de domínio de tempo 24a, 24b controlados pelo primeiro conjunto obtido de coeficientes de LPC 20a e pelo segundo conjunto obtido de coeficientes de LPC 20b. O filtro de análise pode aplicar a cascata de filtros de domínio de tempo, em que os coeficientes de filtro do primeiro filtro de domínio de tempo 24a são o primeiro conjunto de coeficientes de LPC e os coeficientes de filtro do segundo filtro de domínio de tempo 24b são o segundo conjunto de coeficientes de LPC, ao sinal de áudio 8’ para determinar um sinal residual 26. O sinal residual pode compreender os componentes de sinal do sinal de áudio 8’ que podem não ser representados por um filtro linear que tem o primeiro e/ou o segundo conjunto de coeficientes de LPC.

[021] De acordo com as modalidades, o sinal residual pode ser fornecido a um quantizador 28 configurado para quantizar e/ou codificar o sinal residual e/ou o segundo conjunto de coeficientes de LPC 24b antes da transmissão. O quantizador pode, por exemplo, realizar excitação convertida em código por transformada (TCX), previsão linear excitada por código (CELP) ou uma codificação sem perda, tal como, por exemplo, conversão em código por entropia.

[022] De acordo com uma modalidade adicional, a codificar do sinal residual pode ser realizada em um transmissor 30 como uma alternativa à codificação no quantizador 28. Dessa forma, o transmissor, por exemplo, realiza excitação convertida em código por transformada (TCX), previsão linear excitada por código (CELP) ou uma codificação sem perda, tal como, por exemplo, conversão em código por entropia para codificar o sinal residual. Além disso, o transmissor pode ser configurado para transmitir o segundo conjunto de coeficientes de LPC. Um receptor opcional é o decodificador 6. Portanto, o transmissor 30 pode receber o sinal residual 26 ou o sinal residual quantizado 26’. De acordo com uma modalidade, o transmissor pode codificar o sinal residual ou o sinal residual quantizado, pelo menos se o sinal residual quantizado não já estiver codificado no quantizador. Após codificação opcional, o sinal residual ou, alternativamente, o sinal residual quantizado, o respectivo sinal fornecido ao transmissor é transmitido como um sinal residual codificado 32 ou como um sinal residual codificado e quantizado 32’. Além disso, o transmissor pode receber o segundo conjunto de coeficientes de LPC 20b’, codificar opcionalmente o mesmo, por exemplo, com o mesmo método de codificação usado para codificar o sinal residual, e transmitir adicionalmente o segundo conjunto de coeficientes de LPC codificados 20b’, por exemplo, ao decodificador 6, sem transmitir o primeiro conjunto de coeficientes de LPC. Em outras palavras, o primeiro conjunto de coeficientes de LPC 20a não precisa ser transmitido.

[023] O decodificador 6 pode receber adicionalmente o sinal residual codificado 32 ou, alternativamente, o sinal residual codificado quantizado 32’ e, adicionalmente para um dentre os sinais residuais 32 ou 32’, o segundo conjunto de coeficientes de LPC codificados 20b’. O decodificador pode decodificar os sinais únicos recebidos e fornecer o sinal residual decodificado 26 a um filtro de síntese. O filtro de síntese pode ser o inverso de um filtro de FIR (resposta de impulso finito) preditivo linear que tem o segundo conjunto de coeficientes de LPC como os coeficientes de filtro. Em outras palavras, um filtro que tem o segundo conjunto de coeficientes de LPC é invertido para formar o filtro de síntese do decodificador 6. A emissão do filtro de síntese e, portanto, a emissão do decodificador é o sinal de áudio decodificado 8’’.

[024] De acordo com modalidades, o estimador de ruído de fundo pode estimar uma autocorrelação 12 do ruído de fundo do sinal de áudio como uma representação do ruído de fundo do sinal de áudio. Além disso, o redutor de ruído de fundo pode gerar a representação do sinal de áudio com ruído de fundo reduzido 16 subtraindose a autocorrelação do ruído de fundo 12 de uma autocorrelação do sinal de áudio 8, em que a autocorrelação estimada 8 do sinal de áudio é a representação do sinal de áudio e em que a representação do sinal de áudio com ruído de fundo reduzido 16 é uma autocorrelação do sinal de áudio com ruído de fundo reduzido.

[025] A Figura 2 e a Figura 3 se referem, amas, à mesma modalidade, entretanto, com o uso de uma notação diferente. Dessa forma, a Figura 2 mostra ilustrações das abordagens em cascata e de aprimoramento/conversão em código unidos, em que WN e WC representam o embranquecimento dos sinais com ruído e limpos, respectivamente, e e seus inversos correspondentes. Entretanto, a Figura 3 mostra ilustrações das abordagens em cascata e de aprimoramento/conversão em código unidos, em que Ay e As representam os filtros de embranquecimento dos sinais com ruído e limpos, respectivamente, e Hy e Hs são filtros de reconstrução (ou síntese), seus inversos correspondentes.

[026] Tanto a Figura 2a quanto a Figura 3a mostram uma parte de aprimoramento e uma parte de conversão em código da cadeia de processamento de sinal, realizando, dessa forma, um aprimoramento em cascata e uma codificação. A parte de aprimoramento 34 pode operar no domínio de frequência, em que os blocos 36a e 36b podem realizar uma conversão de tempo em frequência com o uso de, por exemplo, uma MDCT e uma conversão de frequência em tempo com o uso de, por exemplo, uma IMDCT ou qualquer outra transformada adequada para realizar a conversão de tempo em frequência e de frequência em tempo. Os filtros 38 e 40 podem realizar uma redução de ruído de fundo do sinal de áudio transformado em frequência 42. No presente documento, aquelas partes de frequência do ruído de fundo podem ser filtradas reduzindo-se seu impacto no espectro de frequência do sinal de áudio 8’. O conversor de frequência em tempo 36b pode, portanto, realizar a transformada inversa do domínio de frequência no domínio de tempo. Após a redução de ruído de fundo ter sido realizada na parte de aprimoramento 34, a parte de conversão em código 35 pode realizar a codificação do sinal de áudio com ruído de fundo reduzido. Portanto, o filtro de análise 22’ calcula um sinal residual 26’’ com o uso de coeficientes de LPC apropriados. O sinal residual pode ser quantizado e fornecido ao filtro de síntese 44, o qual é, no caso da Figura 2a e da Figura 3a, o inverso do filtro de análise 22’. Uma vez que o filtro de síntese 42 é o inverso do filtro de análise 22’, no caso da Figura 2a e da Figura 3a, os coeficientes de LPC usados para determinar o sinal residual 26 são transmitidos ao decodificador para determinar o sinal de áudio decodificado 8’’.

[027] A Figura 2b e a Figura 3b mostram o estágio de conversão em código 35 sem a redução de ruído de fundo anteriormente realizada. Uma vez que o estágio de conversão em código 35 já é descrito em relação à Figura 2a e à Figura 3a, uma descrição adicional é omitida para evitar repetir meramente a descrição.

[028] A Figura 2c e a Figura 3c se referem ao conceito principal de codificação de aprimoramento unido. Mostra-se que o filtro de análise 22 compreende uma cascata de filtros de domínio de tempo com o uso de filtros Ay e Hs. Mais precisamente, a cascata de filtros de domínio de tempo compreende duas vezes um filtro de previsão linear com o uso do primeiro conjunto obtido de coeficientes de LPC 20a e uma vez uma inversão de um filtro de previsão linear adicional com o uso do segundo conjunto obtido de coeficientes de LPC 20b (Hs). Essa disposição de filtros ou essa estrutura de filtro pode ser denominada como um filtro de Wiener. Entretanto, deve ser observado que um filtro de previsão Hs se concela com o filtro de análise As. Em outras palavras, também pode se aplicar duas vezes o filtro Ay (denotado por )), duas vezes o filtro Hs (denotado por )) e uma vez o filtro As.

[029] Conforme já descrito em relação à Figura 1, os coeficientes de LPC para esses filtros foram determinados, por exemplo, com o uso de autocorrelação. Uma vez que a autocorrelação pode ser realizada no domínio de tempo, nenhuma conversão de tempo em frequência tem que ser realizada para implantar o aprimoramento e codificação unidos. Além disso, essa abordagem é vantajosa uma vez que a cadeia de processamento adicional de transmissão de quantização de uma filtração de síntese permanece a mesma em comparação com o estágio de conversão em código 35 descrito em relação às Figuras 2a e 3a. Entretanto, deve ser observado que os coeficientes de filtro de LPC com base no sinal com ruído de fundo reduzido devem ser transmitidos ao decodificador para filtração de síntese apropriada. Entretanto, de acordo com uma modalidade adicional, em vez de transmitir os coeficientes de LPC, os coeficientes de filtro já calculados do filtro 24b (representados pela inversão dos coeficientes de filtro 20b) podem ser transmitidos para evitar uma inversão adicional do filtro linear que tem os coeficientes de LPC para derivar o filtro de síntese 42, uma vez que essa inversão já foi realizada no codificador. Em outras palavras, em vez de transmitir os coeficientes de filtro 20b, a inversão em matriz desses coeficientes de filtro pode ser transmitida, evitando, dessa forma, para realizar a inversão duas vezes. Além disso, deve ser observado que o filtro no lado do codificador 24b e o filtro de síntese 42 podem ser o mesmo filtro, aplicado no codificador e no decodificador, respectivamente.

[030] Em outras palavras em relação à Figura 2, codecs de fala com base no modelo de CELP são baseados em um modelo de produção de fala que presume que a correlação do sinal de entrada de fala sn pode ser modelada por um filtro de previsão linear com coeficientes a = [a0, alt..., aM]T, em que M é a ordem de modelo [16]. O rn = an * Sn residual, o qual é a parte do sinal de fala que não pode ser prevista pelo filtro de previsão linear, é, então, quantizado com o uso de quantização vetorial.

[031] Deixe que sk = [Sk, Sk-1, ..., Sk-M]T seja um vetor do sinal de entrada, em que o sobrescrito T denota a transposição. O residual pode ser, então, expresso como

[032] Dada a matriz de autocorrelação RSS do vetor de sinal de fala sk

[033] uma estimativa do filtro de previsão de ordem M pode ser dada como [20]

[034] em que u = [1, 0, 0, ..., 0]Te o erro de previsão escalar é escolhido de forma que a0 = 1. Observe que o filtro preditivo linear an é um filtro de embranquecimento, pelo qual rk é ruído branco não correlacionado. Além disso, o sinal original sn pode ser reconstruído a partir do rn residual através de filtração de IIR com o preditor an. A próxima etapa é quantizar vetores do rk = [rkN, rkN-i, ..., rkN-N+I]T residual com um quantizador vetorial para , de forma que a distorção perceptual seja minimizada. Deixe que um vector do sinal de saída seja sk = [SkN, SkN-i, ..., Sk-N+I]T e sua contraparte quantizada e W uma matriz de convolução que aplica ponderação perceptual na saída. O problema de otimização perceptual pode ser, então, escrito como

[035] em que H é uma matriz de convolução que corresponde à resposta de impulso do preditor an.

[036] O processo de conversão de fala em código do tipo CELP é retratado na Figura 2b. O sinal de entrada é, primeiro, branqueado com o filtro para obter o sinal residual. Os vetores do residual são, então, quantizados no bloco Q. Finalmente, a estrutura de envelope espectral é, então, reconstruída pela filtração de IIR, A-1(z) para obter o sinal de saída quantizado sk. Uma vez que o sinal ressintetizado é avaliado no domínio perceptual, essa abordagem é conhecida como a análise pelo método por meio de síntese.

FILTRAÇÃO DE WIENER

[037] No aprimoramento de fala de canal único, presume-se que o sinal yn é adquirido, o qual é uma mistura aditiva do sinal de fala limpo desejado sn e alguma interferência indesejada vn, que é

[038] O objetivo do processo de aprimoramento é estimar o sinal de fala limpo sn, embora apenas o sinal com ruído seja acessível yn, e estimar as matrizes de correlação

[039] Em que yk = [yk, yk-1, ..., yk-M]T. Com o uso de uma matriz de filtro H, a estimativa do sinal de fala limpo é definida como

[040] O filtro ideal no sentido de erro de quadrados mínimos médios (MMSE), conhecido como o filtro de Wiener, pode ser prontamente derivado como [12]

[041] Normalmente, a filtração de Wiener é aplicada em janelas sobrepostas do sinal de entrada e reconstruída com o uso do método de sobreposição e adição [21, 12]. Essa abordagem é ilustrada no Bloco de aprimoramento da Figura 2a. Entretanto, a mesma leva a um aumento no atraso algorítmico que corresponde ao comprimento da sobreposição entre janelas. Para evitar tal atraso, um objetivo é fundir a filtração de Wiener com um método com base na previsão linear.

[042] Para obter tal conexão, o sinal de fala estimado é substituído na Eq. 1, pelo qual

[043] em que y é um coeficiente de escalonamento e

[044] é o preditor ideal para o sinal com ruído yn. Em outras palavras, filtrando- se o sinal com ruído com a‘, o residual (escalonado) do sinal limpo estimado é obtido. O escalonamento é a razão entre os erros residuais esperados dos sinais limpos e com ruído,, respectivamente, isto é, . Essa derivação mostra, dessa forma, que a filtração de Wiener e a previsão linear são métodos intimamente relacionados e, na seção a seguir, essa conexão será usada para desenvolver um método de aprimoramento e conversão em código unidos.

INCORPORAÇÃO DE FILTRAÇÃO DE WIENER EM UM CODEC DE CELP

[045] Um objetivo é fundir a filtração de Wiener e codecs de CELP (descritos na seção 3 e na seção 2) em um algoritmo unido. Fundindo-se esses algoritmos, o atraso de janelas de sobreposição e adição exigido pelas implantações comuns de filtração de Wiener pode ser evitado e isso reduz a complexidade computacional.

[046] A implantação da estrutura unida é, então, direta. Mostra-se que o residual do sinal de fala aprimorado pode ser obtido pela Eq. 9. O sinal de fala aprimorado pode ser, portanto, reconstruído pela filtração de IIR do residual com o modelo preditivo linear an do sinal limpo.

[047] Para quantização do residual, a Eq. 4 pode ser modificada substituindo-se o sinal limpo com o sinal estimado para obter

[048] Em outras palavras, a função objetiva com o sinal-alvo aprimorado permanece a mesma como tendo acesso ao sinal limpo de entrada s'k.

[049] Em conclusão, a única modificação ao CELP padrão é substituir o filtro de análise a do sinal limpo com aquele do sinal com ruído a'. As partes restantes do algoritmo de CELP permanecem inalteradas. A abordagem proposta é ilustrada na Figura 2(c).

[050] É claro que o método proposto pode ser aplicado em quaisquer codecs de CELP com alterações mínimas sempre que a atenuação de ruído é desejada e quando se tem acesso a uma estimativa da autocorrelação do sinal de fala limpo Rss. Se uma estimativa da autocorrelação de sinal de fala limpo não estiver disponível, a mesma pode ser estimada com o uso de uma estimativa da autocorrelação do sinal de ruído R vv, por R ss ~ R yy - R vv ou outras estimativas comuns.

[051] O método pode ser prontamente estendido para situações tais como algoritmos de múltiplos canais com beamforming, desde que uma estimativa do sinal limpo seja obtenível com o uso de filtros de domínio de tempo.

[052] A vantagem na complexidade computacional do método proposto pode ser caracterizada conforme a seguir. Observe que, na abordagem convencional, é necessário determinar o filtro de matriz H, dado pela Eq. 8. A inversão de matriz exigida é de complexidade O(M3). Entretanto, na abordagem proposta apenas a Eq. 3 deve ser resolvida para o sinal com ruído, o qual pode ser implantado com o algoritmo de Levinson-Durbin (ou semelhante) com complexidade 0(N2).

PREVISÃO LINEAR EXCITADA POR CÓDIGO

[053] Em outras palavras em relação à Figura 3, codecs de fala com base no paradigma de CELP utilizam um modelo de produção de fala que presume que a correlação, e, portanto, o envelope espectral, do sinal de entrada de fala sn pode ser modelada por um filtro de previsão linear com coeficientes a = [a0, alt..., aM]T, em que M é a ordem de modelo, determinados pelo modelo de tubo subjacente [16]. O rn = an * Sn residual, a parte do sinal de fala que não pode ser prevista pelo filtro de previsão linear (também denominado com preditor 18), é, então, quantizado com o uso de quantização vetorial.

[054] O filtro preditivo linear as para um quadro do sinal de entrada s pode ser obtido, minimizando

[055] em que u = [1 0 0 ... 0]T. A solução segue como:

[056] Com a definição da matriz de convolução As, que consiste nos coeficientes de filtro a de as

[057] o sinal residual pode ser obtido multiplicando-se o quadro de fala de entrada com a matriz de convolução As

[058] A janela é, aqui, realizada como em codecs de CELP subtraindo-se a resposta de entrada zero do sinal de entrada e reintroduzindo-se a mesma na ressíntese [15].

[059] A multiplicação na Equação 15 é idêntica à convolução do sinal de entrada com o filtro de previsão e, portanto, corresponde a filtração de FIR. O sinal original pode ser reconstruído a partir do residual, por meio de uma multiplicação com o filtro de reconstrução Hs

[060] em que Hs, consiste na resposta de impulso η = [1,η1, ...,ηN-1] do filtro de previsão

[061] de forma que essa operação corresponda à filtração de IIR.

[062] O vetor residual é quantizado com aplicação de quantização vetorial. Portanto, o vetor quantizado ês é escolhido, minimizando a distância perceptual, no sentido da norma 2, para o sinal limpo reconstruído desejado:

[063] em que es é o residual não quantizado e W(z) = A(0,92z) é o filtro de ponderação perceptual, conforme usado no codec de fala AMR-WB [6].

APLICAÇÃO DE FILTRAÇÃO DE WIENER EM UM CODEC DE CELP

[064] Para a aplicação de aprimoramento de fala de canal único, presumindo que o sinal de microfone adquirido yn, é uma mistura aditiva do sinal de fala limpo desejado sn e alguma interferência indesejada vn, de forma que yn = sn + vn. No domínio Z, equivalentemente Y(z) = S(z) + V(z).

[065] Aplicando-se um filtro de Wiener B(z) é possível reconstruir o sinal de fala S(z) a partir da observação com ruído Y(z) por meio de filtração, de forma que o sinal estimado de fala seja. A solução de quadrados mínimos médios para o filtro de Wiener segue como [12]

[066] dada a presunção de que os sinais de fala e ruído sn e vn, respectivamente, não são correlacionados.

[067] Em um codec de fala, uma estimativa do espectro de potência está disponível a partir do sinal com ruído yn, na forma da resposta de impulso do modelo preditivo linear |Ay(z)|-2. Em outras palavras, |S(z)|2 + | V(z)|2 ≈ y|Ay(z)|-2, em que y é um coeficiente de escalonamento. O preditor linear com ruído pode ser calculado a partir da matriz de autocorrelação Ryy do sinal com ruído, conforme é comum.

[068] Além disso, o espectro de potência do sinal de fala limpo |S(z)|2 pode ser estimado ou, equivalentemente, a matriz de autocorrelação Rss do sinal de fala limpo. Os algoritmos de aprimoramento presumem, normalmente, que o sinal de ruído é estacionário, pelos quais a autocorrelação do sinal de ruído como Rvv pode ser estimada a partir de um quadro de não fala do sinal de entrada. A matriz de autocorrelação do sinal de fala limpo R ss pode ser, então, estimada como = R yy - Rvv. Aqui, é vantajoso tomar as precauções comuns para assegurar que permaneça definido positivo.

[069] Com o uso da matriz de autocorrelação estimada para fala limpa R ss, o preditor linear correspondente pode ser determinado, cuja resposta de impulso no domínio Z é. Dessa forma, |S(z)|2 ≈ |ÂS(z)|-2 e a Eq. 19 podem ser escritas como

[070] Em outras palavras, filtrando-se duas vezes com os preditores dos sinais com ruído e limpos, nos modos FIR e IIR, respectivamente, uma estimativa de Wiener do sinal limpo pode ser obtida.

[071] As matrizes de convolução podem ser denotadas correspondendo à filtração de FIR com preditores e Ay(z) por meio de As e Ay, respectivamente. De modo semelhante, deixe que Hs e Hy sejam as respectivas matrizes de convolução que correspondem à filtração preditiva (IIR). Com o uso dessas matrizes, a conversão de CELP em código convencional pode ser ilustrada com um fluxograma como na Figura 3b. Aqui, é possível filtrar o sinal de entrada sn com As para obter o residual, quantizar o mesmo e reconstruir o sinal quantizado filtrando-se com Hs.

[072] A abordagem convencional para combinar aprimoramento com conversão em código é ilustrada na Figura 3a, em que a filtração de Wiener é aplicada como um bloco de pré-processamento antes da conversão em código.

[073] Finalmente, na abordagem proposta, a filtração de Wiener é combinada com codecs de fala do tipo CELP. Com a comparação da abordagem em cascata da Figura 3a com a abordagem unida, ilustrada na Figura 3b, é evidente que o esquema de janela de janela de sobreposição e adição adicional (OLA) pode ser omitido. Além disso, o filtro As de entrada no codificador se cancela com Hs. Portanto, conforme mostrado na Figura 3c, o sinal limpo estimado residual segue filtrando-se o sinal de entrada deteriorado y com a combinação de filtro . Portanto, a minimização de erro segue:

[074] Dessa forma, essa abordagem minimiza de modo unido a distância entre a estimativa limpa e o sinal quantizado, pela qual uma minimização unida da interferência e o ruído de quantização no domínio perceptual são viáveis.

[075] O desempenho da abordagem da conversão de fala em código e aprimoramento unidos foi avaliado com o uso de medições tanto objetivas quanto subjetivas. A fim de isolar o desempenho do novo método, um codec de CELP simplificado é usado, em que apenas o sinal residual foi quantizado, mas o atraso e o ganho da previsão a longo prazo (LTP), a conversão em código preditiva linear (LPC) e os fatores de ganho não foram quantizados. O residual foi quantizado com o uso de um método iterativo em par, em que dois pulsos são adicionados consecutivamente experimentando-se os mesmos em todas as posições, conforme descrito em [17]. Além disso, para evitar qualquer influência de algoritmos de estimativa, presume-se que a matriz de correlação do sinal de fala limpo Rss é conhecida em todos os casos simulados. Com a presunção de que os sinais de fala e de ruído não são correlacionados, mantém-se que Rss = Ryy - Rvv. Em qualquer aplicação prática, a matriz de correlação de ruído Rvv ou, alternativamente, a matriz de correlação de fala limpa Rss tem que ser estimada a partir do sinal de microfone adquirido. Uma abordagem comum é estimar a matriz de correlação de ruído em intervalos de fala, presumindo que a interferência é estacionária.

[076] A situação avaliada consistiu em uma mistura do sinal de fala limpo desejado e interferência aditiva. Dois tipos de interferências foram considerados: ruído branco estacionário e um segmento de uma gravação de ruído de carro a partir da Biblioteca de Paisagem Sonora de Civilização [18]. A quantização de vetor do residual foi realizada com uma taxa de bits de 2,8 kbit/s e 7,2 kbit/s, correspondendo a uma taxa de bits geral de 7,2 kbit/s e 13,2 kbit/s, respectivamente, para um codec de AMR- WB [6]. Uma taxa de amostragem de 12,8 kHz foi usada para todas as simulações.

[077] Os sinais aprimorados e convertidos em código foram avaliados com o uso de medições tanto objetivas quanto subjetivas, portanto, um teste de audição foi conduzido e uma razão de sinal para ruído de magnitude perceptual (SNR) foi calculada, conforme definido na Equação 23 e na Equação 22. Essa SNR de magnitude perceptual foi usada uma vez que o processo de aprimoramento unido não tem nenhuma influência sobre a fase dos filtros, uma vez que os filtros tanto de síntese quanto de reconstrução são ligados à restrição de filtros de fase mínima, como por projeto de filtros de previsão.

[078] Com a definição da transformada de Fourier como o operador, os valores espectrais absolutos do sinal de referência limpo reconstruído e do sinal limpo estimado no domínio perceptual segue como:

[079] A definição da razão de sinal perceptual modificado para ruído (PSNR) segue como:

[080] Para a avaliação subjetiva, os itens de fala foram usados a partir do conjunto de teste usado para a padronização de USAC [8], corrompido por ruído branco e de carro, conforme descrito acima. Conduziu-se um teste de audição de Múltiplos Estímulos com Referência e Âncora Escondidos (MUSHRA) [19] com 14 participantes, com o uso de fones de ouvido eletrostáticos STAX em um ambiente à prova de som. Os resultados do teste de audição são ilustrados na Figura 6 e as pontuações de MUSHRA diferenciais na Figura 7, mostrando os intervalos médios e de 95% de confiança.

[081] Os resultados de teste de MUSHRA absoluto na Figura 6 mostram que a referência escondida sempre foi corretamente atribuída a 100 pontos. A mistura com ruído original recebeu a menor pontuação média para cada item, o que indica que todos os métodos de aprimoramento aperfeiçoaram a qualidade perceptual. As pontuações médias para a menor taxa de bits mostram um aperfeiçoamento estatisticamente significativo de 6,4 de pontos de MUSHRA para a média através de todos os itens em comparação com a abordagem em cascata. Para a maior taxa de bits, a média através de todos os itens mostra um aperfeiçoamento, o qual, entretanto, não é estatisticamente significativo.

[082] Para obter uma comparação mais detalhada dos métodos unidos e pré- aprimorados, as pontuações de MUSHRA diferentes são apresentadas na Figura 7, em que a diferença entre os métodos pré-aprimorados e unidos é calculada para cada ouvinte e item. Os resultados diferenciais verificam as pontuações de MUSHRA absolutas, mostrando-se um aperfeiçoamento estatisticamente significativo para a menor taxa de bits, enquanto o aperfeiçoamento para a maior taxa de bits não é estatisticamente significativo.

[083] Em outras palavras, um método para aprimoramento e conversão de fala em código unidos é mostrado, o qual permite a minimização de ruído de interferência e quantização em geral. Por outro lado, as abordagens convencionais aplicam aprimoramento e conversão em código nas etapas de processamento em cascata. A união de ambas as etapas de processamento também é atrativa em termos de complexidade computacional, uma vez que operações de janela e filtração repetidas podem ser omitidas.

[084] Os codecs de fala do tipo CELP são projetados para oferecer um atraso muito baixo e, portanto, evitar uma sobreposição de janelas de processamento a janelas de processamento futuras. Por outro lado, métodos de aprimoramento convencionais, aplicados no domínio de frequência, dependem de janelas de sobreposição e adição, as quais introduzem um atraso adicional que corresponde ao comprimento de sobreposição. A abordagem unida não exige janelas de sobreposição e adição, mas usa o esquema de janelas conforme aplicado em codecs de fala [15], pelo qual se evita o aumento no atraso algorítmico.

[085] Um problema conhecido com o método proposto é que, diferente da filtração de Wiener espectral convencional em que a fase de sinal é deixada intacta, o método proposto aplica filtros de domínio de tempo, os quais modificam a fase. Tais modificações de fase podem ser prontamente tratadas por meio de aplicação de filtros passa-tudo adequados. Entretanto, uma vez que não se observou qualquer degradação perceptual atribuída a modificações de fase, tais filtros passa-tudo foram omitidos para manter a complexidade computacional baixa. Observe, entretanto, que na avaliação objetiva, SNR de magnitude perceptual foi medida, para possibilitar uma comparação justa de métodos. Essa medição objetiva mostra que o método proposto é, em média, três dB melhor do que o processamento em cascata.

[086] A vantagem de desempenho do método proposto foi adicionalmente confirmada pelos resultados de um teste de audição de MUSHRA, o qual mostra um aperfeiçoamento médio de 6,4 pontos. Esses resultados demonstram que a aplicação de aprimoramento e conversão em código unidos é benéfica para o sistema em geral em termos tanto de qualidade quanto de complexidade computacional, enquanto se mantém o atraso algorítmico baixo de codecs de CELP de fala.

[087] A Figura 8 mostra um diagrama de blocos esquemático de um método 800 para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear. O método 800 compreende uma etapa S802 de estimar uma representação de ruído de fundo do sinal de áudio, uma etapa S804 de gerar uma representação de um sinal de áudio com ruído de fundo reduzido subtraindo-se a representação do ruído de fundo estimado do sinal de áudio de uma representação do sinal de áudio, uma etapa S806 de submeter a representação do sinal de áudio a análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear e para submeter a representação do sinal de áudio com ruído de fundo reduzido a análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear e uma etapa S808 de controlar uma cascata de filtros de domínio de tempo pela primeira etapa obtida de coeficientes de LPC e o segundo conjunto obtido de coeficientes de LPC para obter um sinal residual do sinal de áudio.

[088] Deve ser entendido que, neste relatório descritivo, os sinais nas linhas são, algumas vezes, nomeados pelos numerais de referência para as linhas ou são, algumas vezes, indicados pelos próprios numerais de referência, os quais foram atribuídos às linhas. Portanto, a notação é de forma que uma linha que tem um determinado sinal esteja indicando o próprio sinal. Uma linha pode ser uma linha física em uma implantação conectada por fios. Em uma implantação computadorizada, entretanto, uma linha física não existe, mas o sinal representado pela linha é transmitido de um módulo de cálculo para o outro módulo de cálculo.

[089] Embora a presente invenção tenha sido descrita no contexto de diagramas de blocos, em que os blocos representam componentes de hardware reais ou lógicos, a presente invenção também pode ser implantada por meio de um método implantado por computador. No último caso, os blocos representam etapas de método correspondentes, em que essas etapas significam as funcionalidades realizadas correspondendo-se blocos de hardware reais ou lógicos.

[090] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, algumas ou mais das etapas mais importantes das etapas do método podem ser executadas por tal aparelho.

[091] O sinal transmitido ou codificado da invenção pode ser armazenado em uma mídia de armazenamento digital ou pode ser transmitido em uma mídia de transmissão, tal como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio, tal como a Internet.

[092] Dependendo de determinadas exigências de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm capacidade para cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.

[093] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que têm sinais de controle eletronicamente legíveis, as quais têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.

[094] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dentre os métodos quando o produto de programa de computador opera em um computador. O código de programa pode ser armazenado, por exemplo, em uma portadora legível por máquina.

[095] Outras modalidades compreendem o programa de computador para realizar um dentre os métodos descritos no presente documento armazenados em uma portadora legível por máquina.

[096] Em outras palavras, uma modalidade do método da invenção é, portanto, um programa de computador que tem um código de programa para realizar um dentre os métodos descritos no presente documento, quando o programa de computador opera em um computador.

[097] Uma modalidade adicional do método da invenção é, portanto, uma portadora de dados (ou uma mídia de armazenamento não transitória, tal como uma mídia de armazenamento digital ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.

[098] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dentre os métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais podem ser configurados, por exemplo, para serem transferidos por meio de uma conexão de comunicação de dados, por exemplo, por meio da internet.

[099] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dentre os métodos descritos no presente documento.

[0100] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dentre os métodos descritos no presente documento.

[0101] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, de maneira eletrônica ou óptica) um programa de computador para realizar um dentre os métodos descritos no presente documento a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou o sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.

[0102] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.

[0103] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento. REFERÊNCIAS [1] M. Jeub e P. Vary, “Enhancement of reverberant speech using the CELP postfilter,” in Proc. ICASSP, abril de 2009, pp. 3.993 a 3.996. [2] M. Jeub, C. Herglotz, C. Nelke, C. Beaugeant, e P. Vary, “Noise reduction for dual-microphone mobile phones exploiting power level differences,” in Proc. ICASSP, março de 2012, pp. 1.693 a 1.696. [3] R. Martin, I. Wittke, e P. Jax, “Optimized estimation of spectral parameters for the coding of noisy speech,” in Proc. ICASSP, vol. 3, 2000, pp. 1.479 a 1.482 vol.3. [4] H. Taddei, C. Beaugeant, e M. de Meuleneire, “Noise reduction on speech codec parameters,” in Proc. ICASSP, vol. 1, maio de 2004, pp. I-497 a 500 vol.1. [5] 3GPP, “Mandatory speech CODEC speech processing functions; AMR speech Codec; General description,” 3rd Generation Partnership Project (3GPP), TS 26.071, 12 2009. [Online]. Disponível: http://www.3gpp.org/ftp/Specs/html- info/26071.htm [6] ——, “Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Disponível: http://www.3gpp.org/ftp/Specs/html-info/26190.htm [7] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, e K. Jarvinen, “The adaptive multirate wideband speech codec (AMR-WB),” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, pp. 620 a 636, novembro de 2002. [8] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012. [9] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, e B. Grill, “Unified speech and audio coding scheme for high quality at low bitrates,” in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, abril de 2009, pp. 1 a 4. [10] 3GPP, “TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Disponível: http://www.3gpp.org/ftp/Specs/html- info/26445.htm [11] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z.Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan, e C. Zhu, “Overview of the EVS codec architecture,” in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, abril de 2015, pp. 5.698 a 5.702. [12] J. Benesty, M. Sondhi, e Y. Huang, Springer Handbook of Speech Processing. Springer, 2008. [13] T. Bãckstrõm, “Computationally efficient objective function for algebraic codebook optimization in ACELP,” in Proc. Interspeech, agosto de 2013. [14] ——, “Comparison of windowing in speech and audio coding,” in Proc. WASPAA, New Paltz, EUA, outubro de 2013. [15] J. Fischer e T. Bãckstrõm, “Comparison of windowing schemes for speech coding,” in Proc EUSIPCO, 2015. [16] M. Schroeder e B. Atal, “Code-excited linear prediction (CELP): High- quality speech at very low bit rates,” in Proc. ICASSP. IEEE, 1985, pp. 937 a 940. [17] T. Bãckstrõm e C. R. Helmrich, “Decorrelated innovative codebooks for ACELP using factorization of autocorrelation matrix,” in Proc. Interspeech, 2014, pp. 2.794 a 2.798. [18] soundeffects.ch, “Civilisation soundscapes library,” accessed: 23.09.2015. [Online]. Disponível: https://www.soundeffects.ch/de/geraeusch- archive/soundeffects.ch- produkte/civilisation-soundscapes-d.php [19] Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R Recommendation BS.1534, 2003. [Online]. Disponível: http://www.itu.int/rec/R-REC-BS.1534/en. [20] P. P. Vaidyanathan, \The theory of linear prediction," in Synthesis Lectures on Signal Processing, vol. 2, pp. 1{184. Morgan & Claypool publishers, 2007. [21] J. Allen, \Short-term spectral analysis, and modification by discrete Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. 25, pp. 235 a 238, 1977.

Claims

1. Codificador (4) para codificar um sinal de áudio (8’) com ruído de fundo reduzido com o uso de conversão em código preditiva linear, sendo que o codificador (4) é caracterizado por compreender: um estimador de ruído de fundo (10) configurado para estimar uma representação de ruído de fundo (12) do sinal de áudio (8’); um redutor de ruído de fundo (14) configurado para gerar uma representação de um sinal de áudio com ruído de fundo reduzido (16) subtraindo-se a representação do ruído de fundo estimado (12) do sinal de áudio (8’) de uma representação do sinal de áudio (8); um preditor (18) configurado para submeter a representação do sinal de áudio (8) à análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear (LPC) (20a) e para submeter a representação do sinal de áudio com ruído de fundo reduzido (12) à análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear (LPC) (20b); e um filtro de análise (22) composto por uma cascata de filtros de domínio de tempo (24, 24a, 24b) controlados pelo primeiro conjunto obtido de coeficientes de LPC (20a) e o segundo conjunto obtido de coeficientes de LPC (20b) para obter um sinal residual (26) a partir do sinal de áudio (8’).

2. Codificador (4), de acordo com a reivindicação 1, caracterizado por a cascata de filtros de domínio de tempo (24) compreender duas vezes um filtro de previsão linear (24a) com o uso do primeiro conjunto obtido de coeficientes de LPC (20a) e uma vez um inverso de um filtro de previsão linear adicional (24b) com o uso do segundo conjunto obtido de coeficientes de LPC (20b).

3. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 2, caracterizado por a cascata de filtros de domínio de tempo (24) ser um filtro de Wiener.

4. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por o estimador de ruído de fundo (10) ser configurado para estimar uma autocorrelação do ruído de fundo como uma representação do ruído de fundo (12) do sinal de áudio (8); em que o redutor de ruído de fundo (14) é configurado para gerar a representação do sinal de áudio com o ruído de fundo reduzido (16) subtraindo-se a autocorrelação do ruído de fundo (12) de uma autocorrelação do sinal de áudio (8), em que a autocorrelação do sinal de áudio (8) é a representação do sinal de áudio e em que a representação do sinal de áudio com o ruído de fundo reduzido (16) é uma autocorrelação de um sinal de áudio com ruído de fundo reduzido.

5. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por a representação ser uma autocorrelação.

6. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por compreender adicionalmente um transmissor (30) configurado para transmitir o segundo conjunto de coeficientes de LPC (20b).

7. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por compreender adicionalmente um transmissor configurado para transmitir o sinal residual (26).

8. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por compreender adicionalmente um quantizador (28) configurado para quantizar e/ou codificar o sinal residual (26) antes da transmissão.

9. Codificador (4), de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por compreender adicionalmente um quantizador (28) configurado para quantizar e/ou codificar o segundo conjunto de coeficientes de LPC (20b) antes da transmissão.

10. Codificador, de acordo com a reivindicação 8 ou 9, caracterizado por o quantizador ser configurado para usar previsão linear excitada por código (CELP), conversão em código por entropia ou excitação convertida em código por transformada (TCX).

11. Sistema (2) caracterizado por compreender: o codificador (4), conforme definido em qualquer uma das reivindicações anteriores; um decodificador (6) configurado para decodificar o sinal de áudio codificado.

12. Método (800) para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear, sendo que o método é caracterizado por compreender: estimar (S802) uma representação de ruído de fundo do sinal de áudio; gerar (S804) uma representação de um sinal de áudio com ruído de fundo reduzido subtraindo-se a representação do ruído de fundo estimado do sinal de áudio de uma representação do sinal de áudio; submeter (S806) a representação do sinal de áudio à análise de previsão linear para obter um primeiro conjunto de coeficientes de filtro de previsão linear (LPC) e submeter a representação do sinal de áudio com ruído de fundo reduzido à análise de previsão linear para obter um segundo conjunto de coeficientes de filtro de previsão linear (LPC); e controlar (S808) uma cascata de filtros de domínio de tempo pelo primeiro conjunto obtido de coeficientes de LPC e o segundo conjunto obtido de coeficientes de LPC para obter um sinal residual do sinal de áudio.