BR112015031178B1

BR112015031178B1 - Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto

Info

Publication number: BR112015031178B1
Application number: BR112015031178-4A
Authority: BR
Inventors: Christian Helmrich; Goran Markovic; Michael Schnabel; Ralph Sperschneider; Jérémie Lecomte
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date: 2013-06-21
Filing date: 2014-06-23
Publication date: 2022-03-22
Also published as: CA2914869A1; US20160104489A1; CA2915014A1; EP3011557B1; JP2016527541A; US11501783B2; PT3011557T; RU2016101521A; RU2675777C2; US10679632B2; ZA201600310B; US20200258530A1; US10607614B2; PT3011559T; RU2016101600A; WO2014202784A1; TWI553631B; KR20160022364A; EP3011563B1; SG11201510508QA

Abstract

APARELHO E MÉTODO PARA GERAR UM FORMATO ESPECTRAL ADAPTATIVO DE RUÍDO DE CONFORTO. Aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O aparelho compreende uma interface de recebimento (1110) para receber um ou mais quadros, um gerador de coeficiente (1120) e um reconstrutor de sinal (1130). O gerador de coeficiente (1120) está configurado para determinar, se um quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento (1110) e se o quadro atual que é recebido pela interface de recebimento (1110) não estiver corrompido, um ou mais primeiros coeficientes de sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais primeiros coeficientes de sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado. Além disso, o gerador de coeficiente (1120) está configurado para gerar um ou mais segundos coeficientes de sinal de áudio, dependendo dos um ou mais primeiros coeficientes de sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido pela interface de recebimento (1110) ou se o quadro atual (...).

Description

Descrição

[001] A presente invenção se refere à codificação, ao processamento e à decodificação de sinal de áudio e, em particular, a um aparelho e um método para um melhor desvanecimento de sinal para sistemas de codificação de áudio comutado durante a ocultação de erros.

[002] A seguir, o estado da técnica é descrito quanto a desvanecimento de codecs de áudio e voz durante ocultação de perda de pacote (PLC). As explicações referentes ao início do estado da técnica com os codecs de ITU-T da série G (G.718, G.719, G.722, G.722.1, G.729, G.729.1) são sucedidas pelos codecs de 3GPP (AMR, AMR-WB, AMR-WB+) e um codec de IETF (OPUS), e são concluídas com dois codecs de MPEG (HE-AAC, HILN) (ITU = União Internacional de Telecomunicações; 3GPP = Projeto de Parceria de Terceira Geração; AMR = Multitaxa Adaptativa; WB = Banda Larga; IETF = Força-Tarefa de Engenharia de Internet). Subsequentemente, o estado da técnica referente ao rastreamento do nível de ruído de fundo é analisado, sucedido por um sumário que fornece uma visão geral.

[003] Em primeiro lugar, G.718 é considerado. O G.718 é um codec de voz de banda larga e banda estreita, que suporta DTX/CNG (DTX = Sistemas de Teatro Digital; CNG = Geração de Ruído de Conforto). Já que as modalidades se referem particularmente a código de baixo atraso, o modo de versão de baixo atraso será descrito em mais detalhes no presente documento.

[004] Considerando-se a ACELP (Camada 1) (ACELP = Predição Linear Excitada por Código Algébrico), a ITU-T recomenda para o G.718 [ITU08a, seção 7.11] um desvanecimento adaptivo no domínio preditivo linear para controlar a velocidade de desvanecimento. Em geral, a ocultação segue esse princípio:

[005] De acordo com G.718, no caso de apagamentos de quadro, a estratégia de ocultação pode ser resumida como uma convergência da energia do sinal e do envelope espectral em relação aos parâmetros estimados do ruído de fundo. A periodicidade do sinal é convergida para zero. A velocidade da convergência é dependente dos parâmetros do último quadro recebido corretamente e do número de quadros apagados consecutivamente, e é controlada por um fator de atenuação, a. O fator de atenuação α é dependente, ainda, da estabilidade, 0, do filtro de LP (LP = Predição Linear) para quadros UNVOICED. Em geral, a convergência é vagarosa se o último quadro bom recebido estiver em um segmento estável e é rápida se o quadro estiver em um segmento de transição.

[006] O fator de atenuação α depende da classe do sinal de voz, a qual é derivada pela classificação de sinal descrita em [ITU08a, seção 6.8.1.3.1 e 7.11.1.1]. O fator de estabilidade θ é computado com base em uma medida de distância entre os filtros adjacentes de ISF (Frequência Espectral de Imitância) [ITU08a, seção 7.1.2.4.2].A Tabela 1 mostra o esquema de cálculo de a:

[007] Tabela 1: Valores do fator de atenuação a, o valor θ é um fator de estabilidade computado a partir de uma medida de distância entre os filtros de LP adjacentes. [ITU08a, seção 7.1.2.4.2].

[008] Além disso, o G.718 fornece um método de desvanecimento a fim de modificar o envelope espectral. A ideia geral é convergir os últimos parâmetros de ISF em direção a um vetor médio de ISF adaptativa. Em primeiro lugar, um vetor médio de ISF é calculado a partir dos últimos 3 vetores de ISF conhecidos. Então, obtém-se novamente a média do vetor médio de ISF com um vetor de ISF de longo prazo treinado off-line (o qual é um vetor constante) [ITU08a, seção 7.11.1.2].

[009] Além disso, o G.718 fornece um método de desvanecimento para controlar o comportamento de longo prazo e, então, a interação com o ruído de fundo, em que a energia de excitação de pitch (e, então, a periodicidade de excitação) está convergindo para 0, enquanto a energia de excitação aleatória está convergindo para a Energia de excitação de CNG [ITU08a, seção 7.11.1.6]. A atenuação de ganho de inovação é calculada como

[010]

[011] em que g-1] é o ganho inovador no início do próximo quadro, g-0 é o ganho inovador no início do quadro atual, gn é o ganho da excitação usada durante a Geração de Ruído de Conforto e o fator de atenuação a.

[012] De modo similar à atenuação de excitação periódica, o ganho é atenuado linearmente através do quadro em uma base de amostra em amostra, tendo início com g-0, e alcança g-1 no início do próximo quadro.

[013] A Fig. 2 mostra a estrutura de decodificador de G.718. Em particular, a Fig. 2 ilustra uma estrutura de decodificador de G.718 de alto nível para PLC, apresentando um filtro passa-alta.

[014] Através da abordagem descrita acima de G.718, o ganho inovador g- converge para o ganho usado durante a Geração de Ruído de Conforto gn para longas rajadas de perdas de pacote. Como descrito em [ITU08a, seção 6.12.3], o ganho de ruído de conforto gn é determinado como a raiz quadrada da energia E. As condições da atualização de E não são descritas em detalhes. Após a implementação de referência (código C de ponto de flutuação, stat_ruído_uv_mod.c), E é derivada como a seguir: if(unvoiced_vad == 0){ if( unv_cnt > 20 ){ ftmp = lp_gainc * lp_gainc; lp_ener = 0.7f * lp_ener + 0.3f * ftmp; £ else{ unv_cnt++; £ £ else{ unv_cnt = 0; £

[015] em que unvoiced_vad representa a detecção de atividade de voz, em que unv_cnt representa o número de quadros unvoiced em uma fileira, em que lp_gainc representa os ganhos passados em filtro passa-baixa do livro- código fixo, e em que lp_ener representa a estimativa de energia de CNG passada em filtro passa-baixa E, é inicializada com 0.

[016] Além disso, o G.718 fornece um filtro passa-alta, introduzido no caminho do sinal da excitação do tipo unvoiced, se o sinal do último quadro bom tiver sido classificado de modo diferente do UNVOICED, consultar Fig. 2, consultar também [ITU08a, seção 7.11.1.6]. Esse filtro tem uma característica de shelf de baixa frequência, sendo que uma resposta de frequência em DC é de cerca de 5 dB a menos do que uma frequência de Nyquist.

[017] Além disso, o G.718 propõe um laço de retroalimentação de LTP dissociada (LTP = Predição de Longo Prazo): Enquanto, durante a operação normal, o laço de retroalimentação para o livro-código adaptivo é atualizado no sentido do subquadro ([ITU08a, seção 7.1.2.1.4]) com base na excitação total. Durante a ocultação, esse laço de retroalimentação é atualizado no sentido do quadro (consultar [ITU08a, seções 7.11.1.4, 7.11.2.4, 7.11.1.6, 7.11.2.6; dec_GV_exc@dec_gen_voic.c e syn_bfi_post@syn_bfi_pre_post.c]) com base somente na excitação do tipo voiced. Com essa abordagem, o livro-código adaptive não é “poluído” com um ruído originado na excitação de inovação escolhida aleatoriamente.

[018] Quanto às camadas de aperfeiçoamento codificadas por transformada (3 a 5) de G.718, durante a ocultação, o comportamento do decodificador é referente à decodificação de alta camada similar à operação normal, exceto pelo fato de que o espectro de MDCT é ajustado em zero. Nenhum comportamento de desvanecimento especial é aplicado durante a ocultação.

[019] Em relação à CNG, em G.718, a síntese de CNG é realizada na seguinte ordem. Em primeiro lugar, os parâmetros de um quadro de ruído de conforto são decodificados. Então, um quadro de ruído de conforto é sintetizado. Posteriormente, o armazenamento temporário de pitch é redefinido. Então, a síntese para a classificação de FER (Recuperação de Erro de Quadro) é salva. Posteriormente, a de-ênfase de espectro é conduzida. Então, a pós- filtragem de baixa frequência é conduzida. Então, as variáveis de CNG são atualizadas.

[020] No caso de ocultação, exatamente o mesmo é realizado, exceto pelo fato de que os parâmetros de CNG não são decodificados a partir do fluxo de bits. Isso significa que os parâmetros não são atualizados durante a perda de quadro, porém, os parâmetros decodificados do último quadro bom de SID (Descritor de Inserção de Silêncio) são usados.

[021] Agora, o G.719 é considerado. O G.719, o qual é baseado em Siren 22, é um codec de áudio de banda completa com base em transformada. A ITU-T recomenda para o G.719 um desvanecimento com repetição de quadro no domínio espectral [ITU08b, seção 8.6]. De acordo com G.719, um mecanismo de ocultação de apagamento de quadro é incorporado no decodificador. Quando um quadro é recebido corretamente, os coeficientes de transformada reconstruídos são armazenados em um armazenamento temporário. Se o decodificador é informado que um quadro foi perdido ou que um quadro foi corrompido, os coeficientes de transformada reconstruídos no quadro recebido mais recentemente são escalonados de modo decrescente com um fator 0,5 e, então, usados como os coeficientes de transformada reconstruídos para o quadro atual. O decodificador dá prosseguimento transformando-os em domínio de tempo e realizando a operação de janelamento, sobreposição e adição.

[022] A seguir, o G.722 é descrito. O G.722 é um sistema de codificação de 50 a 7000 Hz que usa modulação de código de pulso diferencial adaptativo de sub-banda (SB-ADPCM) em uma taxa de bits de até 64 kbit/s. O sinal é dividido em uma sub-banda superior e uma sub-banda inferior, com o uso de uma análise de QMF (QMF = Filtro de Espelho em Quadratura). As duas bandas resultantes são codificadas por ADPCM (ADPCM = Modulação de Código de Pulso Diferencial Adaptativo).

[023] Para G.722, um algoritmo de alta complexidade para ocultação de perda de pacote é especificado no Apêndice III [ITU06a] e um algoritmo de baixa complexidade para ocultação de perda de pacote é especificado no Apêndice IV [ITU07]. O G.722 - Apêndice III ([ITU06a, seção III.5]) - propõe um silenciamento realizado gradualmente, tendo início após 20 ms de perda de quadro, sendo concluído após 60 ms de perda de quadro. Além disso, o G.722 - Apêndice IV - propõe uma técnica de desvanecimento que aplica, "a cada amostra, um fator de ganho que é computado e adaptado amostra por amostra" [ITU07, seção IV.6.1.2.7].

[024] Em G.722, o processo de silenciamento ocorre no domínio da subbanda imediatamente antes da Síntese de QMF e como a última etapa do módulo de PLC. O cálculo do fator de silenciamento é realizado com o uso de informações de classe do classificador de sinal que também faz parte do módulo de PLC. A distinção é realizada entre classes TRANSIENT, UV_TRANSITION e outras. Além disso, a distinção é realizada entre perdas únicas de quadros de 10 ms e outros casos (múltiplas perdas de quadros de 10 ms e perdas únicas/múltiplas de quadros de 20 ms).

[025] Isso é ilustrado pela Fig. 3. Em particular, a Fig. 3 mostra uma situação em que o fator de desvanecimento de G.722 depende de informações de classe e em que as 80 amostras são equivalentes a 10 ms.

[026] De acordo com G.722, o módulo de PLC cria o sinal para o quadro faltante e algum sinal adicional (10 ms) que é deve ser submetido a desvanecimento cruzado com o próximo quadro bom. O silenciamento para esse sinal adicional segue as mesmas regras. Em ocultação de alta banda de G.722, o desvanecimento cruzado não ocorre.

[027] A seguir, o G.722.1 é considerado. O G.722.1, o qual é baseado em Siren 7, é um codec de áudio de banda larga baseado em transformada com um modo de extensão de banda super larga, denominado como G.722.1C. O próprio G. 722.1C é baseado em Siren 14. A ITU-T recomenda para o G.722.1 uma repetição de quadro com silenciamento subsequente [ITU05, seção 4.7]. Se o decodificador for informado, por meio de um mecanismo de sinalização externo não definido nessa recomendação, que um quadro foi perdido ou corrompido, esse repete os coeficientes da MLT (Transformada Superposta Modulada) decodificada pelo quadro anterior. Prossegue transformando-os no domínio de tempo e realizando a operação de sobreposição e adição com as informações decodificadas do próximo quadro. Se o quadro anterior também foi perdido ou corrompido, então, o decodificador define todos os coeficientes e MLT dos quadros atuais como zero.

[028] Agora, o G.729 é considerado. O G.729 é um algoritmo de compressão de dados de áudio para voz que comprime voz digital em pacotes com duração de 10 milissegundos. É descrito oficialmente como Codificação de voz a 8 kbit/s com o uso de codificação de voz por predição linear excitada por código (CS-ACELP) [ITU12].

[029] Como mostrado em [CPK08], o G.729 recomenda um desvanecimento no domínio de LP. O algoritmo de PLC empregado no padrão G.729 reconstrói o sinal de voz para o quadro atual com base em informações de voz recebidas anteriormente. Em outras palavras, o algoritmo de PLC substitui a excitação faltante por uma característica equivalente de um quadro recebido anteriormente, embora a energia de excitação decaia gradualmente por fim, os ganhos do livro-código adaptivo fixo são atenuados por um fator constante.

[030] O ganho de livro-código atenuado fixo é determinado por:

[031] sendo que m é o índice do subquadro.

[032] O ganho de livro-código adaptativo é baseado em uma versão atenuada do ganho de livro-código adaptativo anterior:

[033]

[034] Nam in Park et al. sugerem, para G.729, um controle de amplitude de sinal com o uso de predição por meio de regressão linear [CPK08, PKJ+11]. É direcionada para perda de pacote em rajadas e usa regressão linear como uma técnica principal. A regressão linear é baseada no modelo linear como

[035] em que g~ é a amplitude de corrente recém-prevista, a e b são coeficientes para a primeira função linear de primeira ordem, e i é o índice do quadro. A fim de encontrar os coeficientes otimizados α* e b*, a soma do erro de predição ao quadrado é minimizado:

[036] ε é o erro ao quadrado, gy é a amplitude original após j-ésima amplitude. Para minimizar esse erro, a derivação simplesmente referente a a e b é definida como zero. Com o uso dos parâmetros otimizados α * e b *, uma estimativa de cada g* é indicada por

[037] A Fig. 4 mostra a predição de amplitude, em particular, a predição da amplitude g*, com o uso de regressão linear.

[038] Para obter a amplitude A~ do pacote perdido /, uma razão cr;

[0039] é multiplicada por um fator de escala S, :

[0040]

[0041] em que o fator de escala S depende do número de quadros ocultados consecutivos /(/):

[042] Em [PKJ+11], um escalonamento ligeiramente diferente é proposto.

[043] De acordo com G.729, posteriormente, β será suavizada para impedir a atenuação discreta nos limites do quadro. A amplitude suavizada final A;(w) é multiplicada pela excitação, obtida a partir dos componentes de PLC anteriores.

[044] A seguir, o G.729.1 é considerado. O G.729.1 é um codificador de taxa de bits de variável incorporada com base em G.729: Um fluxo de bits de codificador de banda larga escalonável de 8 a 32 kbit/s interoperável com G.729 [ITU06b].

[045] De acordo com G.729.1, como no G.718 (consultar acima), um desvanecimento adaptivo é proposto, o qual depende da estabilidade das características do sinal ([ITU06b, seção 7.6.1]). Durante a ocultação, o sinal é usualmente atenuado com base em um fator de atenuação α que depende dos parâmetros da classe do último quadro bom recebido e do número de quadros apagados consecutivamente. O fator de atenuação α é dependente, ainda, da estabilidade do filtro de LP para quadros UNVOICED. Em geral, a atenuação é vagarosa se o último quadro bom recebido estiver em um segmento estável e é rápida se o quadro estiver em um segmento de transição.

[046] Além disso, o fator de atenuação α depende do ganho médio de pitch por subquadro g° ([ITU06b, eq. 163, 164]):

[047]

[048] em que g^ é o ganho de pitch em subquadro

[049] A Tabela 2 mostra o esquema de cálculo de a, em que

[050]

[051] Durante o processo de ocultação, α é usado nas seguintes ferramentas de ocultação:

[052] Tabela 2: Valores do fator de atenuação a, o valor θ é um fator de estabilidade computado a partir de uma medida de distância entre os filtros de LP adjacentes. [ITU06b, seção 7.6.1].

[053] De acordo com G.729.1, quanto à ressincronização de pulso glotal, já que o último pulso da excitação do quadro anterior é usado para a construção da parte periódica, seu ganho é aproximadamente correto no início do quadro ocultado e pode ser definido como 1. O ganho é, então, atenuado linearmente através do quadro em uma base de amostra em amostra para alcançar o valor de α no final do quadro. A evolução de energia de segmentos voiced é extrapolada com o uso dos valores de ganho de excitação de pitch de cada subquadro do último quadro bom. Em geral, se esses ganhos forem maiores do que 1, a energia do sinal é crescente, se forem maiores do que 1, a energia é crescente. α é, então, definido como β = y°r^, como descrito acima, consultar [ITU06b, eq. 163, 164]. O valor de β é limitado entre 0,98 e 0,85 para evitar grandes aumentos e diminuições de energia, consultar [ITU06b, seção 7.6.4].

[054] Quanto à construção da parte aleatória da excitação, de acordo com G.729.1, no início de um bloco apagado, o ganho de inovação g- é inicializado com o uso dos ganhos de excitação de inovação de cada subquadro do último quadro bom:

[055] em que g(0), g(1), g(2) e g(3) são os ganhos de livro-código fixo ou de inovação, ganhos dos quatro subquadros do último quadro recebido corretamente. A atenuação de ganho de inovação é realizada como:

[056] em que g-θ é o ganho de inovação no início do próximo quadro, g-0) é o ganho de inovação no início do quadro atual, e α é como definido na Tabela 2 acima. De modo similar à atenuação de excitação periódica, o ganho é, então, linearmente atenuado através do quadro em uma base de amostra por amostra, tendo início com g-^ e indo até o valor de g^ que seria alcançado no início do próximo quadro.

[057] De acordo com G.729.1, se o último quadro bom é UNVOICED, somente a excitação de inovação é usada e é adicionalmente atenuada por um fator de 0,8. Nesse caso, o armazenamento temporário de excitação anterior é atualizado com a excitação de inovação já que nenhuma parte periódica da excitação está disponível, consultar [ITU06b, seção 7.6.6].

[058] A seguir, a AMR é considerada. 3GPP AMR [3GP12b] é um codec de voz que utiliza o algoritmo de ACELP. A AMR é capaz de codificar voz com uma taxa de amostragem de 8000 amostras/s e uma taxa de bits entre 4,75 e 12,2 kbit/s e suporta quadros de descritor de silêncio de sinalização (DTX/CNG).

[059] Na AMR, durante a ocultação de erros (consultar [3GP12a]), é distinguida entre quadros que são suscetíveis a erro (erros de bit) e quadros que estão completamente perdidos (não há quaisquer dados).

[060] Para ocultação de ACELP, a AMR introduz uma máquina de estado que estima a qualidade do canal: Quanto maior o valor do contador de estado, prior será a qualidade do canal. O sistema é iniciado no estado 0. Cada vez que um quadro ruim é detectado, o contador de estado é aumentado em um e é saturado quando alcança 6. Cada vez que um quadro de voz bom é detectado, o contador de estado é redefinido em zero, exceto quando o estado for 6, em que o contador de estado é definido em 5. O fluxo de controle da máquina de estado pode ser descrito pelo código C a seguir (BFI é um indicador de quadro ruim, State é um estado variável): if(BFI != 0 ) { State = State + 1; £ else if(State == 6) { State = 5; £ else { State = 0; £ if(State > 6 ) { State = 6; £

[061] Além dessa máquina de estado, em AMR, os sinalizadores de quadro ruim do quadro atual e dos quadros anteriores são verificados (prevBFI).

[062] Três diferentes combinações são possíveis:

[063] A primeira dentre as três combinações é BFI = 0, prevBFI = 0, Estado = 0: Nenhum erro é detectado no quadro de voz recebido ou no quadro de voz recebido anterior. Os parâmetros de voz recebidos são usados no modo normal na síntese de voz. O quadro atual de parâmetros de voz é salvo.

[064] A segunda dentre as três combinações é BFI = 0, prevBFI = 1, Estado = 0 ou 5: Nenhum erro é detectado no quadro de voz recebido, porém, o quadro de voz recebido anterior era ruim. O ganho de LTP e o ganho de livro- código fixo são limitados abaixo dos valores usados para o último subquadro bom recebido:

[065] em que g° = ganho de LTP decodificado atual, g°(-1) = ganho de LTP usado para o último subquadro bom

[066] (BFI = 0), e

[067] em que gc = ganho de livro-código fixo decodificado atual, e gc(-1) = ganho de livro-código fixo usado para o último subquadro bom (BFI = 0).

[068] O restante dos parâmetros de voz recebidos é usado normalmente na síntese de voz. O quadro atual de parâmetros de voz é salvo.

[069] A terceira dentre as três combinações é BFI = 1, prevBFI = 0 ou 1, Estado = 1...6: Um erro é detectado no quadro de voz recebido e o procedimento de substituição e silenciamento é iniciado. O ganho de LTP e o ganho de livro-código fixo são substituídos por valores atenuados dos subquadros anteriores:

[070] em que gp indica o ganho de LTP decodificado atual e gp(-1), . . . , g°(-n) indicam os ganhos de LTP usados para os últimos n subquadros e median5() indica uma operação de mediana em ponto 5 e

[071] P(state) = fator de atenuação,

[072] em que (P(1) = 0,98, P(2) = 0,98, P(3) = 0,8, P(4) = 0,3, P(5) = 0,2, P(6) = 0,2) e state = número do estado, e

[073] em que gc indica o ganho de livro-código fixo decodificado atual e gc(-1), ... , gc (-n) indicam os ganhos de livro-código fixo usados para os últimos n subquadros e median5() indica uma operação de mediana em ponto 5 e C(state) = fator de atenuação, em que (C(1) = 0,98, C(2) = 0,98, C(3) = 0,98, C(4) = 0,98, C(5) = 0,98, C(6) = 0,7) e state = número do estado.

[074] Em AMR, os valores de LTP-lag (LTP = Predição de Longo Prazo) são substituídos pelo valor anterior a partir do 4± subquadro do quadro anterior (modo 12.2) ou valores ligeiramente modificados com base no último valor corretamente recebido (todos os outros modos).

[075] De acordo com AMR, os pulsos de inovação de livro-código fixo recebido do quadro errôneo são usados no estado em que são recebidos quando dados corrompidos são recebidos. No caso em que nenhum dado foi recebido, índices aleatórios de livro-código fixo devem ser empregados.

[076] Quanto à CNG na AMR, de acordo com [3GP12a, seção 6.4], cada primeiro quadro de SID perdido é substituído com o uso das informações de SID dos quadros de SID válidos recebidos anteriormente e o procedimento para quadros de SID válidos é aplicado. Para quadros de SID perdidos subsequentes, uma técnica de atenuação é aplicada ao ruído de conforto que irá diminuir gradualmente o nível de saída. Portanto, é verificado se a última atualização de SID ocorreu há mais do que 50 quadros (=1 s), se sim, a saída será silenciada (atenuação de nível em -6/8 dB por quadro [3GP12d, dtx_dec{}@sp_dec.c] que produz 37,5 dB por segundo). Deve-se observar que o desvanecimento aplicado à CNG é realizado no domínio de LP.

[077] A seguir, a AMR-WB é considerada. A Multitaxa Adaptativa - WB [ITU03, 3GP09c] é um codec de voz, ACELP, baseado em AMR (consultar seção 1.8). Usa extensão de largura de banda paramétrica e também suporta DTX/CNG. Na descrição do padrão [3GP12g], há soluções de exemplo de ocultação dadas que são iguais à AMR [3GP12a] com desvios espelhados. Portanto, somente as diferenças de AMR são descritas no presente documento. Para a descrição padrão, consultar a descrição acima.

[078] Quanto à ACELP, em AMR-WB, o desvanecimento da ACELP é realizado com base no código de fonte de referência [3GP12c] modificando-se o ganho de pitch gp (para AMR citado acima como ganho de LTP) e modificando-se o ganho de código gc.

[079] No caso de quadro perdido, o ganho de pitch g° para o primeiro subquadro é o mesmo do último quadro bom, exceto pelo fato de que é limitado entre 0,95 e 0,5. Para o segundo, o terceiro e os próximos subquadros, o ganho de pitch gp é diminuído por um fator de 0,95 e é limitado novamente.

[080] AMR-WB propõe que, em um quadro ocultado, gc seja baseado no último gc:

[081] Para ocultar as LTP-lags, em AMR-WB, o histórico das cinco últimas LTP-lags boas e os ganhos de LTP são usados para encontrar o melhor método de atualização, no caso de uma perda de quadro. Caso o quadro seja recebido com erros de bit, uma predição é realizada, sendo a LTP-lag recebida utilizável ou não [3GP12g].

[082] Quanto à CNG, em AMR-WB, se o último quadro recebido corretamente era um quadro de SID e um quadro é classificado como perdido, deve ser substituído pelas informações do último quadro de SID válido e o procedimento para os quadros de SID válidos devem ser aplicados.

[083] Para quadros de SID perdidos subsequentes, a AMR-WB propõe a aplicação de uma atenuação técnica ao ruído de conforto que irá diminuir gradualmente o nível de saída. Portanto, é verificado se a última atualização de SID havia sido há mais do que 50 quadros (=1 s), se sim, a saída será silenciada (atenuação de nível em -3/8 dB por quadro [3GP12f, dtx_dec{}@dtx.c] que produz 18,75 dB por segundo). Deve-se observar que o desvanecimento aplicado à CNG é realizado no domínio de LP.

[084] Agora, a AMR-WB+ é considerada. A Multitaxa Adaptativa - WB+ [3GP09a] é um codec comutado com o uso de ACELP e TCX (TCX = Excitação Codificada por Transformada) como codecs de núcleo. Usa a extensão de largura de banda paramétrica e também suporta DTX/CNG.

[085] Em AMR-WB+, uma lógica de extrapolação de modo é aplicada para extrapolar os modos dos quadros perdidos em um superquadro distorcido. Essa extrapolação de modo é baseada no fato de que há uma redundância na definição de indicadores de modo. A lógica de decisão (dada em [3GP09a, figura 18]) proposta por AMR-WB+ é como a seguir:

[086] - Um modo de vetor, (m_i, mo, m1, m2, m3), é definida, em que m_-I indica o modo do último quadro do superquadro anterior e m0, m1, m2, m3 indicam os modos dos quadros no superquadro atual (decodificado a partir do fluxo de bits), em que mk = -1,0, 1,2 ou 3 (-1: perdido, 0: ACELP, 1: TCX20, 2: TCX40, 3: TCX80), e em que o número de quadros perdidos nloss pode estar entre 0 e 4.

[087] - Se m_i = 3 e dois dos indicadores de modo dos quadros 0 – 3 forem iguais a três, todos os indicadores serão definidos como três devido ao fato de que é, então, garantido que aquele quadro de TCX80 foi indicado no superquadro.

[088] - Se somente um indicador dos quadros 0 - 3 for três (e o número de quadros perdidos nloss for três), o modo será definido como (1, 1, 1, 1), devido ao fato de que, então, 3/4 do espectro-alvo de TCX80 está perdido e é muito provável que o ganho de TCX global está perdido.

[089] - Se o modo estiver indicando (x, 2,-1, x, x) ou (x,-1, 2, x, x), sera extrapolado para (x, 2, 2, x, x), o que indica um quadro de TCX40. Se o modo indicar (x, x, x, 2,-1) ou (x, x,-1,2), será extrapolado para (x, x, x, 2, 2), o que também indica um quadro de TCX40. Deve-se notar que (x, [0, 1], 2, 2, [0, 1]) são configurações inválidas.

[090] - Posteriormente, para cada quadro que for perdido (mode = -1), o modo é definido como ACELP {mode = 0) se o quadro anterior for ACELP e o modo é definido como TCX20 (mode = 1) para todos os outros casos.

[091] Quanto à ACELP, de acordo com AMR-WB+, se um modo de quadros perdidos resulta em mk = 0 após a extrapolação de modo, a mesma abordagem de [3GP12g] é aplicada para esse quadro (consultar acima).

[092] Em AMR-WB+, dependendo do número de quadros perdidos e o modo extrapolado, as seguintes abordagens de ocultação relacionada à TCX são distinguidas (TCX = Excitação Codificada por Transformada):

[093] - Se um quadro total é perdido, então, uma ACELP similar à ocultação é aplicada: A última excitação é repetida e coeficientes de ISF ocultados (ligeiramente desviados em direção à sua média adaptativa) são usados para sintetizar o sinal de domínio de tempo. Adicionalmente, um fator de desvanecimento de 0,7 por quadro (20 ms) [3GP09b, dec_tcx.c] é multiplicado no domínio preditivo linear, imediatamente antes da síntese da LPC (Codificação Preditiva Linear).

[094] - Se o último modo era TCX80, bem como o modo extrapolado do superquadro (parcialmente perdido) for TCX80 (nloss = [1, 2], mode = (3, 3, 3, 3, 3)), a ocultação é realizado no domínio de FFT, utilizando extrapolação de fase e amplitude, considerando-se o último quadro recebido corretamente. A abordagem de extrapolação das informações de fase não é de nenhum interesse no presente documento (nenhuma relação com a estratégia de desvanecimento) e, desse modo, não foi descrita. Para mais detalhes, consultar [3GP09a, seção 6.5.1.2.4]. em relação à modificação de amplitude de AMR-WB+, a abordagem realizada para ocultação de TCX consiste nas seguintes etapas [3GP09a, seção 6.5.1.2.3]:

[095] - O espectro de magnitude do quadro anterior é computado:

[096] - O espectro de magnitude do quadro atual é computado:

[097] - A diferença de ganho de energia de coeficientes espectrais não perdidos entre o quadro anterior e o quadro atual é computado:

[098] - A amplitude dos coeficientes espectrais faltantes é extrapolada com o uso de:

[099] - Em qualquer outro caso de um quadro perdido com mk = [2, 3], o alvo de TCX (FFT inversa de espectro decodificado mais preenchimento de ruído (com o uso de um nível de ruído decodificado a partir do fluxo de bits)) é sintetizado com o uso de todas as informações disponíveis (incluindo o ganho de TCX global). Nenhum desvanecimento é aplicado nesse caso.

[100] Quanto à CNG em AMR-WB+, a mesma abordagem que AMR-WB é usada (consultar acima).

[101] A seguir, o OPUS é considerado. O OPUS [IET12] incorpora a tecnologia de dois codecs: o SILK orientado por voz (conhecido como codec de Skype) e a CELT de baixa latência (CELT = Transformada Sobreposta de Energia Restrita). O Opus pode ser ajustado de modo ininterrupto entre taxas de bits baixas e altas, e, internamente, é comutado entre um codec de predição linear a taxas de bits mais baixas (SILK) e um codec de transformada a taxas de bits mais altas (CELT), bem como um híbrido para uma sobreposição curta.

[102] Quanto à compressão e à descompressão de dados de áudio de SILK, em OPUS, há diversos parâmetros que são atenuados durante a ocultação na rotina de decodificador de SILK. O parâmetro de ganho de LTP é atenuado multiplicando-se todos os coeficientes de LPC por 0,99, 0,95 ou 0,90 por quadro, dependendo do número de quadros perdidos consecutivos, em que a excitação é desenvolvida com o uso do último ciclo de pitch a partir da excitação do quadro anterior. O parâmetro de atraso de pitch é aumentado muito vagarosamente durante as perdas consecutivas. Para perdas únicas, é mantido constante em comparação ao último quadro. Além disso, o parâmetro de ganho de excitação é exponencialmente atenuado com por quadro, para que o parâmetro de ganho de excitação seja 0,99 para o primeiro parâmetro de ganho de excitação, para que o parâmetro de ganho de excitação seja 0,992 para o segundo parâmetro de ganho de excitação, e assim por diante. A excitação é gerada com o uso de um gerador de números aleatórios que está gerando ruído branco por sobrecarga variável. Além disso, os coeficientes de LPC são extrapolados/têm sua média calculada com base no último coeficiente definido recebido corretamente dentre os coeficientes. Após gerar o vetor de excitação atenuado, os coeficientes de LPC ocultados são usados em OPUS para sintetizar o sinal de saída de domínio de tempo.

[103] Agora, no contexto de OPUS, a CELT é considerada. A CELT é um codec baseado em transformada. A ocultação da CELT apresenta uma abordagem de PLC baseada em pitch, a qual é aplicada para até quadros perdidos de modo consecutivo. Tendo início com o quadro 6, uma abordagem de ocultação similar a ruído é aplicada, a qual gera ruído de fundo, cuja característica deve soar como o ruído de fundo anterior.

[104] A Fig. 5 ilustra o comportamento de perda em rajada de CELT. Em particular, a Fig. 5 mostra um espectrograma (eixo geométrico x: tempo; eixo geométrico y: frequência) de um segmento de voz ocultado por CELT. A caixa cinza claro indica os primeiros 5 quadros perdidos de modo consecutivo, em que a abordagem de PLC baseada em pitch é aplicada. Além disso, a ocultação similar a ruído é mostrada. Deve-se notar que a comutação é realizada imediatamente, não transita suavemente.

[105] Quanto à ocultação baseada em pitch, em OPUS, a ocultação baseada em pitch consiste em encontrar a periodicidade no sinal decodificado por autocorrelação e repetição da forma de onda em janelas (no domínio de excitação com o uso de análise e síntese de LPC) com o uso de desvio de pitch (atraso de pitch). A forma de onda em janelas é sobreposta de tal modo a preservar o cancelamento de suavização de tempo-domínio com o quadro anterior e o próximo quadro [IET12]. Adicionalmente, um fator de desvanecimento é derivado e aplicado pelo seguinte código: opus_val32 E1=1, E2=1; int period; if (pitch_index<= MAX_PERIOD/2) { period = pitch_index; £ else { period = MAX_PERIOD/2; £ for (i=0;i<period;i++) { E1 += exc[MAX_PERIOD- period+i] * exc[MAX_PERIOD- period+i]; E2 += exc[MAX_PERIOD-2*period+i] * exc[MAX_PERIOD- 2*period+i]; £ if (E1 > E2) { E1 = E2; £ decay = sqrt(E1/E2)); attenuation = decay;

[106] Nesse código, exc contém o sinal de excitação até as amostras de MAX_PERIOD antes da perda.

[107] O sinal de excitação é posteriormente multiplicado pela atenuação, então, sintetizado e emitido por meio de síntese de LPC.

[108] O algoritmo de desvanecimento para a abordagem de domínio de tempo pode ser resumida desse modo:

[109] - Encontrar a energia síncrona de pitch do último ciclo de pitch antes da perda.

[110] - Encontrar a energia síncrona de pitch do segundo último ciclo de pitch antes da perda.

[111] - Se a energia estiver aumentando, limitá-la para que permaneça constante: attenuation = 1

[112] - Se a energia estiver diminuindo, continuar com a mesma atenuação durante a ocultação.

[113] Quanto à ocultação similar a ruído, de acordo com OPUS, para o 6o e próximos quadros perdidos consecutivos, uma abordagem de substituição de ruído no domínio de MDCT é realizada, a fim de simular o ruído de conforto de fundo.

[114] Quanto ao rastreamento do formato e nível de ruído de fundo, em OPUS, a estimativa de ruído de fundo é realizada como a seguir: Após a análise de MDCT, a raiz quadrada das energias de banda de MDCT é calculada por banda de frequência, em que o agrupamento dos compartimentos de MDCT segue a escala Bark de acordo com [IET12, Tabela 55]. Então, a raiz quadrada das energias é transformada no domínio de log2 por:

[115] em que e é o número de Euler, bandE é a raiz quadrada da banda de MDCT e eMeans é um vetor de constantes (necessário para obter o resultado de média zero, a qual resulta em um ganho de codificação melhorado).

[116] Em OPUS, o ruído de fundo é registrado no lado do decodificador desse modo [IET12, amp2Log2 e log2Amp @ quant_bands.c]:

[117] sendo que i=0…21 (19)

[118] A energia mínima rastreada é basicamente determinada pela raiz quadrada da energia da banda do quadro atual, porém, o aumento de um quadro para o próximo é limitado em 0,05 dB.

[119] Quanto à aplicação do formato e do nível de ruído de fundo, de acordo com OPUS, se a PLC similar a ruído é aplicada, backgroundLogE como derivado no último quadro bom é usado e convertido de volta para o domínio linear:

[120] (20)

[121] em que e é o número de Euler e eMeans é o mesmo vetor de constantes da transformada de "linear para log".

[122] O procedimento de ocultação atual é para preencher o quadro de MDCT com ruído branco produzido por um gerador de números aleatórios e escalonar esse ruído branco de modo que seja compatível, no sentido da banda, com a energia de bandE. Subsequentemente, a MDCT inversa é aplicada, a qual resulta em um sinal de domínio de tempo. Após a sobreposição, adição e de-ênfase (como em decodificação regular), é emitido.

[123] A seguir, o MPEG-4 HE-AAC é considerado (MPEG = Grupo de Especialistas em Imagens com Movimento; HE-AAC = Codificação Avançada de Áudio de Alta Eficiência). A Codificação Avançada de Áudio de Alta Eficiência consiste em um codec de áudio baseado em transformada (AAC), suplementado por uma extensão de largura de banda paramétrica (SBR).

[124] Quanto à AAC (AAC = Codificação Avançada de Áudio), o consórcio de DAB especifica, para AAC em DAB+, um desvanecimento de zero no domínio de frequência [EBU10, seção A1.2] (DAB = Difusão de Áudio Digital/ O comportamento de desvanecimento, por exemplo, a rampa de atenuação, pode ser fixo ou ajustável pelo usuário. Os coeficientes espectrais da última AU (AU = Unidade de Acesso) são atenuados por um fator correspondente às características de desvanecimento e, então, passados para o mapeamento de frequência-para-tempo. Dependendo da rampa de atenuação, a ocultação é comutada para silenciamento após um número de AUs inválidas consecutivas, o que significa que o espectro completo será definido como 0.

[125] O consórcio de DRM (DRM = Gerenciamento de Direitos Digitais) especifica para AAC em DRM um desvanecimento no domínio de frequência [EBU12, seção 5.3.3]. A ocultação funciona nos dados espectrais mediamente antes da frequência final para conversão de tempo. Se múltiplos quadros são corrompidos, a ocultação implementa, em primeiro lugar, um desvanecimento baseado em valores espectrais ligeiramente modificados a partir do último quadro válido. Além disso, similar à DAB+, o comportamento de desvanecimento, por exemplo, a rampa de atenuação, pode ser fixo ou ajustável pelo usuário. Os coeficientes espectrais do último quadro são atenuados por um fator correspondente às características de desvanecimento e, então, são passados para o mapeamento de frequência-para-tempo. Dependendo da rampa de atenuação, a ocultação é comutada para silenciamento após diversos quadros inválidos consecutivos, o que significa que o espectro completo será definido como 0.

[126] O 3GPP introduz, para AAC em aacPlus Melhorado, o desvanecimento no domínio de frequência similar a DRM [3GP12e, seção 5.1]. A ocultação funciona nos dados espectrais imediatamente antes da frequência final para conversão de tempo. Se múltiplos quadros forem corrompidos, a ocultação implementa, em primeiro lugar, um desvanecimento baseado em valores espectrais ligeiramente modificados a partir do último quadro bom. Um desvanecimento completo dura 5 quadros. Os coeficientes espectrais do último quadro bom são copiados e atenuados por um fator de:

[127] sendo que nFadeO«tFrame é o contador de quadro desde o último quadro bom. Após cinco quadros de desvanecimento, a ocultação é comutada para silenciamento, o que significa que o espectro completo será definido como 0.

[128] Lauber e Sperschneider introduzem para AAC um desvanecimento no sentido do quadro do espectro de MDCT, com base em extrapolação de energia [LS01, seção 4.4]. Formatos de energia de um espectro precedente pode ser usado para extrapolar o formato de um espectro estimado. A extrapolação de energia pode ser realizado independentemente das técnicas de ocultação como um tipo de pós-ocultação.

[129] Quanto à AAC, o cálculo de energia é realizado em uma base de banda de fator de escala a fim de permanecer próximo às bandas críticas do sistema sonoro humano. Os valores de energia individuais são diminuídos em um quadro em base de quadro a fim de reduzir o volume suavemente, por exemplo, para desvanecer o sinal. Isso se torna necessário já que a probabilidade de que os valores estimados representam o sinal atual diminui rapidamente ao longo do tempo.

[130] Para que a geração do espectro fosse desvanecida, foi sugerida a repetição de quadro ou a substituição de ruído [LS01, seções 3.2 e 3.3].

[131] Quackenbusch e Driesen sugerem, para AAC, um desvanecimento exponencial no sentido do quadro para zero [QD03]. Uma repetição de coeficientes de tempo/frequência adjacentes definidos é proposta, em que cada repetição tem uma atenuação exponencialmente crescente, então, um desvanecimento gradual para silenciamento no caso de interrupções estendidas.

[132] Quanto à SBR (SBR = Replicação de Banda Espectral) em MPEG-4 HE-AAC, 3GPP sugere, para SBR em aacPlus Melhorado, um armazenamento temporário dos dados de envelope decodificados e, no caso de uma perda de quadro, uma reutilização das energias armazenadas de modo temporário dos dados de envelope transmitidos e uma diminuição desses por uma razão constante de 3 dB para cada quadro ocultado. O resultado é alimentado para o processo de decodificação normal em que o ajustador de envelope o usa para calcular os ganhos, usados para ajustar as bandas altas corrigidas criadas pelo gerador de HF. A decodificação de SBR ocorre, então, como de costume. Além disso, os valores de nível de seno e de base de ruído codificados por delta estão sendo deletados. Já que nenhuma diferença para as informações anteriores permanece disponível, os níveis de seno e base de ruído permanecem proporcionais à energia do sinal gerado por HF [3GP12e, seção 5.2].

[133] O consórcio de DRM especificou, para SBR em conjunto com AAC, a mesma técnica que 3GPP [EBU12, seção 5.6.3.1]. Além disso, o consórcio de DAB especifica para SBR em DAB+ a mesma técnica que 3GPP [EBU10, seção A2].

[134] A seguir, a MPEG-4 CELP e a MPEG-4 HVXC (HVXC = Codificação de Excitação de Vetor Harmônico) são consideradas. O consórcio de DRM especifica para SBR em conjunto com CELP e HVXC [EBU12, seção 5.6.3.2] que a ocultação mínima exigida para SBR para os codecs de voz seja aplicar valores de dados definidos predeterminados, sempre que um quadro de SBR corrompido for detectado. Esses valores produzem um envelope espectral de banda alta estática a um baixo nível de reprodução relativo, exibindo um decaimento (roll-off) em direção às frequências mais altas. O objetivo é simplesmente garantir que nenhuma rajada de áudio potencialmente alta e com comportamento insatisfatório alcance os ouvidos do ouvinte, por meio da inserção de “ruído de conforto” (em oposição a um silenciamento rigoroso). Isso não representa, de fato, nenhum desvanecimento real, porém, em vez disso, um salto para certo nível de energia a fim de inserir algum tipo de ruído de conforto.

[135] Subsequentemente, uma alternativa é mencionada [EBU12, seção 5.6.3.2], a qual reutiliza os últimos dados corretamente decodificados e o desvanecimento vagaroso dos níveis (L) em direção a 0, de modo análogo, ao caso de AAC + SBR.

[136] Agora, o MPEG-4 HILN é considerado (HILN = Linhas Individuais e Harmônicas mais Ruído). Meine et al. introduzem um desvanecimento para o codec paramétrico de MPEG-4 HILN [ISO09] em um domínio paramétrico [MEP01]. Para componentes harmônicos continuados, um bom comportamento padrão para substituir parâmetros codificados corrompidos de modo diferente consiste em manter a frequência constante, para reduzir a amplitude em um fator de atenuação (por exemplo, -6 dB), e para deixar que o envelope espectral convirja em direção àquele da característica de passa-baixa do qual se obtém a média. Uma alternativa para o envelope espectral seria mantê-lo inalterado. Em relação a amplitudes e envelopes espectrais, os componentes de ruído podem ser tratados do mesmo modo que os componentes harmônicos.

[137] A seguir, o rastreamento do nível de ruído de fundo na técnica anterior é considerado. Rangachari e Loizou [RL06] fornecem uma boa visão geral de diversos métodos e discutem algumas de suas limitações. Os métodos para o rastreamento do nível de ruído de fundo são, por exemplo, procedimento de rastreamento mínimo [RL06] [Coh03] [SFB00] [Dob95], baseado em VAD (VAD = Detecção de Atividade de Voz); filtragem de Kalman [Gan05] [BJH06], decomposições de subespaço [BP06] [HJH08]; Decisão Suave [SS98] [MPC89] [HE95] e estatística mínima.

[138] A abordagem de estatística mínima foi escolhida para ser usada no escopo de USAC-2, (USAC = Codificação Unificada de Áudio e Voz) e é subsequentemente mostrada em mais detalhes.

[139] A estimativa de densidade espectral de potência de ruído baseada em suavização ideal e estatística mínima [Mar01] introduz um estimador de ruído, o qual é capaz de funcionar independentemente do sinal, sendo esse voz ativa ou ruído de fundo. Em contraste a outros métodos, o algoritmo de estatística mínima não usa qualquer limite explícito para distinguir entre atividade de voz e pausa de voz e é, portanto, mais intimamente relacionado a métodos de decisão suave do que os métodos tradicionais de detecção de atividade de voz. De modo similar a métodos de decisão suave, também é possível atualizar a PSD (Densidade Espectral de Potência) de ruído estimado durante a atividade de voz.

[140] O método de estatística mínima se fundamente em duas observações a saber, que a voz e o ruído são usualmente independentes de modo estatístico e que a potência de um sinal de voz ruidoso decai frequentemente para o nível de potência do ruído. É possível, portanto, derivar uma estimativa precisa de PSD (PSD = Densidade Espectral de Potência) de ruído através do rastreamento do mínimo do PSD de sinal ruidoso. Já que o mínimo é menor do que (ou, em outros casos, igual a) o valor médio, o método de rastreamento mínimo exige uma compensação de desvio.

[141] O desvio é uma função da variância da PSD de sinal suavizada e, como tal, depende do parâmetro de suavização do estimador de PSD. Em contraste ao trabalho anterior em rastreamento mínimo, o qual utiliza um parâmetro de suavização constante e uma correção de desvio mínimo constante, uma suavização de PSD dependente de tempo e frequência é usada, a qual também exige uma compensação de desvio dependente de tempo e frequência.

[142] O uso de rastreamento mínimo fornece uma estimativa aproximada da potência de ruído. No entanto, há algumas desvantagens. A suavização com um parâmetro fixo de suavização amplia os picos de atividade de voz da estimativa de PSD suavizada. Isso irá resultar em estimativas de ruído imprecisas, já que a janela deslizante para uma busca mínima pode deslizar para picos amplos. Desse modo, parâmetros de suavização próximos de um não podem ser usados, e, como consequência, a estimativa de ruído terá uma variância relativamente grande. Além disso, a estimativa de ruído é desviada para valores menores. Além disso, no caso do aumento de potência de ruído, o rastreamento mínimo se atrasa.

[143] O rastreamento de PSD de ruído baseado em MMSE com baixa complexidade [HHJ10] introduz uma abordagem de PSD de ruído de fundo utilizando uma busca de MMSE usada em um espectro de DFT (Transformada Discreta de Fourier). O algoritmo consiste nessas etapas de processamento:

[144] - O estimador de probabilidade máxima é computado com base na PSD de ruído do quadro anterior.

[145] - O estimador de média quadrática mínima é computado.

[146] - O estimador de probabilidade máxima é estimado com o uso da abordagem direcionada para decisão [EM84].

[147] - O fator de desvio inverso é computado, presumindo-se que os coeficientes de DFT de voz e ruído são distribuídos em modelo gaussiano.

[148] - A Densidade Espectral de Potência de ruído estimada é suavizada.

[149] Também há uma abordagem de rede de segurança aplicada a fim de evitar um completo bloqueio perpétuo (dead lock) do algoritmo.

[150] O rastreamento de ruído não estacionário com base em estimativa de potência de ruído recursivo conduzida por dados [EH08] introduz um método para a estimativa da variância de espectral de ruído dos sinais de voz contaminados por fontes de ruído altamente não estacionário. Esse método também usa suavização na direção de tempo/frequência.

[151] Um algoritmo de estimativa de ruído de baixa complexidade baseado na suavização da estimativa de potência de ruído e da correção de desvio de estimativa [Yu09] aperfeiçoa a abordagem introduzida em [EH08]. A principal diferença é que a função de ganho espectral para estimativa de potência de ruído é encontrada por um método iterativo conduzido por dados.

[152] Os métodos estatísticos para a melhora de voz ruidosa [Mar03] combinam a abordagem de estatística mínima dada em [Mar01] por modificação de ganho de decisão suave [MCA99], através de uma estimativa de SNR a priori [MCA99], através de uma limitação de ganho adaptivo [MC99] e através de um estimador de amplitude espectral de log de MMSE [EM85].

[153] O desvanecimento é de particular interesse para uma pluralidade de codecs de voz e áudio, em particular, AMR (consultar [3GP12b]) (incluindo ACELP e CNG), AMR-WB (consultar [3GP09c]) (incluindo ACELP e CNG), AMR-WB+ (consultar [3GP09a]) (incluindo ACELP, TCX e CNG), G.718 (consultar [ITU08a]), G.719 (consultar [ITU08b]), G.722 (consultar [ITU07]), G.722.1 (consultar [ITU05]), G.729 (consultar [ITU12, CPK08, PKJ+11]), MPEG-4 HE-AAC / aacPlus Melhorado (consultar [EBU10, EBU12, 3GP12e, LS01, QD03]) (incluindo AAC e SBR), MPEG-4 HILN (consultar [ISO09, MEP01]) e OPUS (consultar [IET12]) (incluindo SILK e CELT).

[154] Dependendo do codec, o desvanecimento é realizado em diferentes domínios:

[155] Para codecs que utilizam LPC, o desvanecimento é realizado no domínio preditivo linear (também conhecido como domínio de excitação). Isso é verdadeiro para codecs que são baseados em ACELP, por exemplo, AMR, AMR-WB, o núcleo de ACELP de AMR-WB+, G.718, G.729, G.729.1, o núcleo de SILK em OPUS; codecs que processam, ainda, o sinal de excitação com o uso de uma transformação de tempo-frequência, por exemplo, o núcleo de TCX de AMR-WB+, o núcleo de CELT em OPUS; e para esquemas de Geração de Ruído de Conforto (CNG), que operam no domínio preditivo linear, por exemplo, CNG em AMR, CNG em AMR-WB, CNG em AMR-WB+.

[156] Para codecs que transformam diretamente o sinal de tempo no domínio de frequência, o desvanecimento é realizado no domínio espectral / de sub-banda. Isso é verdadeiro para codecs que são baseados em MDCT ou uma transformação similar, como AAC em MPEG-4 HE-AAC, G.719, G.722 (domínio da sub-banda) e G.722.1.

[157] Para codecs paramétricos, o desvanecimento é aplicado no domínio paramétrico. Isso é verdadeiro para MPEG-4 HILN.

[158] Quanto à velocidade de desvanecimento e à curva de desvanecimento, um desvanecimento é comumente realizado pela aplicação de um fator de atenuação, o qual é aplicado à representação de sinal no domínio adequado. O tamanho do fator de atenuação controla a velocidade do desvanecimento e a curva do desvanecimento. Na maioria dos casos, o fator de atenuação é aplicado no sentido do quadro, porém, também é utilizada uma aplicação no sentido da amostra; consultar, por exemplo, G.718 e G.722.

[159] O fator de atenuação para certo segmento de sinal pode ser realizado de duas maneiras, absoluta e relativa.

[160] No caso em que um fator de atenuação é fornecido absolutamente, o nível de referência é sempre aquele do último quadro recebido. Os fatores absolutos de atenuação se inicial usualmente com um valor próximo a 1 para o segmento de sinal imediatamente após o último quadro bom e, então, se degradam mais rápida ou vagarosamente em direção a 0. A curva de desvanecimento depende diretamente desses fatores. Esse é, por exemplo, o caso da ocultação descrita no Apêndice IV de G.722 (consultar, em particular, [ITU07, figura IV.7]), em que as curvas de desvanecimento possíveis são lineares ou gradualmente lineares. Considerando-se um fator de ganho g(n), em que g(0) representa o fator de ganho do último quadro bom, um fator absoluto de atenuação aabs(n), o fator de ganho de qualquer quadro perdido subsequente pode ser derivado como

[161] No caso em que um fator de atenuação é fornecido relativamente, o nível de referência é aquele do quadro anterior. Isso tem vantagens no caso de um procedimento de ocultação recursivo, por exemplo, se o sinal já atenuado é adicionalmente processado e atenuado novamente.

[162] Se um fator de atenuação é aplicado recursivamente, então, esse pode ser um valor fixo independentemente do número de quadros perdidos de modo consecutivo, por exemplo, 0,5 para G.719 (consultar acima); um valor fixo relativo ao número de quadros perdidos de modo consecutivo, por exemplo, como proposto para G.729 em [CPK08]: 1,0 para os primeiros dois quadros, 0,9 para os próximos dois quadros, 0,8 para os quadros 5 e 6, e 0 para todos os quadros subsequentes (consultar acima); ou um valor que é relativo ao número de quadros perdidos de modo consecutivo e que depende de características de sinal, por exemplo, um desvanecimento mais rápido para um sinal instável e um desvanecimento mais vagaroso para um sinal estável, por exemplo, G.718 (consultar seção acima e [ITU08a, tabela 44]);

[163] Presumindo-se um fator de desvanecimento relativo 0 £ arei(n) < 1, em que n é o número do quadro perdido (n > 1); o fator de ganho de qualquer quadro subsequente pode ser derivado como

[164] resultando em um desvanecimento exponencial.

[165] Quanto ao procedimento de desvanecimento, usualmente, o fator de atenuação é especificado, porém, em alguns padrões de aplicação (DRM, DAB+), o último é deixado para o fabricante.

[166] Se diferentes partes de sinal são desvanecidas separadamente, diferentes fatores de atenuação podem ser aplicados, por exemplo, para desvanecer componentes tonais com certa velocidade e componentes similares a ruído com outra velocidade (por exemplo, AMR, SILK).

[167] Usualmente, certo ganho é aplicado a todo o quadro. Quando o desvanecimento é realizado no domínio espectral, essa é a única maneira possível. No entanto, se o desvanecimento é realizado no domínio de tempo ou no domínio preditivo linear, um desvanecimento mais granular é possível. Tal desvanecimento mais granular é aplicado em G.718, em que fatores de ganho individuais são derivados para cada amostra através de interpolação linear entre o fator de ganho do último quadro e o fator de ganho do quadro atual.

[168] Para codecs com uma duração de quadro variável, um fator de atenuação relativo constante resulta em uma diferente velocidade de desvanecimento dependendo da duração do quadro. Esse é, por exemplo, o caso de AAC, em que a duração do quadro depende da taxa de amostragem.

[169] Para adotar a curva de desvanecimento aplicada ao formato temporal do último recebido sinal, os fatores de desvanecimento (estático) podem ser adicionalmente ajustados. Tal ajuste dinâmico adicional é, por exemplo, aplicado para AMR em que a média dos cinco fatores de ganho anteriores é considerada (consultar [3GP12b] e seção 1.8.1). Antes que qualquer atenuação seja realizada, o ganho atual é definido para a média, se a média for menor do que o último ganho, de outro modo, o último ganho é usado. Além disso, tal ajuste dinâmico adicional é, por exemplo, aplicado para G729, em que a amplitude é prevista com o uso de regressão linear dos fatores de ganho anteriores (consultar [CPK08, PKJ+11] e seção 1.6). Nesse caso, o fator de ganho resultante para os primeiros quadros ocultados pode exceder o fator de ganho do último quadro recebido.

[170] Quanto ao nível-alvo do desvanecimento, com a exceção de G.718 e CELT, o nível-alvo é 0 para todos os codecs analisados, incluindo aquela Geração de Ruído de Conforto (CNG) dos codecs.

[171] Em G.718, o desvanecimento da excitação de pitch (representando componentes tonais) e o desvanecimento da excitação aleatória (representando componentes similares a ruído) são realizados separadamente. Enquanto o fator de ganho de pitch é desvanecido para zero, o fator de ganho de inovação é desvanecido para a Energia de Excitação de CNG.

[172] Presumindo-se que fatores de atenuação relativos são dados, isso resulta - com base na fórmula (23) - no seguinte fator absoluto de atenuação:

[173] sendo que gn e o ganho da excitacao usada durante a Geracao de Ruido de Conforto.Essa formula corresponde a formula (23), quando gn=0.

[174] O G.718 não realiza nenhum desvanecimento no caso de DTX/CNG.

[175] Em CELT, não nenhum desvanecimento em direção ao nível-alvo, porém, após 5 quadros de ocultação tonal (incluindo um desvanecimento), o nível é imediatamente comutado para o nível-alvo no 6o quadro consecutivamente perdido. O nível é derivado no sentido da banda com o uso da fórmula (19).

[176] Quanto ao formato-alvo espectral do desvanecimento, todos os codecs baseados em transformada puros analisados (AAC, G.719, G.722, G.722.1), bem como SBR, simplesmente prolongam o formato espectral do último quadro bom durante o desvanecimento.

[177] Vários codecs de voz desvanecem o formato espectral até uma média com o uso da síntese de LPC. A média pode ser estática (AMR) ou adaptativa (AMR-WB, AMR-WB+, G.718), sendo que a última é derivada de uma média estática e uma média de curto prazo (derivada obtendo-se a média dos últimos n conjuntos de coeficiente de LP) (LP = Predição Linear).

[178] Todos os módulos de CNG nos codecs discutidos AMR, AMR-WB, AMR-WB+, G.718 prolongam o formato espectral do último quadro bom durante o desvanecimento.

[179] Quanto ao rastreamento do nível de ruído de fundo, há cinco diferentes abordagens conhecidas na literatura:

[180] - Detector de Atividade de Voz: baseada em SNR/VAD, porém,muito difícil de sintonizar difícil de usar para voz de baixa SNR.

[181] - Esquema de decisão suave: A abordagem de decisão suave leva a probabilidade da presença de voz em consideração [SS98] [MPC89] [HE95].

[182] - Estatística mínima: O mínimo da PSD é rastreado retendo certa quantidade de valores ao longo do tempo em um armazenamento temporário, permitindo, desse modo, que se encontre o ruído mínimo das amostras anteriores [Mar01] [HHJ10] [EH08] [Yu09].

[183] - Filtragem de Kalman: O algoritmo usa uma série de medições observadas ao longo do tempo, contendo ruído (variações aleatórias), e produz estimativas da PSD de ruído que tende a ser mais precisa do que aquelas baseadas em uma única medição. O filtro de Kalman opera recursivamente em fluxos de dados de entrada ruidosa para produzir uma estimativa estatisticamente ideal do estado do sistema [Gan05] [BJH06].

[184] - Decomposição de Subespaço: Essa abordagem tenta decompor um sinal similar a ruído em um sinal de voz limpo e uma parte de ruído, utilizando, por exemplo, a KLT (transformada de Karhunen-Loève, também conhecida como análise de componente principal) e/ou a DFT (Transformada de Tempo Discreto de Fourier). Então, os eigenvectors/eigenvalues podem ser rastreados com o uso de um algoritmo de suavização arbitrário [BP06] [HJH08].

[185] O objetivo da presente invenção consiste em fornecer conceitos aperfeiçoados para sistemas de codificação de áudio. O objetivo da presente invenção é solucionado por um aparelho, de acordo com a reivindicação 1, por um método, de acordo com reivindicação 12, e por um programa de computador, de acordo com a reivindicação 13.

[186] Um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O aparelho compreende uma interface de recebimento para receber um ou mais quadros, uma gerador de coeficiente e um reconstrutor de sinal. O gerador de coeficiente é configurado para determinar, se um quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido de um ou mais primeiro coeficientes de sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais primeiros coeficientes de sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado. Além disso, o gerador de coeficiente é configurado para gerar um ou mais segundos coeficientes de sinal de áudio, dependendo dos um ou mais primeiros coeficientes de sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que está sendo recebido pela interface de recebimento estiver corrompido. O reconstrutor de sinal de áudio é configurado para reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais primeiros coeficientes de sinal de áudio, se o quadro atual for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido. Além disso, o reconstrutor de sinal de áudio é configurado para reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais segundos coeficientes de sinal de áudio, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido.

[187] Em algumas modalidades, os um ou mais primeiros coeficientes de sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado. Em algumas modalidades, os um ou mais primeiro coeficientes de sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado.

[188] De acordo com uma modalidade, os um ou mais coeficientes de ruído podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear que indicam o ruído de fundo do sinal de áudio codificado. Em uma modalidade, os um ou mais coeficientes de filtro preditivo linear podem representar, por exemplo, um formato espectral do ruído de fundo.

[189] Em uma modalidade, o gerador de coeficiente pode ser, por exemplo, configurado para determinar as uma ou mais porções de sinal de áudio de tal modo que as uma ou mais segundas porções de sinal de áudio sejam um ou mais coeficientes de filtro preditivo linear do sinal de áudio reconstruído ou de tal modo que os um ou mais primeiros coeficientes de sinal de áudio sejam um ou mais pares espectrais de imitância do sinal de áudio reconstruído.

[190] De acordo com uma modalidade, o gerador de coeficiente pode ser, por exemplo, configurado para gerar os um ou mais segundos coeficientes de sinal de áudio aplicando-se a formula

[191] em que fcurrenM indica um dentre os um ou mais segundos coeficientes de sinal de áudio, em que °/asf[/] indica uma dentre os um ou mais primeiro coeficientes de sinal de áudio, em que ptmean[i] é um dentre os um ou mais coeficientes de ruído, em que a é um número real com 0 < a < 1, e em que i é um índice. Em uma modalidade, 0 < cr < 1.

[192] De acordo com uma modalidade, fias{í] indica um coeficiente de filtro preditivo linear do sinal de áudio codificado, e em que fcunenj[i] indica um coeficiente de filtro preditivo linear do sinal de áudio reconstruído.

[193] Em uma modalidade, ptmean[i] pode indicar, por exemplo, o ruído de fundo do sinal de áudio codificado.

[194] Em uma modalidade, o gerador de coeficiente pode ser, por exemplo, configurado para determinar, se o quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido, os um ou mais coeficientes de ruído determinando-se um espectro de ruído do sinal de áudio codificado.

[195] De acordo com uma modalidade, o gerador de coeficiente pode ser, por exemplo, configurado para determinar coeficientes de LPC que representam ruído de fundo com o uso de uma abordagem de estatística mínima no espectro de sinal para determinar um espectro de ruído de fundo e calculando-se os coeficientes de LPC que representam o formado de ruído de fundo do espectro de ruído de fundo.

[196] Além disso, um método para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O método compreende:

[197] - Receber um ou mais quadros.

[198] - Determinar, se um quadro atual dos um ou mais quadros for recebido e se o quadro atual que está sendo recebido não estiver corrompido, um ou mais primeiros coeficientes de sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais primeiros coeficientes de sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado.

[199] - Gerar um ou mais segundos coeficientes de sinal de áudio,dependendo dos um ou mais primeiros coeficientes de sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido ou se o quadro atual que é recebido estiver corrompido.

[200] - Reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais primeiros coeficientes de sinal de áudio, se o quadro atual for recebido ou se o quadro atual que é recebido não estiver corrompido.

[201] - Reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais segundos coeficientes de sinal de áudio, se o quadro atual não for recebido ou se o quadro atual que é recebido estiver corrompido.

[202] Além disso, um programa de computador para implementar o método descrito acima, quando está sendo executado em um computador ou processador de sinal, é fornecido.

[203] O uso de meios comuns para rastrear e aplicar o formato espectral de ruído de conforto durante o desvanecimento tem diversas desvantagens. O rastreamento e a aplicação do formato espectral de tal modo que possam ser realizados de modo similar para ambos os codecs de núcleo permite uma simples abordagem comum. A CELT ensina apenas o rastreamento no sentido da banda de energias do domínio espectral e a formação no sentido da banda do formato espectral no domínio espectral, o que não é possível para o núcleo de CELP.

[204] Em contraste, na técnica anterior, o formato espectral do ruído de conforto introduzido durante as perdas em rajada é totalmente estático ou parcialmente estático e parcialmente adaptativo à média em curto prazo do formato espectral (como definido em G.718 [ITU08a]) e não será compatível usualmente com o ruído de fundo no sinal antes da perda de pacote. Essa incompatibilidade das características de ruído de conforto pode ser inconveniente. De acordo com a técnica anterior, um formato de ruído de fundo (estático) treinado off-line pode ser empregado, o qual pode ser agradável aos ouvidos para sinais particulares, porém, menos agradável para outros, por exemplo, sons de ruído de carro totalmente diferentes de ruído de escritório.

[205] Além disso, na técnica anterior, uma adaptação à média de curto prazo do formato espectral dos quatros recebidos anteriormente podem ser empregados, os quais podem aproximar as características de sinal ao sinal recebido anteriormente, porém, não necessariamente às características ruído de fundo. Na técnica anterior, o rastreamento de formato espectral no sentido da banda no domínio espectral (como definido em CELT [IET12]) não é aplicável para um codec comutado com o uso não somente de um domínio de MDCT com base em núcleo (TCX), porém, também um núcleo baseado em ACELP. As modalidades mencionadas acima são, desse modo, vantajosas sobre a técnica anterior.

[206] Além disso, um aparelho para decodificar um sinal de áudio é fornecido.

[207] O aparelho compreende uma interface de recebimento. A interface de recebimento é configurada para receber uma pluralidade de quadros, em que a interface de recebimento é configurada para receber um primeiro quadro dentre a pluralidade de quadros, sendo que o dito primeiro quadro compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada em um primeiro domínio, e sendo que a interface de recebimento é configurada para receber um segundo quadro dentre a pluralidade de quadros, em que o segundo quadro compreende uma segunda porção de sinal de áudio do sinal de áudio.

[208] Além disso, o aparelho compreende uma unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreamento para obter informações de segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, sendo que o domínio de rastreamento é diferente do segundo domínio e em que o domínio de rastreamento é igual ou diferente do primeiro domínio.

[209] Além disso, o aparelho compreende uma unidade de rastreamento de nível de ruído, em que a unidade de rastreamento de nível de ruído é configurada para receber informações de primeira porção de sinal que são representadas no domínio de rastreamento, sendo que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio. A unidade de rastreamento de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído é configurada para determinar informações de nível de ruído dependendo das informações de primeira porção de sinal que são representadas no domínio de rastreamento e dependendo das informações de segunda porção de sinal que são representadas no domínio de rastreamento.

[210] Além disso, o aparelho compreende uma unidade de reconstrução para reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento, porém, estiver corrompido.

[211] Um sinal de áudio pode ser, por exemplo, um sinal de voz ou um sinal de música ou um sinal compreende voz e música, etc.

[212] A declaração de que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio significa que as informações de primeira porção de sinal se referem à primeira porção de sinal de áudio ou que as informações de primeira porção de sinal foram obtidas/geradas dependendo da primeira porção de sinal de áudio ou, de algum outro modo, depende da primeira porção de sinal de áudio. Por exemplo, a primeira porção de sinal de áudio pode ter sido transformada de um domínio para outro domínio para obter as informações de primeira porção de sinal.

[213] Do mesmo modo, uma declaração de que as informações de segunda porção de sinal depende de uma segunda porção de sinal de áudio significa que as informações de segunda porção de sinal se referem à segunda porção de sinal de áudio ou que as informações de segunda porção de sinal foram obtidas/geradas dependendo da segunda porção de sinal de áudio ou, de algum outro modo, depende da segunda porção de sinal de áudio. Por exemplo, a segunda porção de sinal de áudio pode ter sido transformada de um domínio para outro domínio para obter informações de segunda porção de sinal.

[214] Em uma modalidade, a primeira porção de sinal de áudio pode ser, por exemplo, representada em um domínio de tempo como o primeiro domínio. Além disso, a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de excitação que é o segundo domínio para o domínio de tempo que é o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber as informações de primeira porção de sinal que são representadas no domínio de tempo como o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal que é representada no domínio de tempo como o domínio de rastreamento.

[215] De acordo com uma modalidade, a primeira porção de sinal de áudio pode ser, por exemplo, representada em um domínio de excitação como o primeiro domínio. Além disso, a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para o domínio de excitação que é o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber as informações de primeira porção de sinal que são representadas no domínio de excitação como o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal que é representada no domínio de excitação como o domínio de rastreamento.

[216] Em uma modalidade, a primeira porção de sinal de áudio pode ser, por exemplo, representada em um domínio de excitação como o primeiro domínio, em que a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber as informações de primeira porção de sinal, em que as ditas informações de primeira porção de sinal são representadas no domínio de FFT que é o domínio de rastreamento, e em que as ditas informações de primeira porção de sinal dependem da dita primeira porção de sinal de áudio que é representada no domínio de excitação, sendo que a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para um domínio de FFT que é o domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal de áudio que é representada no domínio de FFT.

[217] Em uma modalidade, o aparelho pode compreender, ainda, por exemplo, uma primeira unidade de agregação para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Além disso, o aparelho pode compreender, ainda, por exemplo, uma segunda unidade de agregação para determinar, dependendo da segunda porção de sinal de áudio, um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio. Além disso, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber o primeiro valor agregado como as informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber o segundo valor agregado como as informações de segunda porção de sinal que são representadas no domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreamento e dependendo do segundo valor agregado que é representado no domínio de rastreamento.

[218] De acordo com uma modalidade, a primeira unidade de agregação pode ser, por exemplo, configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indique uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. Além disso, a segunda unidade de agregação pode ser, por exemplo, configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indique uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.

[219] Em uma modalidade, a unidade de transformada pode ser, por exemplo, configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio para o domínio de rastreamento aplicando- se um valor de ganho no valor derivado da segunda porção de sinal de áudio.

[220] De acordo com modalidades, o valor de ganho pode indicar, por exemplo, um ganho introduzido por Síntese de codificação preditiva linear, ou o valor de ganho pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.

[221] Em uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar informações de nível de ruído aplicando-se uma abordagem de estatística mínima.

[222] De acordo com uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[223] Em uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído derivadas de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido aplicando-se a abordagem de estatística mínima. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[224] De acordo com outra modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurado para determinar uma pluralidade de coeficientes preditivos lineares que indicam um nível de ruído de conforto como as informações de nível de ruído, e a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo da pluralidade de coeficientes preditivos lineares.

[225] Em uma modalidade, a unidade de rastreamento de nível de ruído é configurada para determinar uma pluralidade de coeficientes de FFT que indicam um nível de ruído de conforto como as informações de nível de ruído, e a primeira unidade de reconstrução é configurada para reconstruir a terceira porção de sinal de áudio dependendo de um nível de ruído de conforto derivado dos ditos coeficientes de FFT, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[226] Em uma modalidade, a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[227] De acordo com uma modalidade, a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio atenuando-se ou amplificando-se um sinal derivado da primeira ou da segunda porção de sinal de áudio.

[228] Em uma modalidade, o aparelho pode compreender ainda, por exemplo, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso. Além disso, a unidade de predição de longo prazo pode ser, por exemplo, configurada para gerar um sinal processado dependendo da primeira ou da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo. Além disso, a unidade de predição de longo prazo pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[229] De acordo com uma modalidade, a unidade de predição de longo prazo pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento.

[230] Em uma modalidade, a unidade de predição de longo prazo pode ser, por exemplo, configurada para atualizar a entrada de armazenamento temporário de atraso armazenando-se o sinal processado gerado no armazenamento temporário de atraso, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[231] De acordo com uma modalidade, a unidade de transformada pode ser, por exemplo, uma primeira unidade de transformada, e a unidade de reconstrução é uma primeira unidade de reconstrução. O aparelho compreende, ainda, uma segunda unidade de transformada e uma segunda unidade de reconstrução. A segunda unidade de transformada pode ser, por exemplo, configurada para transformar as informações de nível de ruído do domínio de rastreamento para o segundo domínio, se um quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido. Além disso, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio se o dito quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[232] Em uma modalidade, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da segunda porção de sinal de áudio.

[233] De acordo com uma modalidade, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio atenuando-se ou amplificando-se um sinal derivado da primeira ou da segunda porção de sinal de áudio.

[234] Além disso, um método para decodificar um sinal de áudio é fornecido.

[235] O método compreende:

[236] - Receber um primeiro quadro dentre uma pluralidade de quadros,sendo que o dito primeiro quadro compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada em um primeiro domínio.

[237] - Receber um segundo quadro dentre a pluralidade de quadros,sendo que o dito segundo quadro compreende uma segunda porção de sinal de áudio do sinal de áudio.

[238] - Transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreamento para obter informações de segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, sendo que o domínio de rastreamento é diferente do segundo domínio, e em que o domínio de rastreamento é igual ou diferente do primeiro domínio.

[239] - Determinar informações de nível de ruído dependendo das informações de primeira porção de sinal que são representadas no domínio de rastreamento, e dependendo das informações de segunda porção de sinal que são representadas no domínio de rastreamento, em que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio. E:

[240] - Reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no domínio de rastreamento, se um terceiro quadro dentre a pluralidade de quadros não for recebido ou se o dito terceiro quadro for recebido, porém, estiver corrompido.

[241] Além disso, um programa de computador para implementar o método descrito acima, quando é executado em um computador ou processador de sinal, é fornecido.

[242] Algumas das modalidades da presente invenção fornecem um parâmetro de suavização variante no tempo de tal modo que as capacidades de rastreamento do periodograma suavizado e sua variância sejam mais bem equilibrados, para desenvolver um algoritmo para ajuste de compensação e para acelerar o rastreamento de ruído em geral.

[243] As modalidades da presente invenção são baseadas na constatação de que, quanto ao desvanecimento, os seguintes parâmetros são de interesse: O domínio de desvanecimento; a velocidade de desvanecimento ou, de modo mais geral, a curva de desvanecimento; o nível-alvo do desvanecimento; o formato-alvo espectral do desvanecimento; e/ou o rastreamento de nível de ruído de fundo. Nesse contexto, as modalidades são baseadas na constatação de que a técnica anterior tem desvantagens significantes.

[244] Um aparelho e um método para um desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros são fornecidos.

[245] Além disso, um programa de computador para implementar o método descrito acima, quando é executado em um computador ou processador de sinal, é fornecido.

[246] As modalidades concretizam um desvanecimento até o nível de ruído de conforto. De acordo com modalidades, um rastreamento de nível de ruído de conforto comum no domínio de excitação é realizado. O nível de ruído de conforto sendo alvejado durante a perda de pacote em rajadas será o mesmo, independentemente do codificador de núcleo (ACELP/TCX) em uso, e sempre estará atualizado. Não há nenhuma técnica anterior conhecida em que um rastreamento de nível de ruído comum seja necessário. As modalidades fornecem o desvanecimento de um codec comutado para um sinal similar a ruído de conforto durante as perdas de pacote em rajada.

[247] Além disso, as modalidades realizam que a complexidade geral será menor em comparação a dois módulos de rastreamento de nível de ruído independentes, já que as funções (PROM) e a memória podem ser compartilhadas.

[248] Nas modalidades, a derivação de nível no domínio de excitação (em comparação à derivação de nível no domínio de tempo) fornece mais mínimos durante a voz ativa, já que parte das informações de voz é coberta pelos coeficientes de LP.

[249] No caso de ACELP, de acordo com modalidades, a derivação de nível ocorre no domínio de excitação. No caso de TCX, nas modalidades, o nível é derivado no domínio de tempo, e o ganho da síntese de LPC e da de- ênfase é aplicado como um fator de correção a fim de modelar o nível de energia no domínio de excitação. Rastrear o nível no domínio de excitação, por exemplo, antes da FDNS, também seria possível teoricamente, porém, a compensação de nível entre o domínio de excitação de TCX e o domínio de excitação de ACELP é considerada muito complexa.

[250] Nenhuma técnica anterior incorpora tal rastreamento de nível de fundo comum em diferentes domínios. As técnicas da técnica anterior não têm tal rastreamento de nível de ruído de conforto comum, por exemplo, no domínio de excitação, em um sistema de codec comutado. Desse modo, as modalidades são vantajosas sobre a técnica anterior, já que, para as técnicas da técnica anterior, o nível de ruído de conforto que é alvejado durante as perdas de pacote em rajada pode ser diferente, dependendo do modo de codificação anterior (ACELP/TCX), em que o nível foi rastreado; já que, na técnica anterior, o rastreamento que é separado para cada modo de codificação irá causar uma sobrecarga desnecessária e uma complexidade computacional adicional; e já que, na técnica anterior, nenhum nível de ruído de conforto atualizado pode estar disponível em qualquer núcleo devido à comutação recente para esse núcleo.

[251] De acordo com algumas modalidades, o rastreamento de nível é conduzido no domínio de excitação, porém, o desvanecimento de TCX é conduzido no domínio de tempo. Através do desvanecimento no domínio de tempo, falhas do TDAC são evitadas, as quais causariam suavização. Isso se torna de particular interesse quando componentes de sinal tonal são ocultados. Além disso, a conversão de nível entre o domínio de excitação de ACELP e o domínio espectral de MDCT é evitada e, desse modo, por exemplo, os recursos de computação são salvos. Devido à comutação entre o domínio de excitação e o domínio de tempo, um ajuste de nível é exigido entre o domínio de excitação e o domínio de tempo. Isso é solucionado pela derivação do ganho que seria introduzido pela síntese de LPC e pela pré-ênfase, e pelo uso desse ganho como um fator de correção para converter o nível entre os dois domínios.

[252] Em contraste, as técnicas da técnica anterior não conduzem o rastreamento de nível no domínio de excitação e o Desvanecimento de TCX no Domínio de tempo. Quanto aos codecs baseados em transformada da estado da técnica, o fator de atenuação é aplicado no domínio de excitação (para abordagens de ocultação similares a tempo-domínio/ACELP, consultar [3GP09a]) ou no domínio de frequência (para abordagens de domínio de frequência abordagens, como repetição de quadro ou substituição de ruído, consultar [LS01]). Uma desvantagem da abordagem da técnica anterior para aplicar o fator de atenuação no domínio de frequência é que a suavização será causada na região de sobreposição-adição no domínio de tempo. Esse será o caso de quadros adjacentes aos quais diferentes fatores de atenuação são aplicados, devido ao fato de que o procedimento de desvanecimento faz com que o TDAC (cancelamento de suavização de domínio de tempo) falhe. Isso é particularmente relevante quando os componentes de sinal tonal são ocultados. As modalidades mencionadas acima são, então, vantajosas sobre a técnica anterior.

[253] As modalidades compensam a influência do filtro passa-alta no ganho de síntese de LPC. De acordo com modalidades, para compensar a alteração indesejada de ganho da análise de LPC e da ênfase causada pelo pela excitação do tipo unvoiced passada em filtro passa-alta, um fator de correção é derivado. Esse fator de correção considera essa alteração indesejada de ganho e modifica o nível-alvo de ruído de conforto no domínio de excitação de tal modo que o nível-alvo correto seja alcançado no domínio de tempo.

[254] Em contraste, a técnica anterior, por exemplo, o G.718 [ITU08a] introduz um filtro passa-alta no caminho do sinal da excitação do tipo unvoiced, como mostrado na Fig. 2, se o sinal do último quadro bom não for classificado como UNVOICED. Desse modo, as técnicas da técnica anterior causam efeitos colaterais indesejados, já que o ganho da síntese de LPC subsequente depende das características de sinal, as quais são alteradas por esse filtro passa-alta. Já que o nível de fundo é rastreado e aplicado no domínio de excitação, o algoritmo depende do ganho de síntese de LPC, o qual, por sua vez, depende novamente das características do sinal de excitação. Em outras palavras: a modificação das características do sinal da excitação devido à passagem em filtro passa-alta, como conduzida pela técnica anterior, pode resultar em um ganho modificado (usualmente reduzido) ganho da síntese de LPC. Isso resulta em um nível de saída errôneo, muito embora o nível de excitação esteja correto.

[255] As modalidades superam essas desvantagens da técnica anterior.

[256] Em particular, as modalidades concretizam um formato espectral adaptivo de ruído de conforto. Em contraste ao G.718, através de rastreamento do formato espectral do ruído de fundo e aplicando-se (desvanecendo-se para) esse formato durante perdas de pacote em rajada, a característica de ruído do ruído de fundo anterior será compatível, resultando em uma característica de ruído agradável do ruído de conforto. Isso impede incompatibilidades indesejadas do formato espectral que pode ser introduzido com o uso de um envelope espectral que foi derivado por treinamento off-line e/ou do formato espectral dos últimos quadros recebidos.

[257] Além disso, um aparelho para decodificar um sinal de áudio é fornecido. O aparelho compreende uma interface de recebimento, em que a interface de recebimento é configurada para receber um primeiro quadro que compreende uma primeira porção de sinal de áudio do sinal de áudio, e em que a interface de recebimento é configurada para receber um segundo quadro que compreende uma segunda porção de sinal de áudio do sinal de áudio.

[258] Além disso, o aparelho compreende uma unidade de rastreamento de nível de ruído, em que a unidade de rastreamento de nível de ruído é configurada para determinar informações de nível de ruído dependendo de pelo menos uma dentre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio (isso significa: dependendo da primeira porção de sinal de áudio e/ou da segunda porção de sinal de áudio), sendo que as informações de nível de ruído são representadas em um domínio de rastreamento.

[259] Além disso, o aparelho compreende uma primeira unidade de reconstrução para reconstruir, em um primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido, sendo que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreamento.

[260] Além disso, o aparelho compreende uma unidade de transformada para transformar as informações de nível de ruído do domínio de rastreamento para um segundo domínio de reconstrução, se um quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreamento, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução.

[261] Além disso, o aparelho compreende uma segunda unidade de reconstrução para reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[262] De acordo com algumas modalidades, o domínio de rastreamento pode ser, por exemplo, o caso em que o domínio de rastreamento é um domínio de tempo, um domínio espectral, um domínio de FFT, um domínio de MDCT ou um domínio de excitação. O primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação. O segundo domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação.

[263] Em uma modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[264] Em outra modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[265] De acordo com uma modalidade, a dita primeira porção de sinal de áudio pode ser, por exemplo, representada em um primeiro domínio de entrada, e a dita segunda porção de sinal de áudio pode ser, por exemplo, representada em um segundo domínio de entrada. A unidade de transformada pode ser, por exemplo, uma segunda unidade de transformada. O aparelho pode compreender, ainda, por exemplo, uma primeira unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreamento para obter informações de segunda porção de sinal. A unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreamento de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreamento, e sendo que a unidade de rastreamento de nível de ruído é configurada para determinar as informações de nível de ruído dependendo das informações de primeira porção de sinal que são representadas no domínio de rastreamento e dependendo das informações de segunda porção de sinal que são representadas no domínio de rastreamento.

[266] De acordo com uma modalidade, o primeiro domínio de entrada pode ser, por exemplo, o domínio de excitação, e o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.

[267] Em outra modalidade, o primeiro domínio de entrada pode ser, por exemplo, o domínio de MDCT, e em que o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.

[268] De acordo com uma modalidade, a primeira unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio conduzindo-se um primeiro desvanecimento para um espectro similar a ruído. A segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio conduzindo-se um segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP. Além disso, a primeira unidade de reconstrução e a segunda unidade de reconstrução podem ser, por exemplo, configuradas para conduzir o primeiro desvanecimento e o segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP com a mesma velocidade de desvanecimento.

[269] Em uma modalidade, o aparelho pode compreender, ainda, por exemplo, uma primeira unidade de agregação para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Além disso, o aparelho pode compreender, ainda, por exemplo, uma segunda unidade de agregação para determinar, dependendo da segunda porção de sinal de áudio, um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio. A unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber o primeiro valor agregado como as informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber o segundo valor agregado como as informações de segunda porção de sinal que são representadas no domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído é configurada para determinar as informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreamento e dependendo do segundo valor agregado que é representado no domínio de rastreamento.

[270] De acordo com uma modalidade, a primeira unidade de agregação pode ser, por exemplo, configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indique uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. A segunda unidade de agregação é configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indique uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.

[271] Em uma modalidade, a primeira unidade de transformada pode ser, por exemplo, configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreamento aplicando-se um valor de ganho no valor derivado da segunda porção de sinal de áudio.

[272] De acordo com uma modalidade, o valor de ganho pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear, ou em que o valor de ganho indica um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.

[273] Em uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar as informações de nível de ruído aplicando-se uma abordagem de estatística mínima.

[274] De acordo com uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[275] Em uma modalidade, a unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído derivada de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido aplicando-se a abordagem de estatística mínima. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[276] De acordo com uma modalidade, a primeira unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[277] Em uma modalidade, a primeira unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio atenuando-se ou ampliando-se a primeira porção de sinal de áudio.

[278] De acordo com uma modalidade, a segunda unidade de reconstr«ção pode ser, por exemplo, configurado para reconstruir a quarta porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da segunda porção de sinal de áudio.

[279] Em uma modalidade, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio atenuando-se ou ampliando-se a segunda porção de sinal de áudio.

[280] De acordo com uma modalidade, o aparelho pode compreender, ainda, por exemplo, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso, em que a unidade de predição de longo prazo pode ser, por exemplo, configurada para gerar um sinal processado dependendo da primeira ou da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo, e em que a unidade de predição de longo prazo é configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[281] Em uma modalidade, a unidade de predição de longo prazo pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento.

[282] Em uma modalidade, a unidade de predição de longo prazo pode ser, por exemplo, configurada para atualizar a entrada de armazenamento temporário de atraso armazenando-se o sinal processado gerado no armazenamento temporário de atraso, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito terceiro quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[283] Além disso, um método para decodificar um sinal de áudio é fornecido. O método compreende:

[284] - Receber um primeiro quadro que compreende uma primeira porção de sinal de áudio do sinal de áudio e receber um segundo quadro que compreende uma segunda porção de sinal de áudio do sinal de áudio.

[285] - Determinar informações de nível de ruído dependendo de pelo menos uma dentre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio, em que as informações de nível de ruído são representadas em um domínio de rastreamento.

[286] - Reconstruir, em um primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro quadro dentre a pluralidade de quadros não for recebido ou se o dito terceiro quadro for recebido, porém, estiver corrompido, em que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreamento.

[287] - Transformar as informações de nível de ruído do domínio de rastreamento para um segundo domínio de reconstrução, se um quarto quadro dentre a pluralidade de quadros não for recebido ou se o dito quarto quadro for recebido, porém, estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreamento, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução. E:

[288] - Reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto quadro dentre a pluralidade de quadros não for recebido ou se o dito quarto quadro for recebido, porém, estiver corrompido.

[289] Além disso, um programa de computador para implementar o método descrito acima, quando executado em um computador ou processador de sinal, é fornecido.

[290] Além disso, um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O aparelho compreende uma interface de recebimento para receber um ou mais quadros que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio codificado, e um processador para gerar o sinal de áudio reconstruído. O processador é configurado para gerar o sinal de áudio reconstruído desvanecendo-se um espectro modificado para um espectro-alvo, se um quadro atual não for recebido pela interface de recebimento ou se o quadro atual for recebido pela interface de recebimento, porém, estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto da dita amostra de sinal modificado é igual a um valor absoluto das uma ou mais amostras de sinal de áudio do espectro de sinal de áudio. Além disso, o processador é configurado para não desvanecer o espectro modificado para o espectro-alvo, se o quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido.

[291] De acordo com uma modalidade, o espectro-alvo pode ser, por exemplo, um espectro similar a ruído.

[292] Em uma modalidade, o espectro similar a ruído pode representar, por exemplo, ruído branco.

[293] De acordo com uma modalidade, o espectro similar a ruído pode ser, por exemplo, conformado.

[294] Em uma modalidade, o formato do espectro similar a ruído pode depender, por exemplo, de um espectro de sinal de áudio de um sinal recebido anteriormente.

[295] De acordo com uma modalidade, o espectro similar a ruído pode ser, por exemplo, conformado dependendo do formato do espectro de sinal de áudio.

[296] Em uma modalidade, o processador pode empregar, por exemplo, um fator de inclinação para conformar o espectro similar a ruído.

[297] De acordo com uma modalidade, o processador pode empregar, por exemplo, a fórmula

[298] shaped_noise[i] = noise * power(tilt_factor,i/N)

[299] em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor > 0, e em que power é uma função de potência.

[300] power(x,y) indica xy

[301] power(tilt_factor),i/N) indica tiit_facto ®Ò

[302] se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma ampliação com i crescente.

[303] De acordo com outra modalidade, o processador pode empregar, por exemplo, a fórmula

[304] shaped_noise[i] = noise * (1 + i / (N-1) * (tilt_factor-1))

[305] em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor > 0.

[306] Se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma ampliação com i crescente.

[307] De acordo com uma modalidade, o processador pode ser, por exemplo, configurado para gerar o espectro modificado, alterando-se um símbolo de uma ou mais das amostras sinal de áudio do espectro de sinal de áudio, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido.

[308] Em uma modalidade, cada uma das amostras de sinal de áudio do espectro de sinal de áudio pode ser, por exemplo, representada por um número real, porém, não poder um número imaginário.

[309] De acordo com uma modalidade, as amostras de sinal de áudio do espectro de sinal de áudio podem ser, por exemplo, representadas em um domínio de Transformada Discreta Modificada de Cosseno.

[310] Em outra modalidade, as amostras de sinal de áudio do espectro de sinal de áudio podem ser, por exemplo, representadas em um domínio de Transformada Discreta Modificada de Cosseno.

[311] De acordo com uma modalidade, o processador pode ser, por exemplo, configurado para gerar o espectro modificado empregando-se uma função de símbolo aleatório que emite de modo aleatório ou de modo pseudoaleatório um primeiro ou um segundo valor.

[312] Em uma modalidade, o processador pode ser, por exemplo, configurado para desvanecer o espectro modificado para o espectro-alvo diminuindo-se subsequentemente um fator de atenuação.

[313] De acordo com uma modalidade, o processador pode ser, por exemplo, configurado para desvanecer o espectro modificado para o espectro- alvo aumentando-se subsequentemente um fator de atenuação.

[314] Em uma modalidade, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido, o processador pode ser, por exemplo, configurado para gerar o sinal de áudio reconstruído empregando-se a fórmula:

[315] x[i] = (1-cum_damping) * noise[i] + cum_damping * random_sign() * x_old[i]

[316] em que i é um índice, em que x[i] indica uma amostra do sinal de áudio reconstruído, em que cum_damping é um fator de atenuação, em que x_old[i] indica uma das amostras de sinal de áudio do espectro de sinal de áudio do sinal de áudio codificado, em que random_sign() retorna a 1 ou -1, em que noise é um vetor aleatório que indica o espectro-alvo.

[317] Em uma modalidade, o dito vetor aleatório noise pode ser, por exemplo, escalonado de tal modo que sua média quadrática seja similar à média quadrática do espectro do sinal de áudio codificado composto por um dos quadros que é recebido por último pela interface de recebimento.

[318] De acordo com uma modalidade geral, o processor pode ser, por exemplo, configurado gerar o sinal de áudio reconstruído, empregando-se um vetor aleatório que é escalonado de tal modo que sua média quadrática seja similar à media quadrática do espectro dos sinal de áudio codificado que é composto por um dos quadros que é recebido por último pela interface de recebimento.

[319] Além disso, um método para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O método compreende:

[320] - Receber um ou mais quadros que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio decodificado. E:

[321] - Gerar o sinal de áudio reconstruído.

[322] A geração do sinal de áudio reconstruído é conduzida desvanecendo-se um espectro modificado para um espectro-alvo, se um quadro atual não for recebido ou se o quadro atual for recebido, porém, estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto da dita amostra de sinal modificado é igual a um valor absoluto de uma das amostras de sinal de áudio do espectro de sinal de áudio. O espectro modificado não é desvanecido pra um espectro de ruído branco, se o quadro atual dentre os um ou mais quadros for recebido e se o quadro atual que é recebido não estiver corrompido.

[323] Além disso, um programa de computador para implementar o método descrito acima, quando executado em um computador ou processador de sinal, é fornecido.

[324] As modalidades definem um espectro de MDCT desvanecido para ruído branco antes da aplicação de FDNS (FDNS = Substituição de Ruído de Domínio de Frequência).

[325] De acordo com a técnica anterior, em codecs baseados em ACELP, o livro-código inovador é substituído por um vetor aleatório (por exemplo, com ruído). Nas modalidades, a abordagem de ACELP, a qual consiste em substituir o livro-código inovador por um vetor aleatório (por exemplo, com ruído), é adotada para a estrutura de decodificador de TCX. No presente documento, o equivalente ao livro-código inovador é o espectro de MDCT usualmente recebido no fluxo de bits e alimentado para a FDNS.

[326] A abordagem clássica de ocultação de MDCT seria repetir simplesmente esse espectro como tal ou aplicar certo processo de randomização, o qual basicamente prolonga o formato espectral do último quadro recebido [LS01]. Tem-se a desvantagem de que o formato espectral de curto prazo é prolongado, resultando frequentemente em um som metálico repetitivo que não é similar ao ruído de fundo e, desse modo, não pode ser usado como ruído de conforto.

[327] Com o uso do método proposto, a conformação espectral de curto prazo é realizada pela FDNS e pela TCX LTP, a conformação espectral de longo prazo é realizada apenas pela FDNS. A conformação pela FDNS é desvanecida do formato espectral de curto prazo para o formato espectral de longo prazo rastreado do ruído de fundo, e a TCX LTP é desvanecida para zero.

[328] O desvanecimento dos coeficientes de FDNS para os coeficientes de ruído de fundo rastreado resulta em uma transição suave entre o último envelope espectral bom e o envelope de fundo espectral que deveria ser alvejado a longo prazo, a fim de alcançar um ruído de fundo agradável no caso de longas perdas de quadro em rajada.

[329] Em contraste, de acordo com o estado da técnica, para codecs baseados em transformada, a ocultação similar a ruído é conduzida por repetição de quando ou substituição de ruído no domínio de frequência [LS01]. Na técnica anterior, a substituição de ruído é usualmente realizada por cifragem de símbolos dos compartimentos espectrais. Se, na técnica anterior, a cifragem de símbolos de TCX (domínio de frequência) for usada durante a ocultação, os coeficientes de MDCT recebidos por último são reutilizados e cada símbolo é randomizado antes que o espectro seja inversamente transformado para o domínio de tempo. A desvantagem desse procedimento da técnica anterior é que, para quadros perdidos consecutivamente, o mesmo espectro é usado diversas vezes, apenas com diferentes randomizações de símbolo e atenuação global. Observando-se o envelope espectral ao longo do tempo em um grande intervalo de tempo, é possível notar que o envelope é aproximadamente constante durante perdas de quadro consecutivas, devido ao fato de que as energias de banda são mantidas constantes umas em relação às outras em um quadro e são apenas globalmente atenuadas. No sistema de codificação usado, de acordo com a técnica anterior, os valores espectrais são processados com o uso de FDNS, a fim de recuperar o espectro original. Isso significa que, se for desejado desvanecer o espectro de MDCT para certo envelope espectral (com o uso de coeficientes de FDNS, por exemplo, que descrevem o ruído de fundo atual), o resultado não é apenas dependente dos coeficientes de FDNS, porém, também é dependente do espectro anteriormente decodificado que foi submetido à cifragem de símbolos. As modalidades mencionadas acima superam essas desvantagens da técnica anterior.

[330] As modalidades são baseadas na constatação de que é necessário desvanecer o espectro usado para cifragem de símbolos para ruído branco, antes de alimentá-lo para o processamento de FDNS. De outro modo, o espectro emitido nunca será compatível com o envelope alvejado usado para processamento de FDNS.

[331] Em modalidades, a mesma velocidade de desvanecimento é usada para desvanecimento de ganho de LTP e para o desvanecimento de ruído branco.

[332] Além disso, um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O aparelho compreende uma interface de recebimento para receber uma pluralidade de quadros, um armazenamento temporário de atraso para armazenar amostras de sinal de áudio do sinal de áudio decodificado, um seletor de amostra para selecionar uma pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso, e um processador de amostra para processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído. O seletor de amostra é configurado para selecionar, se um quadro atual for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso dependendo de informações de atraso de pitch que são compostas pelo quadro atual. Além disso, o seletor de amostra é configurado para selecionar, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso dependendo de informações de atraso de pitch que são compostas por outro quadro que é recebido anteriormente pela interface de recebimento.

[333] De acordo com uma modalidade, o processador de amostra pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido, reescalonando-se as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo quadro atual. Além disso, o seletor de amostra pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido, reescalonando-se as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo dito outro quadro que é recebido anteriormente pela interface de recebimento.

[334] Em uma modalidade, o processador de amostra pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo quadro atual. Além disso, o seletor de amostra é configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo dito outro quadro que é recebido anteriormente pela interface de recebimento.

[335] De acordo com uma modalidade, o processador de amostra pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso.

[336] Em uma modalidade, o processador de amostra pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso antes de um quadro adicional ser recebido pela interface de recebimento.

[337] De acordo com uma modalidade, o processador de amostra pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso após um quadro adicional ser recebido pela interface de recebimento.

[338] Em uma modalidade, o processador de amostra pode ser, por exemplo, configurado para reescalonar as amostras de sinal de áudio selecionadas dependendo das informações de ganho para obter amostras de sinal de áudio reescalonadas e combinando-se as amostras de sinal de áudio reescalonadas com amostras de sinal de áudio de entrada para obter as amostras de sinal de áudio processadas.

[339] De acordo com uma modalidade, o processador de amostra pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas, indicando a combinação das amostras de sinal de áudio reescalonadas e as amostras de sinal de áudio de entrada, no armazenamento temporário de atraso, e para não armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso, se o quadro atual for recebido pela interface de recebimento e se o quadro atual que é recebido pela interface de recebimento não estiver corrompido. Além disso, o processador de amostra é configurado para armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso e para não armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido.

[340] De acordo com outra modalidade, o processador de amostra pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso, se o quadro atual não for recebido pela interface de recebimento ou se o quadro atual que é recebido pela interface de recebimento estiver corrompido.

[341] Em uma modalidade, o seletor de amostra pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído reescalonando-se as amostras de sinal de áudio selecionadas dependendo de um ganho modificado, em que o ganho modificado é definido de acordo com a fórmula:

[342] gain = gain_past * damping;

[343] em que gain é o ganho modificado, em que o seletor de amostra pode ser, por exemplo, configurado para definir gain_past para gain após gain e foi calculado, e em que damping é um valor real.

[344] De acordo com uma modalidade, o seletor de amostra pode ser, por exemplo, configurado para calcular o ganho modificado.

[345] Em uma modalidade, damping pode ser, por exemplo, definido de acordo com: 0 damping < 1.

[346] De acordo com uma modalidade, o ganho modificado gain pode ser, por exemplo, definido como zero, se pelo menos um número predefinido de quadros não forem recebido pela interface de recebimento já que um quadro último foi recebido pela interface de recebimento.

[347] Além disso, um método para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. O método compreende:

[348] - Receber uma pluralidade de quadros.

[349] - Armazenar amostras de sinal de áudio do sinal de audio decodificado.

[350] - Selecionar uma pluralidade de amostras de sinal de audio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso. E:

[351] - Processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído.

[352] Se um quadro atual for recebido e se o quadro atual que é recebido não estiver corrompido, a etapa de selecionar a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso é conduzida dependendo de informações de atraso de pitch que são compostas pelo quadro atual. Além disso, se o quadro atual não for recebido ou se o quadro atual que é recebido estiver corrompido, a etapa de selecionar a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso é conduzida dependendo de informações de atraso de pitch que são compostas por outro quadro que é recebido anteriormente pela interface de recebimento.

[353] Além disso, um programa de computador para implementar o método descrito acima, quando executado em um computador ou processador de sinal, é fornecido.

[354] As modalidades empregam TCX LTP (TXC LTP = Excitação Codificada por Transformada Predição de Longo Prazo). Durante a operação normal, a memória de TCX LTP é atualizada com o sinal sintetizado que contém ruído e componentes tonais reconstruídos.

[355] Em vez de desabilitar a TCX LTP durante a ocultação, sua operação normal pode ser continuada durante a ocultação com os parâmetros recebidos no último quadro bom. Isso conserva o formato espectral do sinal, particularmente aqueles componentes tonais que são reproduzidos pelo filtro de LTP.

[356] Além disso, as modalidades dissociam o laço de retroalimentação de TCX LTP. Uma continuação simples da operação normal de TCX LTP introduz um ruído adicional, já que, com cada etapa de atualização adicional, um ruído gerado de modo aleatório a partir da excitação de LTP é introduzido. Os componentes tonais se tornam, desse modo, cada vez mais distorcidos ao longo do tempo devido ao ruído adicionado.

[357] Para superar isso, somente o armazenamento temporário de TCX LTP atualizado pode ser retroalimentado (sem adicionar ruído), a fim de não poluir as informações tonais com ruído aleatório indesejado.

[358] Além disso, de acordo com modalidades, o ganho de TCX LTP é desvanecido para zero.

[359] Essas modalidades são baseadas na constatação de que continuar a TCX LTP auxilia a preservar as características do sinal a curto prazo, porém, tem desvantagens a longo prazo: O sinal reproduzido durante a ocultação irá incluir as informações tonais/de voz que estavam presentes antes da perda. Especialmente para voz clara ou voz sobre ruído de fundo, é extremamente improvável que um tom ou harmônica decaia muito vagarosamente ao longo de um período de tempo muito grande. Dando continuidade à operação de TCX LTP durante a ocultação, particularmente se a atualização de memória de LTP for dissociada (somente componentes tonais são retroalimentados e não a parte submetida à cifragem de símbolos), as informações tonais/de voz permanecerão presentes no sinal ocultado por toda a perda, sendo atenuadas apenas pelo desvanecimento geral para o nível de ruído de conforto. Além disso, é impossível alcançar o envelope de ruído de conforto durante as perdas de pacote em rajada, se a TCX LTP for aplicada durante a perda em rajada sem ser atenuada ao longo do tempo, devido ao fato de que o sinal sempre irá incorporar, então as informações de voz da LTP.

[360] Portanto, o ganho de TCX LTP é desvanecido em direção a zero, de tal modo que componentes tonais representados pela LTP sejam desvanecidos para zero, ao mesmo tempo em que o sinal é desvanecido para o nível de sinal de fundo e formato, e de tal modo que o desvanecimento alcance o envelope de fundo espectral desejado (ruído de conforto) sem incorporar componentes tonais indesejados.

[361] Nas modalidades, a mesma velocidade de desvanecimento é usada para o desvanecimento de ganho de LTP e para o desvanecimento de ruído branco.

[362] Em contraste, na técnica anterior, não há nenhum codec de transformada conhecido que use LTP durante a ocultação. Para a MPEG-4 LTP [ISO09], não existe nenhuma abordagem de ocultação na técnica anterior. Outro codec baseado em MDCT da técnica anterior que faz uso de uma LTP é a CELT, porém, esse codec usa uma ocultação similar a ACELP para os primeiros cinco quadros e, para todos os quadros subsequentes, o ruído de fundo é gerado, o qual não faz uso da LTP. Uma desvantagem da técnica anterior por não usar a TCX LTP é que todos os componentes tonais são reproduzidos com o desaparecimento abrupto de LTP. Além disso, em codecs baseados em ACELP da técnica anterior, a operação de LTP é prolongada durante a ocultação, e o ganho do livro-código adaptivo é desvanecido em direção a zero. Em relação à operação de laço de retroalimentação, a técnica anterior emprega duas abordagens: toda a excitação, por exemplo, a soma da excitação inovadora e da excitação adaptativa, é retroalimentada (AMR-WB); ou somente a excitação adaptativa atualizado, por exemplo, as partes tonais do sinal, é retroalimentada (G.718). as modalidades mencionadas acima superam as desvantagens da técnica anterior.

[363] A seguir, as modalidades da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:

[364] Fig. 1a ilustra um aparelho para decodificar um sinal de áudio de acordo com uma modalidade,

[365] Fig. 1b ilustra um aparelho para decodificar um sinal de áudio de acordo com outra modalidade,

[366] Fig. 1c ilustra um aparelho para decodificar um sinal de áudio de acordo com outra modalidade, em que o aparelho compreende, ainda, uma primeira e uma segunda unidade de agregação,

[367] Fig. 1d ilustra um aparelho para decodificar um sinal de áudio de acordo com uma modalidade adicional, em que o aparelho compreende, além disso, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso,

[368] Fig. 2 ilustra a estrutura de decodificador de G.718,

[369] Fig. 3 mostra uma situação em que o fator de desvanecimento de G.722 depende de informações de classe,

[370] Fig. 4 mostra uma abordagem para predição de amplitude com o uso de regressão linear,

[371] Fig. 5 ilustra o comportamento de perda em rajada da Transformada Sobreposta de Energia Restrita (CELT),

[372] Fig. 6 mostra um rastreamento de nível de ruído de fundo de acordo com uma modalidade do decodificador durante um modo de operação isento de erro,

[373] Fig. 7 ilustra uma derivação de ganho de síntese de LPC e de- ênfase de acordo com uma modalidade,

[374] Fig. 8 mostra uma aplicação de nível de ruído de conforto durante a perda de pacote de acordo com uma modalidade,

[375] Fig. 9 ilustra compensação de ganho de passa-alta avançada durante a ocultação de ACELP de acordo com uma modalidade,

[376] Fig. 10 mostra a dissociação do laço de retroalimentação de LTP durante a ocultação de acordo com uma modalidade,

[377] Fig. 11 ilustra um aparelho para decodificar um sinal de audio codificado para obter um sinal de áudio reconstruído de acordo com uma modalidade,

[378] Fig. 12 mostra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com outra modalidade, e

[379] Fig. 13 ilustra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído uma modalidade adicional, e

[380] Fig. 14 ilustra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com outra modalidade.

[381] Fig. 1a ilustra um aparelho para decodificar um sinal de áudio de acordo com uma modalidade.

[382] O aparelho compreende uma interface de recebimento 110. A interface de recebimento é configurada para receber uma pluralidade de quadros, em que a interface de recebimento 110 é configurada para receber um primeiro quadro dentre a pluralidade de quadros, sendo que o dito primeiro quadro compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada em um primeiro domínio. Além disso, a interface de recebimento 110 é configurada para receber um segundo quadro dentre a pluralidade de quadros, em que o dito segundo quadro compreende uma segunda porção de sinal de áudio do sinal de áudio.

[383] Além disso, o aparelho compreende uma unidade de transformada 120 para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreamento para obter informações de segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, sendo que o domínio de rastreamento é diferente do segundo domínio, e em que o domínio de rastreamento é igual a ou diferente do primeiro domínio.

[384] Além disso, o aparelho compreende uma unidade de rastreamento de nível de ruído 130, em que a unidade de rastreamento de nível de ruído é configurada para receber informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreamento de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído é configurada para determinar informações de nível de ruído dependendo das informações de primeira porção de sinal que são representadas no domínio de rastreamento e dependendo das informações de segunda porção de sinal que são representadas no domínio de rastreamento.

[385] Além disso, o aparelho compreende uma unidade de reconstrução para reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento, porém, estiver corrompido.

[386] Quanto à primeira e/ou à segunda porção de sinal de áudio, por exemplo, a primeiro e/ou a segunda porção de sinal de áudio pode ser, por exemplo, alimentada em uma ou mais unidades de processamento (não mostradas) para gerar um ou mais sinais de alto-falante para um ou mais alto- falantes, para que as informações de som recebidas compostas pelo primeiro e/ou a segunda porção de sinal de áudio possam ser reproduzidas.

[387] Além disso, no entanto, a primeira e a segunda porção de sinal de áudio também são usadas para ocultação, por exemplo, no caso em que quadros subsequentes não chegam ao receptor ou no caso em que os quadros subsequentes são errôneos.

[388] Entre outros, a presente invenção é baseada na constatação de que o rastreamento de nível de ruído deveria ser conduzido em um domínio comum, denominado no presente documento como “domínio de rastreamento”. O domínio de rastreamento, pode ser, por exemplo, um domínio de excitação, por exemplo, o domínio em que o sinal é representado por LPCs (LPC = Coeficiente Preditivo Linear) ou por ISPs (ISP = Par Espectral de Imitância), como descrito em AMR-WB e AMR-WB+ (consultar [3GP12a], [3GP12b], [3GP09a], [3GP09b], [3GP09c]). O rastreamento do nível de ruído em um único domínio tem, entre outros, a vantagem de que efeitos de suavização são evitados quando o sinal é comutado entre uma primeira representação em um primeiro domínio e uma segunda representação em um segundo domínio (por exemplo, quando a representação de sinal é comutada de ACELP para TCX ou vice-versa).

[389] Quanto à unidade de transformada 120, o que é transformado é a própria segunda porção de sinal de áudio ou um sinal derivado da segunda porção de sinal de áudio (por exemplo, a segunda porção de sinal de áudio foi processada para obter o sinal derivado), ou um valor derivado da segunda porção de sinal de áudio (por exemplo, a segunda porção de sinal de áudio foi processada para obter o valor derivado).

[390] Quanto à primeira porção de sinal de áudio, em algumas modalidades, a primeira porção de sinal de áudio pode ser processada e/ou transformada para o domínio de rastreamento.

[391] Em outras modalidades, no entanto, a primeira porção de sinal de áudio pode já estar representada no domínio de rastreamento.

[392] Em algumas modalidades, as informações de primeira porção de sinal são idênticas à primeira porção de sinal de áudio. Em outras modalidades, as informações de primeira porção de sinal são, por exemplo, um valor agregado dependendo da primeira porção de sinal de áudio.

[393] Agora, em primeiro lugar, o desvanecimento para um nível de ruído de conforto é considerado em mais detalhes.

[394] A abordagem de desvanecimento descrita pode ser, por exemplo, implementada em uma versão de baixo atraso de xHE-AAC [NMR+12] (xHE- AAC = AAC Estendida de Alta Eficiência), a qual é capaz de realizar comutação de modo ininterrupto entre codificação de ACELP (voz) e de MDCT (música / ruído) em uma base por quadro.

[395] Quanto ao rastreamento de nível comum em um domínio de rastreamento, por exemplo, um domínio de excitação, como para aplicar um desvanecimento suave para um nível de ruído de conforto adequado durante a perda de pacote, tal nível de ruído de conforto precisa ser identificado durante o processo de decodificação normal. Pode-se presumir, por exemplo, que um nível de ruído similar ao ruído de fundo é mais confortável. Desse modo, o nível de ruído de fundo pode ser derivado e atualizado constantemente durante a decodificação normal.

[396] A presente invenção é baseada na constatação de que, quando se tem um codec de núcleo comutado (por exemplo, ACELP e TCX), considerando um nível de ruído de fundo comum independente do codificador de núcleo escolhido é particularmente adequado.

[397] A Fig. 6 mostra um rastreamento de nível de ruído de fundo de acordo com uma modalidade preferencial no decodificador durante o modo de operação isento de erros, por exemplo, durante a decodificação normal.

[398] O próprio rastreamento pode ser, por exemplo, realizado com o uso da abordagem de estatística mínima (consultar [Mar01]).

[399] Esse nível de ruído de fundo rastreado pode ser, por exemplo, considerado como as informações de nível de ruído mencionadas acima.

[400] Por exemplo, a estimativa de ruído de estatística mínima apresentada no documento “Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 a 512” [MarOI] pode ser empregada para rastreamento de nível de ruído de fundo.

[401] De modo correspondente, em algumas modalidades, a unidade de rastreamento de nível de ruído 130 é configurada para determinar informações de nível de ruído aplicando-se uma abordagem de estatística mínima, por exemplo, empregando-se a estimativa de ruído de estatística mínima de [Mar01].

[402] Subsequentemente, algumas considerações e detalhes dessa abordagem de rastreamento são descritos.

[403] Quanto ao rastreamento de nível, o plano de fundo deve ser similar a ruído. Desse modo, é preferencial realizar o rastreamento de nível no domínio de excitação para evitar o rastreamento de componentes tonais de primeiro plano que são excluído pela LPC. Por exemplo, o preenchimento de ruído de ACELP também pode empregar o nível de ruído de fundo no domínio de excitação. Com rastreamento no domínio de excitação, somente um único rastreamento do nível de ruído de fundo pode atender a dois propósitos, o que diminui a complexidade computacional. Em uma modalidade preferencial, o rastreamento é realizado no domínio de excitação de ACELP.

[404] A Fig. 7 ilustra uma derivação de ganho de síntese de LPC e de- ênfase de acordo com uma modalidade.

[405] Quanto à derivação de nível, a derivação de nível pode ser, por exemplo, conduzida em domínio de tempo ou em domínio de excitação, ou em qualquer outro domínio adequado. Se os domínios para a derivação de nível e para o rastreamento de nível forem diferentes, uma compensação de ganho pode ser, por exemplo, necessária.

[406] Na modalidade preferencial, a derivação de nível para ACELP é realizada no domínio de excitação. Desse modo, nenhuma compensação de ganho é exigida.

[407] Para TCX, uma compensação de ganho pode ser, por exemplo, necessária para ajustar o nível derivado para o domínio de excitação de ACELP.

[408] Na modalidade preferencial, a derivação de nível para TCX ocorre no domínio de tempo. Uma compensação de ganho gerenciável foi encontrada para essa abordagem: O ganho introduzido por síntese de LPC e de-ênfase é derivado como mostrado na Fig. 7 e o nível derivado é dividido por esse ganho.

[409] De modo alternativo, a derivação de nível para TCX poderia ser realizada no domínio de excitação de TCX. No entanto, a compensação de ganho entre o domínio de excitação de TCX e o domínio de excitação de ACELP foi considerado muito complicada.

[410] Desse modo, voltando à Fig. 1a, em algumas modalidades, a primeira porção de sinal de áudio é representada em um domínio de tempo como o primeiro domínio. A unidade de transformada 120 é configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de excitação que é o segundo domínio para o domínio de tempo que é o domínio de rastreamento. Em tais modalidades, a unidade de rastreamento de nível de ruído 130 é configurada para receber as informações de primeira porção de sinal que são representadas no domínio de tempo como o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído 130 é configurada para receber uma segunda porção de sinal que é representada no domínio de tempo como o domínio de rastreamento.

[411] Em outras modalidades, a primeira porção de sinal de áudio é representada em um domínio de excitação como o primeiro domínio. A unidade de transformada 120 é configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para o domínio de excitação que é o domínio de rastreamento. Em tais modalidades, a unidade de rastreamento de nível de ruído 130 é configurada para receber as informações de primeira porção de sinal que são representadas no domínio de excitação como o domínio de rastreamento. Além disso, a unidade de rastreamento de nível de ruído 130 é configurada para receber uma segunda porção de sinal que é representada no domínio de excitação como o domínio de rastreamento.

[412] Em uma modalidade, a primeira porção de sinal de áudio pode ser, por exemplo, representada em um domínio de excitação como o primeiro domínio, em que a unidade de rastreamento de nível de ruído 130 pode ser, por exemplo, configurada para receber as informações de primeira porção de sinal, em que as ditas informações de primeira porção de sinal são representadas no domínio de FFT que é o domínio de rastreamento, e em que as ditas informações de primeira porção de sinal dependem da dita primeira porção de sinal de áudio que é representada no domínio de excitação, em que a unidade de transformada 120 pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para um domínio de FFT que é o domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído 130 pode ser, por exemplo, configurada para receber a segunda porção de sinal de áudio que é representada no domínio de FFT.

[413] A Fig. 1b ilustra um aparelho de acordo com outra modalidade. Na Fig. 1b, a unidade de transformada 120 da Fig. 1a é uma primeira unidade de transformada 120, e a unidade de reconstrução 140 da Fig. 1a é uma primeira unidade de reconstrução 140. O aparelho compreende, ainda, uma segunda unidade de transformada 121 e uma segunda unidade de reconstrução 141.

[414] A segunda unidade de transformada 121 é configurada para transformar as informações de nível de ruído do domínio de rastreamento para o segundo domínio, se um quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[415] Além disso, a segunda unidade de reconstrução 141 é configurada para reconstruir uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio se o dito quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento ou se o dito quarto quadro for recebido pela interface de recebimento, porém, estiver corrompido.

[416] A Fig. 1c ilustra um aparelho para decodificar um sinal de áudio de acordo com outra modalidade. O aparelho compreende, ainda, uma primeira unidade de agregação 150 para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Além disso, o aparelho da Fig. 1c compreende, ainda, uma segunda unidade de agregação 160 para determinar um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio dependendo da segunda porção de sinal de áudio. Na modalidade da Fig. 1c, a unidade de rastreamento de nível de ruído 130 é configurada para receber o primeiro valor agregado como as informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que a unidade de rastreamento de nível de ruído 130 é configurada para receber o segundo valor agregado como as informações de segunda porção de sinal que são representadas no domínio de rastreamento. A unidade de rastreamento de nível de ruído 130 é configurada para determinar informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreamento e dependendo do segundo valor agregado que é representado no domínio de rastreamento.

[417] Em uma modalidade, a primeira unidade de agregação 150 é configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indique uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. Além disso, a segunda unidade de agregação 160 é configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indique uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.

[418] A Fig. 6 ilustra um aparelho para decodificar um sinal de áudio de acordo com uma modalidade adicional.

[419] Na Fig. 6, a unidade de rastreamento de nível de fundo 630 implementa uma unidade de rastreamento de nível de ruído 130 de acordo com a Fig. 1a.

[420] Além disso, na Fig. 6, a unidade de RMS 650 (RMS = média quadrática) é uma primeira unidade de agregação e a unidade de RMS 660 é uma segunda unidade de agregação.

[421] De acordo com algumas modalidades, a (primeira) unidade de transformada 120 da Fig. 1a, da Fig. 1b e da Fig. 1c é configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio para o domínio de rastreamento aplicando-se um valor de ganho (x) no valor derivado da segunda porção de sinal de áudio, por exemplo, dividindo-se o valor derivado da segunda porção de sinal de áudio por um valor de ganho (x). Em outras modalidades, um valor de ganho pode ser, por exemplo, multiplicado.

[422] Em algumas modalidades, o valor de ganho (x) pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear, ou o valor de ganho (x) pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.

[423] Na Fig. 6, a unidade 622 fornece o valor (x) que indica o ganho introduzido por síntese de codificação preditiva linear e de-ênfase. A unidade 622 divide, então, o valor fornecido pela segunda unidade de agregação 660, o qual é um valor derivado da segunda porção de sinal de áudio, pelo valor de ganho (x) fornecido (por exemplo, dividindo-se por x ou multiplicando-se o valor 1/x). Desse modo, a unidade 620 da Fig. 6 que compreende as unidades 621 e 622 implementa a primeira unidade de transformada da Fig. 1a, Fig. 1b ou Fig. 1c.

[424] O aparelho da Fig. 6 recebe um primeiro quadro com uma primeira porção de sinal de áudio que é uma excitação do tipo voiced e/ou uma excitação do tipo unvoiced e que é representado no domínio de rastreamento, na Fig. 6, um domínio de LPC (ACELP). A primeira porção de sinal de áudio é alimentada em uma unidade de Síntese de LPC e De-ênfase 671 para processamento para obter uma saída da primeira porção de sinal de áudio de tempo-domínio. Além disso, a primeira porção de sinal de áudio é alimentada em módulo de RMS 650 para obter um primeiro valor que indica uma média quadrática da primeira porção de sinal de áudio. Esse primeiro valor (primeiro valor de RMS) é representado no domínio de rastreamento. O primeiro valor de RMS, que é representado no domínio de rastreamento, é, então, alimentado para a unidade de rastreamento de nível de ruído 630.

[425] Além disso, o aparelho da Fig. 6 recebe um segundo quadro com uma segunda porção de sinal de áudio que compreende um espectro de MDCT e que é representado em um domínio de MDCT. O preenchimento de ruído é conduzido por um módulo de preenchimento de ruído 681, a conformação de ruído de frequência-domínio é conduzida por um módulo de conformação de ruído de frequência-domínio 682, a transformação para o domínio de tempo é conduzida por um módulo de iMDCT/OLA 683 (OLA = sobreposição-adição) e a predição de longo prazo é conduzida por uma unidade de predição de longo prazo 684. A unidade de predição de longo prazo pode compreender, por exemplo, um armazenamento temporário de atraso (não mostrado na Fig. 6).

[426] O sinal derivado da segunda porção de sinal de áudio é, então, alimentado para o módulo de RMS 660 para obter um segundo valor que indica que uma média quadrática daquele sinal derivado da segunda porção de sinal de áudio foi obtida. Esse segundo valor (segundo valor de RMS) ainda é representado no domínio de tempo. A unidade 620 transforma, então, o segundo valor de RMS do domínio de tempo para o domínio de rastreamento, no presente documento, o domínio de LPC (ACELP). O segundo valor de RMS que é representado no domínio de rastreamento é, então, alimentado na unidade de rastreamento de nível de ruído 630.

[427] Nas modalidades, o rastreamento de nível é conduzido no domínio de excitação, porém, o desvanecimento de TCX é conduzido no domínio de tempo.

[428] Enquanto, durante a decodificação normal, o nível de ruído de fundo é rastreado, esse pode ser, por exemplo, usado durante a perda de pacote como um indicador de um nível de ruído de conforto adequado, para o qual o último sinal recebido é suavemente desvanecido no sentido do nível.

[429] A derivação do nível para rastreamento e a aplicação do desvanecimento de nível são, em geral, independentes uma da outra e poderiam ser realizadas em diferentes domínios. Na modalidade preferencial, a aplicação de nível é realizada nos mesmos domínios como a derivação de nível, resultando nos mesmos benefícios que para a ACELP, nenhuma compensação de ganho é necessária, e que para TCX, a compensação de ganho inversa como para a derivação de nível (consultar a Fig. 6) é necessária e, desse modo, a mesma derivação de ganho pode ser usada, como ilustrado pela Fig. 7.

[430] A seguir, a compensação de uma influência do filtro passa-alta na síntese de LPC ganho, de acordo com modalidades, é descrita.

[431] A Fig. 8 mostra essa abordagem. Em particular, a Fig. 8 ilustra a aplicação de nível de ruído de conforto durante a perda de pacote.

[432] Na Fig. 8, a unidade de filtro passa-alta de ganho 643, a unidade de multiplicação 644, a unidade de desvanecimento 645, a unidade de filtro passa- alta 646, a unidade de desvanecimento 647 e a unidade de combinação 648 juntas formam uma primeira unidade de reconstrução.

[433] Além disso, na Fig. 8, a unidade de provisão de nível de fundo 631 fornece as informações de nível de ruído. Por exemplo, a unidade de provisão de nível de fundo 631 pode ser igualmente implementada como a unidade de rastreamento de nível de fundo 630 da Fig. 6.

[434] Além disso, na Fig. 8, a Unidade de Ganho de Síntese de LPC & De- ênfase 649 e a unidade de multiplicação 641 juntas formam uma segunda unidade de transformada 640.

[435] Além disso, na Fig. 8, a unidade de desvanecimento 642 representa uma segunda unidade de reconstrução.

[436] Na modalidade da Fig. 8, a excitação do tipo voiced e a excitação do tipo unvoiced são desvanecidas separadamente: A excitação do tipo voiced é desvanecida para zero, porém, a excitação do tipo unvoiced é desvanecida em direção ao nível de ruído de conforto. A Fig. 8, além disso, mostra um filtro passa-alta que é introduzido na cadeia de sinal da excitação do tipo unvoiced para suprimir componentes de baixa frequência para todos os casos, exceto quando o sinal foi classificado como unvoiced.

[437] Para reproduzir a influência do filtro passa-alta, o nível após a síntese de LPC e de-ênfase é computado uma vez com e uma vez sem o filtro passa-alta. Subsequentemente, a razão desses dois níveis é derivada e usada para alterar o nível de fundo aplicado.

[438] Isso é ilustrado pela Fig. 9. Em particular, a Fig. 9 mostra a compensação de ganho de passa-alta avançada durante a ocultação de ACELP de acordo com uma modalidade.

[439] Em vez do sinal de excitação atual, apenas um simples impulso é usado como entrada para essa computação. Isso permite uma complexidade reduzida, já que a resposta do impulso decai rapidamente e, portanto, a derivação de RMS pode ser realizada em um intervalo de tempo curto. Na prática, somente um subquadro é usado em vez de todo o quadro.

[440] De acordo com uma modalidade, a unidade de rastreamento de nível de ruído 130 é configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução 140 é configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[441] De acordo com uma modalidade, a unidade de rastreamento de nível de ruído 130 é configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução 140 é config«rada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[442] Em uma modalidade, a unidade de rastreamento de nível de ruído 130 é configurada para determinar um nível de ruído de conforto como as informações de nível de ruído derivada de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido aplicando-se a abordagem de estatística mínima. A unidade de reconstrução 140 é configurada para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[443] Em uma modalidade, a (primeira e/ou segunda) unidade de reconstrução 140, 141 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio, se o dito terceiro (quarto) quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro (quarto) quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[444] De acordo com uma modalidade, a (primeira e/ou segunda) unidade de reconstrução 140, 141 pode ser, por exemplo, configurada para reconstruir a terceira (ou quarta) porção de sinal de áudio atenuando-se ou ampliando-se a primeira porção de sinal de áudio.

[445] A Fig. 14 ilustra um aparelho para decodificar um sinal de áudio. O aparelho compreende uma interface de recebimento 110, em que a interface de recebimento 110 é configurada para receber um primeiro quadro que compreende uma primeira porção de sinal de áudio do sinal de áudio, e em que a interface de recebimento 110 é configurada para receber um segundo quadro que compreende uma segunda porção de sinal de áudio do sinal de áudio.

[446] Além disso, o aparelho compreende uma unidade de rastreamento de nível de ruído 130, em que a unidade de rastreamento de nível de ruído 130 é configurada para determinar informações de nível de ruído dependendo de pelo menos uma dentre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio (isso significa: dependendo da primeira porção de sinal de áudio e/ou da segunda porção de sinal de áudio), em que as informações de nível de ruído são representadas em um domínio de rastreamento.

[447] Além disso, o aparelho compreende uma primeira unidade de reconstrução 140 para reconstruir, em um primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido, em que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreamento.

[448] Além disso, o aparelho compreende uma unidade de transformada 121 para transformar as informações de nível de ruído do domínio de rastreamento para um segundo domínio de reconstrução, se um quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito quarto quadro for recebido pela interface de recebimento 110, porém, estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreamento, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução.

[449] Além disso, o aparelho compreende uma segunda unidade de reconstrução 141 para reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito quarto quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[450] De acordo com algumas modalidades, o domínio de rastreamento pode ser, por exemplo, aquele em que o domínio de rastreamento é um domínio de tempo, um domínio espectral, um domínio de FFT, um domínio de MDCT ou um domínio de excitação. O primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação. O segundo domínio de reconstrução pode ser ,por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação.

[451] Em uma modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[452] Em outra modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[453] De acordo com uma modalidade, a dita primeira porção de sinal de áudio pode ser, por exemplo, representada em um primeiro domínio de entrada, e a dita segunda porção de sinal de áudio pode ser, por exemplo, representada em um segundo domínio de entrada. A unidade de transformada pode ser, por exemplo, uma segunda unidade de transformada. O aparelho pode compreender, ainda, por exemplo, uma primeira unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreamento para obter informações de segunda porção de sinal. A unidade de rastreamento de nível de ruído pode ser, por exemplo, configurada para receber informações de primeira porção de sinal que são representadas no domínio de rastreamento, em que as informações de primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreamento de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreamento, e em que a unidade de rastreamento de nível de ruído é configurada para determinar as informações de nível de ruído dependendo das informações de primeira porção de sinal que são representadas no domínio de rastreamento e dependendo das informações de segunda porção de sinal que são representadas no domínio de rastreamento.

[454] De acordo com uma modalidade, o primeiro domínio de entrada pode ser, por exemplo, o domínio de excitação, e o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.

[455] Em outra modalidade, o primeiro domínio de entrada pode ser, por exemplo, o domínio de MDCT, e em que o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.

[456] Se, por exemplo, um sinal for representado em um domínio de tempo, esse pode ser, por exemplo, representado por amostras de domínio de tempo do sinal. Ou, por exemplo, se um sinal for representado em um domínio espectral, esse pode ser, por exemplo, representado por amostras espectrais de um espectro do sinal.

[457] Em uma modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[458] Em outra modalidade, o domínio de rastreamento pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.

[459] Em algumas modalidades, as unidades ilustradas na Fig. 14, podem ser, por exemplo, configuradas como descrito para as Fig. 1a, 1b, 1c e 1d.

[460] Quanto a modalidades particulares, em, por exemplo, um modo de taxa baixa, um aparelho, de acordo com uma modalidade pode receber, por exemplo, quadros de ACELP como uma entrada, os quais são representados em um domínio de excitação e são, então, transformados em um domínio de tempo por meio de síntese de LPC. Além disso, no modo de taxa baixa, o aparelho, de acordo com uma modalidade, pode receber, por exemplo, quadros de TCX como uma entrada, os quais são representados em um domínio de MDCT e são, então, transformados em um domínio de tempo por meio de MDCT inversa.

[461] O rastreamento é, então, conduzido em um Domínio de FFT, em que o sinal de FFT é derivado do sinal de domínio de tempo conduzindo-se uma FFT (Transformada Rápida de Fourier). O rastreamento pode ser, por exemplo, conduzido com uma abordagem de estatística mínima, separada pata todas as linhas espectrais para obter um espectro de ruído de conforto.

[462] A ocultação é, então, conduzida com a derivação de nível baseada no espectro de ruído de conforto. A derivação de nível é conduzida com base no espectro de ruído de conforto. A conversão de nível no domínio de tempo é conduzida para FD TCX PLC. Um desvanecimento no domínio de tempo é conduzido. Uma derivação de nível no domínio de excitação é conduzida para ACELP PLC e para TD TCX PLC (similar à ACELP). Um desvanecimento no domínio de excitação é, então, conduzido.

[463] A lista a seguir resume isso:

[464] taxa baixa:

[465] entrada:

[466] ACELP (domínio de excitação -> domínio de tempo, por meio de síntese de LPC)

[467] TCX (domínio de MDCT -> domínio de tempo, por meio de MDCT inversa)

[468] rastreamento:

[469] domínio de FFT, derivado do domínio de tempo por meio de FFT

[470] estatística mínima, separada para todas as linhas espectrais -> espectro de ruído de conforto

[471] ocultação:

[472] derivação de nível com base no espectro de ruído de conforto

[473] conversão de nível em domínio de tempo para

[474] FD TCX PLC

[475] desvanecimento no domínio de tempo

[476] conversão de nível em domínio de excitação para

[477] ACELP PLC

[478] TD TCX PLC (similar à ACELP)

[479] desvanecimento no domínio de excitação

[480] Por exemplo, um modo de taxa alta pode receber, por exemplo, quadros de TCX como uma entrada, os quais são representados no domínio de MDCT e são, então, transformados para o domínio de tempo por meio de uma MDCT inversa.

[481] O rastreamento pode ser, então, conduzido no domínio de tempo. O rastreamento pode ser, por exemplo, conduzida com uma abordagem de estatística mínima com base no nível de energia para obter um nível de ruído de conforto.

[482] Para a ocultação, para FD TCX PLC, o nível pode ser usado como tal e apenas um desvanecimento no domínio de tempo pode ser conduzido. Para TD TCX PLC (similar à ACELP), a conversão de nível no domínio de excitação e o desvanecimento no domínio de excitação são conduzidos.

[483] A lista a seguir resume isso:

[484] taxa alta:

[485] entrada:

[486] TCX (domínio de MDCT -> domínio de tempo, por meio de MDCT inversa)

[487] rastreamento:

[488] tempo-domínio

[489] estatística mínima na nível de energia -> nível de ruído de conforto

[490] ocultação:

[491] uso de nível "como tal"

[492] FD TCX PLC

[493] desvanecimento no domínio de tempo

[494] conversão de nível no domínio de excitação para

[495] TD TCX PLC (similar à ACELP)

[496] desvanecimento no domínio de excitação

[497] O domínio de FFT e o domínio de MDCT são ambos os domínios espectrais, enquanto o domínio de excitação é algum tipo de domínio de tempo.

[498] De acordo com uma modalidade, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio conduzindo-se um primeiro desvanecimento para um espectro similar a ruído. A segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio conduzindo-se um segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP. Além disso, a primeira unidade de reconstrução 140 e a segunda unidade de reconstrução 141 podem ser, por exemplo, configuradas para conduzir o primeiro desvanecimento e o segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP com a mesma velocidade de desvanecimento.

[499] Agora, a conformação espectral adaptativa de ruído de conforto é considerada.

[500] Para alcançar a conformação adaptativa para ruído de conforto durante a perda de pacote em rajadas, como uma primeira etapa, a busca por coeficientes de LPC adequados que representam o ruído de fundo pode ser conduzida. Esses coeficientes de LPC podem ser derivados durante a voz ativa com o uso de uma abordagem de estatística mínima para encontrar o espectro de ruído de fundo e, então, calculando-se coeficientes de LPC desse com o uso de um algoritmo arbitrário para derivação de LPC conhecida na literatura. Algumas modalidades, por exemplo, podem converter diretamente o espectro de ruído de fundo em uma representação que pode ser usada diretamente para FDNS no domínio de MDCT.

[501] O desvanecimento para ruído de conforto pode ser realizado no domínio de ISF (também aplicável em domínio de LSF; frequência espectral de Linha de LSF):

[502] definindo pímean para coeficientes de LP adequados que descrevem o ruído de conforto.

[503] Quanto à conformação espectral adaptativa descrita acima do ruído de conforto, uma modalidade mais geral é ilustrada na Fig. 11.

[504] A Fig. 11 ilustra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com uma modalidade.

[505] O aparelho compreende uma interface de recebimento 1110 para receber um ou mais quadros, um gerador de coeficiente 1120 e um reconstrutor de sinal 1130.

[506] O gerador de coeficiente 1120 é configurado para determinar, se um quadro atual dos um ou mais quadros for recebido pela interface de recebimento 1110 e se o quadro atual que é recebido pela interface de recebimento 1110 não estiver corrompido/errôneo, um ou mais coeficientes de primeiro sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais coeficientes de primeiro sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado. Além disso, o gerador de coeficiente 1120 é configurado para gerar um ou mais coeficientes de segundo sinal de áudio, dependendo dos um ou mais coeficientes de primeiro sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido pela interface de recebimento 1110 ou se o quadro atual que é recebido pela interface de recebimento 1110 estiver corrompido/errôneo.

[507] O reconstrutor de sinal de áudio 1130 é configurado para reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes de primeiro sinal de áudio, se o quadro atual for recebido pela interface de recebimento 1110 e se o quadro atual que é recebido pela interface de recebimento 1110 não estiver corrompido. Além disso, o reconstrutor de sinal de áudio 1130 é configurado para reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes de segundo sinal de áudio, se o quadro atual não for recebido pela interface de recebimento 1110 ou se o quadro atual que é recebido pela interface de recebimento 1110 estiver corrompido.

[508] A determinação de um ruído de fundo é bem conhecida na técnica (consultar, por exemplo, [Mar01]: Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 a 512) e, em uma modalidade, o aparelho procede em conformidade.

[509] Em algumas modalidades, os um ou mais coeficientes de primeiro sinal de áudio pode ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado. Em algumas modalidades, os um ou mais coeficientes de primeiro sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado.

[510] É bem conhecido na técnica como reconstruir um sinal de áudio, por exemplo, um sinal de voz, a partir de coeficientes de filtro preditivo linear ou de pares espectrais de imitância (consultar, por exemplo, [3GP09c]: Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, Projeto de Parceria de Terceira Geração, 2009) e, em uma modalidade, o reconstrutor de sinal procede em conformidade.

[511] De acordo com uma modalidade, os um ou mais coeficientes de ruído podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear que indicam o ruído de fundo do sinal de áudio codificado. Em uma modalidade, os um ou mais coeficientes de filtro preditivo linear podem representar, por exemplo, um formato espectral do ruído de fundo.

[512] Em uma modalidade, o gerador de coeficiente 1120 pode ser, por exemplo, configurado para determinar as uma ou mais segundas porções de sinal de áudio de tal modo que as uma ou mais segundas porções de sinal de áudio sejam um ou mais coeficientes de filtro preditivo linear do sinal de áudio reconstruído, ou de tal modo que os um ou mais coeficientes de primeiro sinal de áudio sejam um ou mais pares espectrais de imitância do sinal de áudio reconstruído.

[513] De acordo com uma modalidade, o gerador de coeficiente 1120 pode ser, por exemplo, configurado para gerar os um ou mais coeficientes de segundo sinal de áudio aplicando-se a fórmula:

[514] em que fcun-entj] indica um dos um ou mais coeficientes de segundo sinal de áudio, em que °/ast[/] indica um dos um ou mais coeficientes de primeiro sinal de áudio, em que ptmean[i] é um dos um ou mais coeficientes de ruído, em que a é um número real com 0 < a < 1, e em que i é um índice.

[515] De acordo com uma modalidade, f/as{í] indica um coeficiente de filtro preditivo linear do sinal de áudio codificado, e em que fcurrent[i] indica um coeficiente de filtro preditivo linear do sinal de áudio reconstruído.

[516] Em uma modalidade, ptmean[i] pode ser, por exemplo, um coeficiente de filtro preditivo linear que indica o ruído de fundo do sinal de áudio codificado.

[517] De acordo com uma modalidade, o gerador de coeficiente 1120 pode ser, por exemplo, configurado para gerar pelo menos 10 coeficientes de segundo sinal de áudio como os um ou mais coeficientes de segundo sinal de áudio.

[518] Em uma modalidade, o gerador de coeficiente 1120 pode ser, por exemplo, configurado para determinar, se o quadro atual dos um ou mais quadros for recebido pela interface de recebimento 1110 e se o quadro atual que é recebido pela interface de recebimento 1110 não estiver corrompido, os um ou mais coeficientes de ruído determinando-se um ruído espectro do sinal de áudio codificado.

[519] A seguir, o desvanecimento do espectro de MDCT para Ruído Branco antes da aplicação de FDNS é considerado.

[520] Em vez de modificar de modo aleatório o símbolo de um compartimento de MDCT (cifragem de símbolos), o espectro completo é preenchido por ruído branco, o qual é conformado com o uso da FDNS. Para evitar uma alteração instantânea nas características de espectro, um desvanecimento cruzado entre a cifragem de símbolos e o preenchimento de ruído é aplicado. O desvanecimento cruzado pode ser realizado como a seguir: for(i=0; i<L_frame; i++) { if (old_x[i] != 0) { x[i] = (1 - cum_damping)*noise[i] + cum_damping * random_sign() * x_old[i]; £ £

[521] em que:

[522] cum_damping é o fator de atenuação (absoluto) - diminui de quadro para quadro, tendo início em 1 e diminuindo em direção a 0

[523] x_old é o espectro do último quadro recebido

[524] random_sign retorna como 1 ou -1

[525] noise contém um vetor aleatório (ruído branco) que é escalonado de tal modo que sua média quadrática (RMS) seja similar ao último espectro bom.

[526] O termo random_sign()*old_x[i] caracteriza o processo de cifragem de símbolos para randomizar as fases e, desse modo, evitar repetições harmônicas.

[527] Subsequentemente, outra normalização do nível de energia pode ser realizada após o desvanecimento cruzado para garantir que a energia de soma não se desvie devido à correlação dos dois vetores.

[528] De acordo com modalidades, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio. Em uma modalidade particular, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio atenuando-se ou ampliando-se a primeira porção de sinal de áudio.

[529] Em algumas modalidades, a segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da segunda porção de sinal de áudio. Em uma modalidade particular, a segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio atenuando-se ou ampliando-se a segunda porção de sinal de áudio.

[530] Quanto ao desvanecimento descrito acima do espectro de MDCT para ruído branco antes da aplicação de FDNS, uma modalidade mais geral é ilustrada na Fig. 12.

[531] A Fig. 12 ilustra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com uma modalidade.

[532] O aparelho compreende uma interface de recebimento 1210 para receber um ou mais quadros que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio codificado, e um processador 1220 para gerar o sinal de áudio reconstruído.

[533] O processador 1220 é configurado para gerar o sinal de áudio reconstruído por desvanecimento de um espectro modificado para um espectro-alvo, se um quadro atual não for recebido pela interface de recebimento 1210 ou se o quadro atual for recebido pela interface de recebimento 1210, porém, estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto das ditas amostras de sinal modificado é igual a um valor absoluto de uma das amostras de sinal de áudio do espectro de sinal de áudio.

[534] Além disso, o processador 1220 é configurado para não desvanecer o espectro modificado para o espectro-alvo, se o quadro atual dos um ou mais quadros for recebido pela interface de recebimento 1210 e se o quadro atual que é recebido pela interface de recebimento 1210 não estiver corrompido.

[535] De acordo com uma modalidade, o espectro-alvo é um espectro similar a ruído.

[536] Em uma modalidade, o espectro similar a ruído representa ruído branco.

[537] De acordo com uma modalidade, o espectro similar a ruído é conformado.

[538] Em uma modalidade, o formato do espectro similar a ruído depende de um espectro de sinal de áudio de um sinal recebido anteriormente.

[539] De acordo com uma modalidade, o espectro similar a ruído é conformado dependendo do formato do espectro de sinal de áudio.

[540] Em uma modalidade, o processador 1220 emprega um fator de inclinação para conformar o espectro similar a ruído.

[541] De acordo com uma modalidade, o processador 1220 emprega a fórmula

[542] shaped_noise[i] = noise * power(tilt_factor,i/N)

[543] em que N indica o número de amostras,

[544] em que i é um índice,

[545] em que 0<= i < N, com tilt_factor > 0,

[546] em que power é uma função de potência.

[547] Se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma ampliação com i crescente.

[548] De acordo com outra modalidade, o processador 1220 pode empregar a fórmula

[549] shaped_noise[i] = noise * (1 + i / (N-1) * (tilt_factor-1))

[550] em que N indica o número de amostras,

[551] em que i é um índice, em que 0<= i < N,

[552] com tilt_factor > 0.

[553] De acordo com uma modalidade, o processador 1220 é configurado para gerar o espectro modificado, alterando-se um símbolo de uma ou mais das amostras de sinal de áudio do espectro de sinal de áudio, se o quadro atual não for recebido pela interface de recebimento 1210 ou se o quadro atual que é recebido pela interface de recebimento 1210 estiver corrompido.

[554] Em uma modalidade, cada uma das amostras de sinal de áudio do espectro de sinal de áudio é representada por um número real, porém, não por um número imaginário.

[555] De acordo com uma modalidade, as amostras de sinal de áudio do espectro de sinal de áudio são representadas em um domínio de Transformada Discreta Modificada de Cosseno.

[556] Em outra modalidade, as amostras de sinal de áudio do espectro de sinal de áudio são representadas em um domínio de Transformada Discreta Modificada de Seno.

[557] De acordo com uma modalidade, o processador 1220 é configurado para gerar o espectro modificado empregando-se uma função de símbolo aleatório que emite de modo aleatório ou de modo pseudoaleatório um primeiro ou um segundo valor.

[558] Em uma modalidade, o processador 1220 é configurado para desvanecer o espectro modificado para o espectro-alvo diminuindo-se subsequentemente um fator de atenuação.

[559] De acordo com uma modalidade, o processador 1220 é configurado para desvanecer o espectro modificado para o espectro-alvo aumentando-se subsequentemente um fator de atenuação.

[560] Em uma modalidade, se o quadro atual não for recebido pela interface de recebimento 1210 ou se o quadro atual que é recebido pela interface de recebimento 1210 estiver corrompido, o processador 1220 é configurado para gerar o sinal de áudio reconstruído empregando-se a fórmula:

[561] x[i] = (1-cum_damping) * noise[i] + cum_damping * random_sign() * x_old[i]

[562] em que i é um índice, em que x[i] indica uma amostra do sinal de áudio reconstruído, em que cum_damping é um fator de atenuação, em que x_old[i] indica uma das amostras de sinal de áudio do espectro de sinal de áudio do sinal de áudio codificado, em que random_sign() retorna como 1 ou - 1, e em que noise é um vetor aleatório que indica o espectro-alvo.

[563] Algumas modalidades continuam uma operação de TCX LTP. Nessas modalidades, a operação de TCX LTP é continuada durante a ocultação com os parâmetros de LTP (atraso de LTP e ganho de LTP) derivados do último quadro bom.

[564] As operações de LTP podem ser resumidas como:

[565] - Alimentar o armazenamento temporário de atraso de LTP com base na saída derivada anteriormente.

[566] - Com base no atraso de LTP: escolher a porção de sinal adequada no armazenamento temporário de atraso de LTP que é usado como contribuição de LTP para conformar o sinal atual.

[567] - Reescalonar essa contribuição de LTP com o uso do ganho de LTP.

[568] - Adicionar essa contribuição de LTP reescalonada ao sinal de entrada de LTP para gerar o sinal de saída de LTP.

[569] Diferentes abordagens poderiam ser consideradas em relação ao tempo, quando a atualização de armazenamento temporário de atraso de LTP é realizada:

[570] Como a primeira operação de LTP em quadro n com o uso da saída do último quadro n-1. Essas atualizações do armazenamento temporário de atraso de LTP em quadro n a ser usado durante o processamento de LTP em quadro n.

[571] Como a última operação de LTP em quadro n com o uso da saída do quadro atual n. Essas atualizações do armazenamento temporário de atraso de LTP em quadro n a ser usado durante o processamento de LTP em quadro n + 1.

[572] A seguir, a dissociação do laço de retroalimentação de TCX LTP é considerada.

[573] A dissociação do laço de retroalimentação de TCX LTP impede a introdução de ruído adicional (resultante da substituição de ruído aplicada ao sinal de entrada de LPT) durante cada laço de retroalimentação do decodificador de LTP quando em modo de ocultação.

[574] A Fig. 10 ilustra essa dissociação. Em particular, a Fig. 10 mostra a dissociação do laço de retroalimentação de LTP durante a ocultação (bfi=1).

[575] A Fig. 10 ilustra um armazenamento temporário de atraso 1020, um seletor de amostra 1030 e um processador de amostra 1040 (o processador de amostra 1040 é indicado pela linha pontilhada).

[576] Em relação ao tempo, quando a atualização do armazenamento temporário de atraso de LTP 1020 é realizada, algumas modalidades prosseguem como a seguir:

[577] - Para a operação normal: atualizar o armazenamento temporário de atraso de LTP 1020 como a primeira operação de LTP pode ser preferencial, já que o sinal de saída somado é usualmente armazenado de modo persistente. Com essa abordagem, um armazenamento temporário dedicado pode ser omitido.

[578] - Para a operação dissociada: atualizar o armazenamento temporário de atraso de LTP 1020 como a última operação de LTP pode ser preferencial, já que a contribuição de LTP para o sinal é usualmente armazenada apenas temporariamente. Com essa abordagem, o sinal transitório de contribuição de LTP é preservado. No sentido da implementação, esse armazenamento temporário de contribuição de LTP poderia ser tornado apenas persistente.

[579] Presumindo-se que a última abordagem é usada em qualquer caso (operação normal e ocultação), as modalidades podem implementar, por exemplo, o seguinte:

[580] - Durante a operação normal: A saída do sinal de domínio de tempo do decodificador de LTP após sua adição ao sinal de entrada de LTP é usada para alimentar o armazenamento temporário de atraso de LTP.

[581] - Durante a ocultação: A saída do sinal de domínio de tempo do decodificador de LTP antes de sua adição ao sinal de entrada de LTP é usada pra alimentar o armazenamento temporário de atraso de LTP.

[582] Algumas modalidades desvanecem o ganho de TCX LTP em direção a zero. Em tal modalidade, o ganho de TCX LTP pode ser, por exemplo, desvanecido em direção a zero com certo fator de desvanecimento adaptativo de sinal. Isso pode ser feito, por exemplo, iterativamente, por exemplo, de acordo com o seguinte pseudocódigo:

[583] gain = gain_past * damping;

[584] [...]

[585] gain_past = gain;

[586] em que:

[587] gain é o ganho de decodificador de TCX LTP aplicado no quadro atual;

[588] gain_past é o ganho de decodificador de TCX LTP aplicado no quadro anterior;

[589] damping é o fator de desvanecimento (relativo).

[590] A Fig. 1d ilustra um aparelho de acordo com uma modalidade adicional, em que o aparelho compreende, ainda, uma unidade de predição de longo prazo 170 que compreende um armazenamento temporário de atraso 180. A unidade de predição de longo prazo 170 é configurada para gerar um sinal de processado dependendo da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso 180 e dependendo de um ganho de predição de longo prazo. Além disso, a unidade de predição de longo prazo é configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[591] Em outras modalidades (não mostrado), a unidade de predição de longo prazo pode ser, por exemplo, configurada para gerar um sinal processado dependendo da primeira porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo.

[592] Na Fig. 1d, a primeira unidade de reconstrução 140 pode gerar, por exemplo, a terceira porção de sinal de áudio dependendo, além disso, do sinal processado.

[593] Em uma modalidade, a unidade de predição de longo prazo 170 pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento.

[594] Alternativa ou adicionalmente, a unidade de predição de longo prazo 170 pode ser, por exemplo, configurada para atualizar o armazenamento temporário de atraso 180 entrada armazenando-se o sinal processado gerado no armazenamento temporário de atraso 180 se o dito terceiro quadro dentre a pluralidade de quadros não for recebido pela interface de recebimento 110 ou se o dito terceiro quadro for recebido pela interface de recebimento 110, porém, estiver corrompido.

[595] Quanto ao uso descrito acima de TCX LTP, uma modalidade mais geral é ilustrada na Fig. 13.

[596] A Fig. 13 ilustra um aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído.

[597] O aparelho compreende uma interface de recebimento 1310 para receber uma pluralidade de quadros, um armazenamento temporário de atraso 1320 para armazenar amostras de sinal de áudio do sinal de áudio decodificado, um seletor de amostra 1330 para selecionar uma pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 e um processador de amostra 1340 para processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído.

[598] O seletor de amostra 1330 é configurado para selecionar, se um quadro atual for recebido pela interface de recebimento 1310 e se o quadro atual que é recebido pela interface de recebimento 1310 não estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 dependendo de informações de atraso de pitch que são compostas pelo quadro atual. Além disso, o seletor de amostra 1330 é configurado para selecionar, se o quadro atual não for recebido pela interface de recebimento 1310 ou se o quadro atual que é recebido pela interface de recebimento 1310 estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 dependendo de informações de atraso de pitch que são compostas por outro quadro que é recebido anteriormente pela interface de recebimento 1310.

[599] De acordo com uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual for recebido pela interface de recebimento 1310 e se o quadro atual que é recebido pela interface de recebimento 1310 não estiver corrompido, reescalonando-se as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo quadro atual. Além disso, o seletor de amostra 1330 pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual não for recebido pela interface de recebimento 1310 ou se o quadro atual que é recebido pela interface de recebimento 1310 estiver corrompido, reescalonando-se as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo dito outro quadro que é recebido anteriormente pela interface de recebimento 1310.

[600] Em uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual for recebido pela interface de recebimento 1310 e se o quadro atual que é recebido pela interface de recebimento 1310 não estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo quadro atual. Além disso, o seletor de amostra 1330 é configurado para obter as amostras de sinal de áudio reconstruído, se o quadro atual não for recebido pela interface de recebimento 1310 ou se o quadro atual que é recebido pela interface de recebimento 1310 estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo dito outro quadro que é recebido anteriormente pela interface de recebimento 1310.

[601] De acordo com uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320.

[602] Em uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320 antes que um quadro adicional seja recebido pela interface de recebimento 1310.

[603] De acordo com uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320 após um quadro adicional ser recebido pela interface de recebimento 1310.

[604] Em uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para reescalonar as amostras de sinal de áudio selecionadas dependendo das informações de ganho para obter amostras de sinal de áudio reescalonadas e combinando-se as amostras de sinal de áudio reescalonadas com amostras de sinal de áudio de entrada para obter as amostras de sinal de áudio processadas.

[605] De acordo com uma modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas que indicam a combinação das amostras de sinal de áudio reescalonadas e as amostras de sinal de áudio de entrada, no armazenamento temporário de atraso 1320, e para não armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso 1320, se o quadro atual for recebido pela interface de recebimento 1310 e se o quadro atual que é recebido pela interface de recebimento 1310 não estiver corrompido. Além disso, o processador de amostra 1340 é configurado para armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso 1320 e para não armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso 1320, se o quadro atual não for recebido pela interface de recebimento 1310 ou se o quadro atual que é recebido pela interface de recebimento 1310 estiver corrompido.

[606] De acordo com outra modalidade, o processador de amostra 1340 pode ser, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso 1320, se o quadro atual não for recebido pela interface de recebimento 1310 ou se o quadro atual que é recebido pela interface de recebimento 1310 estiver corrompido.

[607] Em uma modalidade, o seletor de amostra 1330 pode ser, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído reescalonando-se as amostras de sinal de áudio selecionadas dependendo de um ganho modificado, em que o ganho modificado é definido de acordo com a fórmula:

[608] gain = gain_past * damping;

[609] em que gain é o ganho modificado, em que o seletor de amostra 1330 pode ser, por exemplo, configurado para definir gain_past para gain após gain e foi calculado, e em que damping é um número real.

[610] De acordo com uma modalidade, o seletor de amostra 1330 pode ser, por exemplo, configurado para calcular o ganho modificado.

[611] Em uma modalidade, damping pode ser, por exemplo, definido de acordo com: 0 < damping < 1.

[612] De acordo com uma modalidade, o ganho modificado gain pode ser, por exemplo, definido como zero, se pelo menos um número predefinido de quadros não tiver sido recebido pela interface de recebimento 1310 já que um último quadro foi recebido pela interface de recebimento 1310.

[613] A seguir, a velocidade do desvanecimento é considerada. Há diversos módulos de ocultação que se aplicam a um determinado tipo de desvanecimento. Embora a velocidade desse desvanecimento possa ser escolhida de modo diferente por esses módulos, é benéfico usar a mesma velocidade de desvanecimento para todos os módulos de ocultação para um núcleo (ACELP ou TCX). Por exemplo:

[614] Para ACELP, a mesma velocidade de desvanecimento deveria ser usada, em particular, para o livro-código adaptivo (alterando-se o ganho), e/ou para o sinal de livro-código inovador (alterando-se o ganho).

[615] Ainda, para TCX, a mesma velocidade de desvanecimento deveria ser usada, em particular, para sinal de domínio de tempo, e/ou para o ganho de LTP (desvanecimento para zero), e/ou para a ponderação de LPC (desvanecimento para um), e/ou para os coeficientes de LP (desvanecimento para formato espectral de fundo), e/ou para o desvanecimento cruzado para ruído branco.

[616] Pode ser adicionalmente preferencial usar, também, a mesma velocidade de desvanecimento para ACELP e TCX, porém, devido à natureza diferente dos núcleos, também é possível escolher o uso de diferentes velocidades de desvanecimento.

[617] Essa velocidade de desvanecimento pode ser estatística, porém, é, de preferência, adaptativa para as características de sinal. Por exemplo, a velocidade de desvanecimento pode depender, por exemplo, do fator de estabilidade de LPC (TCX) e/ou de uma classificação, e/ou de diversos quadros perdidos de modo consecutivo.

[618] A velocidade de desvanecimento pode ser, por exemplo, determinada dependendo do fator de atenuação, o qual pode ser dado absoluta ou relativamente, e também pode ser alterada ao longo do tempo durante certo desvanecimento.

[619] Nas modalidades, a mesma velocidade de desvanecimento é usada para ganho de LTP desvanecimento que para o desvanecimento de ruído branco.

[620] Um aparelho, um método e um programa de computador para gerar um sinal de ruído de conforto como descrito acima foram fornecidos.

[621] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo correspondem a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.

[622] O sinal decomposto da invenção pode ser armazenado em uma mídia de armazenamento ou pode ser transmitido em uma mídia de transmissão, como uma mídia de transmissão em fio ou uma mídia de transmissão com fio, como a Internet.

[623] Dependendo de certas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizado com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, que tem sinais de controle eletronicamente legíveis armazenados nessa que cooperam (ou são capazes de cooperar) com um sistema de computador programável de tal modo que o método respectivo seja realizado.

[624] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados não transitórios que têm sinais de controle legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal modo que um dos métodos descritos no presente documento é realizado.

[625] Em geral, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode ser, por exemplo, armazenado em uma portadora legível por máquina.

[626] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenados em uma portadora legível por máquina.

[627] Em outras palavras, uma modalidade do método da invenção é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.

[628] Uma modalidade adicional dos métodos da invenção é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital ou uma mídia legível por computador) que compreende, gravado nessa, o programa de computador para realizar um dos métodos descritos no presente documento.

[629] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode ser, por exemplo, configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.

[630] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos no presente documento.

[631] Uma modalidade adicional compreende um computador que tem, instalado nesse, o programa de computador para realizar um dos métodos descritos no presente documento.

[632] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. Em geral, os métodos são, de preferência, realizados por qualquer aparelho de hardware.

[633] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende-se que as modificações e as variações das disposições e dos detalhes descritos no presente documento ficarão evidentes para aqueles que são versados na técnica. Pretende-se, portanto, que esse seja limitado somente pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento. Referências 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, Projeto de Parceira de Terceira Geração, 2009. [3GP09b] Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, Projeto de Parceira de Terceira Geração, 2009. [3GP09c] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, Projeto de Parceira de Terceira Geração, 2009. [3GP12a] Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, Projeto de Parceira de Terceira Geração, setembro de 2012. [3GP12b] Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, Projeto de Parceira de Terceira Geração, setembro de 2012. [3GP12c] , ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP TS 26.173, Projeto de Parceira de Terceira Geração, setembro de 2012. [3GP12d] ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (releasell), 3GPP TS 26.104, Projeto de Parceira de Terceira Geração, setembro de 2012. [3GP12e] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, Projeto de Parceira de Terceira Geração, setembro de 2012. [3GP12f] Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GPP TS 26.204, Projeto de Parceira de Terceira Geração, 2012. [3GP12g] Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneo«s or lost frames, 3GPP TS 26.191, Projeto de Parceira de Terceira Geração, setembro de 2012. [BJH06] 1. Batina, J. Jensen e R. Heusdens, Noise power spectr«m estimation for speech enhancement «sing an a«toregressive model for speech power spectr«m dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064 a 1067. [BP06] A. Borowicz e A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-ROM, 2006, Itália, Florença. [Coh03] I. Cohen, Noise spectr«m estimation in adverse environments: Improved minima controlled rec«rsive averaging, IEEE Trans. Speech Audio Process. 11 (2003), ns 5, 466 a 475. [CPK08] Choong Sang Cho, Nam In Park e Hong Kook Kim, A packet loss concealment algorithm rob«st to b«rst packet loss for celp- type speech coders, Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC- CSCC 2008). [Dob95] G. Doblinger, Comp«tationally efficient speech enhancement by spectral minima tracking in s«bbands, em Proc. Eurospeech (1995), 1513 a 1516. [EBU10] EBU/ETSI JTC Broadcast, Digital a«dio broadcasting (DAB); transport of advanced a«dio coding (AAC) a«dio, ETSI TS 102 563, European Broadcasting Union, Maio 2010. [EBU12] Digital radio mondiale (DBM); system specification, ETSI ES 201 980, ETSI, Jun 2012. [EH08] Jan S. Erkelens e Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Rec«rsive Noise Power Estimation, Audio, Speech, and Language Processing, IEEE T ransactions em 16 (2008), ns 6, 1112 a 1123. [EM84] Y. Ephraim e D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), ns 6, 1109 a 1121. [EM85] Speech enhancement using a minimum mean-square error log- spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443 a 445. [Gan05] S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), Springer, 2005. [HE95] H. G. Hirsch e C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, ns pp. 153 a 156, IEEE, 1995. [HHJ10] Richard C. Hendriks, Richard Heusdens e Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference em março de 2010, pp. 4266 a 4269. [HJH08] Richard C. Hendriks, Jesper Jensen e Richard Heusdens, Noise tracking using dft domain subspace decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), ns 3, 541 a 553. [IET12] IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, setembro de 2012. [ISO09] ISO/IEC JTC1/SC29/WG11, Informat/on technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009. [ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, julho de 2003. [ITU05] Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, maio de 2005. [ITU06a] G. 722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, novembro de 2006. [ITU06b] G.729.1: G.729-based embedded variable bit-rate coder: An 832 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, maio de 2006. [ITU07] G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, agosto de 2007. [ITU08a] G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 832 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, junho de 2008. [ITU08b] G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, junho de 2008. [ITU12] G. 729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, junho de 2012. [LS01] Pierre Lauber e Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, ns 5460, setembro de 2001. [Mar01] Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), ns 5, 504 a 512. [Mar03] Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, setembro de 2003. [MC99] R. Martin e R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE Workshop on Speech Coding (1999), 165 a 167. [MCA99] D. Malah, R. V. Cox e A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789 a 792. [MEP01] Nikolaus Meine, Bernd Edler, and Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 parametric audio coding, Audio Engineering Society Convention 110, ns 5300, maio de 2001. [MPC89] Y. Mahieux, J.-P. Petit e A. Charbonnier, Transform coding of audio signals using correlation between successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pp. 2021 a 2024 volume 3. [NMR+12] Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jérémie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno Bessette, Jimmy Lapierre, Kristopfer Kjorling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush e Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, April 2012, Apresentado na 132a Convenção de Budapeste, Hungria. [PKJ+11] Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee e Seung Ho Choi, Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323 a 5336. [QD03] Schuyler Quackenbush e Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, ns 5981, outubro de 2003. [RL06] S. Rangachari e P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech Commun. 48 (2006), 220 a 231. [SFB00] V. Stahl, A. Fischer e R. Bippus, Quantile based noise estimation for spectral subtraction and wiener filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875 a 1878. [SS98] J. Sohn e W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 365-368, IEEE, 1998. [Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference, abril de 2009, pp. 4421 a 4424.

Claims

1. Aparelho para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído, caracterizado por o aparelho compreender: uma interface de recebimento (1110) para receber um ou mais quadros, um gerador de coeficiente (1120), e um reconstrutor de sinal (1130), em que o gerador de coeficiente (1120) está configurado para determinar, se um quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento (1110) e se o quadro atual que é recebido pela interface de recebimento (1110) não estiver corrompido, um ou mais primeiros coeficientes de sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais primeiros coeficientes de sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um formato espectral de um ruído de fundo do sinal de áudio codificado, em que o gerador de coeficiente (1120) está configurado para gerar um ou mais segundos coeficientes de sinal de áudio, dependendo dos um ou mais primeiros coeficientes de sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido pela interface de recebimento (1110) ou se o quadro atual que é recebido pela interface de recebimento (1110) estiver corrompido, em que o reconstrutor de sinal de áudio (1130) está configurado para reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais primeiros coeficientes de sinal de áudio, se o quadro atual for recebido pela interface de recebimento (1110) e se o quadro atual que é recebido pela interface de recebimento (1110) não estiver corrompido, e em que o reconstrutor de sinal de áudio (1130) está configurado para reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais segundos coeficientes de sinal de áudio, se o quadro atual não for recebido pela interface de recebimento (1110) ou se o quadro atual que é recebido pela interface de recebimento (1110) estiver corrompido.

2. Aparelho, de acordo com a reivindicação 1, caracterizado por os um ou mais primeiros coeficientes de sinal de áudio serem um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado.

3. Aparelho, de acordo com a reivindicação 2, caracterizado por os um ou mais coeficientes de filtro preditivo linear serem representados por um ou mais pares espectrais de imitância ou por um ou mais pares espectrais de linha, ou por uma ou mais frequências espectrais de imitância, ou por uma ou mais frequências espectrais de linha do sinal de áudio codificado.

4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por os um ou mais coeficientes de ruído serem um ou mais coeficientes de filtro preditivo linear que indicam o ruído de fundo do sinal de áudio codificado.

5. Aparelho, de acordo com qualquer uma das reivindicações 2 a 4, caracterizado por os um ou mais coeficientes de filtro preditivo linear representarem um formato espectral do ruído de fundo.

6. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o gerador de coeficiente (1120) estar configurado para determinar as uma ou mais segundas porções de sinal de áudio de tal modo que as uma ou mais segundas porções de sinal de áudio sejam um ou mais coeficientes de filtro preditivo linear do sinal de áudio reconstruído.

7. Aparelho, de acordo com a reivindicação 1, caracterizado por o gerador de coeficiente (1120) estar configurado para gerar os um ou mais segundos coeficientes de sinal de áudio aplicando-se a fórmula: f current [*] = & ' /Íast[^] H- (1 θ1) ’ P^mean [*] em que fcurrent[i] indica um dentre os um ou mais segundos coeficientes de sinal de áudio, em que flast[i] indica um dentre os um ou mais primeiros coeficientes de sinal de áudio, em que ptmean[i] é um dentre os um ou mais coeficientes de ruído, em que α é um número real com 0 < α < 1, e em que i é um índice.

8. Aparelho, de acordo com a reivindicação 7, caracterizado por fiast[i] indicar um coeficiente de filtro preditivo linear do sinal de áudio codificado, e em que fcurrent[i] indica um coeficiente de filtro preditivo linear do sinal de áudio reconstruído.

9. Aparelho, de acordo com a reivindicação 8, caracterizado por ptmean[i] indicar o ruído de fundo do sinal de áudio codificado.

10. Aparelho, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o gerador de coeficiente (1120) estar configurado para determinar, se o quadro atual dentre os um ou mais quadros for recebido pela interface de recebimento (1110) e se o quadro atual que é recebido pela interface de recebimento (1110) não estiver corrompido, os um ou mais coeficientes de ruído determinando-se um espectro de ruído do sinal de áudio codificado.

11. Aparelho, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por o gerador de coeficiente (1120) estar configurado para determinar coeficientes de LPC que representam o ruído de fundo com o uso de uma abordagem de estatística mínima no espectro de sinal para determinar um espectro de ruído de fundo e calculando-se os coeficientes de LPC que representam um formato de ruído de fundo do espectro de ruído de fundo.

12. Método para decodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído, caracterizado por o método compreender: receber um ou mais quadros, determinar, se um quadro atual dentre os um ou mais quadros for recebido e se o quadro atual que é recebido não estiver corrompido, um ou mais primeiros coeficientes de sinal de áudio que são compostos pelo quadro atual, em que os ditos um ou mais primeiros coeficientes de sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um formato espectral de um ruído de fundo do sinal de áudio codificado, gerar um ou mais segundos coeficientes de sinal de áudio, dependendo dos um ou mais primeiros coeficientes de sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o quadro atual não for recebido ou se o quadro atual que é recebido estiver corrompido, reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais primeiros coeficientes de sinal de áudio, se o quadro atual for recebido e se o quadro atual que é recebido não estiver corrompido, e reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais segundos coeficientes de sinal de áudio, se o quadro atual não for recebido ou se o quadro atual que é recebido estiver corrompido.