BR122017019860B1 - método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado - Google Patents

método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado Download PDF

Info

Publication number
BR122017019860B1
BR122017019860B1 BR122017019860-2A BR122017019860A BR122017019860B1 BR 122017019860 B1 BR122017019860 B1 BR 122017019860B1 BR 122017019860 A BR122017019860 A BR 122017019860A BR 122017019860 B1 BR122017019860 B1 BR 122017019860B1
Authority
BR
Brazil
Prior art keywords
frame
voice
decoder
filter
signal
Prior art date
Application number
BR122017019860-2A
Other languages
English (en)
Inventor
Milan Jelinek
Philippe Gournay
Original Assignee
Voiceage Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29589088&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BR122017019860(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Voiceage Corporation filed Critical Voiceage Corporation
Publication of BR122017019860B1 publication Critical patent/BR122017019860B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

a presente invenção refere-se a um método e um dispositivo para a melhoria da ocultação de apagamento de quadro causado por quadros de um sistema de célula de combustível apagados durante uma transmissão de um codificador para um decodificador, e para a aceleração da recuperação do decodificador, após quadros não-apagados do sistema de célula de combustível terem sido recebidos. para essa finalidade, os parâmetros de ocultação/recuperação são determinados no codificador ou no decodificador. quando determinados no codificador, os parâmetros de ocultação/recuperação são transmitidos para o decodificador. no decodificador, uma ocultação de apagamento de quadro e de recuperação de decodificador é conduzida em resposta aos parâmetros de ocultação/recuperação. os parâmetros de ocultação/recuperação podem ser selecionados a partir do grupo que consiste em: um parâmetro de classificação de sinal, um parâmetro de informação de energia e um parâmetro de informação de fase. de acordo com uma modalidade ilustrativa não limitativa, a determinação dos parâmetros de ocultação/recuperação compreende a classificação de quadros sucessivos do sinal de som codificado como sem voz, de transição sem voz, de transição de voz, de voz ou de começo, e esta classificação é determinada com base em pelo menos uma parte dos parâmetros a seguir: um parâmetro de correlação normalizada, um parâmetro de inclinação espectral, um parâmetro de relação de sinal para ruído, um parâmetro de estabilidade de passo, um parâmetro de energia de quadro relativa, e um parâmetro de passagem pelo zero.

Description

Relatório Descritivo da Patente de Invenção para "MÉTODO E DISPOSITIVO PARA A OCULTAÇÃO DE APAGAMENTO DE QUADRO CAUSADO POR QUADROS APAGADOS DURANTE TRANSMISSÃO DE UM SINAL DE SOM CODIFICADO".
[001] Dividido do PI0311523-2, depositado em 30 de maio de 2003.
CAMPO DA INVENÇÃO
[002] A presente invenção refere-se a uma técnica para a codificação digital de um sinal de som, em particular, mas não exclusivamente, um sinal de voz, tendo em vista a transmissão e/ou a sintetização deste sinal de som. Mais especificamente, a presente invenção se refere a uma codificação e decodificação robusta de sinais de som para manutenção de uma boa performance no caso de quadro(s) apaga-do(s) devido, por exemplo, a erros de canal em sistemas sem fio ou pacotes perdidos em voz por aplicações de rede de pacote. ANTECEDENTES DA INVENÇÃO
[003] A demanda por técnicas de codificação de voz de banda estreita e ampla digitais eficientes com boa transigência entre a qualidade subjetiva e a taxa de bit está crescendo em várias áreas de aplicação, tais como, teleconferência, multimídia e comunicações sem fio. Até recentemente, uma largura de banda de telefone restrita a uma faixa de 200 a 3400 Hz era usada principal mente em aplicações de codificação de voz. Entretanto, aplicações de voz de banda larga pro-vêem uma inteligibilidade e uma naturalidade aumentadas na comunicação, se comparado com a largura de banda de telefone convencional. Uma largura de banda na faixa de 50 a 7000 Hz mostrou ser suficiente para o envio de uma boa qualidade, dando uma impressão de comunicação face a face. Para sinais de áudio gerais, esta largura de banda dá uma qualidade subjetiva aceitável, mas ainda é mais baixa do que a qualidade de rádio FM ou de um CD que operam em faixas de 20 a 16000 Hz e de 20 a 20000 Hz, respectivamente.
[004] Um codificador de voz converte um sinal de voz em um fluxo de bit digital, o qual é transmitido por um canal de comunicação ou armazenado em um meio de armazenamento. O sinal de voz é digitalizado, isto é, amostrado e quantificado usualmente com 16 bits por amostra. O codificador de voz tem o papel de representar estas amostras digitais com um número menor de bits, enquanto mantém uma boa qualidade de voz subjetiva. O decodificador de voz ou sintetizador opera no fluxo de bit transmitido ou armazenado e o converte de volta em um sinal de som.
[005] A codificação de Predição Linear Excitada por Código (CELP) é uma das melhores técnicas disponíveis para a obtenção de um bom compromisso entre a qualidade subjetiva e a taxa de bit. Esta técnica de codificação é uma base de vários padrões de codificação de voz em aplicações com fio e sem fio. Na codificação de CELP, o sinal de voz amostrado é processado em sucessivos blocos de L amostras usualmente denominados quadros, onde L é um número predeterminado correspondente tipicamente a de 10 a 30 ms. Um filtro de predição linear (LP) é computado e transmitido a cada quadro. A computação do filtro de LP tipicamente precisa de um transporte para frente, um segmento de voz de 5 a 15 ms para o quadro subseqüente. O quadro de L amostras é dividido em blocos menores denominados subquadros. Usualmente, o número de subquadros é três ou quatro, resultando em subquadros de 4 a 10 ms. Em cada subquadro, um sinal de excitação é usualmente obtido a partir de dois componentes, a excitação passada e a excitação de livro de código fixo inovadora. O componente formado a partir da excitação passada freqüentemente é referida como a excitação de livro de código adaptativo ou de passo. Os parâmetros caracterizando o sinal de excitação são codificados e transmitidos para o decodificador, onde o sinal de excitação reconstru- ído é usado como a entrada do filtro de LP.
[006] Como as aplicações principais da codificação de voz de taxa de bit baixa são sistemas de comunicação móvel sem fio e redes de voz por pacotes, então, crescer a robustez de codificadores - deco-dificadores de voz no caso de apagamentos de quadro se torna de importância significativa. Em sistemas celulares sem fio, a energia do sinal recebido pode apresentar desvanecimentos severos freqüentes, resultando em taxas de erro de bit altas, e isso se torna mais evidente nas fronteiras celulares. Neste caso, o decodificador de canal falha em corrigir os erros no quadro recebido e, como uma conseqüência, o detector de erro usualmente usado após o decodificador de canal declarará o quadro como apagado. Em aplicações de rede de voz por pacote, o sinal de voz é empacotado, onde usualmente um quadro de 20 ms é colocado em cada pacote. Em comunicações de pacote comutado, uma queda de pacote pode ocorrer em um roteador, se o número de pacotes se tornar muito grande, ou se o pacote puder atingir o receptor após um longo atraso, e deve ser declarado como perdido, se seu atraso for maior do que o comprimento de um buffer de flutuação de fase no lado de receptor. Nesses sistemas, o codificador - decodificador é submetido, tipicamente, a taxas de apagamento de quadro de 3 a 5%. Mais ainda, o uso de uma codificação de voz de banda larga é um bem importante para esses sistemas, de modo a permitir que eles compitam com a PSTN (rede de telefonia comutada pública) tradicional, que usa os sinais de voz de banda estreita de legado.
[007] O livro de código adaptativo, ou preditor de passo, em CELP, tem um papel importante na manutenção da alta qualidade de voz a baixas taxas de bit. Entretanto, uma vez que o conteúdo do livro de código adaptativo é baseado no sinal de quadros passados, isso torna o modelo de codificador - decodificador sensível a uma perda de quadro. No caso de quadros apagados ou perdidos, o conteúdo do li- vro de código adaptativo no decodificador se torna diferente do seu conteúdo no codificador. Assim, após um quadro perdido ser oculto e bons quadros conseqüentes serem recebidos, o sinal sintetizado nos bons quadros recebidos é diferente do sinal de síntese pretendido, uma vez que a contribuição de livro de código adaptativo mudou. O impacto de um quadro perdido depende da natureza do segmento de voz, no qual o apagamento ocorreu. Se o apagamento ocorrer em um segmento estacionário do sinal, então, uma ocultação de apagamento de quadro eficiente poderá ser realizada, e o impacto nos bons quadros conseqüentes pode ser minimizado. Por outro lado, se o apagamento ocorrer em um início de voz ou em uma transição, o efeito do apagamento pode se propagar através de vários quadros. Por exemplo, se o começo de um segmento de voz for perdido, então, o primeiro período de passo estará faltando do conteúdo de livro de código adaptativo. Isso terá um efeito severo sobre o preditor de passo em bons quadros conseqüentes, resultando em um longo tempo antes do sinal de síntese convergir para aquele pretendido no codificador. SUMÁRIO DA INVENÇÃO
[008] A presente invenção se refere a um método para melhoramento da ocultação de apagamento de quadro causado por quadros de um sinal de som codificado apagados durante uma transição de um codificador para um decodificador, e para aceleração da recuperação do decodificador, após quadros não-apagados do sinal de som codificado terem sido recebidos, compreendendo: [009] a determinação, no codificador, de parâmetros de oculta-ção/recuperação;
[0010] a transmissão para o decodificador dos parâmetros de ocul-tação/recuperação determinados no codificador; e [0011] no decodificador, a condução de uma ocultação de quadro de apagamento e recuperação de decodificador em resposta aos pa- râmetros de ocultação/recuperação recebidos.
[0012] A presente invenção também se refere a um método para a ocultação de apagamento de quadro causado por quadros apagados durante uma transmissão de um sinal de som codificado sob a forma de parâmetros de codificação de sinal a partir de um codificador para um decodificador e para a aceleração da recuperação do decodificador após quadros não-apagados do sinal de som codificado terem sido recebidos, compreendendo: [0013] a determinação, no decodificador, de parâmetros de ocultação/recuperação a partir dos parâmetros de codificação de sinal;
[0014] no decodificador, a condução de uma ocultação de quadro apagado e recuperação de decodificador em resposta aos parâmetros de ocultação/recuperação determinados.
[0015] De acordo com a presente invenção, também é provido um dispositivo para melhoria da ocultação de apagamento de quadro causado por quadros de um sinal de som codificado apagado durante uma transmissão de um codificador para um decodificador, e para aceleração da recuperação do decodificador, após quadros não-apagados do sinal de som codificado terem sido recebidos, compreendendo: [0016] meios para a determinação, no codificador, de parâmetros de ocultação/recuperação;
[0017] meios para a transmissão para o decodificador dos parâmetros de ocultação/recuperação determinados no codificador; e [0018] no decodificador, meios para a condução de uma ocultação de quadro de apagamento e recuperação de decodificador em resposta aos parâmetros de ocultação/recuperação recebidos.
[0019] De acordo com a invenção, é provido adicionalmente um dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante uma transmissão de um sinal de som codificado sob a forma de parâmetros de codificação de sinal de um codifi- cador para um decodificador, e para aceleração da recuperação do decodificador após quadros não-apagados do sinal de som codificado terem sido recebidos, compreendendo: [0020] meios para a determinação, no decodificador, de parâmetros de ocultação/recuperação a partir dos parâmetros de codificação de sinal;
[0021] no decodificador, meios para a condução de uma ocultação de quadro apagado e recuperação de decodificador em resposta aos parâmetros de ocultação/recuperação determinados.
[0022] A presente invenção também é concernida a um sistema para a codificação e a decodificação de um sinal de som, e um decodificador de sinal de som que usa os dispositivos definidos acima para melhoria da ocultação de um apagamento de quadro causado por quadros do sinal de som codificado apagados durante uma transmissão do codificador para o decodificador, e para aceleração da recuperação do decodificador, após quadros não-apagados de sinal de som codificado terem sido recebidos.
[0023] Os objetivos precedentes e outros, as vantagens e os recursos da presente invenção tornar-se-ão mais evidentes mediante uma leitura da descrição não restritiva a seguir de modalidades ilustrativas da mesma, dadas a título de exemplo apenas com referência aos desenhos em anexo.
BREVE DESCRIÇÃO DOS DESENHOS
[0024] A Figura 1 é um diagrama de blocos esquemático de um sistema de comunicação de voz que ilustra uma aplicação de dispositivos de codificação e decodificação de voz de acordo com a presente invenção;
[0025] a Figura 2 é um diagrama de blocos esquemático de um exemplo de dispositivo de codificação de banda larga (codificador de AMR-WB);
[0026] a Figura 3 é um diagrama de blocos esquemático de um exemplo de dispositivo de decodificação de banda larga (decodificador de AMR-WB);
[0027] a Figura 4 é um diagrama de blocos simplificado do codificador de AMR-WB da Figura 2, onde o módulo de amostrador - abai-xador, o módulo de filtro de passa-alta e o módulo de filtro de pré-ênfase foram agrupados em um módulo de pré-processamento único, e onde o módulo de busca de passo de laço fechado, o módulo de calculador de resposta de entrada zero, o módulo de gerador de resposta de impulso, o módulo de busca de excitação inovador e o módulo de atualização de memória foram agrupados em um módulo único de passo de laço fechado e de busca de livro de código inovador;
[0028] a Figura 5 é uma extensão do diagrama de blocos da Figura 4, na qual os módulos relacionados a uma modalidade ilustrativa da presente invenção foram adicionados;
[0029] a Figura 6 é um diagrama de blocos que explica a situação quando um início artificial é construído;
[0030] a Figura 7 é um diagrama esquemático que mostra uma modalidade ilustrativa de uma máquina de estado de classificação de quadro para ocultação de apagamento. DESCRIÇÃO DETALHADA DAS MODALIDADES ILUSTRATIVAS [0031] Embora as modalidades ilustrativas da presente invenção sejam descritas na descrição a seguir em relação a um sinal de voz, deve ser tido em mente que os conceitos da presente invenção se aplicam igualmente a outros tipos de sinal, em particular, mas não exclusivamente, a outros tipos de sinais de som.
[0032] A Figura 1 ilustra um sistema de comunicação de voz 100 que descreve o uso de codificação e decodificação de voz no contexto da presente invenção. O sistema de comunicação de voz 100 da Figura 1 suporta a transmissão de um sinal de voz através de um canal de comunicação 101. Embora ele possa compreender, por exemplo, um fio, uma ligação ótica ou uma ligação de fibra, o canal de comunicação 101 tipicamente compreende pelo menos em parte uma ligação de freqüência de rádio. A ligação de freqüência de rádio, freqüentemente, suporta múltiplas comunicações de voz simultâneas, requerendo recursos de largura de banda compartilhada, tal como, pode ser encontrado com sistemas de telefonia celular. Embora não mostrado, o canal de comunicação 101 pode ser substituído por um dispositivo de armazenamento em uma modalidade de dispositivo único do sistema 100, que registra e armazena o sinal de voz codificado para execução posterior.
[0033] No sistema de comunicação de voz 100 da Figura 1, um microfone 102 produz um sinal de voz analógico 103 que é suprido para um conversor de analógico para digital (A/D) 104, para conversão dele em um sinal de voz digital 105. Um codificador de voz 106 codifica o sinal de voz digital 105 para a produção de um conjunto de parâmetros de codificação de sinal 107 que são codificados em forma binária e enviados para um codificador de canal 108. O codificador de canal opcional 108 adiciona redundância à representação binária dos parâmetros de codificação de sinal 107, antes da transmissão deles pelo canal de comunicação 101.
[0034] No receptor, um decodificador de canal 109 utiliza a referida informação redundante no fluxo de bit recebido 111 para detectar e corrigir erros de canal que ocorreram durante uma transmissão. Um decodificador de voz 110 converte o fluxo de bit 112 recebido do decodificador de canal 109 de volta para um conjunto de parâmetros de codificação de sinal, e cria a partir dos parâmetros de codificação de sinal recuperados um sinal de voz sintetizado digital 113. O sinal de voz sintetizado digital 113 reconstruído no decodificador de voz 110 é convertido em uma forma analógica 114 por um conversor de digital para analógico (D/A) 115 e executado através de uma unidade de alto-falante 116.
[0035] A modalidade ilustrativa de método de ocultação de apagamento de quadro eficiente mostrada no presente relatório descritivo pode ser usada com codificadores - decodificadores baseados em predição linear de banda estreita ou de banda larga. A presente modalidade ilustrativa é mostrada em relação a um codificador - decodificador de voz de banda larga, que foi padronizado pela International Telecommunications Union (ITU) como Recomendação G.722.2 e conhecido como codificador - decodificador de AMR-WB (codificador -decodificador de Banda Larga de Taxa Múltipla Adaptativo) [Recomendação G.722.2 da ITU-T "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Genebra, 2002]. Este codificador - decodificador foi selecionado pelo projeto de parceria de terceira geração (3GPP) para telefonia de banda larga em sistemas sem fio de terceira geração [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification]. O AMR-WB pode operar a taxas de 9 bits de 6,6 a 23,85 kbits/s. A taxa de bit de 12,65 kbits/s é usada para ilustração da presente invenção.
[0036] Aqui, deve ser compreendido que a modalidade ilustrativa de método de ocultação de apagamento de quadro eficiente podería ser aplicada a outros codificadores - decodificadores.
[0037] Nas seções seguintes, será dada, primeiramente, uma visão geral do codificador e do decodificador de AMR-WB. Então, a modalidade ilustrativa da nova abordagem para melhoria da robustez do codificador - decodificador será mostrada.
VISÃO GERAL DO CODIFICADOR DE AMR-WB
[0038] O sinal de voz amostrado é codificado em uma base de bloco por bloco pelo dispositivo de codificação 200 da Figura 2, o qual é dividido em onze módulos numerados de 201 a 211.
[0039] O sinal de voz de entrada 212 é processado, portanto, em uma base de bloco por bloco, isto é, nos blocos de L amostras mencionados acima, denominados quadros.
[0040] Com referência à Figura 2, o sinal de voz de entrada amostrado 212 é amostrado - reduzido em um módulo de amostrador - re-dutor 201. O sinal é amostrado - reduzido de 16 kHz para 12,8 kHz, usando-se técnicas bem conhecidas por aqueles versados na técnica. A amostragem - com redução aumenta a eficiência de codificação, uma vez que uma largura de banda de freqüência menor é codificada. Isso também reduz a complexidade de algoritmo, uma vez que o número de amostras em um quadro é diminuído. Após a amostragem -com redução, o quadro de 320 amostras de 20 ms é reduzido para um quadro de 256 amostras (relação de amostragem - com redução de 4/5).
[0041] O quadro de entrada então é suprido para o módulo de pré-processamento opcional 202. O módulo de pré-processamento 202 pode consistir em um filtro de passa-alta com uma freqüência de corte de 50 Hz. O filtro de passa-alta 202 remove os componentes de som indesejados abaixo de 50 Hz.
[0042] O sinal pré-processado amostrado - reduzido é denotado por sp(n), n=0, 1,2, ..., L-1, onde L é o comprimento do quadro (256 a uma freqüência de amostragem de 12,8 kHz). Em uma modalidade ilustrativa do filtro de pré-ênfase 203, o sinal sp(n) é pré-enfatizado usando-se um filtro que tem a função de transferência a seguir: Ρ(ζ) = 1-μζ1 [0043] onde μ é um fator de pré-ênfase com um valor localizado entre 0 e 1 (um valor típico é μ = 0,7). A função do filtro de pré-ênfase 203 é melhorar o conteúdo de alta freqüência do sinal de voz de entrada. Ele também reduz a faixa dinâmica do sinal de voz de entrada, o que o torna mais adequado para uma implementação de ponto fixo. A pré-ênfase também tem um papel importante na obtenção de uma ponderação perceptiva geral apropriada do erro de quantificação, o que contribui para uma qualidade melhorada do som. Isso será explicado em maiores detalhes aqui abaixo.
[0044] A saída do filtro de pré-ênfase 203 é denotada s(n). Este sinal é usado para a realização de uma análise de LP no módulo 204. A análise de LP é uma técnica bem conhecida por aqueles versados na técnica. Nesta implementação ilustrativa, a abordagem de autocor-relação é usada. Na abordagem de autocorrelação, o sinal s(n) é primeiramente posto em janela usando-se, tipicamente, uma janela de Hamming que tem um comprimento da ordem de 30 a 40 ms. As auto-correlações são computadas a partir de um sinal em janela, e uma re-cursão de Levinson-Durbin é usada para a computação dos coeficientes de filtro de LP, a,, onde / = 1, ..., p, e onde p é a ordem de LP, a qual é tipicamente 16 em uma codificação de banda larga. Os parâmetros a, são os coeficientes da função de transferência A(z) do filtro de LP, a qual é dada pela relação a seguir: [0045] Uma análise de LP é realizada em um módulo 204, o qual também realiza a quantificação e a interpolação dos coeficientes de filtro de LP. Os coeficientes de filtro de LP são primeiramente transformados em um outro domínio equivalente mais adequado para fins de quantificação e interpolação. Os domínios de par espectral de linha (LSP) e de par espectral de imitância (ISP) são dois domínios nos quais uma quantificação e uma interpolação podem ser realizadas eficientemente. Os 16 coeficientes de filtro de LP, a,, podem ser quantificados na ordem de 30 a 50 bits usando-se uma quantificação com divisão ou de estágio múltiplo, ou uma combinação das mesmas. A finalidade da interpolação é permitir a atualização de coeficientes de filtro de LP a cada subquadro, enquanto são transmitidos uma vez a cada quadro, o que melhora a performance do codificador, sem aumentar a taxa de bit. Acredita-se que a quantificação e a interpolação dos coeficientes de filtro de LP seja, de outra forma, bem conhecida por aqueles versados na técnica e, assim sendo, não serão mais descritas no presente relatório descritivo.
[0046] Os parágrafos a seguir descreverão o resto das operações de codificação realizadas em uma base de subquadro. Nesta implementação ilustrativa, o quadro de entrada é dividido em 4 subquadros de 5 ms (64 amostras na freqüência de amostragem de 12,8 kHz). Na descrição a seguir, o filtro A(z) denota o filtro de LP interpolado não quantificado do subquadro, e o filtro Â(z) denota o filtro de LP interpolado quantificado do subquadro. O filtro Â(z) é suprido a cada subquadro para um multiplexador 213 para transmissão através de um canal de comunicação.
[0047] Em codificadores de análise por síntese, os parâmetros ótimos de passo e inovação são pesquisados pela minimização do erro médio quadrado entre o sinal de voz de entrada 212 e um sinal de voz sintetizado em um domínio ponderado de forma perceptiva. O sinal ponderado sw(n) é computado em um filtro de ponderação perceptiva 205 em resposta ao sinal s(n) do filtro de pré-ênfase 203. Um filtro de ponderação perceptiva 205 com denominador fixo, adequado para sinais de banda larga, é usado. Um exemplo de função de transferência para o filtro de ponderação perceptiva 205 é dado pela relação a seguir: [0048] De modo a simplificar a análise de passo, um atraso de passo de laço aberto Tol é primeiramente estimado em um módulo de busca de passo de laço aberto 206 a partir do sinal de voz ponderado sw(n). Então, a análise de passo de laço fechado, a qual é realizada em um módulo de busca de passo de laço fechado 207 em uma base de subquadro, é restrita em torno do atraso de passo de laço aberto Tol, o que reduz a complexidade de busca dos parâmetros de LTP T (atraso de passo) e b (ganho de passo). A análise de passo de laço aberto é usualmente realizada em um módulo 206, uma vez a cada 10 ms (dois subquadros) usando-se técnicas bem conhecidas por aqueles versados na técnica.
[0049] O vetor alvo x para análise de LTP (Predição de Longa Duração) é primeiramente computado. Isso é feito, usualmente, pela subtração da resposta de entrada zero so do filtro de síntese ponderada W(z)/Â(z) do sinal de voz ponderado sw(n). Esta resposta de entrada zero so é calculada por um calculador de resposta de entrada zero 208 em resposta ao filtro de LP de interpolação quantificado Â(z) a partir do módulo 204 de quantificação e interpolação de análise de LP e até os estados iniciais de filtro de síntese ponderada W(z)/Â(z) armazenados em um módulo de atualização de memória 211 em resposta aos filtros de LP A(z) e Â(z), e o vetor de excitação u. Esta operação é bem conhecida por aqueles de versados na técnica e, assim sendo, não será adicionalmente descrita.
[0050] Um vetor de resposta de impulso N-dimensional h do filtro de síntese ponderada W(z)/Â(z) é computado no gerador de resposta de impulso 209 usando-se os coeficientes do filtro de LP A(z) e Â(z) a partir do módulo 204. Novamente, esta operação é bem conhecida por aqueles versados na técnica e, assim sendo, não será adicionalmente descrita no presente relatório descritivo.
[0051] Os parâmetros de passo de laço fechado (ou livro de código de passo) b, Tej são computados no módulo de busca de passo de laço fechado 207, o qual usa o vetor alvo x, o vetor de resposta de impulso Λ e o atraso de passo de laço aberto Tol como entradas.
[0052] A busca de passo consiste em encontrar o melhor atraso de passo Γ e o ganho b que minimizam um erro de predição de passo ponderado de média quadrada, por exemplo: [0053] onde j = 1, 2,..., k [0054] entre o vetor alvo x e uma versão de filtro escalonado da excitação passada.
[0055] Mais especificamente, na presente implementação ilustrativa, a busca de passo (livro de código de passo) é composta por três estágios.
[0056] No primeiro estágio, um atraso de passo de laço aberto Tol é estimado no módulo de busca de passo de laço aberto 206, em resposta ao sinal de voz ponderado sw(n). Como indicado na descrição precedente, esta análise de passo de laço aberto é usualmente realizada uma vez a cada 10 ms (dois subquadros) usando-se técnicas bem conhecidas por aqueles versados na técnica.
[0057] No segundo estágio, um critério de busca C é pesquisado no módulo de busca de passo de laço fechado 207 para atrasos de passo inteiros em torno do atraso de passo de laço aberto estimado Tol (usualmente, ± 5), o que simplifica significativamente o procedimento de busca. Um procedimento simples é usado para a atualização do vetor de código filtrado yr (este vetor é definido na descrição a seguir), sem a necessidade de computação da convolução para cada atraso de passo. Um exemplo de critério de busca C é dado por: [0058] onde t denota a transposta de vetor [0059] Uma vez que um atraso de passo inteiro ótimo seja encontrado no segundo estágio, um terceiro estágio de busca (módulo 207) testa, por meio do critério de busca C, as frações em torno do atraso de passo inteiro ótimo. Por exemplo, o padrão AMR-WB usa uma reso- lução de subamostra de % e %.
[0060] Em sinais de banda larga, a estrutura harmônica existe apenas até uma certa freqüência, dependendo do segmento de voz. Assim, de modo a se obter uma representação eficiente da contribuição de passo em segmentos de voz de um sinal de voz de banda larga, uma flexibilidade é necessária para se variar a quantidade de periodicidade pelo espectro de banda larga. Isso é obtido pelo processamento do vetor de código de passo através de uma pluralidade de filtros de conformação de freqüência (por exemplo, filtros de passa-baixa ou de passagem de banda). E o filtro de conformação de freqüência que minimiza o erro ponderado médio quadrado é selecionado. O filtro de conformação de freqüência selecionado e® é identificado por um índice j.
[0061] O índice de livro de código de passo T é codificado e transmitido para o multiplexador 213 para transmissão através de um canal de comunicação. O ganho de passo b é quantificado e transmitido para o multiplexador 213. Um bit extra é usado para a codificação do índice j, este bit extra também sendo suprido para o multiplexador 213.
[0062] Uma vez que o passo, ou os parâmetros de LTP (Predição de Longa Duração) b, T, e j são determinados, a próxima etapa é buscar a excitação inovadora ótima por meio do módulo de busca de excitação inovadora 210 da Figura 2. Em primeiro lugar, o vetor alvo x é atualizado pela subtração da contribuição de LTP: χ' = x - byT
[0063] onde b é o ganho de passo e yr é o vetor de livro de código de passo filtrado (a excitação passada no atraso Tfiltrado pelo filtro de conformação de freqüência selecionado (índice j) e convoluído com a resposta de impulso Λ).
[0064] O procedimento de busca de excitação inovadora em CELP é realizado em um livro de código de inovação para encontrar o vetor de código de excitação ótima Ck e ganho g, o que minimiza o erro médio quadrado E entre o vetor alvo x'e uma versão filtrada escalonada do vetor de código Ck, por exemplo: [0065] onde H é uma matriz de convolução triangular inferior derivada a partir do vetor de resposta de impulso h. O índice k do livro de código de inovação correspondente ao vetor de código ótimo encontrado Ck e o ganho g são supridos para o multiplexador 213 para transmissão através de um canal de comunicação.
[0066] Deve ser notado que o livro de código de inovação usado é um livro de código dinâmico que consiste em um livro de código algébrico seguido por um pré-filtro adaptativo F(z), o que melhora os componentes espectrais especiais, de modo a se melhorar a qualidade de síntese de voz, de acordo com a Patente U.S. N° 5.444.816 concedida a Adoul et al. em 22 de agosto de 1995. Nesta implementação ilustrativa, a busca de livro de código inovadora é realizada no módulo 210 por meio de um livro de código algébrico, como descrito nas Patentes U.S. N°s: 5.444.816 (Adoul et al.) emitida em 22 de agosto de 1995; 5.699.482 concedida a Adoul et al., em 17 de dezembro de 1997; 5.754.976 concedida a Adoul et al., em 19 de maio de 1998; e 5.701.392 (Adoul et al.) datada de 23 de dezembro de 1997.
VISÃO GERAL DE DECODIFICADOR DE AMR-WB
[0067] O decodificador de voz 300 da Figura 3 ilustra as várias etapas realizadas entre a entrada digital 322 (fluxo de bit de entrada para o demultiplexador 317) e o sinal de voz amostrado de saída 323 (saída para o adicionador 321).
[0068] O demultiplexador 317 extrai os parâmetros de modelo de síntese da informação binária (fluxo de bit de entrada 322) recebido de um canal de entrada digital. A partir de cada quadro binário recebido, os parâmetros extraídos são: • Os coeficientes de LP interpolados quantificados Â(z), também denominados parâmetros de predição de curta duração (STP) produzidos uma vez por quadro; • Os parâmetros de predição de longa duração (LTP) T, b, e j (para cada subquadro); e • O índice de livro de código de inovação keo ganho g (para cada subquadro).
[0069] O sinal de voz atual é sintetizado com base nesses parâmetros, como será explicado aqui abaixo.
[0070] O livro de código de inovação 318 responde ao índice k para produzir o vetor de código de inovação Ck, o qual é escalonado pelo fator de ganho decodificado g, através de um amplificador 324. Na implementação ilustrativa, um livro de código de inovação, como descrito nas Patentes U.S. N°s 5.444.816; 5.699.482; 5.754.976; e 5.701.392 mencionadas acima, é usado para a produção do vetor de código de inovação Ck.
[0071] O vetor de código escalonado gerado na saída do amplificador 324 é processado através de um melhorador de passo dependente de freqüência 305.
[0072] A melhoria da periodicidade do sinal de excitação u melhora a qualidade dos segmentos de voz. A melhoria de periodicamente é obtida pela filtração do vetor de código de inovação Ck, a partir do livro de código de inovação (fixo) através de um filtro de inovação F(z) (melhorador de passo 305), cuja resposta de freqüência enfatiza as fre-qüências mais altas mais do que as freqüências mais baixas. Os coeficientes do filtro de inovação F(z) estão relacionados à quantidade de periodicidade no sinal de excitação u. Uma maneira eficiente e ilustrativa para deixar os coeficientes de filtro de inovação F(z) é relatá-los à quantidade de contribuição de pontos no sinal de excitação total u. Is- so resulta em uma resposta de freqüência dependente da periodicidade de subquadro, onde freqüências mais altas são mais fortemente enfatizadas (inclinação geral mais forte) para ganhos de passo mais altos. O filtro de inovação 305 tem o efeito de diminuir a energia do vetor de código de inovação Ck a freqüências mais baixas, quando o sinal de excitação u é mais periódico, o que melhora a periodicidade do sinal de excitação u a freqüências mais baixas mais do que a freqüências mais altas. Uma forma sugerida para o filtro de inovação 305 é a seguinte: [0073] onde α é um fator de periodicidade derivado a partir do nível de periodicidade do sinal de excitação u. o fator de periodicidade α é computado no gerador de fator de voz 304. Em primeiro lugar, um fator de voz rv é computado no gerador de fator de voz 304 por: [0074] onde Ev é a energia do vetor de código de passo escalonado bvr e Ec é a energia do vetor de código inovador escalonado gck. Isto é: [0075] e [0076] Note que o valor de rv fica entre -1 e 1 (1 corresponde a sinais puramente de voz e -1 corresponde a sinais puramente não de voz).
[0077] O vetor de código de passo escalonado bvr mencionado acima é produzido pela aplicação de um atraso de passo T a um livro de código de passo 301 para a produção de um vetor de código de passo. O vetor de código de passo então é processado através de um filtro de passa-baixa 302, cuja freqüência de corte é selecionada em relação ao índice j a partir do demultiplexador 317, para a produção do vetor de código de passo filtrado vt. Então, o vetor de código de passo filtrado vt é amplificado pelo ganho de passo b por um amplificador 326 para a produção do vetor de código de passo escalonado bvr. [0078] Nesta implementação ilustrativa, o fator α então é computado no gerador de fator de voz 304 por: a = 0,125 (1 + rv) [0079] o que corresponde a um valor de 0 para sinais puramente sem voz e 0,25 para sinais puramente de voz.
[0080] O sinal melhorado Cf, portanto, é computado pela filtração do vetor de código de inovação escalonado gck através do filtro de inovação 305 (F(z)).
[0081] O sinal de excitação melhorado u' é computado pelo adicionador 320 como: u'= Cf + bvr [0082] Deve ser notado que este processo não é realizado no codificador 200. Assim, é essencial atualizar o conteúdo do livro de código de passo 301 usando o valor passado do sinal de excitação u, sem melhoramento, armazenado na memória 303, para manutenção do sincronismo entre o codificador 200 e o decodificador 300. Portanto, o sinal de excitação u é usado para a atualização da memória 303 do livro de código de passo 301 e o sinal de excitação melhorado u' é usado na entrada do filtro de síntese de LP 306.
[0083] O sinal sintetizado s'é computado pela filtração do sinal de excitação melhorado u' através do filtro de síntese de LP 306, o qual tem a forma 1/Â(z), onde Â(z) é o filtro de LP quantificado interpolado no subquadro atual. Como pode ser visto na Figura 3, os coeficientes de LP quantificados interpolados Â(z) na linha 325 do demultiplexador 317 são supridos para o filtro de síntese de LP 306, para o ajuste dos parâmetros do filtro de síntese de LP 306 de modo conforme. O filtro de retirada de ênfase 307 é o inverso do filtro de pré-ênfase 203 da Figura 2. A função de transferência do filtro de retirada de ênfase 307 é dada por: D(z) = 1/(1 - μζ~1) [0084] onde μ é um fator de pré-ênfase com um valor localizado entre 0 e 1 (um valor típico é μ = 0,7). Um filtro de ordem mais alta também podería ser usado.
[0085] O vetor s' é filtrado através do filtro de retirada de ênfase D(z) 307 para a obtenção do vetor Sd, o qual é processado através do filtro de passa-alta 308 para a remoção das freqüências indesejadas abaixo de 50 Hz e ainda se obter Sh.
[0086] O amostrador - aumentador 309 conduz o processo inverso do amostrador - redutor 201 na Figura 2. Nesta modalidade ilustrativa, a amostragem - com aumento converte a taxa de amostragem de 12,8 kHz de volta na taxa de amostragem original de 16 kHz, usando técnicas bem conhecidas por aqueles versados na técnica. O sinal de síntese amostrado - aumentado é denotado S. O sinal S também é referido como o sinal intermediário de banda larga sintetizado.
[0087] O sinal de síntese amostrado - aumentado S não contém os componentes de freqüência mais altas, os quais foram perdidos durante o processo de amostragem - com redução (módulo 201 na Figura 2) no codificador 200. Isso dá uma percepção de passa-baixa ao sinal de voz sintetizado. Para a restauração da banda plena do sinal original, um procedimento de geração de freqüência alta é realizado no módulo 310, e requer uma entrada do gerador de fator de voz 304 (Figura 3).
[0088] A seqüência de ruído filtrado de banda de passagem resultante z do módulo de geração de freqüência alta 310 é adicionado pelo adicionador 321 ao sinal de síntese amostrado - aumentado S, para a obtenção do sinal de voz de saída reconstruído final sout na saída 323. Um exemplo de processo de regeneração de freqüência alta é descrito no pedido de patente PCT internacional publicado sob o N° WO 00/25305 em 4 de maio de 2000.
[0089] A alocação de bit do codificador - decodificador de AMR-WB a 12,65 kbits/s é dada na Tabela 1. TABELA 1. Alocação de bit no modo de 12,65 kbits/s. OCULTAÇÃO DE APAGAMENTO DE QUADRO ROBUSTA [0090] O apagamento de quadros tem um efeito importante sobre a qualidade de voz sintetizado em sistemas de comunicação de voz digitais, especialmente quando operando em ambientes sem fio e redes de pacote comutado. Em sistemas celulares sem fio, a energia do sinal recebido pode exibir desvanecimentos severos freqüentes, resultando em altas taxas de erro de bit, e isso se torna mais evidente nas fronteiras de célula. Neste caso, o decodificador de canal falha em corrigir os erros no quadro recebido e, como uma conseqüência, o detector de erro usualmente usado após o decodificador de canal declarará o quadro como apagado. Em aplicações de rede de voz por pacote, tal como, o Protocolo de Voz por Pacote (VolP), o sinal de voz é empacotado, onde usualmente um quadro de 20 ms é colocado em cada pacote. Em comunicações de pacote comutado, uma queda de pacote pode ocorrer em um roteador se o número de pacotes se tornar muito grande, ou o pacote pode chegar no receptor após um longo atraso e deve ser declarado como perdido, se seu atraso for maior do que o comprimento de um buffer de flutuação de fase no lado de receptor. Nesses sistemas, o codificador - decodificador é submetido, tipicamente, a taxas de apagamento de quadro de 3 a 5%.
[0091] O problema de processamento de apagamento de quadro (FER) é basicamente duplo. Em primeiro lugar, quando um indicador de quadro apagado chega, o quadro faltando deve ser gerado pelo uso da informação enviada, o quadro prévio e pela estimativa da evolução de sinal no quadro faltando. O sucesso da estimativa depende não apenas da estratégia de ocultação, mas, também, do local no sinal de voz em que o apagamento ocorre. Em segundo lugar, uma transição suave deve ser assegurada, quando de recuperações de operação normal, isto é, quando o primeiro bom quadro chegar após um bloco de quadros apagados (um ou mais). Isso não é uma tarefa trivial, já que a síntese verdadeira e a síntese estimada podem evolver diferentemente. Quando o primeiro bom quadro chega, o decodificador assim é dessincronizado do codificador. A razão principal é que os codificadores de taxa de bit baixa se baseiam em predição de passo e, durante quadros apagados, a memória do preditor de passo não é mais a mesma que aquela no codificador. O problema é amplificado quando muitos quadros consecutivos são apagados. Quanto à ocultação, a dificuldade da recuperação de processamento normal depende do tipo de sinal de voz quando o apagamento ocorreu.
[0092] O efeito negativo de apagamentos de quadro pode ser significativamente reduzido pela adaptação da ocultação e pela recuperação de processamento normal (recuperação adicional) para o tipo de sinal de voz onde o apagamento ocorre. Para esta finalidade, é necessário classificar cada quadro de voz. Esta classificação pode ser feita no codificador e transmitida. Alternativamente, ela pode ser estimada no decodificador.
[0093] Para as melhores ocultação e recuperação, há poucas características críticas do sinal de voz que devem ser cuidadosamente controladas. Estas características críticas são a energia de sinal ou a amplitude, a quantidade de periodicidade, a envoltória espectral e o período de passo. No caso de uma recuperação de voz de voz, um melhoramento adicional pode ser obtido por um controle de fase. Com um ligeiro aumento na taxa de bit, poucos parâmetros suplementares podem ser quantificados e transmitidos para melhor controle. Se nenhuma largura de banda estiver disponível, os parâmetros podem ser estimados no decodificador. Com estes parâmetros controlados, a ocultação de apagamento de quadro e a recuperação podem ser significativamente melhoradas, especialmente pela melhoria da convergência do sinal decodificado para o sinal real no codificador e aliviando o efeito de não combinação entre o codificador e o decodificador, quando de recuperações de processamento normais.
[0094] Na presente modalidade ilustrativa da presente invenção, métodos para uma ocultação de apagamento de quadro eficiente, e métodos para extração e transmissão de parâmetros que melhorarão a performance e a convergência no decodificador nos quadros seguindo-se a um quadro apagado são mostrados. Esses parâmetros incluem dois ou mais dos seguintes: classificação de quadro, energia, informação de voz, e informação de fase. Ainda, métodos para extração de tais parâmetros no decodificador, se uma transmissão de bits extra não for possível, são mostrados. Finalmente, métodos para a melhoria da convergência de decodificador em bons quadros seguindo-se a um quadro apagado também são mostrados.
[0095] As técnicas de ocultação de apagamento de quadro de acordo com a presente modalidade ilustrativa foram aplicadas ao codificador - decodificador de AMR-WB descrito acima. Este codificador -decodificador servirá como uma estrutura de exemplo para a imple- mentação dos métodos de ocultação de FER na descrição a seguir. Como explicado acima, o sinal de voz de entrada 212 para o codificador - decodificador tem uma freqüência de amostragem de 16 kHz, mas ele é amostrado - reduzido para uma freqüência de amostragem de 12,8 kHz, antes de um processamento adicional. Na presente modalidade ilustrativa, o processamento de FER é feito no sinal amostrado - reduzido.
[0096] A Figura 4 dá um diagrama de blocos simplificado do codificador de AMR-WB 400. Neste diagrama de blocos simplificado, o amostrador - redutor 201, o filtro de passa-alta 202 e o filtro de pré-ênfase 203 são agrupados em conjunto no módulo de pré-processamento 401. Também, o módulo de busca de laço fechado 207, o calculador de resposta de entrada zero 208, o calculador de resposta de impulso 209, o módulo de busca de excitação inovadora 210 e o módulo de atualização de memória 211 são agrupados em um passo de laço fechado e em módulos de busca de livro de código de inovação 402. Este agrupamento é feito para simplificar a introdução dos novos módulos relacionados à modalidade ilustrativa da presente invenção.
[0097] A Figura 5 é uma extensão do diagrama de blocos da Figura 4, onde os módulos relacionados à modalidade ilustrativa da presente invenção são adicionados. Nestes módulos adicionados 500 a 507, os parâmetros adicionais são computados, quantificados e transmitidos com o objetivo de melhorar a ocultação de FER e a convergência e a recuperação do decodificador, após os quadros apagados. Na presente modalidade ilustrativa, esses parâmetros incluem classificação de sinal, energia e informação de fase (a posição estimada do primeiro pulso glótico em um quadro).
[0098] Nas seções seguintes, a computação e a quantificação desses parâmetros adicionais serão dadas em detalhes e tornar-se-ão mais evidentes com referência à Figura 5. Dentre esses parâmetros, a classificação de sinal será tratada em maiores detalhes. Nas seções subseqüentes, uma ocultação eficiente de FER usando-se estes parâmetros adicionais para a melhoria da convergência será explicada. CLASSIFICAÇÃO DE SINAL PARA OCULTAÇÃO DE FER E RECUPERAÇÃO
[0099] A ideia básica por trás do uso de uma classificação da voz para uma reconstrução de sinal na presença de quadros apagados consiste no fato de a estratégia de ocultação ideal ser diferente para segmentos de voz quase-estacionários e para segmentos de voz com características que mudam rapidamente. Embora o melhor processamento de quadros apagados em segmentos de voz não estacionários possa ser resumido como uma convergência rápida de parâmetros de codificação de voz para as características de ruído ambiente, no caso de um sinal quase-estacionário, os parâmetros de codificação de voz não variam dramaticamente e podem ser mantidos praticamente não modificados durante vários quadros apagados adjacentes, antes de serem descartados. Também, o método ótimo para uma recuperação de sinal seguindo-se a um bloco apagado de quadros varia com a classificação do sinal de voz.
[00100] O sinal de voz pode ser grosseiramente classificado como de voz, sem voz e pausas. O discurso falado contém uma quantidade importante de componentes periódicos e pode ser adicionalmente dividido nas categorias a seguir: inícios de voz, segmentos de voz, transições de voz e desvios de voz. Um início de voz é definido como um começo de um segmento de voz de voz após uma pausa ou um segmento não de voz. Durante os segmentos de voz, os parâmetros de sinal de voz (envoltória espectral, período de passo, relação de componentes periódicas e não-periódicas, energia) variam lentamente de quadro para quadro. Uma transição de voz é caracterizada por varia- ções rápidas de um discurso falado, tal como, uma transição entre vogais. Os desvios de voz são caracterizados por uma diminuição gradual de energia e voz no final de segmentos de voz.
[00101] As partes não de voz do sinal são caracterizadas pela falta da componente periódica e podem ser adicionalmente divididas em quadros instáveis, onde a energia e o espectro mudam rapidamente, e quadros estáveis, onde essas características permanecem relativamente estáveis. Os quadros remanescentes são classificados como silêncio. Os quadros de silêncio compreendem todos os quadros sem voz ativa, isto é, também, quadros apenas de ruído se um ruído de fundo estiver presente.
[00102] Nem todas as classes mencionadas acima precisam de um processamento em separado. Assim, para as finalidades de técnicas de ocultação de erro, algumas das classes de sinal são agrupadas em conjunto.
CLASSIFICAÇÃO NO CODIFICADOR
[00103] Quando há uma largura de banda disponível no fluxo de bit para incluir a informação de classificação, a classificação pode ser feita no codificador. Isso tem várias vantagens. A mais importante é que há freqüentemente um transporte para frente em codificadores de voz. O transporte para frente permite estimar a evolução do sinal no quadro seguinte e, conseqüentemente, a classificação pode ser feita levando-se em conta o comportamento futuro do sinal. Geralmente, quanto mais longo é o transporte para frente, melhor pode ser a classificação. Uma outra vantagem é uma redução de complexidade, já que a maior parte do processamento de sinal necessário para uma ocultação de apagamento de quadro é necessária de qualquer forma para uma codificação de voz. Finalmente, também há a vantagem de se trabalhar com o sinal original, ao invés de com o sinal sintetizado.
[00104] A classificação de quadro é feita com a consideração da estratégia de ocultação e recuperação em mente. Em outras palavras, qualquer quadro é classificado de maneira tal que a ocultação possa ser ótima, se o quadro seguinte estiver faltando, ou que a recuperação pode ser ótima se o quadro prévio foi perdido. Algumas das classes usadas para o processamento de FER não precisam ser transmitidas, já que elas podem ser deduzidas sem ambigüidade no decodificador. Na presente modalidade ilustrativa, cinco classes distintas são usadas e definidas como se segue: • A classe SEM VOZ compreende todos os quadros de voz não de voz e todos os quadros sem voz ativa. Um quadro de desvio de voz também pode ser classificado como SEM VOZ, se seu final tender a ser não de voz e a ocultação designada para quadros não de voz pode ser usada para o quadro seguinte, no caso de ele ser perdido. • A classe de TRANSIÇÃO SEM VOZ compreende quadros não de voz com um possível começo de voz no fim. O começo, contudo, ainda é muito breve ou não construído bem o bastante para uso da ocultação designada para quadros de voz. A classe de TRANSIÇÃO SEM VOZ pode se seguir apenas a um quadro classificado como SEM VOZ ou de TRANSIÇÃO SEM VOZ. • A classe de TRANSIÇÃO DE VOZ compreende quadros de voz com características de voz relativamente fracas. Aqueles são tipicamente quadros de voz com características que mudam rapidamente (transições entre vogais) ou desvios de voz durando todo o quadro. A classe de TRANSIÇÃO DE VOZ pode se seguir apenas a um quadro classificado como TRANSIÇÃO DE VOZ, VOZ ou COMEÇO. • A classe DE VOZ compreende quadros de voz com características estáveis. Esta classe pode se seguir apenas a um quadro classificado como TRANSIÇÃO DE VOZ, VOZ ou COMEÇO. • A classe de COMEÇO compreende todos os quadros de voz com características estáveis seguindo-se a um quadro classificado como SEM VOZ ou TRANSIÇÃO SEM VOZ. Os quadros classificados de COMEÇO correspondem a quadros de começo de voz, onde o começo já é suficientemente bem construído para uso da ocultação designada para os quadros de voz perdidos. As técnicas de ocultação usadas para um apagamento de quadro seguindo-se à classe de COMEÇO são as mesmas que aquelas se seguindo à classe DE VOZ. A diferença está na estratégia de recuperação. Se um quadro de classe de COMEÇO for perdido (isto é, um bom quadro DE VOZ chegar após um apagamento, mas o último bom quadro antes do apagamento foi SEM VOZ), uma técnica especial pode ser usada para se reconstruir artificialmente o começo perdido. Este cenário pode ser visto na Figura 6. As técnicas de reconstrução de começo artificial serão descritas em maiores detalhes na descrição a seguir. Por outro lado, se um bom quadro de COMEÇO chegar após um apagamento e o último bom quadro antes do apagamento foi SEM VOZ, este processamento especial não é necessário, já que o começo não foi perdido (não estava no quadro perdido).
[00105] O diagrama de estado de classificação é destacado na Figura 7. Se a largura de banda disponível for suficiente, a classificação é feita no codificador e transmitida usando-se 2 bits. Como pode ser visto a partir da Figura 7, a classe TRANSIÇÃO SEM VOZ e a classe TRANSIÇÃO DE VOZ podem ser agrupadas em conjunto, já que elas podem ser diferenciadas de forma não ambígua no decodificador (a TRANSIÇÃO SEM VOZ pode se seguir apenas a quadros SEM VOZ ou de TRANSIÇÃO SEM VOZ, uma TRANSIÇÃO DE VOZ pode se seguir apenas a quadros de COMEÇO, DE VOZ ou de TRANSIÇÃO DE VOZ). Os parâmetros a seguir são usados para a classificação: uma correlação normalizada rx, uma medida de inclinação espectral et, uma relação de sinal para ruído snr, um contador de estabilidade de passo pc, uma energia de quadro relativa do sinal no final do quadro atual Es e um contador de passagem pelo zero zc. Como pode ser visto na análise detalhada a seguir, a computação desses parâmetros usa o transporte para frente tanto quanto possível para se levar em conta o comportamento do sinal de voz também no quadro seguinte. [00106] A correlação normalizada rx é computada como parte do módulo de busca de passo de laço aberto 206 da Figura 5. Este módulo 206 usualmente extrai uma estimativa de passo de laço aberto a cada 10 ms (duas vezes por quadro). Aqui, também é usado extrair as medidas de correlação normalizada. Essas correlações normalizadas são computadas no sinal de voz ponderado atual sw(n) e no sinal de voz ponderado passado no atraso de passo de laço aberto. De modo a se reduzir a complexidade, o sinal de voz ponderado sw(n) é amostrado - reduzido por um fator de 2, antes da análise de passo de laço fechado, até uma freqüência de amostragem de 6400 Hz [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," Especificação Técnica 3GPP]. A correlação média rxé definida como: [00107] onde rx(1), rx(2) são respectivamente a correlação normalizada da segunda metade do quadro atual e do transporte para frente. Nesta modalidade ilustrativa, um transporte para frente de 13 ms é usado, diferentemente do padrão AMR-WB, que usa 5 ms. A correlação normalizada é computada como se segue: [00108] onde: [00109] As correlações rx(k) são computadas usando-se o sinal de voz ponderado sw(n). Os instantes tk estão relacionados ao começo de quadro atual e são iguais a 64 e 128 amostras respectivamente na taxa de amostragem ou freqüência de 6,4 kHz (10 e 20 ms). Os valores Pk = Tol são as estimativas de passo de laço aberto selecionadas. O comprimento da computação de autocorrelação Lk é dependente do período de passo. Os valores de Lk são resumidos abaixo (para a taxa de amostragem de 6,4 kHz): Lk = 40 amostras para pk < 31 amostras Lk = 62 amostras para pk < 61 amostras Lk= 115 amostras para pk > 61 amostras [00110] Esses comprimentos asseguram que o comprimento de vetor correlacionado compreende pelo menos um período de passo o qual ajuda em uma detecção de passo de laço aberto robusta. Para períodos de passo longo (pi > 61 amostras), rx(1) e rx(2) são idênticos, isto é, apenas uma correlação é computada, uma vez que os vetores correlacionados são longos o bastante de modo que a análise no transporte para frente não é mais necessária.
[00111] O parâmetro de inclinação espectral et contém a informação sobre a distribuição de freqüência de energia. Na presente modalidade ilustrativa, a inclinação espectral é estimada como uma relação entre a energia concentrada em baixas freqüências e a energia concentrada em altas freqüências. Entretanto, ela também pode ser estimada de formas diferentes, tal como, uma relação entre os dois primeiros coeficientes de autocorrelação do sinal de voz.
[00112] A Transformada de Fourier discreta é usada para a realização da análise espectral no módulo de análise espectral e de estimativa de energia de espectro 500 da Figura 5. A análise de freqüência e a computação de inclinação são feitas duas vezes por quadro. Uma Transformada Rápida de Fourier (FFT) de 256 pontos é usada com uma superposição de 50%. As janelas de análise são colocadas de modo que todo o transporte para frente seja explorado. Nesta modalidade ilustrativa, o começo da primeira janela é colocado 24 amostras após o começo do quadro atual. A segunda janela é colocada 128 amostras mais adiante. Janelas diferentes podem ser usadas para a ponderação do sinal de entrada para a análise de freqüência. Uma raiz quadrada de uma janela de Hamming (a qual é equivalente a uma janela seno) foi usada na presente modalidade ilustrativa. Esta janela é particularmente bem adequada para métodos de superposição - adição. Portanto, esta análise espectral pode ser usada em um algoritmo de supressão de ruído opcional com base na subtração espectral e na análise/síntese de superposição - adição.
[00113] A energia em altas freqüências e em baixas freqüências é computada no módulo 500 da Figura 5 seguindo-se às bandas críticas perceptivas. Na presente modalidade ilustrativa, cada banda crítica é considerada até o número seguinte [J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour. on Selected Areas in Communications, vol. 6, no. 2, pp. 314-323]: [00114] Bandas críticas = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Hz.
[00115] A energia em freqüências mais altas é computada no módulo 500 como a média das energias das duas últimas bandas críticas: Êh =0.5(e(18) + e(19)) (3) [00116] onde as energias de banda crítica e(i) são computadas como a soma das energias de bin na banda crítica, com a média calculada pelo número dos bins.
[00117] A energia em freqüências mais baixas é computada como a média das energias nas 10 primeiras bandas críticas. As bandas críti- cas médias foram excluídas da computação para melhoria da discriminação entre quadros com alta concentração de energia em baixas fre-qüências (geralmente de voz) e com alta concentração de energia em freqüências altas (geralmente não de voz). Entre elas, o teor de energia não é característico para qualquer uma das classes e aumentaria a confusão de decisão.
[00118] No módulo 500, a energia em baixas freqüências é computada diferentemente para períodos longos de passo e períodos curtos de passo. Para segmentos de voz de voz feminina, a estrutura harmônica do espectro pode ser explorada para aumento da discriminação não de voz. Assim, para períodos de passo curtos, E' é computado no sentido de bin, e apenas bins de freqüências suficientemente próxima dos harmônicos de voz são levadas em conta na soma, isto é: [00119] onde et,(i) são as energias de bin nos 25 primeiros bins de freqüência (a componente DC não é considerada). Note que estes 25 bins correspondem às 10 primeiras bandas críticas. Na soma acima, apenas os termos relacionados aos bins mais próximos dos harmônicos mais próximos do que um certo limite de freqüência são não nulos. O contador cnt equivale ao número daqueles termos não nulos. O limite para um bin ser incluído na soma foi fixado em 50 Hz, isto é, apenas bins mais próximos de 50 Hz para os harmônicos mais próximos são levados em conta. Assim, se a estrutura for harmônica em baixas freqüências, apenas o termo de energia alta será incluído na soma. Por outro lado, se a estrutura não for harmônica, a seleção dos termos será randômica e a soma será menor. Assim, mesmo sons não de voz com alto teor de energia em baixas freqüências podem ser detectados. Este processamento não pode ser feito por períodos mais longos de passo, já que a resolução de freqüência não é suficiente. O valor de passo de limite é de 128 amostras correspondente a 100 Hz. Isso significa que para períodos de passo mais longos do que 128 amostras e também para sons sem voz a priori (isto é, quando * + re < 0,6), a estimativa de energia de freqüência é feita por banda crítica e é computada como: [00120] O valor re, calculado em um módulo de correção de estimativa de ruído e de correlação normalizada 501, é uma correção adicionada à correlação normalizada na presença de ruído de fundo pela razão a seguir. Na presença de ruído de fundo, a correlação normalizada média diminui. Entretanto, para fins de classificação de sinal, esta diminuição não deve afetar a decisão de voz sem voz. Foi descoberto que a dependência entre esta diminuição re e a energia de ruído de fundo em dB é aproximadamente exponencial e pode ser expressa usando-se a relação a seguir: [00121] onde Λ/ds significa: [00122] Aqui, n(i) são as estimativas de energia para cada banda crítica normalizada da mesma forma que e(i), e gde é o nível de supressão de ruído máximo em dB permitido para a rotina de redução de ruído. Não é permitido que o valor re seja negativo. Deve ser notado que quando um bom algoritmo de redução de ruído é usado e gde é suficientemente alto, re é praticamente igual a zero. Isso é relevante apenas quando a redução de ruído é desabilitada ou se o nível de ruído de fundo for significativamente mais alto do que a redução máxima admitida. A influência de re pode ser sintonizada pela multiplicação deste termo por uma constante.
[00123] Finalmente, as energias resultantes de freqüência mais baixa e mais alta são obtidas pela subtração de uma energia de ruído estimada a partir dos valores El e El calculados acima. Isto é: [00124] onde Nh e Ni são as energias de ruído médias nas duas (2) últimas bandas críticas e nas dez (10) primeiras bandas críticas, respectivamente, computadas usando-se equações similares às Equações (3) e (5), e fc é um fator de correção sintonizado de modo que essas medidas permaneçam próximas de constante com variação do nível de ruído de fundo. Nesta modalidade ilustrativa, o valor de fc foi fixado em 3.
[00125] A inclinação espectral et é calculada no módulo de estimativa de inclinação espectral 503, usando-se a relação: [00126] e tem a média calculada no domínio de dB para as duas (2) análises de freqüência realizadas por quadro: [00127] A medida de relação de sinal para ruído (SNR) explora o fato de que para um codificador de combinação de forma de onda geral, a SNR é muito mais alta para sinais de voz. A estimativa de parâmetro snr deve ser feita no final do laço de subquadro de codificador e é computada no módulo de computação de SNR 504, usando-se a relação: [00128] onde Esw é a energia do sinal de voz ponderado sw(n) do quadro atual a partir do filtro de ponderação perceptiva 205 e Ee é a energia do erro entre este sinal de voz ponderado e o sinal de síntese ponderado do quadro atual a partir do filtro de ponderação perceptiva 205'.
[00129] O contador de estabilidade de passo pc avalia a variação do período de passo. Ela é computada no módulo de classificação de sinal 505, em resposta às estimativas de passo de laço aberto, como se segue: [00130] Os valores po, pi, P2 correspondem às estimativas de passo de laço aberto calculadas pelo módulo de busca de passo de laço aberto 206 a partir da primeira metade do quadro atual, da segunda metade do quadro atual e do transporte para frente, respectivamente. [00131] A energia de quadro relativa Es é computada pelo módulo 500 como uma diferença entre a energia de quadro atual em dB e sua média de longa duração: [00132] onde a energia de quadro Ef é obtida como uma soma das energias de banda crítica, com a média calculada para ambas as análises espectrais realizadas em cada quadro: [00133] A energia média de longa duração é atualizada em quadros de voz ativo usando-se a relação a seguir: [00134] O último parâmetro é o parâmetro de passagem pelo zero zc computado em um quadro do sinal de voz pelo módulo de computação de passagem pelo zero 508. O quadro começa no meio do quadro atual e usa dois (2) subquadros do transporte para frente. Nesta modalidade ilustrativa, o contador de passagem pelo zero zc conta o número de vezes que o sinal do sinal muda de positivo para negativo durante aquele intervalo.
[00135] Para tornar a classificação mais robusta, os parâmetros de classificação são considerados em conjunto formando uma função de mérito fm. Para essa finalidade os parâmetros de classificação são primeiramente escalonados entre 0 e 1, de modo que cada valor de parâmetro típico para um sinal não de voz se traduza em 0 e cada valor de parâmetro típico para um sinal de voz se traduza em 1. Uma função linear é usada entre eles. Consideremos um parâmetro px, sua versão escalonada é obtida usando-se: ps =kppx + cp [00136] e grampeada entre 0 e 1. Os coeficientes de função kp e cp foram encontrados experimentalmente para cada um dos parâmetros, de modo que a distorção de sinal devido às técnicas de ocultação e recuperação usadas na presença de FERs seja mínima. Os valores usados nesta implementação ilustrativa são resumidos na Tabela 2: TABELA 2. Parâmetros de Classificação de Sinal e os coeficientes de suas respectivas funções de escalonamento.
[00137] A função de mérito foi definida como: [00138] onde o sobrescrito s indica a versão escalonada dos parâmetros.
[00139] A classificação então é feita usando-se a função de mérito fm e seguindo-se as regras resumidas na Tabela 3: TABELA 3. Ordem de Classificação de Sinal no Codificador [00140] No caso de um codificador de taxa de bit variável (VBR) de fonte controlada, uma classificação de sinal é inerente para a operação do codificador - decodificador. O codificador - decodificador opera a várias taxas de bit, e um módulo de seleção de taxa é usado para a determinação da taxa de bit usada para a codificação de cada quadro de voz com base na natureza do quadro de voz (por exemplo, quadros de voz, não de voz, transiente, de ruído de fundo são codificados, cada um, com um algoritmo de codificação especial). A informação sobre o modo de codificação e, assim, sobre a classe de voz já é uma parte implícita do fluxo de bit e não precisa ser explicitamente transmitida para processamento de FER. Esta informação de classe pode ser usada, então, para se sobrescrever a decisão de classificação descrita acima.
[00141] Na aplicação de exemplo para o codificador - decodificador de AMR-WB, a única seleção de taxa de fonte controlada representa a detecção de atividade de voz (VAD). Este indicador de VAD equivale a 1 para voz ativa, 0 para silêncio. Este parâmetro é útil para a classificação, já que ele diretamente indica que nenhuma outra classificação é necessária, se seu valor for 0 (isto é, o quadro é diretamente classifi- cado como SEM VOZ). Este parâmetro é a saída do módulo de detecção de atividade de voz (VAD) 402. Existem diferentes algoritmos de VAD na literatura, e qualquer algoritmo pode ser usado para a finalidade da presente invenção. Por exemplo, o algoritmo de VAD que é parte da norma G.722.2 pode ser usado [Recomendação G.722.2 da ITU-T "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Genebra, 2002]. Aqui, o algoritmo de VAD é baseado na saída da análise espectral do módulo 500 (com base na relação de sinal para ruído por banda crítica). A VAD usada para a finalidade de classificação difere daquela usada para a finalidade de codificação com respeito ao tempo de manutenção. Em codificadores de voz usando uma geração de ruído de conforto (CNG) para segmentos sem voz ativa (silêncio ou ruído apenas), um tempo de manutenção freqüentemente é adicionado após jatos de voz (a CNG em AMR-WB é um exemplo [3GPP TS 26.192, "AMR Wideband Speech Codec: Comfort Noise Aspects," Especificação Técnica 3GPP]). Durante o tempo de manutenção, o codificador de voz continua a ser usado, e o sistema alterna para a CNG apenas após o período de tempo de manutenção ter terminado. Para a finalidade de classificação para ocultação de FER, esta alta segurança não é necessária. Conseqüentemen-te, o indicador de VAD para a classificação será igual a 0 também durante o período de tempo de manutenção.
[00142] Nesta modalidade ilustrativa, a classificação é realizada no módulo 505 com base nos parâmetros descritos acima; especificamente, correlações normalizadas (ou uma informação de voz) rx, inclinação espectral et, snr, contador de estabilidade de passo pc, energia relativa de quadro Es, taxa de passagem pelo zero zc, e indicador de VAD. CLASSIFICAÇÃO NO DECODIFICADOR
[00143] Se a aplicação não permitir a transmissão da informação de classe (nenhum bit extra pode ser transportado), a classificação ainda pode ser realizada no decodificador. Como já notado, a desvantagem principal aqui é que geralmente não há um transporte para frente disponível nos codificadores de voz. Também, freqüentemente, há a necessidade de se manter a complexidade do decodificador limitada. [00144] Uma classificação simples pode ser feita pela estimativa da voz do sinal sintetizado. Se considerarmos o caso de um codificador tipo de CELP, a estimativa de voz rv computada como na Equação (1) pode ser usada. Isto é: [00145] onde Ev é a energia do vetor de código de passo escalonado bvr e Ec é a energia do vetor de código inovador escalonado gck. Teoricamente, para um sinal puramente de voz, rv = 1 e para um sinal puramente não de voz, rv = -1. A classificação real é feita pelo cálculo da média de valores de rv a cada 4 subquadros. O fator resultante frv (média de valores de rv de cada quatro subquadros) é usado como se segue: TABELA 4. Regras de Classificação de Sinal no Decodificador.
[00146] De modo similar à classificação no codificador, outros parâmetros podem ser usados no decodificador para ajudar na classificação, como os parâmetros do dispositivo lógico programável ou a estabilidade de passo.
[00147] No caso de um codificador de taxa de bit variável de fonte controlada, a informação sobre o modo de codificação já é uma parte do formato binário. Assim, por exemplo, se um modo de codificação puramente não de voz for usado, o quadro pode ser automaticamente classificado como SEM VOZ. De modo similar, se um modo de codificação puramente de voz for usado, o quadro é classificado como de voz. PARÂMETROS DE VOZ PARA PROCESSAMENTO DE FER [00148] Há poucos parâmetros críticos que devem ser cuidadosamente controlados para se evitarem artefatos irritantes quando FERs ocorrem. Se poucos bits extras podem ser transmitidos, então, estes parâmetros podem ser estimados no codificador, quantificados e transmitidos. Caso contrário, alguns deles podem ser estimados no decodificador. Esses parâmetros incluem classificação de sinal, informação de energia, informação de fase e informação de voz. O mais importante é um controle preciso da energia de voz. A fase e o período de voz podem ser controladas também para melhoria adicional da ocultação de FER e recuperação.
[00149] A importância do controle de energia se manifesta principalmente quando uma operação normal se recupera após um bloco apagado de quadros. Já que a maioria dos codificadores de voz faz uso de uma predição, a energia correta não pode ser apropriadamente estimada no decodificador. Em segmentos de voz de voz, a energia incorreta pode persistir por vários quadros consecutivos, o que é muito irritante, especialmente quando esta energia incorreta aumenta.
[00150] Mesmo se o controle de energia for mais importante para o discurso falado por causa da predição de longa duração (predição de passo), também é importante para o discurso não de voz. A razão aqui é a predição do quantificador de ganho de inovação freqüentemente usada em codificadores tipo de CELP. A energia errada durante seg- mentos não de voz pode causar uma flutuação de freqüência alta irritante.
[00151] O controle de fase pode ser feito de várias formas, principalmente dependendo da largura de banda disponível. Em nossa implementação, um controle de fase simples é obtido durante os come-ços de voz perdidos pela busca da informação aproximada sobre a posição de pulso glótico.
[00152] Assim, à parte da informação de classificação de sinal discutida na seção prévia, a informação mais importante a enviar é a informação sobre a energia de sinal e a posição do primeiro pulso glótico em um quadro (informação de fase). Se largura de banda suficiente estiver disponível, uma informação de voz pode ser enviada também. INFORMAÇÃO DE ENERGIA
[00153] A informação de energia pode ser estimada e enviada no domínio residual de LP ou no domínio de sinal de voz. O envio da informação no domínio residual tem a desvantagem de não levar em consideração a influência do filtro de síntese de LP. Isso pode ser particularmente espinhoso no caso de recuperação de voz após vários quadros de voz perdidos (quando o FER ocorre durante um segmento de voz de voz). Quando um FER chega após um quadro de voz, a excitação do último bom quadro é usada tipicamente durante a ocultação, com alguma estratégia de atenuação. Quando um novo filtro de síntese de LP chega com o primeiro bom quadro após o apagamento, pode haver uma não combinação entre a energia de excitação e o ganho do filtro de síntese de LP. O novo filtro de síntese pode produzir um sinal de síntese com uma energia altamente diferente da energia do último quadro sintetizado apagado e também da energia de sinal original. Por esta razão, a energia é computada e quantificada no domínio do sinal.
[00154] A energia Eq é computada e quantificada no módulo de es- timativa e quantificação de energia 506. Foi descoberto que 6 bits são suficientes para a transmissão da energia. Entretanto, o número de bits pode ser reduzido sem um efeito significativo, se não houver bits significativos disponíveis. Nesta modalidade preferida, um quantifica-dor uniforme de 6 bits é usado na faixa de -15 dB a 83 dB com um incremento de 1,58 dB. O índice de quantificação é dado pela parte inteira de: [00155] onde Eé o máximo da energia de sinal para quadros classificados como DE VOZ ou de COMEÇO, ou a energia média por amostra para outros quadros. Para quadros DE VOZ ou de COMEÇO, o máximo da energia de sinal é computado de forma síncrona com passo no final do quadro, como se segue: [00156] onde L é o comprimento de quadro e o sinal s(i) significa um sinal de voz (ou o sinal de voz sem ruído, se uma supressão de ruído for usada). Nesta modalidade ilustrativa, s(i) significa o sinal de entrada após uma amostragem - com redução para 12,8 kHz e um pré-processamento. Se o atraso de passo for maior do que 63 amostras, íe equivale ao atraso de passo de laço fechado arredondado do último subquadro. Se o atraso de passo for maior do que 64 amostras, então, íe é regulado para duas vezes o atraso de passo de laço fechado arredondado do último subquadro.
[00157] Para outras classes, E é a energia média por amostra da segunda metade do quadro atual, isto é, íe é regulado para L/2 e a E é computada como: INFORMAÇÃO DE CONTROLE DE FASE
[00158] O controle de fase é particularmente importante durante uma recuperação após um segmento perdido de voz de voz por razões similares às descritas na seção prévia. Após um bloco de quadros apagados, as memórias de decodificador se tornam dessincroni-zadas com as memórias de codificador. Para a ressincronização do decodificador, alguma informação de fase pode ser enviada, dependendo da largura de banda disponível. Na implementação ilustrativa descrita, uma posição grosseira do primeiro pulso glótico no quadro é enviada. Esta informação, então, é usada para a recuperação após os começos de voz perdidos, como será descrito mais tarde.
[00159] Seja To o atraso de passo de laço fechado arredondado para o primeiro subquadro. O módulo de busca de primeiro pulso glótico e quantificação 507 busca a posição do primeiro pulso glótico τ dentre as primeiras amostras de To do quadro ao pesquisar pela amostra com a amplitude máxima. Os melhores resultados são obtidos quando a posição do primeiro pulso glótico é medida no sinal residual filtrado de passa-baixa.
[00160] A posição do primeiro pulso glótico é codificada usando-se 6 bits da maneira a seguir. A precisão usada para a codificação da posição do primeiro pulso glótico depende do valor de passo de laço fechado para o primeiro subquadro To. Isso é possível porque este valor é conhecido pelo codificador e pelo decodificador, e não está sujeito a uma propagação de erro após uma ou várias perdas de quadro. Quando To é menor do que 64, a posição do primeiro pulso glótico em relação ao começo do quadro é codificada diretamente com uma precisão de uma amostra. Quando 64 = To < 128, a posição do primeiro pulso glótico em relação ao começo do quadro é codificada com uma precisão de duas amostras, usando-se uma divisão de inteiro simples, isto é, τ/2. Quando To = 128, a posição do primeiro pulso glótico em relação ao começo do quadro é codificada com uma precisão de qua- tro amostras pela divisão de τ por 2. O procedimento inverso é feito no decodificador. Se To < 64, a posição quantificada recebida é usada como for. Se 64 = To < 128, a posição quantificada recebida é multiplicada por 2 e incrementada em 1. Se To = 128, a posição quantificada recebida é multiplicada por 4 e incrementada em 2 (incrementar em 2 resulta em um erro de quantificação uniformemente distribuído).
[00161] De acordo com uma outra modalidade da invenção, onde o formato do primeiro pulso glótico é codificado, a posição do primeiro pulso glótico é determinada por uma análise de correlação entre o sinal residual e os possíveis formatos de pulso, sinais (positivos e negativos) e posições. O formato de pulso pode ser tomado a partir de um livro de código de formatos de pulso conhecidos no codificador e no decodificador, este método sendo conhecido como quantificação de vetor por aqueles versados na técnica. O formato, o sinal e a amplitude do primeiro pulso glótico então são codificados e transmitidos para o decodificador.
INFORMAÇÃO DE PERIODICIDADE
[00162] No caso de haver largura de banda suficiente, uma informação de periodicidade ou uma informação de voz pode ser computada e transmitida, e usada no decodificador para melhoria da ocultação de apagamento de quadro. A informação de voz é estimada com base na correlação normalizada. Ela pode ser codificada de forma bastante precisa com 4 bits, embora 3 ou mesmo 2 fossem suficientes, se necessário. A informação de voz é necessária em geral, apenas para quadros com algumas componentes periódicas, e uma melhor resolução de voz é necessária para quadros altamente de voz. A correlação normalizada é dada na Equação (2) e é usada como um indicador para a informação de voz. Ela é quantificada no módulo de busca de primeiro pulso glótico e quantificação 507. Nesta modalidade ilustrativa, um quantificador linear no sentido de pedaço foi usado para a codificação da informação de voz como se segue: para rx(2) < 0,92 (18) para rx(2) > 0,92 (19) [00163] Novamente, a parte inteira de /'é codificada e transmitida. A correlação rx(2) tem o mesmo significado que na Equação (1). Na Equação (18), a voz é quantificada linearmente entre 0,65 e 0,89 com o incremento de 0,03. Na Equação (19), a voz é quantificada linearmente entre 0,92 e 0,98 com o incremento de 0,01.
[00164] Se uma faixa de quantificação maior for necessária, a quantificação linear a seguir pode ser usada: [00165] Esta equação quantifica a voz na faixa de 0,4 a 1 com o incremento de 0,04. A correlação r* é definida na Equação (2a).
[00166] As Equações (18) e (19) ou a Equação (20) então são usadas no decodificador para a computação de r%(2) ou r*. Chamemos esta correlação normalizada quantificada rq. Se a voz não puder ser transmitida, ela pode ser estimada usando-se o fator de voz a partir da Equação (2a) pelo mapeamento dela na faixa de 0 a 1.
PROCESSAMENTO DE QUADROS APAGADOS
[00167] As técnicas de ocultação de FER nesta modalidade ilustrativa são demonstradas em codificadores tipo ACELP. Elas podem ser aplicadas facilmente, contudo, a qualquer codificador - decodificador de voz em que o sinal de síntese seja gerado pela filtração de um sinal de excitação através de um filtro de síntese de LP. A estratégia de ocultação pode ser resumida como uma convergência da energia de sinal e de envoltória espectral para os parâmetros estimados do ruído de fundo. A periodicidade do sinal está convergindo para zero. A velocidade de convergência é dependente dos parâmetros da classe do último bom quadro recebido e do número de quadros apagados consecutivos, e é controlada por um fator de atenuação α. O fator α é ainda dependente da estabilidade do filtro de LP para quadros SEM VOZ. Em geral, a convergência é lenta se o último bom quadro recebido estiver em um segmento estável e é rápida se o quadro estiver em um segmento de transição. Os valores de α são resumidos na Tabela 5. TABELA 5. Valores de fator α de atenuação de ocultação de FER.
[00168] Um fator de estabilidade θ é computado com base em uma distância medida entre os filtros de LP adjacentes. Aqui, o fator θ está relacionado a medição de distância de ISF (Freqüências Espectrais de Imitância) e está limitado por 0 < θ < 1, com valores maiores de θ correspondentes a sinais mais estáveis. Isso resulta em uma diminuição da energia e de flutuações de envoltória espectral, quando um apagamento de quadro isolado ocorrer dentro de um segmento de voz estável.
[00169] A classe de sinal permanece não modificada durante o processamento de quadros apagados, isto é, a classe permanece a mesma que no último bom quadro recebido.
CONSTRUÇÃO DE PARTE PERIÓDICA DA EXCITAÇÃO
[00170] Para uma ocultação de quadros apagados seguindo-se a um quadro SEM VOZ recebido, nenhuma parte periódica do sinal de excitação é gerada. Para uma ocultação de quadros apagados seguindo-se a um outro quadro recebido corretamente que não o SEM VOZ, a parte periódica do sinal de excitação é construída pela repetição do último período de passo do quadro prévio. Se energia térmica for o caso do primeiro quadro apagado após um bom quadro, este primeiro pulso de passo é primeiramente filtrado com passa-baixa. O filtro usado é um filtro de FIR de fase linear de 3 tomadas simples com coeficientes de filtro iguais a 0,18, 0,64 e 0,18. Se uma informação de voz estiver disponível, o filtro também pode ser selecionado dinamicamente com uma freqüência de corte dependente da voz.
[00171] O período de passo Tc usado para a seleção do último pulso de passo e, assim, usado durante a ocultação é definido de modo que múltiplos ou submúltiplos de passo possam ser evitados ou reduzidos. A lógica a seguir é usada na determinação do período de passo Tc·.
[00172] se ((T3 < 1,8 Ts) E (T3 > 0,6 Ts)) OU (Tcnt = 30), então, Tc = T3; caso contrário, Tc = Ts.
[00173] Aqui, T3 é o período de passo arredondado do 4Q subquadro do último bom quadro recebido e Ts é o período de passo arredondado do 4Q subquadro do último bom quadro de voz estável com estimativas de passo coerentes. Um quadro de voz estável é definido aqui como um quadro de voz precedido por um quadro de voltagens tipo (DE TRANSIÇÃO DE VOZ, DE VOZ, COMEÇO). A coerência de passo é verificada nesta implementação ao se examinar se as estimativas de passo de laço fechado são razoavelmente próximas, isto é, se as relações entre o último passo de subquadro, o 2Q passo de subquadro e o último passo de subquadro do quadro prévio estão no intervalo (0,7, 1,4).
[00174] Esta determinação do período de passo Tc significa que se o passo no final do último bom quadro e o passo do último quadro estável estiverem próximos um do outro, o passo do último bom quadro é usado. Caso contrário, este passo é considerado não confiável e o passo do último bom quadro é usado ao invés disso, para se evitar o impacto de estimativas de passo erradas nos começos de voz. Esta lógica faz sentido, contudo, apenas se o último subseqüente estável não estiver tão distante no passado. Assim, um contador Tcnt é definido, que limita o alcance da influência do último segmento estável. Se Tcnt for maior do que ou igual a 30, isto é, se houver pelo menos 30 quadros desde a última atualização de Ts, o passo de último bom quadro é usado sistematicamente. Tcnt é reiniciado para 0 a cada vez que um segmento estável for detectado e Ts é atualizado. O período Tc então é mantido constante durante a ocultação por todo o bloco apagado.
[00175] Como o último pulso da excitação do quadro prévio é usado para a construção da parte periódica, seu ganho está aproximadamente correto no começo do quadro ocultado e pode ser regulado para 1. O ganho então é atenuado linearmente por todo o quadro em uma base de amostra por amostra para a obtenção do valor de α no final do quadro.
[00176] Os valores de α correspondem à Tabela 5, exceto pelo fato de que eles são modificados para apagamentos seguindo-se a quadros DE VOZ e de COMEÇO para se levar em consideração a evolução de energia de segmentos de voz. Esta evolução pode ser extrapolada até certo ponto pelo uso dos valores de ganho de excitação de passo de cada subquadro do último bom quadro. Em geral, se esses ganhos forem maiores do que 1, a energia de sinal está aumentando; se eles forem menores do que 1, a energia está diminuindo, α é multiplicado, assim, por um fator de correção fb computado como se segue: fb = yjo. 1b(0) + 0.2b(1) + 0.3b(2) + 0.4b(3) ^3) [00177] onde õ(0), õ(1), b(2) e õ(3) são os ganhos de passo dos quatro subquadros do último quadro corretamente recebido. O valor de fb é grampeado entre 0,98 e 0,85 antes de ser usado para o escalonamento da parte periódica da excitação. Desta forma, aumentos e diminuições fortes de energia são evitados.
[00178] Para quadros apagados seguindo-se a um quadro corretamente recebido além de SEM VOZ, o buffer de excitação é atualizado com esta parte periódica da excitação apenas. Esta atualização será usada para a construção da excitação de livro de código de passo no próximo quadro. CONSTRUÇÃO DA PARTE RANDÔMICA DA EXCITAÇÃO [00179] A parte de inovação (não-periódica) do sinal de excitação é gerada randomicamente. Ela pode ser gerada como um ruído randô-mico ou pelo uso de um livro de código de inovação de CELP com índices de vetores gerados randomicamente. Na presente modalidade ilustrativa, um gerador randômico simples com distribuição aproximadamente uniforme foi usado. Antes do ajuste do ganho de inovação, a inovação gerada randomicamente é escalonada para algum valor de referência, fixado aqui para a energia unitária por amostra.
[00180] No começo de um quadro apagado, o ganho de inovação gs é inicializado pelo uso dos ganhos de excitação de inovação de cada subquadro do último bom quadro: gs = 0.1g(0) + 0.2g(1) + 0.3g(2) + 0.4g(3) (23a) [00181] onde g(0), g(1), g(2) e g(3) são os ganhos de livro de código fixo ou de inovação dos quatro (4) subquadros do último quadro recebido corretamente. A estratégia de atenuação da parte randômica da excitação é um pouco diferente da atenuação da excitação de passo. A razão para isso é que a excitação de passo (e, assim, a periodicidade de excitação) está convergindo para 0, enquanto a excitação randômica está convergindo para a energia de excitação de geração de ruído de conforto (CNG). A atenuação de ganho de inovação é feita como: g1s=ag°s+(1-a)gn (24) [00182] onde 8s é o ganho de inovação no começo do próximo 0 quadro, 8s é o ganho de inovação no começo do quadro atual, Sn é o ganho da excitação usada durante a geração de ruído de conforto e a é como definido na Tabela 5. De modo similar à atenuação de excitação periódica, o ganho é assim atenuado linearmente por todo o qua- 0 dro em uma base de amostra por amostra começando com 8s e indo até o valor de 8s que seria obtido no começo do próximo quadro. [00183] Finalmente, se o último quadro recebido correto (corretamente recebido ou não-apagado) for diferente de SEM VOZ, a excitação de inovação é filtrada através de um filtro de passa-alta de FIR de fase linear com coeficientes de -0,0125, -0,109, 0,7813, -0,109, -0,0125. Para a diminuição da quantidade de componentes de ruído durante segmentos de voz, estes coeficientes de filtro são multiplicados por um fator adaptativo igual a (0,75 - 0,25 rv), rv sendo o fator de voz como definido na Equação (1). A parte randômica da excitação então é adicionada à excitação adaptativa para a formação do sinal de excitação total.
[00184] Se o último bom quadro for SEM VOZ, apenas a excitação de inovação é usada e é ainda atenuada por um fator de 0,8. Neste caso, o buffer de excitação passada é atualizado com a excitação de inovação já que nenhuma parte periódica da excitação está disponível. OCULTAÇÃO DE ENVOLTÓRIA ESPECTRAL, SÍNTESE E ATUALIZAÇÕES.
[00185] Para a sintetização da voz decodificada, os parâmetros de filtro de LP devem ser obtidos. A envoltória espectral é gradualmente movida para a envoltória estimada do ruído ambiente. Aqui, a representação de ISF de parâmetros de LP é usada: [00186] Na equação (25), l1(j) é o valor do j-ésimo ISF do quadro atual, l°(j) é o valor do j-ésimo ISF do quadro prévio, ln(j) é o valor do j-ésimo ISF da envoltória de ruído de conforto estimada e p é a ordem do filtro de LP.
[00187] A voz sintetizada é obtida pela filtração do sinal de excitação através do filtro de síntese de LP. Os coeficientes de filtro são computados a partir da representação de ISF e são interpolados para cada subquadro (quatro (4) vezes por quadro) como durante uma operação de codificador normal.
[00188] Como o quantificador de ganho de inovação e o quantificador de ISF ambos uma predição, sua memória não será atualizada após a operação normal ser terminada. Para a redução deste efeito, as memórias de quantificadores são estimadas e atualizadas no final de cada quadro apagado.
RECUPERAÇÃO DA OPERAÇÃO NORMAL APÓS UM APAGAMEN-TO
[00189] O problema da recuperação após um bloco apagado de quadros é basicamente devido à forte predição usada praticamente em todos os codificadores de voz modernos. Em particular, os codificadores de voz tipo CELP atingem sua alta relação de sinal para ruído para discurso falado devido ao fato de eles estarem usando o sinal de excitação passado para a codificação da excitação de quadro presente (predição de longa duração ou de passo). Também, a maioria dos quantificadores (quantificadores de LP, quantificadores de ganho) faz uso de uma predição.
CONSTRUÇÃO DE COMEÇO ARTIFICIAL
[00190] A situação mais complicada relacionada ao uso de predição de longa duração em codificadores CELP é quando um começo de voz é perdido. O começo perdido significa que o começo de voz de voz ocorreu em algum lugar durante o bloco apagado. Neste caso, o último bom quadro recebido foi não de voz e, assim, nenhuma excitação periódica é encontrada no buffer de excitação. O primeiro bom quadro após o bloco apagado, contudo, é de voz, o buffer de excitação é altamente periódico e a excitação adaptativa foi codificada usando-se esta excitação passada periódica. Como esta parte periódica da excitação está faltando completamente no decodificador, pode levar vários quadros para a recuperação desta perda.
[00191] Se um quadro de COMEÇO é perdido (isto é, um bom quadro DE VOZ chega após um apagamento, mas o último bom quadro antes do apagamento foi SEM VOZ, como mostrado na Figura 6), uma técnica especial é usada para se reconstruir, artificialmente, o começo perdido e disparar a síntese de voz. No começo do primeiro bom quadro após um começo perdido, a parte periódica da excitação é construída artificialmente como um trem periódico filtrado de passa-baixa de pulsos separados por um período de passo. Na presente modalidade ilustrativa, o filtro de passa-baixa é um filtro de FIR linear simples com a resposta de impulso hiow = {-0,0125, 0,109, 0,7813, 0,109, -0,0125}. Entretanto, o filtro também podería ser selecionado dinamicamente com uma freqüência de corte correspondente à informação de voz, se esta informação estiver disponível. A parte inovadora da excitação é construída usando-se uma decodificação de CELP normal. As entradas do livro de código de inovação também poderíam ser escolhidas randomicamente (ou a inovação em si podería ser gerada randomicamente), já que a sincronia com o sinal original foi perdida de qualquer forma.
[00192] Na prática, o comprimento do começo artificial é limitado de modo que pelo menos um período de passo inteiro seja construído por este método, e o método é continuado até o final do subquadro atual. Após isso, um processamento de ACELP regular é terminado. O período de passo considerado é a média arredondada dos períodos de passo decodificados de todos os subquadros onde a reconstrução de começo artificial é usada. O trem de impulso filtrado de passa-baixa é realizado pela colocação de respostas de impulso do filtro de passa-baixa no buffer de excitação adaptativo (previamente inicializado para zero). A primeira resposta de impulso será centralizada na posição quantificada xq (transmitida no fluxo de bit) com respeito ao quadro começando e os impulsos remanescentes serão colocados com distância do passo de média calculada até o final do último subquadro afetado pela construção de começo artificial. Se a largura de banda disponível não for suficiente para a transmissão da posição de primeiro pulso glótico, a primeira resposta de impulso pode ser substituída artificialmente em torno da metade do período de passo após o quadro atual começando.
[00193] Como um exemplo, para o comprimento de subquadro de 64 amostras, consideremos que os períodos de passo no primeiro e no segundo subquadros sejam p(0) = 70,75 e p(1) = 71. Uma vez que isso é maior do que o tamanho de subquadro de 64, então, o começo artificial será construído durante os dois primeiros subquadros, e o período de passo será igual à média de passo dos dois subquadros arredondada para o inteiro mais próximo, isto é, 71. Os dois últimos subquadros serão processados por um decodificador de CELP normal. [00194] A energia da parte periódica da excitação de começo artificial então é escalonada pelo ganho correspondente à energia quantificada e transmitida para ocultação de FER (como definido nas Equações 16 e 17) e dividida pelo ganho do filtro de síntese de LP. O ganho de filtro de síntese de LP é computado como: [00195] onde h(i) é a resposta de impulso de filtro de síntese de LP. Finalmente, o ganho de começo artificial é reduzido pela multiplicação da parte periódica por 0,96. Alternativamente, este valor podería corresponder à voz, se houvesse uma largura de banda disponível também para a informação de voz. Alternativamente, sem divergir da essência desta invenção, o começo artificial também pode ser construído no buffer de excitação passada, antes de entrar no laço de subquadro de decodificador. Isso teria a vantagem de evitar o processamento especial para a construção da parte periódica do começo artificial e a decodificação de CELP regular podería ser usada, ao invés disso.
[00196] O filtro de LP para a síntese de voz de saída não é interpolado no caso de uma construção de começo artificial. Ao invés disso, os parâmetros de LP recebidos são usados para a síntese de todo o quadro.
CONTROLE DE ENERGIA
[00197] A tarefa mais importante na recuperação após um bloco apagado de quadros é controlar apropriadamente a energia do sinal de voz sintetizado. O controle de energia de síntese é necessário, por causa da forte predição usualmente usada em codificadores de voz modernos. O controle de energia é mais importante quando um bloco de quadros apagados acontece durante um segmento de voz. Quando um apagamento de quadro chega após um quadro de voz, a excitação do último bom quadro é tipicamente usada durante a ocultação com alguma estratégia de atenuação. Quando um novo filtro de LP chega com o último bom quadro após o apagamento, pode haver uma não combinação entre a energia de excitação e o ganho do novo filtro de síntese de LP. O novo filtro de síntese pode produzir um sinal de síntese com uma energia altamente diferente da energia do último quadro apagado sintetizado e também a partir da energia de sinal original. [00198] O controle de energia durante o primeiro bom quadro após um quadro apagado pode ser resumido como se segue. O sinal sintetizado é escalonado de modo que sua energia seja similar à energia do sinal de voz sintetizado no final do último quadro apagado no começo do primeiro bom quadro e está convergindo para a energia transmitida em direção ao final do quadro com uma prevenção de um aumento de energia importante demais.
[00199] O controle de energia é feito no domínio de sinal de voz sintetizado. Mesmo se a energia for controlada no domínio de voz, o sinal de excitação deve ser escalonado, já que ele serve como uma memória de predição de longa duração para os quadros seguintes. A síntese então é refeita para suavização das transições. Faça go denotar o ganho usado para o escalonamento da primeira amostra no quadro atual e gi o ganho usado no final do quadro. O sinal de excitação então é escalonado como se segue: [00200] onde us(i) é a excitação escalonada, u(i) é a excitação antes do escalonamento, L é o comprimento de quadro e gAGc(i) é o ganho começando a partir de go e convergindo exponencialmente para 91' [00201] com a inicialização de ^gc (_1) = ^Oj onde fAGc é o fator de atenuação regulado nesta implementação para o valor de 0,98. Este valor foi encontrado experimentalmente como um compromisso de se ter uma transição suave do quadro prévio (apagado) em um lado, e escalonando-se o último período de passo do quadro atual tanto quanto possível para o valor correto (transmitido) no outro lado. Isso é importante porque o valor de energia transmitido é de passo estimado de forma síncrona no final do quadro. Os ganhos gO e g1 são definidos como: [00202] onde E.i é a energia computada no final do quadro prévio (apagado), Eo é a energia no começo do quadro atual (recuperado), Ei é a energia no final do quadro atual e Eq é a informação de energia quantificada transmitida no final do quadro atual, computada no codificador a partir das Equações (16, 17). E.i e Ei são computadas de modo similar, exceto pelo fato de elas serem computadas no sinal de voz sintetizado s'. E.i é de passo computado de forma síncrona usando-se o período de passo de ocultação Tce Ei usa o passo arredondado de último subquadro T3. Eo é computada de forma similar usando-se o valor de passo arredondado To do primeiro subquadro, então, as Equações (16, 17) sendo modificadas para: [00203] para quadros DE VOZ e de COMEÇO. íe equivale ao atraso de passo arredondado ou duas vezes aquele comprimento, se o passo for mais curto do que 64 amostras. Para outros quadros, [00204] com íe igual à metade do comprimento de quadro. Os ganhos go e gi são ainda limitados a um valor máximo admissível, para evitar uma energia forte. Este valor foi regulado para 1,2, na presente implementação ilustrativa.
[00205] A condução de ocultação de apagamento de quadro e recuperação de decodificador compreende, quando um ganho de um filtro de LP em um primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro é mais alto do que um ganho de um filtro de LP de um último quadro apagado, durante o referido apagamento de quadro, o ajuste da energia de um sinal de excitação de filtro de LP produzido no decodificador durante o primeiro quadro não-apagado recebido para um ganho do filtro de LP do referido primeiro quadro não-apagado recebido usando-se a seguinte relação: [00206] Se Eq não puder ser transmitido, Eq é regulado para Ei. Se, contudo, o apagamento ocorrer durante um segmento de voz de voz (isto é, o último bom quadro antes do apagamento e o primeiro bom quadro após o apagamento são classificados como DE TRANSIÇÃO DE VOZ, DE VOZ ou de COMEÇO), outras precauções devem ser tomadas, por causa da possível não combinação entre a energia de sinal de excitação e o ganho de filtro de LP, mencionado previamente. Uma situação particularmente perigosa surge quando o ganho do filtro de LP de um primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro é mais alto do que o ganho do filtro de LP de um último quadro apagado durante aquele apagamento de quadro. Naquele caso em particular, a energia do sinal de excitação de filtro de LP produzido no decodificador durante o primeiro quadro não-apagado recebido é ajustada para um ganho do filtro de LP do primeiro quadro não-apagado recebido usando-se a relação a seguir: [00207] onde Elpo é a energia da resposta de impulso de filtro de LP do último bom quadro antes do apagamento e Elpi é a energia do filtro de LP do primeiro bom quadro após o apagamento. Nesta implementação, os filtros de LP dos últimos subquadros em um quadro são usados. Finalmente, o valor de Eq é limitado para o valor de E.i neste caso (apagamento de segmento de voz sem informação de Eq sendo transmitida).
[00208] As exceções a seguir, todas relacionadas a transições em sinal de voz, ainda sobrescrevem a computação de go. Se um começo artificial for usado no quadro atual, go é regulado para 0,5 gi, para se fazer com que a energia de começo aumente gradualmente.
[00209] No caso de um primeiro bom quadro após um apagamento classificado como de COMEÇO, o ganho go é impedido de se tornar mais alto do que gi. Esta precaução é tida para evitar que um ajuste de ganho positivo no começo do quadro (o qual ainda provavelmente, pelo menos parcialmente, é não de voz) se amplifique no começo de voz (no final do quadro).
[00210] Finalmente, durante uma transição de voz para não de voz (isto é, que o último bom quadro sendo classificado como TRANSIÇÃO DE VOZ, DE VOZ ou de COMEÇO e o quadro atual sendo classificado SEM VOZ) ou durante uma transição de um período de voz não ativo para um período de voz ativo (último bom quadro recebido sendo codificado como ruído de conforto ou quadro atual sendo classificado como voz ativa), o go é regulado para gi.
[00211] No caso de um apagamento de segmento de voz, o problema de energia errada pode se manifestar também em quadros seguindo-se ao primeiro bom quadro após o apagamento. Isso pode acontecer mesmo se a energia do primeiro bom quadro tiver sido ajustada como descrito acima. Para atenuação deste problema, o controle de energia pode ser continuado até o final do segmento de voz.
[00212] Embora a presente invenção tenha sido descrita na descrição precedente em relação a uma modalidade ilustrativa da mesma, esta modalidade ilustrativa pode ser modificada à vontade, no escopo das reivindicações em apenso, sem se desviar do escopo e do espírito da presente invenção.
REIVINDICAÇÕES

Claims (30)

1. Método para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado sob a forma de parâmetros de codificação de sinal (107) a partir de um codificador (106) para um decodificador (110), que compreende: a determinação, no decodificador (110), de parâmetros de ocultação/recuperação a partir dos parâmetros de codificação de sinal (107), em que os parâmetros de ocultação/recuperação são selecionados a partir do grupo que consiste em: um parâmetro de classificação de sinal (c/ass), um parâmetro de informação de energia (Eq) e um parâmetro de informação de fase (tq); no decodificador (110), a condução de ocultação de apagamento de quadro e de recuperação de decodificador em resposta aos parâmetros de ocultação/recuperação determinados no decodificador (110); em que o sinal de som é um sinal de voz (212); caracterizado pelo fato de que: a determinação, no decodificador (110), de parâmetros de ocultação/recuperação compreende a classificação de quadros sucessivos do sinal de som codificado como sem voz, de transição sem voz, de transição de voz, de voz ou de começo; e a determinação de parâmetros de ocultamento/recuperação compreende calcular (506) o parâmetro de informação de energia (Eg) em relação a um máximo de energia de sinal para quadros classificadas como de voz ou de começo, e calcular parâmetro de informação de energia (Eg) em relação a uma energia média por amostra para outros quadros.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a determinação, no decodificador (110), dos parâme- tros de ocultação/recuperação compreende a computação de um parâmetro de informação de voz.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende: seguindo o recebimento de um quadro sem voz não-apagado após um apagamento de quadro, a geração de nenhuma parte periódica de um sinal de excitação de filtro de LP; seguindo o recebimento, após um apagamento de quadro, de um quadro não-apagado além de sem voz, a construção de uma parte periódica do sinal de excitação de filtro de LP pela repetição de um último período de passo de um quadro prévio.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a construção da parte periódica do sinal de excitação compreende a filtração do último período de passo repetido do quadro prévio através de um filtro de passa-baixa.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que: a determinação, no decodificador (110), de parâmetros de ocultação/recuperação compreende a computação de um parâmetro de informação de voz; o filtro de passa-baixa tem uma freqüência de corte; e a construção da parte periódica do sinal de excitação de fil- tro de LP compreende dinamicamente ajustar a freqüência de corte em relação ao parâmetro de informação de voz.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende a geração de forma randômica de uma parte de inovação não-periódica de um sinal de excitação de filtro de LP.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP compreende a geração de um ruído randômico.
8. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP compreende a geração randômica de índices de vetor de um livro de código de inovação (318).
9. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que: a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP ainda compreende: se um último quadro não apagado recebido for diferente de sem voz, a filtração da parte de inovação do sinal de excitação de filtro de LP através de um filtro de passa-alta; e se o último quadro não apagado recebido for sem voz, o uso apenas da parte de inovação do sinal de excitação de filtro de LP.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende, quando um quadro de começo é perdido, o qual é indicado pela presença de um quadro de voz seguindo-se a um apagamento de quadro e um quadro sem voz antes do apagamento de quadro, a reconstrução artificialmente do quadro de começo perdido pela construção de uma parte periódica de um sinal de excitação como um trem periódico filtrado de passa-baixa de pulsos separados por um período de passo.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a condução de ocultação de apagamento de qua- dro e de recuperação de decodificador ainda compreende a construção de uma parte de inovação de um sinal de excitação de filtro de LP por meio de uma decodificação normal.
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a construção de uma parte de inovação do sinal de excitação de filtro de LP compreende a escolha randomicamente de entradas de um livro de código de inovação (318).
13. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a reconstrução artificial do quadro de começo perdido compreende a limitação de um comprimento do começo artificialmente reconstruído de modo que pelo menos um período de passo inteiro seja construído pela reconstrução artificial de começo, a referida reconstrução sendo continuada até o final de um subquadro atual.
14. Método, de acordo com a reivindicação 13, caracterizado pelo fato de que a condução de ocultação de apagamento de quadro e de recuperação de decodificador ainda compreende, após a reconstrução artificial do começo perdido, reassumir um processamento de CELP regular, onde o período de passo é uma média arredondada de períodos de passo decodificados de todos os subquadros em que a reconstrução artificial de começo é usada.
15. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o parâmetro de informação de energia (Eg)não é transmitido (108, 101, 109, 317) do codificador (106) para o decodificador (110); e a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende, quando um ganho de um filtro de LP de um primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro for mais alto do que um ganho de um filtro de LP de um último quadro apagado durante o referido apagamento de quadro, o ajuste de uma energia de um sinal de excitação de fil- tro de LP produzido no decodificador durante o primeiro quadro não-apagado recebido para um ganho do filtro de LP do referido primeiro quadro não-apagado recebido, usando-se relação a seguir: onde Ei é a energia no final do quadro atual, Elpo é a energia de uma resposta de impulso do filtro de LP ao último quadro não-apagado recebido antes do apagamento de quadro, e Elpi é a energia da resposta de impulso do filtro de LP ao primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro.
16. Dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante uma transmissão de um sinal de som codificado sob a forma de parâmetros de codificação de sinal (107) de um codificador (106) para um decodificador (110), que compreende: um meio para a determinação, no decodificador (110), de parâmetros de ocultação/recuperação a partir dos parâmetros de codificação de sinal (107), os parâmetros de ocultação/recuperação sendo selecionados a partir do grupo que consiste em: um parâmetro de classificação de sinal (c/ass), um parâmetro de informação de energia (Eg) e um parâmetro de informação de fase (iq); no decodificador (110), um meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador em resposta aos parâmetros de ocultação/recuperação determinados pelo meio de determinação; em que o sinal de som é um sinal de voz; caracterizado pelo fato de que: o dito meio para determinação, no decodificador (110), de parâmetros de ocultação/recuperação compreende um meio para classificação de quadros sucessivos do sinal de som codificado como sem voz, de transição sem voz, de transição de voz, de voz ou de co- meço; e o dito meio para determinação de parâmetros de oculta-mento/recuperação compreende um meio de calcular (506) o parâmetro de informação de energia (Eg) em relação a um máximo de energia de sinal para quadros classificadas como de voz ou de começo, e calcular parâmetro de informação de energia (Eg) em relação a uma energia média por amostra para outros quadros.
17. Dispositivo, de acordo com a reivindicação 16, caracterizado pelo fato de que o meio para a determinação, no decodificador (110), dos parâmetros de ocultação/recuperação compreende um meio para a computação (304, 300) de um parâmetro de informação de voz.
18. Dispositivo, de acordo com a reivindicação 16, caracterizado pelo fato de que o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende: segundo o recebimento de um quadro sem voz não-apagado após um apagamento de quadro, um meio para a geração de nenhuma parte periódica de um sinal de excitação de filtro de LP; seguindo o recebimento, após um apagamento de quadro, de um quadro não-apagado além de sem voz, um meio para a construção de uma parte periódica do sinal de excitação de filtro de LP pela repetição de um último período de passo de um quadro prévio.
19. Dispositivo, de acordo com a reivindicação 18, caracterizado pelo fato de que o meio para a construção da parte periódica do sinal de excitação compreende um filtro de passa-baixa para a filtração do último período de passo repetido do quadro prévio.
20. Dispositivo, de acordo com a reivindicação 19, caracterizado pelo fato de que: o meio para a determinação, no decodificador (110), de parâmetros de ocultação/recuperação compreende um meio para a computação de um parâmetro de informação de voz; o filtro de passa-baixa (302) tem uma frequência de corte; e o meio para a construção da parte periódica do sinal de excitação de filtro de LP compreende um meio para ajustar dinamicamente a freqüência de corte em relação ao parâmetro de informação de voz.
21. Dispositivo, de acordo com a reivindicação 16, caracterizado pelo fato de que o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende um meio para a geração de forma randômica de uma parte de inovação não-periódica de um sinal de excitação de filtro de LP.
22. Dispositivo, de acordo com a reivindicação 21, caracterizado pelo fato de que o meio para a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP compreende um meio para a geração de um ruído randômico.
23. Dispositivo, de acordo com a reivindicação 21, caracterizado pelo fato de que o meio para a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP compreende um meio para a geração randômica de índices de vetor de um livro de código de inovação (318).
24. Dispositivo, de acordo com a reivindicação 21, caracterizado pelo fato de que: o meio para a geração de forma randômica da parte de inovação não-periódica do sinal de excitação de filtro de LP ainda compreende: se um último quadro não apagado recebido for diferente de sem voz, um filtro de passa-alta para a filtração da parte de inovação do sinal de excitação de filtro de LP; e se o último quadro não apagado recebido for sem voz, um meio para o uso apenas da parte de inovação do sinal de excitaçãode filtro de LP.
25. Dispositivo, de acordo com a reivindicação 16, caracterizado pelo fato de que: o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende, quando um quadro de começo é perdido, o qual é indicado pela presença de um quadro de voz seguindo-se a um apagamento de quadro e um quadro sem voz antes do apagamento de quadro, um meio para a reconstrução artificialmente do quadro de começo perdido pela construção de uma parte periódica de um sinal de excitação como um trem periódico filtrado de passa-baixa de pulsos separados por um período de passo.
26. Dispositivo, de acordo com a reivindicação 25, caracterizado pelo fato de que o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador ainda compreende um meio para a construção de uma parte de inovação de um sinal de excitação de filtro de LP por meio de uma decodificação normal.
27. Dispositivo, de acordo com a reivindicação 260, caracterizado pelo fato de que o meio para a construção de uma parte de inovação do sinal de excitação de filtro de LP compreende um meio para a escolha randomicamente de entradas de um livro de código de inovação (318).
28. Dispositivo, de acordo com a reivindicação 25, caracterizado pelo fato de que o meio para a reconstrução artificial do quadro de começo perdido compreende um meio para a limitação de um comprimento do começo artificialmente reconstruído de modo que pelo menos um período de passo inteiro seja construído pela reconstrução artificial de começo, a referida reconstrução sendo continuada até o final de um subquadro atual.
29. Dispositivo, de acordo com a reivindicação 28, caracterizado pelo fato de que o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador ainda compre- ende, após a reconstrução artificial do começo perdido, um meio para reassumir um processamento de CELP regular, onde o período de passo é uma média arredondada de períodos de passo decodificados de todos os subquadros em que a reconstrução artificial de começo é usada.
30. Dispositivo, de acordo com a reivindicação 16, caracterizado pelo fato de que: o parâmetro de informação de energia (Eg) não é transmitido do codificador (106) para o decodificador (110); e o meio para a condução de ocultação de apagamento de quadro e de recuperação de decodificador compreende, quando um ganho de um filtro de LP de um primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro for mais alto do que um ganho de um filtro de LP de um último quadro apagado durante o referido apagamento de quadro, um meio para o ajuste da energia de um sinal de excitação de filtro de LP produzido no decodificador (110) durante o primeiro quadro não-apagado recebido para um ganho do filtro de LP do referido primeiro quadro não-apagado recebido, usando-se relação a seguir: onde Ei é a energia no final do quadro atual, Elpo é a energia de uma resposta de impulso do filtro de LP ao último quadro não-apagado recebido antes do apagamento de quadro, e Elpi é a energia da resposta de impulso do filtro de LP ao primeiro quadro não-apagado recebido seguindo-se a um apagamento de quadro.
BR122017019860-2A 2002-05-31 2003-05-30 método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado BR122017019860B1 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CA002388439A CA2388439A1 (en) 2002-05-31 2002-05-31 A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2,388,439 2002-05-31
PCT/CA2003/000830 WO2003102921A1 (en) 2002-05-31 2003-05-30 Method and device for efficient frame erasure concealment in linear predictive based speech codecs
BRPI0311523-2A BRPI0311523B1 (pt) 2002-05-31 2003-05-30 “Método e dispositivo de ocultação de apagamento de quadro causado por quadros de um sinal de som codificado apagados durante transmissão”

Publications (1)

Publication Number Publication Date
BR122017019860B1 true BR122017019860B1 (pt) 2019-01-29

Family

ID=29589088

Family Applications (3)

Application Number Title Priority Date Filing Date
BR0311523-2A BR0311523A (pt) 2002-05-31 2003-05-30 Método e sistema para uma ocultação de apagamento de quadro eficiente em codificadores - decodificadores de diálogo de base preditiva linear
BRPI0311523-2A BRPI0311523B1 (pt) 2002-05-31 2003-05-30 “Método e dispositivo de ocultação de apagamento de quadro causado por quadros de um sinal de som codificado apagados durante transmissão”
BR122017019860-2A BR122017019860B1 (pt) 2002-05-31 2003-05-30 método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado

Family Applications Before (2)

Application Number Title Priority Date Filing Date
BR0311523-2A BR0311523A (pt) 2002-05-31 2003-05-30 Método e sistema para uma ocultação de apagamento de quadro eficiente em codificadores - decodificadores de diálogo de base preditiva linear
BRPI0311523-2A BRPI0311523B1 (pt) 2002-05-31 2003-05-30 “Método e dispositivo de ocultação de apagamento de quadro causado por quadros de um sinal de som codificado apagados durante transmissão”

Country Status (18)

Country Link
US (1) US7693710B2 (pt)
EP (1) EP1509903B1 (pt)
JP (1) JP4658596B2 (pt)
KR (1) KR101032119B1 (pt)
CN (1) CN100338648C (pt)
AU (1) AU2003233724B2 (pt)
BR (3) BR0311523A (pt)
CA (2) CA2388439A1 (pt)
DK (1) DK1509903T3 (pt)
ES (1) ES2625895T3 (pt)
MX (1) MXPA04011751A (pt)
MY (1) MY141649A (pt)
NO (1) NO20045578L (pt)
NZ (1) NZ536238A (pt)
PT (1) PT1509903T (pt)
RU (1) RU2325707C2 (pt)
WO (1) WO2003102921A1 (pt)
ZA (1) ZA200409643B (pt)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558295B1 (en) * 2003-06-05 2009-07-07 Mindspeed Technologies, Inc. Voice access model using modem and speech compression technologies
JP4135621B2 (ja) * 2003-11-05 2008-08-20 沖電気工業株式会社 受信装置および方法
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
KR101237546B1 (ko) 2005-01-31 2013-02-26 스카이프 통신 시스템에서 프레임들을 연결하는 방법
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
JP4846712B2 (ja) * 2005-03-14 2011-12-28 パナソニック株式会社 スケーラブル復号化装置およびスケーラブル復号化方法
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR101151746B1 (ko) 2006-01-02 2012-06-15 삼성전자주식회사 오디오 신호용 잡음제거 방법 및 장치
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8218529B2 (en) * 2006-07-07 2012-07-10 Avaya Canada Corp. Device for and method of terminating a VoIP call
CN101101753B (zh) * 2006-07-07 2011-04-20 乐金电子(昆山)电脑有限公司 音频帧识别方法
JP5052514B2 (ja) * 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
CN101366080B (zh) * 2006-08-15 2011-10-19 美国博通公司 一种更新解码器的状态的方法和系统
US8024192B2 (en) * 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
EP1921608A1 (en) * 2006-11-13 2008-05-14 Electronics And Telecommunications Research Institute Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
JPWO2008072671A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 音声復号化装置およびパワ調整方法
JP5596341B2 (ja) 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
US9129590B2 (en) * 2007-03-02 2015-09-08 Panasonic Intellectual Property Corporation Of America Audio encoding device using concealment processing and audio decoding device using concealment processing
CN101622668B (zh) * 2007-03-02 2012-05-30 艾利森电话股份有限公司 电信网络中的方法和装置
EP2120234B1 (en) * 2007-03-02 2016-01-06 Panasonic Intellectual Property Corporation of America Speech coding apparatus and method
US8126707B2 (en) * 2007-04-05 2012-02-28 Texas Instruments Incorporated Method and system for speech compression
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR101449431B1 (ko) 2007-10-09 2014-10-14 삼성전자주식회사 계층형 광대역 오디오 신호의 부호화 방법 및 장치
US8396704B2 (en) * 2007-10-24 2013-03-12 Red Shift Company, Llc Producing time uniform feature vectors
CN101207665B (zh) 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
JP5812998B2 (ja) * 2009-11-19 2015-11-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
KR101761629B1 (ko) * 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
ES2686889T3 (es) 2009-12-14 2018-10-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dispositivo de cuantificación vectorial, dispositivo de codificación de voz, procedimiento de cuantificación vectorial y procedimiento de codificación de voz
KR101381272B1 (ko) 2010-01-08 2014-04-07 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US8660195B2 (en) 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
EP4239635A3 (en) * 2010-11-22 2023-11-15 Ntt Docomo, Inc. Audio encoding device and method
WO2012070370A1 (ja) * 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
WO2013063688A1 (en) 2011-11-03 2013-05-10 Voiceage Corporation Improving non-speech content for low rate celp decoder
JP6012203B2 (ja) 2012-03-05 2016-10-25 キヤノン株式会社 画像処理装置、及び制御方法
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN102984122A (zh) * 2012-10-09 2013-03-20 中国科学技术大学苏州研究院 基于amr-wb码率伪装的ip语音隐蔽通信方法
CN104871242B (zh) 2012-12-21 2017-10-24 弗劳恩霍夫应用研究促进协会 在音频信号的不连续传输中具有高频谱时间分辨率的舒缓噪声的生成
BR112015014217B1 (pt) 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
EP3098811B1 (en) * 2013-02-13 2018-10-17 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
HRP20231248T1 (hr) 2013-03-04 2024-02-02 Voiceage Evs Llc Uređaj i postupak za smanјenјe šuma kvantizacije u dekoderu vremenskog domena
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
SG11201510513WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
JP6228298B2 (ja) 2013-06-21 2017-11-08 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器
BR112015031824B1 (pt) 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para uma ocultação melhorada do livro do código adaptativo na ocultação tipo acelp utilizando uma estimativa melhorada de atraso de pitch
CN108364657B (zh) * 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
BR122022008597B1 (pt) * 2013-10-31 2023-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação de domínio de tempo
PT3285254T (pt) * 2013-10-31 2019-07-09 Fraunhofer Ges Forschung Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro com base num sinal de excitação no domínio de tempo
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN110992965A (zh) * 2014-02-24 2020-04-10 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
CN107369453B (zh) 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
ES2768090T3 (es) * 2014-03-24 2020-06-19 Nippon Telegraph & Telephone Método de codificación, codificador, programa y soporte de registro
EP4336500A3 (en) * 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
NO2780522T3 (pt) 2014-05-15 2018-06-09
MX368572B (es) * 2014-05-15 2019-10-08 Ericsson Telefon Ab L M Clasificacion y codificacion de señal de audio.
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP3614382B1 (en) * 2014-07-28 2020-10-07 Nippon Telegraph And Telephone Corporation Coding of a sound signal
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
KR102547480B1 (ko) 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
US9916835B2 (en) * 2015-01-22 2018-03-13 Sennheiser Electronic Gmbh & Co. Kg Digital wireless audio transmission system
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10657983B2 (en) * 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备
CN107564533A (zh) * 2017-07-12 2018-01-09 同济大学 基于信源先验信息的语音帧修复方法和装置
CN111133510B (zh) * 2017-09-20 2023-08-22 沃伊斯亚吉公司 用于在celp编解码器中高效地分配比特预算的方法和设备
CN118038881A (zh) * 2018-04-05 2024-05-14 瑞典爱立信有限公司 支持生成舒适噪声的方法和设备
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
CN111063362B (zh) * 2019-12-11 2022-03-22 中国电子科技集团公司第三十研究所 一种数字语音通信噪音消除和语音恢复方法及装置
CN113766239A (zh) * 2020-06-05 2021-12-07 于江鸿 数据处理的方法和系统
US11388721B1 (en) * 2020-06-08 2022-07-12 Sprint Spectrum L.P. Use of voice muting as a basis to limit application of resource-intensive service
CN113113030B (zh) * 2021-03-22 2022-03-22 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法
EP4329202A1 (en) 2021-05-25 2024-02-28 Samsung Electronics Co., Ltd. Neural network-based self-correcting min-sum decoder and electronic device comprising same
KR20220159071A (ko) * 2021-05-25 2022-12-02 삼성전자주식회사 신경망 자기 정정 최소합 복호기 및 이를 포함하는 전자 장치

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4707857A (en) * 1984-08-27 1987-11-17 John Marley Voice command recognition system having compact significant feature data
US5701392A (en) 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5754976A (en) 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5226084A (en) 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5122875A (en) 1991-02-27 1992-06-16 General Electric Company An HDTV compression system
DE69203186T2 (de) * 1991-09-20 1996-02-01 Philips Electronics Nv Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP2001508268A (ja) * 1997-09-12 2001-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 欠損部分の改善された再構成を伴う伝送システム
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
AU4072400A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
RU2000102555A (ru) 2000-02-02 2002-01-10 Войсковая часть 45185 Способ маскирования видеосигнала
SE0001727L (sv) * 2000-05-10 2001-11-11 Global Ip Sound Ab Överföring över paketförmedlade nät
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams

Also Published As

Publication number Publication date
AU2003233724B2 (en) 2009-07-16
ES2625895T3 (es) 2017-07-20
US7693710B2 (en) 2010-04-06
CA2483791A1 (en) 2003-12-11
KR101032119B1 (ko) 2011-05-09
NO20045578L (no) 2005-02-22
CN1659625A (zh) 2005-08-24
RU2004138286A (ru) 2005-06-10
DK1509903T3 (en) 2017-06-06
WO2003102921A1 (en) 2003-12-11
KR20050005517A (ko) 2005-01-13
JP2005534950A (ja) 2005-11-17
CA2388439A1 (en) 2003-11-30
CN100338648C (zh) 2007-09-19
JP4658596B2 (ja) 2011-03-23
EP1509903A1 (en) 2005-03-02
EP1509903B1 (en) 2017-04-12
BRPI0311523B1 (pt) 2018-06-26
AU2003233724A1 (en) 2003-12-19
BR0311523A (pt) 2005-03-08
ZA200409643B (en) 2006-06-28
MXPA04011751A (es) 2005-06-08
RU2325707C2 (ru) 2008-05-27
NZ536238A (en) 2006-06-30
MY141649A (en) 2010-05-31
PT1509903T (pt) 2017-06-07
US20050154584A1 (en) 2005-07-14
CA2483791C (en) 2013-09-03

Similar Documents

Publication Publication Date Title
BR122017019860B1 (pt) método e dispositivo para a ocultação de apagamento de quadro causado por quadros apagados durante transmissão de um sinal de som codificado
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz
RU2667029C2 (ru) Аудиодекодер и способ обеспечения декодированной аудиоинформации с использованием маскирования ошибки, модифицирующего сигнал возбуждения во временной области
JP5289320B2 (ja) ピッチ周期訂正を用いたデジタルオーディオ信号の損失ブロックの合成
EP1086451B1 (en) Method for performing frame erasure concealment
US7117156B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
RU2678473C2 (ru) Аудиодекодер и способ обеспечения декодированной аудиоинформации с использованием маскирования ошибки на основании сигнала возбуждения во временной области
BR112018067944B1 (pt) Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
KR20220045260A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz

Legal Events

Date Code Title Description
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 29/01/2019, OBSERVADAS AS CONDICOES LEGAIS.

B25A Requested transfer of rights approved

Owner name: VOICEAGE EVS LLC (US)