BR112016008662B1 - Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala - Google Patents

Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala Download PDF

Info

Publication number
BR112016008662B1
BR112016008662B1 BR112016008662-7A BR112016008662A BR112016008662B1 BR 112016008662 B1 BR112016008662 B1 BR 112016008662B1 BR 112016008662 A BR112016008662 A BR 112016008662A BR 112016008662 B1 BR112016008662 B1 BR 112016008662B1
Authority
BR
Brazil
Prior art keywords
signal
noise
gain parameter
information
modulated
Prior art date
Application number
BR112016008662-7A
Other languages
English (en)
Other versions
BR112016008662A2 (pt
Inventor
Guillaume Fuchs
Markus Multrus
Emmanuel RAVELLI
Markus Schnell
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Publication of BR112016008662A2 publication Critical patent/BR112016008662A2/pt
Publication of BR112016008662B1 publication Critical patent/BR112016008662B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

conceito para codificação de um sinal de áudio e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala. de acordo com um aspecto desta invenção um codificador para codificar um sinal de áudio compreende um analisador configurado para derivar coeficientes de predição e um sinal residual de um quadro do sinal de áudio. o codificador compreende um calculador de informação formante configurado para calcular uma informação de modulação espectral relacionada com a fala formada a partir de coeficientes de predição, um calculador do parâmetro de ganho configurado para calcular um parâmetro de ganho a partir de um sinal residual não vozeado e a informação de modulação espectral e um formador de fluxo de dados configurado para modular um sinal de saída baseado em uma informação relacionada a um quadro do sinal vozeado, o parâmetro de ganho ou um parâmetro de ganho quantizado e os coeficientes de predição.

Description

[001] Descrição
[002] Esta invenção diz respeito a codificadores para codificação de um sinal de áudio, em especial um sinal de áudio relacionado com a fala. Esta invenção diz também respeito a decodificadores e métodos para a decodificação de um sinal de áudio codificado. Esta invenção diz ainda respeito a sinais de áudio codificados e a uma codificação não vozeada de discurso avançado em baixos débitos.
[003] Em baixos débitos, a codificação do discurso pode beneficiar de um manuseamento especial para os quadros não vozeados de modo a manter a qualidade do discurso enquanto reduz o débito. Quadros não vozeados podem ser perceptualmente modelados como uma excitação aleatória formada tanto no domínio da frequência como no do tempo. Como a forma de onda e a excitação parecem e soam quase da mesma maneira que um ruído branco Gaussian, a sua codificação da forma de onda pode ser relaxada e substituída por um ruído branco sinteticamente gerado. A codificação irá então ser constituída pela codificação das formas do domínio de tempo e de frequência do sinal.
[004] A Fig. 16 ilustra um esquema de diagrama de blocos de um esquema de codificação paramétrica não vozeada. Um filtro sintético 1202 é configurado para modelar o trato vocal e é parametrizado pelos parâmetros LPC (Codificação Linear Preditiva). Para o filtro LPC derivado compreendendo uma função de filtro A(z) um filtro percentual ponderado pode ser derivado através da ponderação dos coeficientes LPC. O filtro percentual fw(n) tem habitualmente uma função de transferência da modulação:
Figure img0001
[005] em que x é inferior a 1. O parâmetro de ganho gn é calculado para obter uma correspondência de energia sintetizada no domínio percentual de acordo com:
Figure img0002
[006] em que sw(n) e nw(n) são o sinal de entrada e o ruído gerado, respetivamente, filtrados pelo filtro percentual fw(n). O ganho gn é calculado para cada sub-quadro de dimensão Ls. Por exemplo, um sinal de áudio pode ser dividido em quadros com um comprimento de 20 ms. Cada quadro pode ser subdividido em sub-quadros, por exemplo, em quarto sub-quadros, cada compreendendo um comprimento de 5 ms.
[007] O esquema de codificação de Predição Linear com Excitação por Código (CELP) é amplamente utilizado em comunicações de discurso e é uma maneira muito eficiente de codificação do discurso. Fornecer uma qualidade de discurso mais natural do que a codificação paramétrica mas exige também velocidades mais elevadas. A CELP sintetiza um sinal de áudio transportando-o para um filtro Linear Preditivo, designado filtro de síntese LPC que pode compreender uma modulação 1/A(z), a soma das duas excitações. Uma excitação provém do passado codificado, designado de livro de código adaptável. A outra contribuição provém de um livro de códigos inovador povoado por códigos fixos. Contudo, em baixos débitos o livro de códigos inovador não é suficientemente povoado para modelar de modo eficiente a fina estrutura do discurso ou da excitação do tipo ruído não vozeado. Desse modo, a qualidade percentual é degradada, especialmente os quadros não vozeados que soam crocantes e não naturais.
[008] Para mitigar as perturbações de codificação em baixos débitos, diferentes soluções foram já propostas. Em G.18[1] e em [2] os códigos do livro de códigos inovador são adaptavelmente e espectralmente modulados pelo realce das áreas espectrais correspondentes aos formantes do quadro atual. As posições e formas dos formantes podem ser deduzidas diretamente dos coeficientes LPC, coeficientes já disponíveis em ambos os lados codificador e decodificador. O realce dos formantes de códigos c(n) é efetuado por uma simples filtragem de acordo com:
Figure img0003
[009] em que * denota o operador de convolução e em que fe(n) é a resposta a um impulso do filtro da função de transferência:
Figure img0004
[010] Quando w1 e w2 são as duas constantes de ponderação realçando mais ou menos a estrutura de modulação da função de transferência Ffe(z). Os códigos de modulação resultantes herdam uma característica do sinal do discurso e o sinal sintetizado soa mais limpo.
[011] Na CELP é também habitual adicionar uma inclinação espectral ao decodificador do livro de códigos inovador. É feito através da filtragem de códigos com o seguinte filtro:
Figure img0005
[012] O fator β está habitualmente relacionado com a chamada de voz (vocalização) do quadro anterior e depende, isto é, varia. A vocalização pode ser estimada a partir da contribuição de energia do livro de códigos adaptável. Se o quadro anterior for vozeado, é esperado que o quadro atual será também vozeado e que os códigos deverão ter mais energia nas baixas frequências, ou seja, deverá demonstrar uma inclinação negativa. Pelo contrário, a inclinação espectral adicionada será possível para quadros não vozeados e mais energia será distribuída na direção de altas frequências.
[013] A utilização da modulação espectral para realce do discurso e redução do ruído da saída do decodificador é uma prática habitual. Um designado realce de formante como pós-filtragem consiste em uma pós-filtragem adaptável para a qual os coeficientes são derivados dos parâmetros LPC do decodificador. O pós-filtro parece idêntico àquele (fe(n)) utilizado para formar a excitação inovadora em certos codificadores CELP tal como discutido em cima. Contudo, nesse caso, a pós-filtragem é apenas aplicada no final do processo decodificador e não no lado codificador.
[014] Em CELP convencional (CELP = Predição Linear de livro de Código excitado (Código)), a modulação de frequência é modelada pelo filtro de síntese LP (Predição Linear), enquanto a modulação do domínio de tempo pode ser aproximada pelo ganho da excitação enviado a todos os sub-quadros apesar de a Predição a Longo Prazo (LTP) e o livro de códigos inovador serem habitualmente não adequados para modelação da excitação do tipo ruído dos quadros não vozeados. A CELP precisa de um débito relativamente elevado para atingir uma boa qualidade do discurso não vozeado.
[015] Uma caracterização vozeada ou não vozeada pode estar relacionada a um segmento do discurso em partes e associada cada uma a uma diferente fonte de modelo do discurso. Os modelos do discurso, à medida que são utilizados no esquema de codificação do discurso CELP, contam com uma excitação harmónica adaptável simulando o fluxo de ar que sai da glote e um filtro ressonante que modela o trato vocal excitado através do fluxo de ar produzido. Tais modelos podem fornecer bons resultados para fenómenos tais como vocais, mas podem resultar em modelação incorreta para partes do discurso não geradas pela glote, em especial quando as cordas vocais não vibram tais como os fenómenos não vozeados “s” ou “f”.
[016] Por outro lado, os codificadores de discurso paramétrico são também designados de codificadores de sinais vocais e adotam um único modelo fonte para quadros não vozeados. Pode atingir débitos muito baixos enquanto obtém uma chamada qualidade sintética não tão natural quanto a qualidade entregue pelos esquemas de codificação CELP em velocidades muito mais elevadas.
[017] Desse modo, existe a necessidade de melhorar sinais de áudio.
[018] Um objeto desta invenção é criar qualidade de som em baixos débitos e/ou reduzir débitos para uma boa qualidade de som.
[019] Este objeto é alcançado por um codificador, um decodificador, um sinal de áudio codificado e os métodos de acordo com as reivindicações independentes.
[020] Os inventores descobriram que em um primeiro aspecto uma qualidade de um sinal de áudio decodificado relacionado com um quadro não vozeado do sinal de áudio, pode ser aumentado, ou seja, melhorado, determinando uma informação de modulação relacionada com a fala de modo que uma informação do parâmetro de ganho para amplificação de sinais possa ser derivada da informação de modulação relacionada com a fala. Além disso, uma informação de modulação relacionada com a fala pode ser utilizada para espectralmente modular um sinal decodificado. As áreas de frequência compreendendo uma elevada importância para discurso, por ex., baixas frequências abaixo dos 4 kHz, podem assim ser processadas de modo que compreendam menos erros.
[021] Os inventores descobriram ainda em um segundo aspecto através da geração de um primeiro sinal de excitação de um livro de códigos determinístico para um quadro ou sub-quadro (parte) de um sinal sintetizado e da geração de um segundo quadro de excitação a partir de um sinal do tipo ruído para o quadro ou sub-quadro do sinal sintetizado e através da combinação do primeiro sinal de excitação e do segundo sinal de excitação para a geração de um sinal de excitação combinado, uma qualidades de som do sinal sintetizado pode ser aumentada, ou seja, melhorada. Em especial para partes de um sinal de áudio compreendendo um sinal do discurso com ruído de fundo, a qualidade do som pode ser melhorada adicionando sinais do tipo ruído. Um parâmetro de ganho para opcionalmente amplificar o primeiro sinal de excitação pode ser determinado no codificador e uma informação relativa a isso pode ser transmitida com o sinal de áudio codificado.
[022] Em alternativa ou além disso, o melhoramento do sinal de áudio sintetizado pode ser pelo menos parcialmente explorado para reduzir débitos para codificar o sinal de áudio.
[023] Um codificador de acordo com o primeiro aspecto compreende um analisador configurado para derivar os coeficientes de predição e um sinal residual de um quadro do sinal de áudio. O codificador compreende ainda um calculador de informação formante configurado para calcular uma informação de modulação relacionada com a fala dos coeficientes de predição. O codificador compreende ainda um calculador do parâmetro de ganho configurado para calcular um parâmetro de ganho de um sinal residual não vozeado e a informação de modulação espectral e um fluxo de bits anteriormente configurados para formarem um sinal de saída baseado em uma informação relacionada a um quadro do sinal vozeado, o parâmetro de ganho ou um parâmetro de ganho quantizado e coeficientes de predição.
[024] Modelos adicionais do primeiro aspecto fornecem um sinal de áudio codificado compreendendo uma informação do coeficiente de predição para um quadro vozeado e um quadro não vozeado do sinal de áudio, uma informação adicional relativa ao quadro do sinal vozeado e um parâmetro de ganho ou um parâmetro de ganho quantizado para o quadro não vozeado. Isto permite uma informação relacionada com a fala transmitida de modo eficiente para permitir uma decodificação do sinal de áudio codificada para obter um sinal sintetizado (restaurado) com uma elevada qualidade de áudio.
[025] Modelos adicionais do primeiro aspecto fornecem um decodificador para decodificar um sinal recebido compreendendo coeficientes de predição. O decodificador compreende um calculador de informação formante, um gerador de ruído, um modulador e um sintetizador. O calculador de informação formante é configurado para calcular uma informação de modulação espectral relacionada com a fala a partir de coeficientes de predição. O gerador de ruído é configurado para gerar um sinal de decodificação do tipo ruído. O modulador é configurado para modular um espetro do sinal de decodificação do tipo ruído ou uma sua representação amplificada utilizando a informação de modulação espectral para obter um sinal de decodificação do tipo ruído modulado. O sintetizador é configurado para sintetizar um sinal sintetizado a partir do sinal de codificação do tipo ruído modulado amplificado e os coeficientes de predição.
[026] Modelos adicionais do primeiro aspecto dizem respeito a um método para a codificação de um sinal de áudio, um método para a decodificação de um sinal de áudio recebido e a um programa de computador.
[027] Modelos do Segundo aspecto fornecem um codificador para codificar um sinal de áudio. O codificador compreende um analisador configurado para derivar coeficientes de predição e um sinal residual de um quadro não vozeado do sinal de áudio. O codificador compreende ainda um calculador do parâmetro de ganho configurado para calcular uma primeira informação do parâmetro de ganho para definir um primeiro sinal de excitação relacionado com um livro de códigos determinístico e para calcular uma segunda informação do parâmetro de ganho para definir um segundo sinal de excitação relativo ao sinal do tipo ruído para o quadro não vozeado. O codificador compreende ainda um fluxo de bits anteriormente configurado para modular um sinal de saída baseado em uma informação relativa a um quadro do sinal vozeado, a primeira informação do parâmetro de ganho e a segunda informação do parâmetro de ganho.
[028] Modelos adicionais do segundo aspecto fornecem um decodificador para decodificar um sinal de áudio recebido compreendendo uma informação relativa a coeficientes de predição. O decodificador compreende um primeiro gerador de sinal configurado para gerar um primeiro sinal de excitação a partir de um livro de códigos determinístico para uma parte de um sinal sintetizado. O decodificador compreende ainda um segundo gerador de sinal configurado para gerar um segundo sinal de excitação a partir de um sinal do tipo ruído para a parte do sinal sintetizado. O decodificador compreende ainda um combinador e um sintetizador, em que o combinador é configurado para combinar o primeiro sinal de excitação e o segundo sinal de excitação para gerar um sinal de excitação combinado para a parte do sinal sintetizado. O sintetizador é configurado para sintetizar a parte do sinal sintetizado a partir do sinal de excitação combinado e os coeficientes de predição.
[029] Modelos adicionais do segundo aspecto fornecem um sinal de áudio codificado compreendendo uma informação relativa a coeficientes de predição, uma informação relativa a um livro de códigos determinístico, uma informação relativa a um primeiro parâmetro de ganho e a um segundo parâmetro de ganho e uma informação relativa a um quadro do sinal vozeado e não vozeado.
[030] Modelos adicionais do segundo aspecto fornecem modelos para codificação e decodificação de um sinal de áudio, um sinal de áudio recebido respetivamente e a um programa de computador.
[031] Subsequentemente, modelos preferidos desta invenção são descritos relativamente aos desenhos que os acompanham, nos quais:
[032] A Fig. 1 ilustra um esquema de diagrama de blocos de um codificador para codificar um sinal de áudio de acordo com um modelo do primeiro aspecto;
[033] A Fig. 2 ilustra um esquema de diagrama de blocos de um decodificador para decodificar um sinal de entrada recebido de acordo com um modelo do primeiro aspecto;
[034] A Fig. 3 ilustra um esquema de diagrama de blocos de um codificador adicional para codificar o sinal de áudio de acordo com um modelo do primeiro aspecto;
[035] A Fig. 4 ilustra um esquema de diagrama de blocos de um codificador compreendendo um calculador do parâmetro de ganho variado quando comparado com a Fig. 3 de acordo com um modelo do primeiro aspecto;
[036] A Fig. 5 ilustra um esquema de diagrama de blocos de um calculador do parâmetro de ganho configurado para calcular uma primeira informação do parâmetro de ganho e para formar um sinal de código excitado de acordo com um modelo do segundo aspecto;
[037] A Fig. 6 ilustra um esquema de diagrama de blocos de um codificador para codificar o sinal de áudio e compreendendo o calculador do parâmetro de ganho descrito na Fig. 5 de acordo com um modelo do segundo aspecto;
[038] A Fig. 7 ilustra um esquema de diagrama de blocos de um calculador do parâmetro de ganho que compreende um modulador adicional configurado para formatar um sinal do tipo ruído quando comparado à Fig. 5 de acordo com um modelo do segundo aspecto;
[039] A Fig. 8 ilustra um esquema de diagrama de blocos de um esquema de codificação não vozeada para CELP de acordo com um modelo do segundo aspecto;
[040] A Fig. 9 ilustra um esquema de diagrama de blocos de uma codificação paramétrica não vozeada de acordo com um modelo do primeiro aspecto;
[041] A Fig. 10 ilustra um esquema de diagrama de blocos de um decodificador para decodificar um sinal de áudio codificado de acordo com um modelo do segundo aspecto;
[042] A Fig. 11a ilustra um esquema de diagrama de blocos de um modulador que implementa uma estrutura alternativa quando comparado a um modulador ilustrado na Fig. 2 de acordo com um modelo do primeiro aspecto;
[043] A Fig. 11b ilustra um esquema de diagrama de blocos de um modulador adicional implementando uma alternativa adicional quando comparado a um modulador ilustrado na Fig. 2 de acordo com um modelo do primeiro aspecto;
[044] A Fig. 12 ilustra um fluxograma de um método para codificação de um sinal de áudio de acordo com um modelo do primeiro aspecto;
[045] A Fig. 13 ilustra um fluxograma de um método para decodificação de um sinal de áudio recebido de compreendendo coeficientes de predição e um parâmetro de ganho, de acordo com um modelo do primeiro aspecto;
[046] A Fig. 14 ilustra um fluxograma de um método para codificação de um sinal de áudio de acordo com um modelo do segundo aspecto; e
[047] A Fig. 15 ilustra um fluxograma de um método para decodificação de um sinal de áudio recebido de acordo com um modelo do segundo aspecto.
[048] Elementos iguais ou equivalentes ou elementos com funcionalidade igual ou equivalente são indicados na descrição seguinte por algarismos iguais ou equivalentes mesmo que ocorram em figuras diferentes.
[049] Na descrição seguinte, uma pluralidade de detalhes é definida para fornecer uma explicação mais minuciosa de modelos desta invenção. Contudo, será notório aos especialistas na técnica que os modelos desta invenção podem ser colocados em prática sem estes detalhes específicos. Em outros momentos, estruturas e dispositivos bem conhecidos são ilustrados em forma de diagrama de blocos em vez de em detalhe de modo a evitar modelos obscuros desta invenção. Além disso, características de diferentes modelos adiante descritos podem ser combinadas uns com os outros, salvo especificamente de outro modo indicado.
[050] Em seguida, será feita referência à modificação de um sinal de áudio. Um sinal de áudio pode ser modificado amplificando e/ou atenuando partes do sinal de áudio. Uma parte do sinal de áudio pode ser, por exemplo, uma sequência do sinal de áudio no domínio de tempo e/ou um seu espetro no domínio de frequência. No que diz respeito ao domínio de frequência, o espetro pode ser modificado amplificando ou atenuando valores espectrais dispostos em ou nas frequências ou gamas de frequências. A modificação do espetro do sinal de áudio pode compreender uma sequência de operações tais como uma amplificação e/ou atenuação de uma primeira frequência ou gama de frequências e depois disso uma amplificação e/ou uma atenuação de uma segunda frequência ou gama de frequência. As modificações no domínio da frequência podem ser representadas como um cálculo, por ex.:, uma multiplicação, divisão, soma ou idêntico, de valores espectrais e valores de ganho e/ou valores de atenuação. As modificações podem ser executadas sequencialmente tal como multiplicar primeiro valores espectrais com um primeiro valor de multiplicação e depois com um segundo valor de multiplicação. A multiplicação com o Segundo valor de multiplicação e depois com o primeiro valor de multiplicação pode permitir receber um resultado idêntico ou quase idêntico. Também, o primeiro valor de multiplicação e o segundo valor de multiplicação podem primeiro ser combinados e depois aplicados em termos de um valor de multiplicação combinado com os valores espectrais enquanto recebe o mesmo resultado ou um resultado comparável da operação. Desse modo, os passos da modificação configurados para modularem ou modificarem um espetro do sinal de áudio descritos em baixo não estão limitados à ordem de descrição mas podem também ser executados em uma ordem alterada enquanto recebem o mesmo resultado e/ou efeito.
[051] A Fig. 1 ilustra um esquema de diagrama de blocos de um codificador 100 para codificar um sinal de áudio 102. O codificador 100 compreende um construtor de quadros 110 configurado para gerar uma sequência de quadros 112 baseados no sinal de áudio 102. A sequência 112 compreende uma pluralidade de quadros, em que cada quadro do sinal de áudio 102 compreende um comprimento (duração de tempo) no domínio de tempo. Por exemplo, cada quadro pode compreender um comprimento de 10 ms, 20 ms ou 30 ms.
[052] O codificador 100 compreende um analisador 120 configurado para derivar coeficientes de predição (LPC = coeficientes de predição linear) 122 e um sinal residual 124 de um quadro do sinal de áudio. O construtor de quadros 110 ou o analisador 120 é configurado para determinar uma representação do sinal de áudio 102 no domínio de frequência. Em alternativa, o sinal de áudio 102 pode já ser uma representação no domínio de frequência.
[053] Os coeficientes de predição 122 podem ser, por exemplo, coeficientes de predição linear. Em alternativa, também uma predição não linear pode ser aplicada de modo que o preditor 120 seja configurado para determinar coeficientes de predição não linear. Uma vantagem de predição linear é dada em um esforço de cálculo reduzido para determinar os coeficientes de predição.
[054] O codificador 100 compreende um decisor vozeado/não vozeado 130 configurado para determinar se o sinal residual 124 foi determinado a partir de um quadro de áudio não vozeado. O decisor 130 é configurado para fornecer o sinal residual a um codificador do quadro vozeado 140 se o sinal residual 124 tiver sido determinado a partir de um quadro de sinal vozeado e para fornecer o sinal residual a um calculador de parâmetros de ganho 150, se o sinal residual 124 tiver sido determinado a partir de um quadro de áudio não vozeado. Para determinar se o sinal residual 122 foi determinado a partir de um quadro de sinal vozeado ou não vozeado o decisor 130 pode utilizar diferentes abordagens tais como uma autocorrelação de amostras do sinal residual. Um método para decidir se um quadro do sinal foi vozeado ou não vozeado é fornecido, por exemplo na norma da UIT (União Internacional das Telecomunicações) - T (setor de normalização de telecomunicações) G.718. Uma elevada quantidade de energia disposta em baixas frequências pode indicar uma parte vozeada do sinal. Em alternativa, um sinal não vozeado pode resultar em elevadas quantidades de energia em altas frequências.
[055] O codificador 100 compreende um calculador de informação formante 160 configurado para calcular uma informação de modulação espectral relacionada com a fala dos coeficientes de predição 122.
[056] A informação de modulação espectral relacionada com a fala pode considerar informação formante, por exemplo, determinando frequências ou gamas de frequências do quadro de áudio processado que compreende uma quantidade de energia mais elevada do que a próxima. A informação de modulação espectral é capaz de segmentar o espetro de magnitude do discurso em formantes, ou seja, bate, e não formantes, isto é, vale, áreas de frequência. As áreas de formantes do espetro podem ser por exemplo derivadas utilizando a representação de Frequências de Imitância Espectral (ISF) ou Frequências de Linha Espectral (LSF) dos coeficientes de predição 122. Na verdade, a ISF ou LSF representa as frequências para as quais o filtro de síntese utilizando os coeficientes de predição 122 ressoa.
[057] A informação de modulação espectral relacionada com a fala 162 e os residuais não vozeados são encaminhados para o calculador do parâmetro de ganho 150 configurado para calcular um parâmetro de ganho gn do sinal residual não vozeado e da informação de modulação espectral 162. O parâmetro de ganho gn pode ser um valor escalar ou uma pluralidade destes, isto é, o parâmetro de ganho pode compreender uma pluralidade de valores relativos a uma amplificação ou atenuação de valores espectrais em uma pluralidade de gamas de frequência de um espetro do sinal a ser amplificado ou atenuado. Um decodificador pode ser configurado para aplicar o parâmetro de ganho gn à informação de um sinal de áudio codificado recebido de modo que partes dos sinais de áudio codificados recebidos sejam amplificadas ou atenuadas baseadas no parâmetro de ganho durante a decodificação. O calculador do parâmetro de ganho 150 pode ser configurado para determinar o parâmetro de ganho gn através uma ou mais expresses matemáticas ou regras de determinação resultando em um valor contínuo. Operações executadas digitalmente, por exemplo, através de um processador, expressando o resultado em uma variável com um número limitado de bits, pode resultar em um ganho quantizado gn. Em alternativa, o resultado pode ser ainda quantizado de acordo com o esquema de quantização de modo que uma informação de ganho quantizado seja obtida. O codificador 100 pode pois compreender um quantizador 170. O quantizador 170 pode ser configurado para quantizar o ganho determinado gn para o valor digital mais próximo suportado por operações digitais do codificador 100. Em alternativa, o quantizador 170 pode ser configurado para aplicar uma função de quantização (linear ou não linear) a um fator de ganho já digitalizado e desse modo quantizado gn. Uma função de quantização não linear pode considerar, por exemplo, dependências logarítmicas da audição humana altamente sensível em baixos níveis de pressão sonora e menos sensível a elevados níveis de pressão.
[058] O codificador 100 compreende ainda uma unidade derivada de informação 180 configurada para derivar uma informação de coeficiente de predição relativo 182 dos coeficientes de predição 122. Os coeficientes de predição tais como coeficientes de predição linear utilizados para excitar livros de código inovadores compreendem uma baixa robustez contra distorções ou erros. Desse modo, por exemplo, é conhecido por converter coeficientes de predição linear em frequências inter-espectrais (ISF) e/ou em derivar pares de linhas espectrais (LSP) e transmitir uma informação relacionada com isso com o sinal de áudio codificado. A informação LSP e/ou ISF compreende uma elevada robustez contra distorções no meio de transmissão, por exemplo erro, ou erros do calculador. A unidade derivada da informação 180 pode compreender ainda um quantizador configurado para fornecer uma informação quantizada relativamente à LSF e/ou à ISP.
[059] Em alternativa, a unidade derivada da informação pode ser configurada para encaminhar os coeficientes de predição 122. Em alternativa, o codificador 100 pode ser executado sem a unidade derivada da informação 180. Em alternativa, o quantizador pode ser um bloco funcional do calculador do parâmetro de ganho 150 ou do modulador do fluxo de bits 190 de modo que o modulador do fluxo de bits 190 esteja configurado para receber o parâmetro de ganho e para derivar o ganho quantizado gn baseado nele. Em alternativa, quando o parâmetro gn já se encontra quantizado o codificador 100 pode ser executado sem o quantizador 170.
[060] O codificador 100 compreende um modulador de fluxo de bits 190 configurado para receber um sinal vozeado recebido, uma informação vozeada 142 relativa a um quadro vozeado de um sinal de áudio codificado respetivamente fornecido pelo codificador do quadro vozeado 140, para receber o ganho quantizado gn e a informação relativa aos coeficientes de predição 182 e para modular um sinal de saída 192 baseado nela.
[061] O codificador 100 pode fazer parte de um aparelho de codificação de voz tal como um telefone fixo ou móvel ou um aparelho compreendendo um microfone para transmissão de sinais de áudio tais como um computador, um PC tablete ou idêntico. O sinal de saída 192 ou um sinal derivado dele pode ser transmitido, por exemplo através de comunicações moveis (sem fios) ou através de comunicações com fios tais como um sinal de rede.
[062] Uma vantagem do codificador 100 é que o sinal de saída 192 compreende informação derivada de uma informação de modulação espectral derivada de uma informação de modulação espectral convertida para o ganho quantizado gn. Desse modo, a decodificação do sinal de áudio 192 pode permitir o alcance ou obtenção de informação adicional relacionada com a fala e assim decodificar o sinal de modo que o sinal decodificado obtido compreende uma elevada qualidade em relação a um nível observado de uma qualidade de discurso.
[063] A Fig. 2 ilustra um esquema de diagrama de blocos de um decodificador 200 para decodificar um sinal de entrada recebido 202. O sinal de entrada recebido 202 pode corresponder, por exemplo, ao sinal de saída 192 fornecido pelo codificador 100, em que o sinal de saída 192 pode ser codificado por codificadores de camada de elevado nível, transmitidos através de um meio, recebidos por um aparelho de recepção decodificado em camadas elevadas, produzindo o sinal de entrada 202 para o decodificador 200.
[064] O decodificador 200 compreende um deformador de fluxos de dados (desmultiplexador; DE-MUX) para receber o sinal de entrada 202. O deformador de fluxo de bits 210 é configurado para fornecer os coeficientes de predição 122, o ganho quantizado gn e a informação vozeada 142. Para obter os coeficientes de predição 122, o deformador de fluxo de dados pode compreender uma unidade derivadora da informação invertida que executa uma operação inversa quando comparado à unidade derivadora da informação 180. Em alternativa, o decodificador 200 pode compreender uma unidade derivadora da informação inversa não ilustrada configurada para executar a operação inversa relativamente à unidade derivadora da informação 180. Por outras palavras, os coeficientes de precisão são decodificados, isto é, restaurados.
[065] O decodificador 200 compreende um calculador de informação formante 220 configurado para calcular uma informação de modulação espectral relacionada com a fala dos coeficientes de predição 122 tal como descrito para o calculador da informação formante 160. O calculador da informação formante 220 é configurado para fornecer informação de modulação espectral relacionada com a fala 222. Em alternativa, o sinal de entrada 202 pode também compreender a informação de modulação espectral relacionada com a fala 222, em que a transmissão dos coeficientes de predição ou informação relativa a isso tal como, por exemplo LSF e/ou ISF quantizada em vez da informação de modulação espectral relacionada com a fala 222 permite um baixo débito do sinal de entrada 202.
[066] O decodificador 200 compreende um gerador de ruído aleatório 240 configurado para gerar um sinal do tipo ruído, que pode simplificadamente ser indicado como sinal de ruído. O gerador de ruído aleatório 240 pode estar configurado para reproduzir um sinal de ruído que foi obtido, por exemplo, aquando da medição e armazenamento de um sinal de ruído. Um sinal de ruído pode ser medido e registado, por exemplo, através da geração de ruído térmico a uma resistência ou outro componente elétrico e através do armazenamento de dados registados em uma memória. O gerador de ruído aleatório 240 é configurado para fornecer o sinal (do tipo) ruído n(n).
[067] O decodificador 200 compreende um modulador 250 compreendendo um processador de modulação 252 e um amplificador variável 254. O modulador 250 é configurado para espectralmente modular um espetro do sinal de ruído n(n). O processador de modulação 252 é configurado para receber a informação de modulação espectral relacionada com a fala e para modular um espetro do sinal de ruído n(n), por exemplo multiplicando valores espectrais do espetro do sinal de ruído n(n) e valores da informação de modulação espectral. A operação pode ser também executada no domínio de tempo através de uma convolução do sinal de ruído n(n) com um filtro dado por uma informação de modulação espectral. O processador de modulação 252 é configurado para fornecer um sinal de ruído modulado 256, um seu espetro respetivamente ao amplificador variável 254. O amplificador variável 254 é configurado para receber o parâmetro de ganho gn e para amplificar o espetro do sinal de ruído modulado 256 para obter um sinal de ruído modulado amplificado 258. O amplificador pode estar configurado para multiplicar os valores espectrais do sinal de ruído modulado 256 com valores do parâmetro de ganho gn. Tal como declarado em cima, o modulador 250 pode ser implementado de modo que o amplificador variável 254 esteja configurado para receber o sinal de ruído n(n) e para fornecer um sinal de ruído amplificado ao processador de modulação 252 configurado para modular o sinal de ruído amplificado. Em alternativa, o processador de modulação 252 pode estar configurado para receber a informação de modulação espectral relacionada com a fala 222 e o parâmetro de ganho gn e para aplicar sequencialmente, uma após a outra, ambas informações para o sinal de ruído n(n) ou para combinar ambas informações, por ex., multiplicando os outros cálculos e para aplicar um parâmetro combinado ao sinal de ruído n(n).
[068] O sinal de ruído n(n) ou a sua versão amplificada formada com a informação de modulação espectral relacionada com a fala permite que o sinal de áudio decodificado 282 compreenda uma qualidade de som (natural) mais relacionada com a fala. Isto permite a obtenção de sinais de áudio de alta qualidade e/ou a redução de baixos débitos no lado codificador enquanto mantém ou melhora o sinal de saída 282 no decodificador com uma extensão reduzida.
[069] O decodificador 200 compreende um sintetizador 260 configurado para receber os coeficientes de predição 122 e o sinal de ruído modulado amplificado 258 e para sintetizar um sinal sintetizado 262 do sinal do tipo ruído modulado amplificado 258 e os coeficientes de predição 122. O sintetizador 260 pode compreender um filtro e pode estar configurado para adaptar o filtro com os coeficientes de predição. O sintetizador pode estar configurado para filtrar o sinal do tipo ruído modulado amplificado 258 com o filtro. O filtro pode ser implementado como software ou como uma estrutura de hardware e pode compreender uma estrutura de resposta de impulso infinita (IIR) ou uma resposta de impulso finita (FIR).
[070] O sinal sintetizado corresponde a um quadro decodificado não vozeado de um sinal de saída 282 do decodificador 200. O sinal de saída 282 compreende uma sequência de quadros que podem ser convertidos para um sinal de áudio contínuo.
[071] O deformador de baixos débitos 210 é configurado para separar e fornecer o sinal de informação vozeado 142 do sinal de entrada 202. O decodificador 200 compreende um decodificador do quadro vozeado 270 configurado para fornecer um quadro vozeado baseado na informação vozeada 142. O decodificador do quadro vozeado (processador do quadro vozeado) é configurado para determinar um sinal vozeado 272 baseado na informação vozeada 142. O sinal vozeado 272 pode corresponder ao quadro de áudio vozeado e/ou ao residual vozeado do decodificador 100.
[072] O decodificador 200 compreende um combinador 280 configurado para combinar o quadro decodificado não vozeado 262 e o quadro vozeado 272 para obter o sinal de áudio decodificado 282.
[073] Em alternativa, o modulador 250 pode ser executado sem um amplificador de modo que o modulador 250 esteja configurado para modular o espetro do sinal do tipo ruído n(n) sem amplificar adicionalmente o sinal obtido. Isto pode permitir uma quantidade reduzida de informação transmitida pelo sinal de entrada 222 e desse modo um baixo débito reduzido ou uma duração mais curta de uma sequência do sinal de entrada 202. Em alternativa, ou além disso, o decodificador 200 pode estar configurado para apenas decodificar quadros não vozeados ou para processar quadros vozeados e não vozeados ambos através do sinal de ruído de modulação espectral n(n) e sintetizando o sinal sintetizado 262 para quadros não vozeados e não vozeado. Isto pode permitir a implementação do decodificador 200 sem o decodificador do quadro vozeado 270 e/ou sem um combinador 280 e assim conduzir a uma complexidade reduzida do decodificador 200.
[074] O sinal de saída 192 e/ou o sinal de entrada 202 compreende informação relativa aos coeficientes de predição 122, uma informação para um quadro vozeado e um quadro não vozeado tal como uma bandeira indicadora de se o quadro processado é vozeado ou não vozeado e informação adicional relativa ao quadro do sinal vozeado tal como um sinal vozeado. O sinal de saída 192 e/ou o sinal de entrada 202 compreende ainda um parâmetro de ganho ou um parâmetro de ganho quantizado para o quadro não vozeado de modo que o quadro não vozeado possa ser decodificado baseado nos coeficientes de predição 122 e o parâmetro de ganho gn, gn, respetivamente.
[075] A Fig. 3 ilustra um esquema de diagrama de blocos de um codificador 300 para codificação do sinal de áudio 102. O codificador 300 compreende o construtor de quadros 110, um preditor 320 configurado para determinar coeficientes de predição linear 322 e um sinal residual 324 aplicando um filtro A(z) à sequência de quadros 112 fornecidos pelo construtor de quadros 110. O codificador 300 compreende o decisor 130 e o codificador do quadro vozeado 140 para obter a informação do sinal vozeado 142. O codificador 300 compreende ainda o calculador da informação formante 160 e um calculador do parâmetro de ganho 350.
[076] O calculador do parâmetro de ganho 350 é configurado para fornecer um parâmetro de ganho gn tal como descrito em cima. O calculador do parâmetro de ganho 350 compreende um gerador de ruído aleatório 350a para gerar um sinal do tipo ruído codificado 350b. O calculador de ganho 350 compreende ainda um modulador 350c dotado de um processador de modulação 350d e de um amplificador variável 350e. O processador de modulação 350d é configurado para receber a informação de modulação relacionada com a fala 162 e o sinal do tipo ruído 350b, e para modular um espetro do sinal do tipo ruído 350b com a informação de modulação relacionada com a fala 162 tal como foi descrito para o modulador 250. O amplificador variável 350e é configurado para amplificar um sinal do tipo ruído modulado 350f com um parâmetro de ganho gn(temp) que é um parâmetro de ganho temporário recebido de um controlador 350k. O amplificador variável 350e está ainda configurado para fornecer um sinal do tipo ruído modulado amplificado 350g tal como foi descrito para o sinal do tipo ruído amplificado 258. Tal como foi descrito para o modulador 250, uma instrução de modulação e de amplificação do sinal do tipo ruído pode ser combinada ou alterada quando comparada com a Fig. 3.
[077] O calculador do parâmetro de ganho 350 compreende um comparador 350h configurado para comparar o residual não vozeado fornecido pelo decisor 130 e o sinal do tipo ruído modulado amplificado 350g. O comparador é configurado para obter uma medida para uma similitude do residual não vozeado e o sinal do tipo ruído modulado amplificado 350g. Por exemplo, o comparador 350h pode estar configurado para determinar uma correlação cruzada de ambos sinais. Em alternativa, ou além disso, o comparador 350h pode estar configurado para comparar valores espectrais de ambos sinais em alguns ou todos os binários de frequência. O comparador 350h está ainda configurado para obter um resultado de comparação 350i.
[078] O calculador do parâmetro de ganho 350 compreende o controlador 350k configurado para determinar o parâmetro de ganho gn(temp) baseado no resultado de comparação 350i. Por exemplo, quando o resultado de comparação 350i indica que o sinal do tipo ruído modulado amplificado compreende uma amplitude ou magnitude inferior a uma amplitude correspondente ou magnitude do residual não vozeado, o controlador pode estar configurado para aumentar um ou mais valores do parâmetro de ganho gn(temp) para algumas ou todas as frequências do sinal do tipo ruído amplificado 350g. Em alternativa, ou além disso, o controlador pode estar configurado para reduzir um ou mais valores do parâmetro de ganho para reduzir um ou mais valores do parâmetro de ganho gn(temp) quando o resultado de comparação 350i indica que o sinal do tipo ruído modulado amplificado compreende uma magnitude ou amplitude demasiado elevada, isto é, que o sinal do tipo ruído modulado amplificado está demasiado alto. O gerador de ruído aleatório 350a, o modulador 350c, o comparador 350h e o controlador 350k podem estar configurados para implementar uma otimização de ciclo fechado para determinar o parâmetro de ganho gn(temp). Quando a medida para a similitude do residual não vozeado para o sinal do tipo ruído modulado amplificado 350g, por exemplo, tal como expresso como uma diferença entre ambos sinais, indica que a similitude está acima de um valor limite, o controlador 350k é configurado para fornecer o parâmetro de ganho determinado gn. Um quantizador 370 é configurado para quantizar o parâmetro de ganho gn para obter o parâmetro de ganho quantizado gn.
[079] O gerador de ruído aleatório 350a pode ser configurado para entregar um ruído do tipo Gaussian. O gerador de ruído aleatório 350a pode ser configurado para fazer funcionar (mobilizar) um gerador aleatório com um número de n distribuições uniformes entre um limite inferior (valor mínimo) tal como -1 e um limite superior (valor máximo), tal como +1. Por exemplo, o gerador de ruído aleatório 350 é configurado para mobilizar três vezes o gerador aleatório. Tal como digitalmente implementados os geradores de ruído aleatório podem fazer sair valores pseudo-aleatórios para além de ou sobrepostos a uma pluralidade ou uma multitude de funções pseudo-aleatórias podem permitir a obtenção de uma função suficientemente aleatoriamente distribuída. Este procedimento segue o Teorema Limite Central. O gerador de ruído aleatório 350a pode ser configurado para mobilizar o gerador aleatório, pelo menos duas, três ou mais vezes como indicado pelo pseudocódigo seguinte: para(i=0;i<Ls;i++){ n[i]=uniform_random(); n[i]+=uniform_random(); n[i]+=uniform_random(); }
[080] Em alternativa, o gerador de ruído aleatório 350a pode gerar o sinal do tipo ruído de uma memória tal como descrito para o gerador de ruído aleatório 240. Em alternativa, o gerador de ruído aleatório 350a pode compreender, por exemplo, uma resistência elétrica ou outros meios para gerarem um sinal de ruído executando um código ou medindo efeitos físicos tais como ruído térmico.
[081] O processador de modulação 350b pode ser configurado para adicionar uma estrutura formântica e uma inclinação aos sinais do tipo ruído 350b filtrando o sinal do tipo ruído 350b com fe(n) tal como esclarecido em cima. A inclinação pode ser adicionada filtrando o sinal com um filtro t(n) compreendendo uma função de transferência baseada em:
Figure img0006
[082] em que o fator β pode ser deduzido da vocalização do sub-quadro anterior:
Figure img0007
[083] em que AC é uma abreviatura para livro de códigos adaptável e IC é uma abreviatura para livro de códigos inovador.
Figure img0008
[084] O parâmetro de ganho gn, o parâmetro de ganho quantizado gn respetivamente permitem o fornecimento de uma informação adicional que pode reduzir um erro ou uma incompatibilidade entre o sinal codificado e o sinal decodificado correspondente, decodificado em um decodificador tal como o decodificador 200.
[085] Relativamente à regra de determinação
Figure img0009
[086] os parâmetros w1 podem compreender um valor não nulo positivo no máximo 1,0, de preferência de pelo menos 0,7 e, no máximo, de 0,8 e mais preferencialmente compreende um valor de 0,75. O parâmetro w2 pode compreender um valor escalar positivo não nulo de, no máximo, 1,0, de preferência de pelo menos 0,8 e, no máximo, de 0,93 e mais preferencialmente compreende um valor de 0,9. O parâmetro w2 é de preferência maior do que w1.
[087] A Fig. 4 ilustra um esquema de diagrama de blocos de um codificador 400. O codificador 400 é configurado para fornecer a informação do sinal vozeado 142 tal como foi descrito para os codificadores 100 e 300. Quando comparado com o codificador 300, o codificador 400 compreende um calculador do parâmetro de ganho 350’ variado. Um comparador 350h’ é configurado para comparar o quadro de áudio 112 e um sinal sintetizado 350l’ para obter um resultado de comparação 350i’. O calculador do parâmetro de ganho 350’ compreende um sintetizador 350m’ configurado para sintetizar o sinal sintetizado 350l’ baseado no sinal do tipo ruído modulado amplificado 350g e os coeficientes de predição 122.
[088] Basicamente, o calculador do parâmetro de ganho 350’ implementa pelo menos parcialmente um decodificador sintetizando o sinal sintetizado 350l’. Quando comparado com o codificador 300 compreendendo o comparador 350h configurado para comparar o residual não vozeado e o sinal do tipo ruído modulado amplificado, o codificador 400 compreende o comparador 350h’, configurado para comparar o quadro de áudio (provavelmente completo) e o sinal sintetizado. Isto pode permitir uma elevada precisão à medida que os quadros do sinal e não apenas os seus parâmetros são comparados uns com os outros. A precisão mais elevada pode exigir um esforço de cálculo aumentado à medida que o quadro de áudio 122 e o sinal sintetizado 350l’ podem compreender uma complexidade mais elevada quando comparada ao sinal residual e à informação do tipo ruído amplificada formada de modo que comparando ambos sinais é também mais complexo. Além disso, a síntese tem de ser calculada exigindo esforços de cálculo pelo sintetizador 350m’.
[089] O calculador do parâmetro de ganho 350’ compreende uma memória 350n’ configurada para registar uma informação de codificação compreendendo o parâmetro de ganho de codificação gn ou uma sua versão quantizada gn. Isto permite que o controlador 350k obtenha o valor de ganho armazenado aquando do processamento de um quadro de áudio subsequente. Por exemplo, o controlador pode ser configurado para determinar um primeiro (conjunto de) valor(es), isto é, um primeiro instante do fator de ganho gn(temp) baseado ou igual ao valor de gn para o quadro de áudio anterior.
[090] A Fig. 5 ilustra um esquema de diagrama de blocos de um calculador do parâmetro de ganho 550 configurado para calcular uma primeira informação do parâmetro de ganho gn de acordo com o Segundo aspecto. O calculador do parâmetro de ganho 550 compreende um gerador de sinal 550a configurado para gerar um sinal de excitação c(n). O gerador de sinal 550a compreende um livro de códigos determinístico e um índice no livro de código para gerar o sinal c(n). Ou seja, uma informação de entrada tal como os coeficientes de predição 122 resulta em um sinal de excitação determinística c(n). O gerador de sinal 550a pode ser configurado para gerar o sinal de excitação c(n) de acordo com um livro de códigos inovador de um esquema de codificação CELP. O livro de códigos pode ser determinado ou treinado de acordo com os dados de discurso medidos em passos de calibragem anteriores. O calculador do parâmetro de ganho compreende um modulador 550b configurado para modular um espetro do sinal de código c(n) baseado em uma informação de modulação relacionada com a fala 550c para o sinal de código c(n). A informação de modulação relacionada com a fala 550c pode ser obtida a partir de um controlador de informação formante 160. O modulador 550b compreende um processador de modulação 550d configurado para receber uma informação de modulação 550c para modular o sinal de código. O modulador 550gb compreende ainda um amplificador variável 550e configurado para amplificar o sinal de código modulado c(n) para obter um sinal de código modulado amplificado 550f. Desse modo, o parâmetro do ganho de código é configurado para definir o sinal de código c(n) relativo a um livro de códigos determinístico.
[091] O calculador do parâmetro de ganho 550 compreende um gerador de ruído 350a configurado para fornecer o sinal (do tipo) ruído n(n) e um amplificador 550g configurado para amplificar o sinal de ruído n(n) baseado no parâmetro do ganho de ruído gn para obter um sinal de ruído amplificado 550h. O calculador do parâmetro de ganho compreende um combinador 550i configurado para combinar o sinal de código modulado amplificado 550f e o sinal de ruído amplificado 550h para obter um sinal de excitação combinado 550k. O combinador 550i pode ser configurado, por exemplo, para espectralmente adicional ou multiplicar valores espectrais do sinal de código modulado amplificado e o sinal de ruído amplificado 550f e 550h. Em alternativa, o combinador 550i pode ser configurado para convolutar ambos sinais 550f e 550h.
[092] Tal como descrito em cima para o modulador 350c, o modulador 550b pode ser implementado de modo que o primeiro sinal de código c(n) é amplificado pelo amplificador variável 550e e depois disso modulado pelo processador de modulação 550d. Em alternativa, a informação de modulação 550c para o sinal de código c(n) pode ser combinado com a informação do parâmetro de ganho do código gc de modo que uma informação combinada é aplicada ao sinal de código c(n).
[093] O calculador do parâmetro de ganho 550 compreende um comparador 550l configurado para comparar o sinal de excitação combinado 550k e o sinal residual não vozeado obtido para o decisor vozeado /não vozeado 130. O comparador 550l pode ser o comparador 550h e é configurado para fornecer um resultado de comparação, isto é, uma medida 550m para uma similitude do sinal de excitação combinado 550k e o sinal residual não vozeado. O calculador do parâmetro de ganho compreende um controlador 550n configurado para controlar a informação do parâmetro de ganho do código gc e a informação do parâmetro do ganho de ruído gn. O parâmetro do ganho de código gc e a informação do parâmetro do ganho de ruído gn pode compreender uma pluralidade ou uma multitude de valores escalares ou imaginários que podem estar relacionados com uma gama de frequência do sinal de ruído n(n) ou um sinal derivado dele ou a um espetro do sinal de código c(n) ou a um seu sinal derivado.
[094] Em alternativa, o calculador do parâmetro de ganho 550 pode ser implementado sem o processador de modulação 550d. Em alternativa, o processador de modulação 550d pode ser configurado para modular o sinal de ruído n(n) e fornecer um sinal de ruído modulado ao amplificador variável 550g.
[095] Assim, controlando ambos a informação do parâmetro de ganho gc e gn, uma similitude do sinal de excitação combinado 550k quando comparado com o residual não vozeado pode ser aumentada de modo que um decodificador que recebe uma informação à informação do parâmetro de ganho de código gc e a informação do parâmetro de ganho de ruído gn pode reproduzir um sinal de áudio que compreende uma boa qualidade de som. O controlador 550n é configurado para fornecer um sinal de saída 550° compreendendo informação relativa à informação do parâmetro do ganho de código gc e a informação do parâmetro do ganho de ruído gn. Por exemplo, o sinal 550o pode compreender tanto a informação do parâmetro de ganho gn e gc como escalar ou valores quantizados ou como valores dela derivados, por exemplo, valores codificados.
[096] A Fig. 6 ilustra um esquema de diagrama de blocos de um codificador 600 para codificar o sinal de áudio 102 e compreendendo o calculador do parâmetro de ganho 550 descrito na Fig. 5. O codificador 600 pode ser obtido, por exemplo, através da modificação do codificador 100 ou 300. O codificador 600 compreende um primeiro quantizador 170-1 e um segundo quantizador 1702. O primeiro quantizador 170-1 é configurado para quantizar a informação do parâmetro de ganho gc para obter uma informação do parâmetro e ganho quantizada gc. O Segundo quantizador 170-2 é configurado para quantizar a informação do parâmetro de ganho de ruído gn para obter uma informação do parâmetro de ganho quantizada gn. Um modulador do fluxo de dados 690 é configurado para gerar um sinal de saída 692 compreendendo a informação do sinal vozeado 142, a informação relativa à LPC 122 e ambas informações do parâmetro de ganho quantizadas gce gn. Quando comparado com o sinal de saída 192, o sinal de saída 692 é prolongado ou atualizado pela informação do parâmetro de ganho quantizada gc. Em alternativa, o quantizador 170-1 e/ou 170-2 pode fazer parte do calculador do parâmetro de ganho 550. Adicionalmente um dos quantizadores 170-1 e/ou 170-2 pode ser configurado para obter ambos parâmetros de ganho quantizadas gce gn.
[097] Em alternativa, o codificador 600 pode ser configurado para compreender um quantizador configurado para quantizar a informação do parâmetro do ganho de código gc e o parâmetro do ganho de ruído gn para obtenção da informação do parâmetro quantizado gce gn. Ambas informações do parâmetro de ganho podem ser quantizadas, por exemplo, sequencialmente.
[098] O calculador de informação formante 160 é configurado para calcular a informação de modulação espectral relacionada com a fala 550c dos coeficientes de predição 122.
[099] A Fig. 7 ilustra um esquema de diagrama de blocos de um calculador de parâmetros de ganho 550’ modificado quando comparado ao calculador do parâmetro de ganho 550. O calculador do parâmetro de ganho 550’ compreende o modulador 350 descrito na Fig. 3 em vez do amplificador 550g. O modulador 350 é configurado para fornecer o sinal de ruído modulado amplificado 350g. O combinador 550i é configurado para combinar o sinal do código modulado amplificado 550f e o sinal de ruído modulado amplificado 350g para fornecer um sinal de excitação combinado 550k’. O calculador da informação formante 160 é configurado para fornecer ambas informações formantes relacionadas com a fala 162 e 550c. As ambas informações formantes relacionadas com a fala 162 e 550c podem ser iguais. Em alternativa, ambas informações 550c e 162 podem diferir uma da outra. Isto permite uma modelagem em separado, isto é, formação do sinal gerado do código c(n) e n(n).
[100] O controlador 550n pode ser configurado para determinar a informação do parâmetro de ganho gc e gn para cada sub-quadro de um quadro de áudio processado. O controlador pode ser configurado para determinar, isto é, para calcular, a informação do parâmetro de ganho gc e gn baseada nos detalhes estabelecidos em baixo.
[101] Primeiro, a energia média do sub-quadro pode ser calculada sobre o sinal original de curto prazo de predição residual disponível durante a análise LPC, isto é, sobre o sinal residual não vozeado. A energia é medida sobre os quatro sub-quadros do quadro atual no domínio logarítmico por:
Figure img0010
[102] em que Lsf é o tamanho de um sub-quadro em amostras. Neste caso, o quadro é dividido em 4 sub-quadros. A energia média pode ser depois codificada sobre um número de bits, por exemplo, três, quatro ou cinco, utilizando um livro de códigos estocástico anteriormente treinado. O livro de códigos estocástico pode compreender um número de entradas (dimensão) de acordo com um número de diferentes valores que podem ser representados pelo número de bits, por ex., uma dimensão de 8 para um número de 3 bits, uma dimensão de 16 para um número de 4 bits ou um número de 32 para um número de 5 bits. Um ganho quantizado nrg pode ser determinado a partir da chave do livro de códigos. Para cada sub-quadro as duas informações de ganho gc e gn são calculadas. O ganho do código gc pode ser calculado, por exemplo baseado em:
Figure img0011
[103] em que cw(n) é, por exemplo, a inovação fixa selecionada do livro de códigos fixo constituído pelo gerador de sinal 550a filtrado pelo filtro de ponderação percentual. A expressão xw(n) corresponde à excitação alvo percentual convencional calculada nos codificadores CELP. A informação do código de ganho gc pode ser depois normalizada para a obtenção de um ganho normalizado gnc baseado em:
Figure img0012
[104] O ganho normalizado gnc pode ser quantizado, por exemplo, pelo quantizador 170-1. A quantização pode ser executada de acordo com uma escala linear ou logarítmica. Uma escala logarítmica pode compreender uma escala com as dimensões de 4, 5 ou mais bits. Por exemplo, a escala logarítmica compreende uma dimensão de 5 bits. A quantização pode ser executada baseada em:
Figure img0013
[105] em que o índicenc pode ser limitado entre 0 e 31, se a escala logarítmica compreender 5 bits. O índicenc pode ser a informação do parâmetro de ganho quantizado. O ganho quantizado do código gc pode ser depois expresso baseado em:
Figure img0014
[106] O ganho do código pode ser calculado de modo a minimizar a raiz quadrada do erro quadrático médio ou erro quadrático médio (MSE)
Figure img0015
[107] em que Lsf corresponde às frequências de linha espectral determinadas a partir dos coeficientes de predição 122.
[108] A informação do parâmetro de ganho do ruído pode ser determinada em termos de energia incompatível minimizando um erro baseado em
Figure img0016
[109] A variável k é um fator de atenuação que pode ser variado dependendo ou baseado nos coeficientes de predição, em que os coeficientes de predição podem permitir a determinação se o discurso compreende uma parte inferior do ruído de fundo ou mesmo nenhum ruído de fundo (discurso limpo). Em alternativa, o sinal pode ser também determinado como sendo um discurso ruídoso, por exemplo quando o sinal de áudio ou um seu quadro compreende alterações entre quadros não vozeados e não não vozeados. A variável k pode ser definida a um valor de pelo menos 0,85, de pelo menos 0,95 ou mesmo a um valor de 1 para discurso limpo, em que a elevada dinâmica de energia é perceptualmente importante. A variável k pode ser definida a um valor de pelo menos 0,6 e, no máximo, de 0,9, de preferência a um valor de pelo menos 0,7 e, no máximo, de 0,85 e mais preferencialmente a um valor de 0,8 para discurso ruídoso em que a excitação de ruído é feita mais conservadoramente para evitar a flutuação na energia de saída entre quadros não vozeados e não não vozeados. O erro (energia não compatível) pode ser calculado para cada um destes candidatos de ganho quantizados j?c. Um quadro dividido em quarto sub- quadros pode resultar em quarto candidatos de ganho quantizados gc. O um candidato que minimiza o erro pode ser feito sair pelo controlador. O ganho quantizado de ruído (informação do parâmetro de ganho de ruído) pode ser calculado baseado em:
Figure img0017
[110] em que o índicen é limitado entre 0 e 3 de acordo com quarto candidatos. Um sinal de excitação combinado resultante, tal como o sinal de excitação 550k ou 550k’ pode ser obtido baseado em:
Figure img0018
[111] em que e(n) é o sinal de excitação combinado 550k ou 550k’.
[112] Um codificador 600 ou um codificador modificado 600 compreendendo o calculador do parâmetro de ganho 550 ou 550’ pode permitir uma codificação não vozeada baseada em um esquema de codificação CELP. O esquema de codificação CELP pode ser modificado baseado nos seguintes detalhes exemplo para manuseamento dos quadros não vozeados:
[113] Os parâmetros LTP não são transmitidos pois quase não existe periodicidade em quadros não vozeados e o ganho de codificação resultante é muito baixo. A excitação adaptável é definida como zero.
[114] Os bits de salvaguarda são reportados ao livro de códigos fixo. Mais impulsos podem ser codificados para a mesma velocidade de bits, e a qualidade pode ser melhorada.
[115] Em baixas velocidades de transmissão, isto é, velocidades entre 6 e 12 kbps, a codificação por impulso não é suficiente para modelar de modo adequado a excitação alvo do tipo ruído do quadro não vozeado. Um livro de códigos Gaussian é adicionado ao livro de códigos fixo para a construção da excitação final.
[116] A Fig. 8 ilustra um esquema de diagrama de blocos de um esquema de codificação não vozeada para CELP de acordo com o segundo aspecto. Um controlador modificado 810 compreende ambas funções do comparador 550l e controlador 550n. O controlador 810 é configurado para determinar a informação do parâmetro do ganho de código gc e a informação do parâmetro do ganho de ruído gn baseado na análise por síntese, isto é, comparando um sinal sintetizado com o sinal de entrada indicado como s(n) que é, por exemplo, o residual não vozeado. O controlador 810 compreende um filtro de análise por síntese 820 configurado para gerar uma excitação para o gerador do sinal (excitação inovadora) 550a e para fornecer a informação do parâmetro do ganho gc e gn. O bloco de análise por síntese 810 é configurado para comparar o sinal de excitação combinado 550k’ através de um sinal internamente sintetizado adaptando um filtro de acordo com os parâmetros e informação fornecidos.
[117] O controlador 810 compreende um bloco de análise configurado para obter coeficientes de predição tal como é descrito para o analisador 320 para obter os coeficientes de predição 122. O controlador compreende ainda um filtro de síntese 840 para filtrar o sinal de excitação combinada 550k com o filtro de síntese 840, em que o filtro de síntese 840 é adaptado pelos coeficientes do filtro 122. Um comparador adicional pode ser configurado para comparar o sinal de entrada s(n) e o sinal sintetizado s(n), por ex., o sinal de áudio decodificado (restaurado). Ainda, a memória 350n é fornecida, em que o controlador 810 é configurado para restaurar o sinal predito e/ou os coeficientes preditos na memória. Um gerador de sinal 850 é configurado para fornecer um sinal de excitação adaptável baseado nas predições armazenadas na memória 350n permitindo uma melhoria da excitação adaptável baseado em um sinal de excitação modulador combinado.
[118] A Fig. 9 ilustra um esquema de diagrama de blocos de uma codificação paramétrica não vozeada de acordo com o primeiro aspecto. O sinal de ruído modulado amplificado pode ser um sinal de entrada de um filtro de síntese 910 adaptado pelos coeficientes de filtro determinados (coeficientes de predição) 122. Um sinal sintetizado 912 saído pelo filtro de síntese pode ser comparado com o sinal de entrada s(n) que pode ser, por exemplo, o sinal de áudio. O sinal sintetizado 912 compreende um erro quando comparado ao sinal de entrada s(n). Modificando o parâmetro de ganho de ruído gn pelo bloco de análise 920 que pode corresponder ao calculador do parâmetro de ganho 150 ou 350, o erro pode ser reduzido ou minimizado. Armazenando o sinal de ruído modulado amplificado 350f na memória 350n, uma atualização do livro de códigos adaptável pode ser executada, de modo que o processamento de quadros de áudio vozeada pode ser também melhorado baseado na codificação melhorada do quadro de áudio não vozeado.
[119] A Fig. 10 ilustra um esquema do diagrama de blocos de um decodificador 1000 para decodificar um sinal de áudio codificado, por exemplo, o sinal de áudio codificado 692. O decodificador 1000 compreende um gerador de sinal 1010 e um gerador de ruído 1020 configurado para gerar um sinal do tipo ruído 1022. O sinal recebido 1002 compreende informação relativa a LPC, em que um deformador do fluxo de bits 1040 é configurado para fornecer os coeficientes de predição 122 baseados na informação relacionada com o coeficiente de predição. Por exemplo, o decodificador 1040 é configurado para extrair os coeficientes de predição 122. O gerador de sinal 1010 é configurado para gerar um sinal de excitação de código excitado 1012 tal como descrito para o gerador de sinal 558. Um combinador 1050 do decodificador 1000 é configurado para combinar o sinal do código excitado 1012 e o sinal do tipo ruído 1022 tal como descrito para o combinador 550 para obter um sinal de excitação combinado 1052. O decodificador 1000 compreende um sintetizador 1060 dotado de um filtro para ser adaptado com os coeficientes de predição 122, em que o sintetizador é configurado para filtrar o sinal de excitação combinado 1052 com o filtro adaptado para obter um quadro não vozeado decodificado 1062. O decodificador 1000 compreende também o combinador 284 combinando o quadro não vozeado decodificado e o quadro vozeado 272 para obter a sequência do sinal de áudio 282. Quando comparado com o decodificador 200, o decodificador 1000 compreende um Segundo gerador de sinal configurado para fornecer o sinal de excitação do código excitado 1012. O sinal do tipo ruído 1022 pode ser, por exemplo, o sinal do tipo ruído n(n) indicado na Fig. 2.
[120] A sequência do sinal de áudio 282 pode compreender uma boa qualidade e uma elevada similitude quando comparado com um sinal de entrada codificado.
[121] Modelos adicionais fornecem decodificadores que melhoram o decodificador 1000 através de formação e/ou amplificação do sinal de excitação gerado por código (código excitado) 1012 e/ou o sinal do tipo ruído 1022. Assim, o decodificador 1000 pode compreender um processador de modulação e/ou um amplificador variável fornecido entre o gerador de sinal 1010 e o combinador 1050, entre o gerador de ruído 1020 e o combinador 1050, respetivamente. O sinal de entrada 1002 pode compreender informação relativa à informação do parâmetro do ganho de código gc e/ou a informação do parâmetro do ganho de ruído, em que o decodificador pode ser configurado para adaptar um amplificador para amplificar o sinal de excitação gerado por código 1012 ou uma sua versão formada utilizando a informação do parâmetro do ganho de código gc. Em alternativa, ou além disso, o decodificador 1000 pode ser configurado para adaptar, ou seja, para controlar um amplificador para amplificar o sinal do tipo ruído 1022 ou uma sua versão formada com um amplificador utilizando a informação do parâmetro do ganho de ruído.
[122] Em alternativa, o decodificador 1000 pode compreender um modulador 1070 configurado para modular o sinal de excitação gerado por código 1012 e/ou o modulador 1080 configurado para modular o sinal do tipo ruído 1022 tal como indicado pelas linhas a tracejado. Os moduladores 1070 e/ou 1080 podem receber os parâmetros de ganho gc e/ou gn e/ou informação de modulação relacionada com a fala. Os moduladores 1070 e/ou 1080 podem ser modulados tal como descrito para os moduladores 250, 350c e/ou 550b em cima descritos.
[123] O decodificador 1000 pode compreender um calculador de informação formântica 1090 para fornecer uma informação de modulação relacionada com a fala 1092 para os moduladores 1070 e/ou 1080 tal como descrito para o calculador de informação formântica 160. O calculador de informação formântica 1090 pode ser configurado para fornecer diferente informação de modulação relacionada com a fala (1092a;1092b) aos moduladores 1070 e/ou 1080.
[124] A Fig. 11a ilustra um esquema de diagrama de blocos de um modulador 250’ implementando uma estrutura alternativa quando comparado ao modulador 250. O modulador 250’ compreende um combinador 257 para combinar a informação de modulação 222 e o parâmetro de ganho relacionado com ruído gn para obter uma informação combinada 259 . Um processador de modulação modificado 252’ é configurado para modular o sinal do tipo ruído n(n) utilizando a informação combinada 259 para obter o sinal do tipo ruído modulado amplificado 258. Visto que ambos, a informação de modulação 222 e o parâmetro de ganho gn podem ser interpretados como fatores de multiplicação, ambos fatores de multiplicação podem ser multiplicados utilizando o combinador 257 e depois aplicado em modulação combinada ao sinal do tipo ruído n(n).
[125] A Fig. 11b ilustra um esquema de diagrama de blocos de um modulador 250’’ implementando uma alternativa adicional quando comparado com o modulador 250. Quando comparado ao modulador 250, o primeiro amplificador variável 254 é fornecido e configurado para gerar um sinal do tipo ruído amplificado amplificando o sinal do tipo ruído n(n) utilizando o parâmetro de ganho gn. O processador de modulação 252 é configurado para modular o sinal amplificado utilizando a informação de modulação 222 para obter o sinal de modulação amplificado 258.
[126] Apesar de as Figs. 11a e 11b dizerem respeito ao modulador 250 que descreve implementações alternativas, as descrições em cima aplicam-se também aos moduladores 350c, 550b, 1070 e/ou 1080.
[127] A Fig. 12 ilustra um fluxograma de um método 1200 para codificar um sinal de áudio de acordo com o primeiro aspecto. O método 1210 compreende coeficientes de predição derivados e um sinal residual de um quadro do sinal de áudio. O método 1200 compreende um passo 1230 no qual um parâmetro de ganho é calculado a partir de um sinal residual não vozeado e a informação de modulação espectral e um passo 1240 no qual um sinal de saída é modulado baseado em uma informação relacionada com o quadro de sinal por voz, o parâmetro de ganho ou um parâmetro de ganho quantizado e os coeficientes de predição.
[128] A Fig. 13 ilustra um fluxograma esquemático de um método 1300 para decodificação de um sinal de áudio recebido compreendendo coeficientes de predição e um parâmetro de ganho, de acordo com um primeiro aspecto. O método 1300 compreende um passo 1310 no qual uma informação de modulação espectral relacionada com a fala é calculada a partir e coeficientes de predição. Em um passo 1320 uma decodificação do sinal do tipo ruído é gerada. No passo 1330 um espetro do sinal do tipo ruído de decodificação ou uma sua representação amplificada é modulado utilizando a informação de modulação espectral para obter um sinal do tipo ruído de modulação de decodificação. Em um passo 1340 do método 1300 um sinal sintetizado é sintetizado a partir do sinal do tipo ruído de decodificação modulado amplificado e dos coeficientes de predição.
[129] A Fig. 14 ilustra um fluxograma de um método 1400 para codificação de um sinal de áudio de acordo com o segundo aspecto. O método 1400 compreende um passo 1410 no qual coeficientes de predição e um sinal residual são derivados de um quadro não vozeado do sinal de áudio. Em um passo 1420 do método 1400 uma primeira informação do parâmetro de ganho para definir um primeiro sinal de excitação para um livro de códigos determinístico e uma segunda informação do parâmetro de ganho para definir um segundo sinal de excitação relacionado com um sinal do tipo ruído são calculadas para o quadro não vozeado.
[130] Em um passo 1430 do método 1400 um sinal de saída é modulado baseado em uma informação relacionada com um quadro do sinal vozeado, a primeira informação do parâmetro de ganho e a segunda informação do parâmetro de ganho.
[131] A Fig. 15 ilustra um fluxograma de um método 1500 para decodificação de um sinal de áudio recebido de acordo com o segundo aspecto. O sinal de áudio recebido compreende uma informação relacionada com os coeficientes de predição. O método 1500 compreende um passo 1510 no qual um primeiro sinal de excitação é gerado a partir de um livro de códigos determinístico para uma parte de um sinal sintetizado. Em um passo 1520 do método 1500 um segundo sinal de excitação é gerado a partir de um sinal do tipo ruído para a parte do sinal sintetizado. No passo 1530 do método 1000 o primeiro sinal de excitação e o segundo sinal de excitação são combinados para gerar um sinal de excitação combinado para a parte do sinal sintetizado. Em um passo 1540 do método 1500 a parte do sinal sintetizado é sintetizada a partir do sinal de excitação combinada e dos coeficientes de predição.
[132] Por outras palavras, aspectos desta invenção propõem uma nova maneira de codificação de quadros não vozeados através de formação de um ruído Gaussian aleatoriamente gerado e formá-lo espectralmente através da adição a ele de uma estrutura formântica e inclinação espectral. A modulação espectral é feita no domínio da excitação antes de excitação do filtro de síntese. Em consequência disso, a excitação formada será atualizada na memória da precisão de longo prazo para geração de posteriores livros de códigos adaptáveis.
[133] Os quadros subsequentes, não vozeados, irão também beneficiar da modulação espectral. Ao contrário da melhoria por formantes na pós-filtragem, a modulação de ruído proposta é executada em ambos lados codificador e decodificador.
[134] Tal excitação pode ser usada diretamente em um esquema de codificação paramétrica para definir débitos muito baixos. Contudo, propomos também associar essa excitação em combinação com um livro de códigos convencional inovador em um esquema de codificação CELP.
[135] Para ambos métodos, propomos uma nova codificação de ganho especialmente eficiente para ambos discurso limpo e discurso com ruído de fundo. Propomos alguns mecanismos para chegar o mais próximo possível à energia original mas ao mesmo tempo evitando transições muito drásticas com quadros não vozeados e evitando também instabilidades indesejadas devido à quantização do ganho.
[136] O primeiro aspecto tem como objetivo a codificação com uma velocidade de 2,8 e 4 kilobits por segundo (kbps). Os quadros não vozeados são detectados em primeiro lugar. Tal pode ser feito através de uma classificação de discurso habitual tal como é feito na Velocidade Variável Multimodo de Banda Larga (VMR-WB) tal como é conhecida de [3].
[137] Existem duas vantagens principais ao se optar pela modulação espectral nesta fase. Em primeiro lugar, a modulação espectral é tida em consideração para o cálculo do ganho da excitação. À medida que o cálculo do ganho é o apenas módulo não-cego durante a geração de excitação, é uma grande vantagem tê-la no final da cadeia após amodulação. Em Segundo lugar, permite salvaguardar a excitação melhorada na memória de LTP. A melhoria irá então também servir quadros não vozeados posteriores.
[138] Apesar de os quantizadores 170, 170-1 e 170-2 terem sido descritos como sendo configurados para a obtenção dos parâmetros quantizados gce gn , os parâmetros quantizados podem ser fornecidos como uma informação relativa a eles, por ex., um índice ou um identificador de uma entrada de uma base de dados, a entrada compreendendo os parâmetros de ganho quantizados gtce gtn .
[139] Apesar de alguns aspectos terem sido descritos no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do correspondente método, em que um bloco ou dispositivo corresponde a um passo de método ou a uma característica de um passo de método. De modo análogo, os aspectos descritos no contexto de um passo de método também representam uma descrição de um correspondente bloco ou item ou característica de um correspondente aparelho.
[140] O sinal de áudio codificado inovador pode ser armazenado em um suporte de armazenamento digital ou pode ser transmitido em um meio de transmissão tal como um meio de transmissão sem fios ou um meio de transmissão com fios tal como a Internet.
[141] Dependendo de certos requisitos de implementação, os modelos da invenção podem ser implementados em hardware ou em software. A implementação pode ser executada utilizando um suporte de armazenamento digital, por exemplo uma disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, dotado de sinais de controlo lidos eletronicamente nela armazenados, que cooperam (ou são capazes de cooperarem) com um sistema de computador programável de modo que o respetivo método seja executado.
[142] Algumas versões de acordo com a invenção compreendem um suporte de dados com sinais de controlo de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de modo a que seja executado um dos métodos aqui descritos.
[143] De um modo geral, os modelos da presente invenção podem ser implementados como um produto de programa de computador com um código de programa, sendo o código de programa operativo para executar um dos métodos quando o produto do programa de computador corre em um computador. O código de programa pode, por exemplo, ser guardado em um suporte de leitura em máquina.
[144] Outros modelos compreendem o programa de computador para executar um dos métodos aqui descritos, guardados em um suporte de leitura em máquina.
[145] Por outras palavras, um modelo do método da invenção é, por isso, um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de computador corre em um computador.
[146] Outro modelo dos métodos da invenção é, por isso, um suporte de dados (ou um suporte de armazenamento digital ou um suporte de leitura em computador) compreendendo, aí gravados, o programa de computador para executar um dos métodos aqui descritos.
[147] Outro modelo do método da invenção é, por isso, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo via Internet.
[148] Outro modelo compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.
[149] Outro modelo compreende um computador com o programa de computador instalado para executar um dos métodos aqui descritos.
[150] Em alguns modelos, pode ser utilizado um dispositivo programável lógico (por exemplo uma rede de portas lógicas programáveis) para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em alguns modelos, uma rede de portas lógicas programáveis pode cooperar com um microprocessador para executar um dos métodos aqui descritos. De um modo geral, os métodos são preferencialmente executados por qualquer aparelho de hardware.
[151] Os modelos acima descritos são meramente ilustrativos para os princípios da presente invenção. Compreende-se que as modificações e variações das disposições e dos detalhes descritos serão evidentes aos profissionais da matéria. Pretende-se, por isso, que seja limitado apenas pelo âmbito das reivindicações impendentes da patente e não pelos detalhes específicos da descrição e explicação dos modelos aqui constantes.
[152] Literatura [1] Recommendation ITU-T G.718 : “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s” [2] United states patent number US 5,444,816, “Dynamic codebook for efficient speech coding based on algebraic codes” [3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio, Speech, and Language Processing, IEEE Transactions on , vol.15, no.4, pp.1167,1179, May 2007

Claims (16)

1. Codificador (100; 200; 300) para codificar um sinal de áudio (102) utilizando informação de modulação espectral relacionada com a fala, caracterizado por o codificador compreender um analisador (120; 320) configurado para derivar coeficientes de predição (122; 322) e um sinal residual (124; 324) a partir de um quadro do sinal de áudio (102); um calculador de informação formante (160) configurado para calcular uma informação de modulação espectral relacionada com a fala (162) a partir de coeficientes de predição (122; 322); um calculador do parâmetro de ganho (150; 350; 350’; 550) configurado para calcular um parâmetro de ganho (gn; gc) a partir de um sinal residual não vozeado e da informação de modulação espectral (162); e um modulador do fluxo de bits (190; 690) configurado para formar um sinal de saída (192; 692) baseado em uma informação (142) relacionada com um quadro do sinal vozeado, o parâmetro de ganho (gn; gc) ou um parâmetro de ganho quantizado (gc; gn) e os coeficientes de predição (122; 322); em que o calculador do parâmetro de ganho (150; 350; 350’; 550) compreende um gerador de ruído (350a) configurado para gerar um sinal de codificação do tipo ruído (n(n)); e em que o calculador do parâmetro de ganho (150; 350; 350’; 550) compreende um processador de modulação (350d) configurado para modular um espetro do sinal de codificação do tipo ruído (n(n)) utilizando a informação de modulação espectral relacionada com a fala (162) e um amplificador variável (350e) configurado para amplificar o sinal de codificação do tipo ruído modulado espectralmente (350f) para obter um sinal de codificação do tipo ruído modulado amplificado (350g) e um controlador (350k; 550n) para calcular um parâmetro de ganho (gn; gc) com base no sinal de codificação do tipo ruído modulado amplificado (350g); em que um ou mais dentre o analisador (120; 320), o calculador de informação formante (160), o calculador do parâmetro de ganho (150; 350; 350’; 550) e o modulador de fluxo de bits (190; 690) são implementados, pelo menos parcialmente, por um ou mais elementos de hardware do codificador; em que o processador de modulação (350d) está configurado para combinar um espetro do sinal de codificação do tipo ruído (n(n)) ou um espetro derivado do mesmo e uma função de transferência compreendendo
Figure img0019
em que A(z) corresponde a um filtro polinomial dos coeficientes de predição ponderados por fatores de ponderação escalares w1 ou w2, em que o fator de ponderação w1 do processador de modulação compreende um valor escalar positivo não nulo de, no máximo, 1,0 e em que o fator de ponderação w2 compreende um valor escalar positivo não nulo de, no máximo 1,00, em que w2 é superior a w1.
2. Codificador de acordo com a reivindicação 1, caracterizado por compreender ainda um decisor configurado para determinar se o sinal residual foi determinado a partir de um quadro de áudio de sinal não vozeado;
3. Codificador de acordo com a reivindicação 1, caracterizado por o calculador do parâmetro de ganho estar configurado para: utilizar o parâmetro de ganho como parâmetro de ganho temporário para adquirir o sinal de codificação do tipo ruído modulado amplificado; em que o calculador de parâmetro de ganho compreende um comparador configurado para comparar o sinal residual não vozeado e o sinal codificação do tipo ruído modulado amplificado para obter uma medida para uma similitude entre o sinal residual não vozeado e o sinal de codificação do tipo ruído modulado amplificado; e em que o controlador está configurado para determinar o parâmetro de ganho e adaptar o parâmetro de ganho temporário com base no resultado de comparação; em que o controlador estar configurado para fornecer o parâmetro de codificação de ganho para o modulador de fluxo de dados, quando um valor da medida para a similitude ser superior a um valor limite.
4. Codificador de acordo com a reivindicação 1, caracterizado por o calculador do parâmetro de ganho estar configurado para: utilizar o parâmetro de ganho como parâmetro de ganho temporário para obter um sinal de codificação do tipo ruído modulado amplificado; em que o calculador de parâmetro de ganho compreende um sintetizador configurado para sintetizar um sinal sintetizado a partir do sinal de codificação do tipo ruído modulado amplificado e os coeficientes de predição e para fornecer o sinal sintetizado; em que o calculador de parâmetro de ganho compreende um comparador configurado para comparar o sinal de áudio e o sinal sintetizado para obter uma medida para uma similitude entre o sinal de áudio e o sinal sintetizado; e em que o controlador está configurado para determinar o parâmetro de ganho e para adaptar o parâmetro de ganho temporário com base no resultado de comparação; em que o controlador está configurado para fornecer o parâmetro de ganho de codificação ao formador de fluxo de bits, quando um valor da medida para a similitude é superior a um valor limite.
5. Codificador de acordo com a reivindicação 1, caracterizado por compreender adicionalmente uma memória de ganho configurada para registar uma informação de codificação compreendendo o parâmetro de ganho ou uma informação gn relativa à mesma, em que o controlador estar configurado para gravar a informação de codificação durante o processo do quadro de áudio e para determinar o parâmetro de ganho para um quadro subsequente do sinal de áudio com base na informação de codificação do quadro anterior do sinal de áudio.
6. Codificador de acordo com a reivindicação 1, caracterizado por o gerador de ruído estar configurado para gerar uma pluralidade de sinais aleatórios e para combinar a pluralidade de sinais aleatórios para adquirir o sinal de codificação do tipo ruído.
7. Codificador de acordo com a reivindicação 1, caracterizado por compreender ainda um quantizador configurado para receber o parâmetro de ganho, para quantificar o parâmetro de ganho para obter o parâmetro de ganho quantizado.
8. Codificador de acordo com a reivindicação 1, caracterizado por um modulador estar configurado para combinar um espetro do sinal de codificação do tipo ruído ou um espetro derivado do mesmo com uma função de transferência compreendendo
Figure img0020
em que z indica uma representação no domínio de z, em que β representa uma medida (vozeada) para um vozeamento determinado pela relação entre uma energia de um quadro anterior do sinal de áudio e uma energia de um quadro atual do sinal de áudio, em que a medida β ser determinada em função de um valor de vozeamento.
9. Decodificador (200) para decodificar um sinal de áudio utilizando informação de modulação espectral relacionada com a fala, o sinal de áudio sendo um sinal recebido (202) compreendendo uma informação relacionada a coeficientes de predição (122; 322), caracterizado por o decodificador (200) compreender um calculador de informação formante (220; 1090) configurado para calcular uma informação de modulação espectral relacionada com a fala (222; 1092; 1092a, 1092b) a partir de coeficientes de predição; um gerador de ruído (240; 1020) configurado para gerar um sinal de decodificação do tipo ruído (n(n); 1022); um modulador (250; 1080) configurado para modular (252) um espetro do sinal de decodificação do tipo ruído (n(n); 1022) utilizando informação de modulação espectral (222; 1092, 1092b) para adquirir um espetro modulado do sinal de decodificação do tipo ruído (258; 1022); um sintetizador (260; 1060) configurado para sintetizar um sinal sintetizado (262) a partir do espetro modulado do sinal de decodificação do tipo ruído (258; 1022’) e os coeficientes de predição (122; 322); e um amplificador variável (350e) configurado para receber um parâmetro de ganho e para amplificar o espetro modulado do sinal de decodificação do tipo ruído para obter um sinal de decodificação do tipo ruído modulado amplificado; em que um ou mais dentre o calculador de informação formante (220; 1090), o gerador de ruído (350a), o modulador (250) e o sintetizador (260) são implementados, pelo menos parcialmente, por um ou mais elementos de hardware do decodificador; em que o modulador (250; 1080) está configurado para combinar um espetro do sinal de codificação do tipo ruído ou um espetro derivado do mesmo e uma função de transferência compreendendo
Figure img0021
em que A(z) corresponde a um filtro polinomial dos coeficientes de predição ponderados por fatores de ponderação escalares w1 ou w2, em que o fator de ponderação w1 do processador de modulação compreende um valor escalar positivo não nulo de, no máximo, 1,0 e em que o fator de ponderação w2 compreende um valor escalar positivo não nulo de, no máximo 1,00, em que w2 é superior a w1.
10. Decodificador de acordo com a reivindicação 9, caracterizado por o sinal recebido compreender uma informação relacionada com um parâmetro de ganho e por o modulador compreender um amplificador configurado para amplificar o sinal de decodificação do tipo ruído ou o sinal de decodificação do tipo ruído modulado.
11. Decodificador de acordo com a reivindicação 9, caracterizado por o sinal recebido compreender uma informação vozeada relacionada a um quadro vozeado de um sinal de áudio codificado e em que o decodificador compreende ainda um processador do quadro vozeado configurado para determinar um sinal vozeado com base na informação vozeada, em que o decodificador compreende ainda um combinador configurado para combinar o sinal sintetizado e o sinal vozeado para obter um quadro de uma sequência do sinal de áudio.
12. Método (1200) para codificar um sinal de áudio (102) utilizando informação de modulação espectral relacionada com a fala, caracterizado por compreender derivar (1210), utilizando um analisador (120; 320), coeficientes de predição (122; 322) e um sinal residual a partir de um quadro do sinal de áudio (102); calcular (1220), utilizando um calculador de informação formante (220), uma informação de modulação espectral relacionada com a fala (162) a partir de coeficientes de predição (122; 322); calcular (1230), utilizando um calculador de parâmetro de ganho (150; 350; 350’; 550), um parâmetro de ganho (gn; gc) a partir de um sinal residual não vozeado e da informação de modulação espectral (162); e formar, utilizando um modulador de fluxo de bits (190; 690), um sinal de saída (192; 692) com base em uma informação (142) relativa a um quadro do sinal vozeado, ao parâmetro de ganho (gn; gc) ou a um parâmetro do ganho quantizado (gc; gn) e aos coeficientes de predição (122; 322); e gerar um sinal de codificação do tipo ruído (n(n)), compreendendo: modular um espetro do sinal de codificação do tipo ruído (n(n)) utilizando a informação de modulação espectral relacionada com a fala (162); e amplificar o espetro modulado do sinal de codificação de tipo ruído (350f) para obter um sinal de codificação do tipo ruído modulado amplificado (350g); e calcular um parâmetro de ganho (gn; gc) com base no sinal de codificação do tipo ruído modulado amplificado (350g); em que um ou mais dentre o analisador (120; 320), o calculador de informação formante (220), o calculador de parâmetro de ganho (150; 350; 350’; 550) e o modulador de fluxo de bits (190; 690) são implementados, pelo menos parcialmente, por um ou mais elementos de hardware; combinar um espetro do sinal de codificação do tipo ruído ou um espetro derivado do mesmo e uma função de transferência compreendendo
Figure img0022
em que A(z) corresponde a um filtro polinomial dos coeficientes de predição ponderados por fatores de ponderação escalares w1 ou w2, em que o fator de ponderação w1 do processador de modulação compreende um valor escalar positivo não nulo de, no máximo, 1,0 e em que o fator de ponderação w2 compreende um valor escalar positivo não nulo de, no máximo 1,00, em que w2 é superior a w1.
13. Método (1300) para decodificação de um sinal de áudio (202) utilizando informação de modulação espectral relacionada com a fala, caracterizado por compreender uma informação relativa aos coeficientes de predição e a um parâmetro de ganho (gn; gc), sendo que o método compreende calcular (1310), utilizando um calculador de informação formante (220), uma informação de modulação espectral relacionada com a fala (222) a partir de coeficientes de predição (122; 322); gerar (1320), utilizando um gerador de ruído (350a), um sinal de decodificação do tipo ruído (n(n)); modular (1330), utilizando um modulador (250; 1080), um espetro do sinal de decodificação do tipo ruído (n(n)), utilizando a informação de modulação espectral (222; 1092; 1092b) para adquirir um sinal de decodificação do tipo ruído modulado; receber um parâmetro de ganho e amplificar o espetro modulado do sinal de decodificação do tipo ruído com um amplificador variável, para obter um espetro amplificado do sinal do tipo ruído modulado; e sintetizar (1340), utilizando um sintetizador (260), um sinal sintetizado (262) a partir do sinal de decodificação do tipo ruído modulado amplificado e dos coeficientes de predição (122; 322); em que um ou mais dentre o calculador de informação formante (220), o gerador de ruído (350a), o modulador (250; 1080) e o sintetizador (260) são implementados, pelo menos parcialmente, por um ou mais elementos de hardware; combinar um espetro do sinal de decodificação do tipo ruído ou um espetro derivado do mesmo e uma função de transferência compreendendo
Figure img0023
em que A(z) corresponde a um filtro polinomial dos coeficientes de predição ponderados por fatores de ponderação escalares w1 ou w2, em que o fator de ponderação w1 do processador de modulação compreende um valor escalar positivo não nulo de, no máximo, 1,0 e em que o fator de ponderação w2 compreende um valor escalar positivo não nulo de, no máximo 1,00, em que w2 é superior a w1.
14. Codificador de acordo com a reivindicação 1, caracterizado por o calculador de parâmetro de ganho compreender um comparador configurado para comparar o sinal residual não vozeado e o sinal de codificação do tipo ruído modulado amplificado para obter um resultado de comparação, em que o controlador está configurado para determinar o parâmetro de ganho com base no resultado de comparação.
15. Decodificador de acordo com a reivindicação 9, caracterizado por compreender um gerador de sinal configurado para gerar um sinal de excitação excitado por código utilizando os coeficientes de predição e compreendendo um modulador adicional configurado para modular o sinal de excitação excitado por código utilizando a informação de modulação relacionada com a fala e para amplificar o espetro do sinal de excitação excitado por código para obter um sinal de excitação excitado por código modulado amplificado.
16. Decodificador de acordo com a reivindicação 15, caracterizado por calculador de informação formante estar configurado para fornecer diferentes informações de modulação relacionada com a fala ao modulador e ao modulador adicional.
BR112016008662-7A 2013-10-18 2014-10-10 Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala BR112016008662B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13189392.7 2013-10-18
EP13189392 2013-10-18
EP14178788 2014-07-28
EP14178788.7 2014-07-28
PCT/EP2014/071767 WO2015055531A1 (en) 2013-10-18 2014-10-10 Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Publications (2)

Publication Number Publication Date
BR112016008662A2 BR112016008662A2 (pt) 2017-08-01
BR112016008662B1 true BR112016008662B1 (pt) 2022-06-14

Family

ID=51691033

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016008662-7A BR112016008662B1 (pt) 2013-10-18 2014-10-10 Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala

Country Status (17)

Country Link
US (3) US10373625B2 (pt)
EP (2) EP3806094A1 (pt)
JP (1) JP6366706B2 (pt)
KR (1) KR101849613B1 (pt)
CN (2) CN111370009B (pt)
AU (1) AU2014336356B2 (pt)
BR (1) BR112016008662B1 (pt)
CA (1) CA2927716C (pt)
ES (1) ES2856199T3 (pt)
MX (1) MX355091B (pt)
MY (1) MY180722A (pt)
PL (1) PL3058568T3 (pt)
RU (1) RU2646357C2 (pt)
SG (1) SG11201603000SA (pt)
TW (1) TWI575512B (pt)
WO (1) WO2015055531A1 (pt)
ZA (1) ZA201603158B (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101737254B1 (ko) * 2013-01-29 2017-05-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법
AU2014336357B2 (en) * 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
KR101849613B1 (ko) * 2013-10-18 2018-04-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
CN110444217B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 解码装置、解码方法、记录介质
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN112002338B (zh) * 2020-09-01 2024-06-21 北京百瑞互联技术股份有限公司 一种优化音频编码量化次数的方法及系统

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3099852B2 (ja) * 1993-01-07 2000-10-16 日本電信電話株式会社 励振信号の利得量子化方法
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
KR100900113B1 (ko) * 1997-10-22 2009-06-01 파나소닉 주식회사 확산 펄스 벡터 생성 장치 및 방법
EP1686563A3 (en) 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
US6415252B1 (en) 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
CA2300077C (en) 1998-06-09 2007-09-04 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus and speech decoding apparatus
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
DE10124420C1 (de) 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
WO2004097797A1 (en) 2003-05-01 2004-11-11 Nokia Corporation Method and device for gain quantization in variable bit rate wideband speech coding
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP1994531B1 (fr) 2006-02-22 2011-08-10 France Telecom Codage ou decodage perfectionnes d'un signal audionumerique, en technique celp
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
PL2165328T3 (pl) 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
JP2011518345A (ja) 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5148414B2 (ja) * 2008-08-29 2013-02-20 株式会社東芝 信号帯域拡張装置
RU2400832C2 (ru) 2008-11-24 2010-09-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
MX2013009295A (es) 2011-02-15 2013-10-08 Voiceage Corp Dispositivo y método para cuantificar ganancias de contribuciones adaptativas y fijas de una excitación en un codec celp.
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN105469805B (zh) 2012-03-01 2018-01-12 华为技术有限公司 一种语音频信号处理方法和装置
PT3058569T (pt) 2013-10-18 2021-01-08 Fraunhofer Ges Forschung Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação determinística e similar a ruído
KR101849613B1 (ko) * 2013-10-18 2018-04-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
AU2014336357B2 (en) * 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information

Also Published As

Publication number Publication date
WO2015055531A1 (en) 2015-04-23
SG11201603000SA (en) 2016-05-30
US10373625B2 (en) 2019-08-06
US11881228B2 (en) 2024-01-23
BR112016008662A2 (pt) 2017-08-01
CN111370009A (zh) 2020-07-03
MX2016004923A (es) 2016-07-11
CN105745705B (zh) 2020-03-20
CA2927716C (en) 2020-09-01
PL3058568T3 (pl) 2021-07-05
JP2016533528A (ja) 2016-10-27
US20210098010A1 (en) 2021-04-01
AU2014336356B2 (en) 2017-04-06
JP6366706B2 (ja) 2018-08-01
RU2016119010A (ru) 2017-11-23
US10909997B2 (en) 2021-02-02
ES2856199T3 (es) 2021-09-27
TWI575512B (zh) 2017-03-21
AU2014336356A1 (en) 2016-05-19
ZA201603158B (en) 2017-11-29
KR101849613B1 (ko) 2018-04-18
US20190333529A1 (en) 2019-10-31
EP3806094A1 (en) 2021-04-14
US20160232909A1 (en) 2016-08-11
KR20160073398A (ko) 2016-06-24
CN111370009B (zh) 2023-12-22
RU2646357C2 (ru) 2018-03-02
CA2927716A1 (en) 2015-04-23
EP3058568A1 (en) 2016-08-24
CN105745705A (zh) 2016-07-06
TW201528255A (zh) 2015-07-16
MX355091B (es) 2018-04-04
MY180722A (en) 2020-12-07
EP3058568B1 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
BR112016008662B1 (pt) Método, decodificador e codificador para codificação e decodificação de um sinal de áudio utilizando informação de modulação espectral relacionada com a fala
US11798570B2 (en) Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
BR112016008544B1 (pt) Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 10/10/2014, OBSERVADAS AS CONDICOES LEGAIS