EP0361432B1

EP0361432B1 - Méthode et dispositif de codage et de décodage de signaux de parole utilisant une excitation multi-impulsionnelle

Info

Publication number: EP0361432B1
Application number: EP89117837A
Authority: EP
Inventors: Maurizio Omologo; Daniele Sereno
Original assignee: SIP SAS; Italtel SpA; Italtel Societa Italiana Telecomunicazioni SpA; SIP Societa Italiana per lEsercizio delle Telecomunicazioni SpA
Current assignee: SIP SAS; Italtel SpA; Telecom Italia SpA
Priority date: 1988-09-28
Filing date: 1989-09-27
Publication date: 1994-08-17
Anticipated expiration: 2009-09-27
Also published as: GR900300170T1; ES2017906T3; DE68917552D1; IT8867868A0; ATE110180T1; IT1224453B; DE68917552T2; EP0361432A3; ES2017906A4; EP0361432A2; DE361432T1

Claims

Méthode pour le codage et décodage de signaux de parole, utilisant une technique d'excitation d'analyse par synthèse multi-impulsionnelle, la méthode comprenant une phase de codage qui prévoit les opérations suivantes:
- conversion du signal de parole en trames d'échantillons numériques [s(n)];

- analyse à court terme du signal de parole, pour déterminer un groupe de coefficients de prédiction linéaire [a(k)] (k= 1,...,p) relatifs à un trame en cours et une représentation de ces coefficients sous forme de paires de raies spectrales;

- codage de la représentation des coefficients de prédiction linéaire et obtention de coefficients de prédiction linéaire quantifiés [â(k)] à partir de cette représentation;

- mise en forme spectrale du signal de parole, en pondérant les échantillons numériques [s(n)] d'une trame par une première et une seconde fonction de pondération A(z), 1/A(z/γ), où
la pondération par la première fonction de pondération engendrant un signal résiduel [r(n)] qui est ensuite pondéré par la seconde fonction pour engendrer un signal de parole mis en forme spectralement [s_w(n)];

- analyse à long terme du signal de parole, en utilisant le signal résiduel [r(n)] et le signal mis en forme spectralement [s_w(n)], pour déterminer le retard (M) qui sépare un échantillon courant d'un échantillon précédent [r(n-M)] utilisé pour traiter l'échantillon courant, et le gain (B) par lequel l'échantillon précédent est pondéré pour le traitement;

- détermination des positions et des amplitudes des impulsions d'excitation en utilisant les résultats de l'analyse à court et à long terme;

- codage des valeurs du retard et du gain de l'analyse à long terme et des amplitudes et des positions des impulsions d'excitation, les valeurs codées constituant, avec la représentation codée des coefficients de prédiction linéaire et les valeurs efficaces codées des impulsions d'excitation, le signal de parole codé;
et comprenant en outre une phase de décodage, où l'on reconstitue l'excitation à partir des valeurs codées des amplitudes, des positions et des valeurs efficaces des impulsions et on engendre un signal de parole synthétisé [ŝ(n)] en faisant passer l'excitation reconstituée (ê) à travers un filtre de synthèse à long terme 1/(1-B·z^-M) suivi d'un filtre de synthèse à court terme [1/A(z)], qui utilisent respectivement les paramètres de l'analyse à long terme et les coefficients de prédiction linéaire quantifiés, méthode suivant laquelle l'analyse à long terme et la génération des impulsions d'excitation sont effectuées en des phases successives, dans la première desquelles on détermine le retard (M) et le gain (B) de l'analyse à long terme en minimisant une erreur quadratique moyenne entre le signal de parole mis en forme spectralement [s_w(n)] et un signal ultérieur [s_w0(n)] obtenu en pondérant par la seconde fonction de pondération 1/A(z/γ) le signal résultant d'un filtrage de synthèse à long terme, qui est semblable à celui effectué pendant la phase de décodage et où le signal utilisé pour la synthèse est un signal nul, tandis que dans la seconde phase on détermine effectivement les amplitudes et les positions des impulsions d'excitation [e(i)], en minimisant l'erreur quadratique moyenne entre un signal [s_we(n)] qui représente la différence entre le signal de parole mis en forme spectralement [s_w(n)] et le signal ultérieur [s_w0(n)], et un troisième signal pondéré [ŝ_we(n)], obtenu en soumettant les impulsions d'excitation à un filtrage de synthèse à long terme et à une pondération par la seconde fonction de pondération; et suivant laquelle le codage de la repésentation des coefficients de prédiction linéaire consiste en une quantification vectorielle des paires des raies spectrales ou des différences entre de paires des raies spectrales adjacentes selon une technique de quantification à dictionnaire subdivisé.
Méthode selon la revendication 1, caractérisée en ce que le retard (M) et le gain (B) sont déterminés en deux étapes successives, dans la première desquelles on détermine une valeur optimale du retard en minimisant l'erreur pour une valeur prédéterminée du gain, tandis que dans la seconde on détermine la valeur optimale du gain, en utilisant la valeur optimale du retard.
Méthode selon la revendication 1, caractérisée en ce que le retard (M) et le gain (B) sont déterminés en deux étapes successives, dans la première desquelles on minimise l'erreur quadratique moyenne entre le signal résiduel [r(n)] et un signal [
₀(n)] qui est le signal [r₀(n)] résultant du filtrage de synthèse à long terme avec entrée nulle, si la synthèse relative à un échantillon de la trame en cours est effectuée sur la base d'un échantillon d'une trame qui précède, et est le signal résiduel [r(n)] si la synthèse relative à un échantillon de la trame en cours est effectuée sur la base d'un échantillon précédent de la même trame, tandis que dans la seconde étape on calcule le gain (B) par la succession des opérations suivantes: on détermine une valeur [s'_w0(n)] du signal ultérieur pour une valeur unitaire du gain; on détermine ensuite une première valeur E(M,1) de l'erreur, et on répète les opérations our déterminer la valeur du signal pondéré par la seconde fonction de pondération et de l'erreur pour chaque valeur possible pour le gain, la valeur adoptée étant celle qui minimise l'erreur.
Méthode selon la revendication 3, caractérisée en ce que le retard (M) est calculé à chaque trame, et le gain (B) à chaque semi-trame.
Dispositif pour le codage et décodage de signaux de parole par des techniques d'excitation d'analyse par synthèse multi-impulsionnelle, pour la réalisation de la méthode selon l'une quelconque des revendications 1, 3 ou 4, comprenant, pour le codage du signal de parole:
- des moyens pour convertir le signal de parole en trames d'échantillons numériques [s(n)];

- des moyens (STA) pour l'analyse à court terme du signal de parole, qui reçoivent des moyens de conversion un ensemble d'échantillons, calculent un groupe de coefficients de prédiction linéaire [a(k)] (k= 1,...,p) relatifs à une trame en cours et émettent une représentation des coefficients de prédiction linéaire [a(k)] sous forme de paires de raies spectrales;

- des moyens (VQ) pour coder la représentation des coefficients de prédiction linéaire;

- des moyens (DCO) pour obtenir des coefficients de prédiction linéaire quantifiés [â(k)] à partir de la représentation codée;

- un circuit (SW) pour la mise en forme spectrale du signal de parole, connecté aux moyens de conversion et aux moyens (DCO) qui obtiennent les coefficients de prédiction linéaire quantifiés, et comprenant une paire de filtres numériques de pondération (F1, F2) en cascade, qui pondèrent les échantillons numériques [s(n)] respectivement selon une première et une seconde fonction de pondération A(z), 1/A(z/γ), où
le premier titre (F1) fournissant un signal résiduel [r(n)];

- des moyens (LTA) pour l'analyse à long terme du signal de parole, connectés à la sortie du premier filtre (F1) et du circuit de mise en forme spectrale (SW) pour déterminer le retard (M) qui sépare un échantillon courant d'un échantillon précédent [r(n-M)] utilisé pour traiter l'échantillon courant, et le gain (B) par lequel l'échantillon précédent est pondéré pour le traitement;

- un générateur d'excitation (EG) pour déterminer les positions et les amplitudes des impulsions d'excitation, connecté aux moyens d'analyse à court et à long terme (STA, LTA) et au circuit de mise en forme spectrale (SW);

- des moyens (LTC, PAC) pour le codage des valeurs du retard et du gain de l'analyse à long terme et des amplitudes et des positions des impulsions d'excitation, les valeurs codées constituant, avec la représentation codée des coefficients de prédiction linéaire et les valeurs efficaces des impulsions d'excitation, le signal de parole codé;
et comprenant en outre, pour le décodage (synthèse) du signal de parole:
- des moyens (ED, LTD, STD) pour reconstituer l'excitation, le retard (M) et le gain (B) de l'analyse à long terme aussi bien que les coefficients de prédiction linéaire [a(k)] à partir du signal codé; et

- un synthétiseur, comprenant la cascade d'un premier filtre de synthèse à long terme (LTP1), qui reçoit les impulsions d'excitation et le gain et le retard reconstitués et qui filtre ces impulsions selon une première fonction de transfert 1/(1-B·z^-M), et d'un titre de synthèse à court terme (STP), ayant une seconde fonction de transfert 1/A(z) qui est le réciproque de la première fonction de mise en forme spectrale A(z),
où les moyens d'analyse à long terme (LTA) sont aptes à déterminer le retard (M) et le gain (B) en deux étapes successives, qui précèdent une phase de détermination des amplitudes et des positions des impulsions d'excitation par le générateur d'excitation (EG), et comprennent:
- un second titre de synthèse à long terme (LTP2), qui est alimenté avec un signal nul et où, pour le calcul du retard (M), on utilise un ensemble prédéterminé de valeurs du nombre d'échantillons qui sépare un échantillon courant en cours de synthèse d'un échantillon précédent utilisé pour la synthèse et, pour le calcul du gain (B), on utilise un ensemble prédeterminé de valeurs possibles du gain luimême;

- un multiplexeur (MX1) qui reçoit à une première entrée un échantillon du signal résiduel [r(n)] et à une seconde entrée un échantillon du signal de sortie du second filtre de synthèse à long terme (LTP2) et émet les échantillons présents à l'une ou à l'autre entrée selon que le nombre d'échantillons est inférieur ou non à la longueur d'une trame;

- un troisième filtre de pondération (F3), qui a la même fonction de transfert que le second filtre numérique (F2) du circuit de mise en forme spectrale (SW), est connecté à la sortie du second filtre de synthèse à long terme (LTP2) et est validé seulement pendant la détermination du gain de l'analyse à long terme (B);

- un premier additionneur (SM1), qui reçoit à une première entrée le signal mis en forme spectralement (s_w) et à une seconde entrée le signal de sortie du troisième filtre de pondération (F3) et fournit la différence entre les signaux présents à la première ou seconde entrée;

- une première unité de traitement (CMB), qui reçoit dans une première des deux étapes successives le signal de sortie du multiplexeur (MX1) et détermine la valeur optimale du nombre d'échantillons, et dans la seconde des deux étapes successives reçoit le signal de sortie du premier additionneur (SM1) et détermine, en utilisant le retard calculé dans la première étape, la valeur du gain qui minimise l'erreur quadratique moyenne, dans une période de validité des impulsions d'excitation, entre les signaux d'entrée du premier additionneur (SM1);
et où le générateur d'excitation (EG) pour engendrer les impulsions d'excitation [e(i)] comprend:
- un troisième filtre de synthèse à long terme (LTP3), qui a la même fonction de transfert que le premier filtre de synthèse à long terme (LTP1) et qui est alimenté avec les impulsions d'excitation qui sont engendrées;

- un quatrième filtre de pondération (F4), connecté à la sortie du troisième filtre de synthèse (LTP3) et ayant la même fonction de transfert que les second et troisième filtres de pondération (F2, F3);

- un second additionneur (SM2), qui reçoit à une première entrée le signal de sortie du premier additionneur (SM1) et à une seconde entrée le signal de sortie du quatrième titre de pondération (F4), et fournit à la sortie la différence entre les signaux présents à la première et à la seconde entrée;

- une seconde unité de traitement (CE) qui est connectée à la sortie du second additionneur (SM2) et qui détermine les amplitudes et les positions des impulsions en minimisant l'erreur quadratique moyenne, dans une période de validité des impulsions, entre les signaux d'entrée du second additionneur (SM2).
Dispositif selon la revendication 5, caractérisé en ce que les moyens (VQ) pour le codage de la représentation des coefficients de prédiction linéaire comprennent un quantificateur vectoriel (VQ) pour la quantification vectorielle à dictionnaire subdivisé des paires des raies spectrales ou des différences entre paires de raies spectrales adjacentes.