EP1383113A1

EP1383113A1 - Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme

Info

Publication number: EP1383113A1
Application number: EP02015919A
Authority: EP
Inventors: désignation de l'inventeur n'a pas encore été déposée La
Original assignee: STMicroelectronics NV
Current assignee: STMicroelectronics NV
Priority date: 2002-07-17
Filing date: 2002-07-17
Publication date: 2004-01-21
Also published as: US20040073421A1

Abstract

On échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique. L'extraction du mot d'excitation à long terme s'effectue en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1). On effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2). Le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique. <IMAGE>

Description

L'invention concerne l'encodage/décodage de la parole à bande élargie, notamment mais non limitativement pour la téléphonie mobile.

En bande élargie, la bande passante du signal de parole est comprise entre 50 et 7000 Hz.

Des séquences de parole successives échantillonnées à une fréquence d'échantillonnage prédéterminée, par exemple 16 kHz, sont traitées dans un dispositif de codage utilisant une prédiction linéaire à excitation par séquences codées (ACELP : « algebraic-code-excited linear-prediction »), bien connu de l'homme du métier, et décrit notamment dans la recommandation ITU-TG 729, version 3/96, intitulée « codage de la parole à 8 kbits/s par prédiction linéaire avec excitation par séquences codées à structure algébrique conjuguée ».

On va maintenant rappeler brièvement, en se référant à la figure 1, les principales caractéristiques et fonctionnalités d'un tel codeur, l'homme du métier pouvant se référer à toutes fins utiles, pour plus de détails, à la recommandation G 729 précitée.

Le codeur de prédiction CD, du type ACELP, est fondé sur le modèle de codage prédictif linéaire à excitation par code. Le codeur opère sur des super-trames vocales équivalentes par exemple à 20 ms de signal et comportant chacune 320 échantillons. L'extraction des paramètres de prédiction linéaire, c'est-à-dire les coefficients du filtre de prédiction linéaire également appelé filtre de synthèse à court terme 1/A(z), est effectuée pour chaque super-trame de parole. Par contre, chaque super-trame est subdivisée en trames de 5 ms comprenant 80 échantillons. Toutes les trames, le signal vocal est analysé pour en extraire les paramètres du modèle de prédiction CELP (c'est-à-dire notamment, un mot numérique d'excitation à long terme v_i extrait d'un répertoire codé adaptatif DLT, également dénommé « dictionnaire à long terme adaptatif », un gain à long terme associé Ga, un mot d'excitation à court terme c_j, extrait d'un répertoire codé algébrique DCT, également dénommé « répertoire codé fixe » ou « dictionnaire à court terme algébrique », et un gain à court terme associé Gc).

Ces paramètres sont ensuite codés et transmis.

A la réception, ces paramètres servent, dans un décodeur, à récupérer les paramètres d'excitation et du filtre prédictif. On reconstitue alors la parole en filtrant ce flux d'excitation dans un filtre de synthèse à court terme.

Alors que le dictionnaire adaptatif DLT contient des mots numériques représentatifs de délais tonaux représentatifs d'excitations passées, le dictionnaire à court terme DCT est fondé sur une structure algébrique utilisant un modèle de permutation entrelacée d'impulsions de Dirac. Dans ce répertoire codé, qui contient des excitations innovatrices, également appelées excitations algébriques ou à court terme, chaque vecteur contient un certain nombre d'impulsions non nulles, par exemple quatre, dont chacune peut avoir l'amplitude +1 ou -1 avec des positions prédéterminées.

Les moyens de traitement du codeur CD comportent fonctionnellement des premiers moyens d'extraction MEXT1 destinés à extraire le mot d'excitation à long terme, et des deuxièmes moyens d'extraction MEXT2 destinés à extraire le mot d'excitation à court terme. Fonctionnellement, ces moyens sont réalisés par exemple de façon logicielle au sein d'un processeur.

Ces moyens d'extraction comportent un filtre prédictif FP ayant une fonction de transfert égale à 1/A(z), ainsi qu'un filtre de pondération perceptuel FPP ayant une fonction de transfert W(z). Le filtre de pondération perceptuelle est appliqué au signal pour modéliser la perception de l'oreille.

Par ailleurs, les moyens d'extraction comportent des moyens MECM destinés à effectuer une minimisation d'une erreur carrée moyenne.

Le filtre de synthèse FP de la prédiction linéaire modélise l'enveloppe spectrale du signal. L'analyse prédictive linéaire est effectuée toutes les super-trames, de façon à déterminer les coefficients de filtrage prédictif linéaire. Ceux-ci sont convertis en paires de lignes spectrales (LSP : « Line Spectrum Pairs ») et numérisés par quantification vectorielle prédictive en deux étapes.

Chaque super-trame de parole de 20 ms est divisée en quatre trames de 5 ms chacune contenant 80 échantillons. Les paramètres LSP quantifiés sont transmis au décodeur une fois par super-trame alors que les paramètres à long terme et à court terme sont transmis à chaque trame.

Les coefficients du filtre de prédiction linéaire, quantifiés et non quantifiés, sont utilisés pour la trame la plus récente d'une super-trame, tandis que les trois autres trames de la même super-trame utilisent une interpolation de ces coefficients. Le délai tonal en boucle ouverte est estimé toutes les deux trames sur la base du signal vocal pondéré perceptuellement. Puis, les opérations suivantes sont répétées à chaque trame :

Le signal cible à long terme X_LT est calculé en filtrant le signal de parole échantillonné s(n) par le filtre de pondération perceptuelle FPP.

On soustrait ensuite du signal vocal pondéré la réponse à entrée nulle du filtre de synthèse pondéré FP, FPP, de façon à obtenir un nouveau signal cible long terme.

La réponse impulsionnelle du filtre de synthèse pondéré est calculé.

Une analyse tonale en boucle fermée utilisant une minimisation de l'erreur carrée moyenne, est ensuite effectuée afin de déterminer le mot d'excitation à long terme v_i et le gain associé Ga, au moyen du signal cible et de la réponse impulsionnelle, par recherche autour de la valeur du délai tonal en boucle ouverte.

Le signal cible long terme est ensuite mis à jour par soustraction de la contribution filtrée y du répertoire codé adaptatif DLT et ce nouveau signal cible court terme X_ST est utilisé lors de l'exploration du répertoire codé fixe DCT afin de déterminer le mot d'excitation court terme c_j et le gain G_c associé. Là encore, cette recherche en boucle fermée s'effectue par une minimisation de l'erreur carrée moyenne.

Finalement, le dictionnaire à long terme adaptatif DLT ainsi que les mémoires des filtres FP et FPP, sont mis à jour au moyen des mots d'excitation long terme et court terme ainsi déterminés.

La qualité d'un algorithme CELP dépend fortement de la richesse du dictionnaire d'excitation algébrique DCT. Si l'efficacité d'un tel algorithme est incontestable pour les signaux à bande passante étroite (300-3400 Hz), des problèmes surviennent pour des signaux à bande élargie.

L'invention a pour but de contrôler indépendamment les distorsions à court terme et à long terme.

L'invention propose donc un procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale, on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique associé.

Selon une caractéristique générale de l'invention, on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique, on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique. Le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.

Ainsi, selon l'invention, l'utilisation de deux filtres de pondération formantique différents permet de contrôler indépendamment les distorsions à court terme et à long terme. Le filtre de pondération à court terme est cascadé au filtre de pondération à long terme. En outre, le fait de lier le dénominateur du filtre de pondération à long terme au numérateur du filtre de pondération à court terme permet de contrôler séparément ces deux filtres et permet en outre une nette simplification lorsque ces deux filtres sont cascadés.

L'invention a également pour objet un dispositif d'encodage de la parole à bande élargie, comportant

des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons,
des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif, et des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique.

Selon une caractéristique générale de l'invention, les premiers moyens d'extraction comprennent un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique, par le fait que les deuxièmes moyens d'extraction comprennent le premier filtre de pondération perceptuelle et un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique, et le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.

L'invention a également pour objet un terminal d'un système de communication sans fil, par exemple un téléphone mobile cellulaire, incorporant un dispositif tel que défini ci-avant.

D'autres avantages et caractéristiques de l'invention apparaítront à l'examen de la description détaillée de modes de réalisation et de mise en oeuvre, nullement limitatifs, et des dessins annexés, sur lesquels :

la figure 1, déjà décrite, illustre schématiquement un dispositif d'encodage de la parole, selon l'art antérieur ;
la figure 2 illustre schématiquement un mode de réalisation d'un dispositif d'encodage, selon l'invention ; et
la figure 3 illustre schématiquement l'architecture interne d'un téléphone mobile cellulaire incorporant un dispositif de codage, selon l'invention.

Le filtre de pondération perceptuelle FPP exploite les propriétés de masquage de l'oreille humaine par rapport à l'enveloppe spectrale du signal de parole, dont la forme est fonction des résonances du conduit vocal. Ce filtre permet d'attribuer plus d'importance à l'erreur apparaissant dans les vallées spectrales par rapport aux pics formantiques.

Dans l'art antérieur illustré sur la figure 1, le même filtre de pondération perceptuelle FPP est utilisé pour la recherche à court terme et pour celle à long terme. La fonction de transfert W(z) de ce filtre FPP est donnée par la formule (I) ci-dessous. W(z) = A(z/γ 1) A(z/γ2) dans laquelle 1/A(z) est la fonction de transfert du filtre prédictif FP et γ1 et γ2 sont les coefficients de pondération perceptuelle, les deux coefficients étant positifs ou nuls et inférieurs ou égaux à 1 avec le coefficient γ2 inférieur ou égal au coefficient γ1.

D'une façon générale, le filtre de pondération perceptuelle est constitué d'un filtre de pondération formantique et d'un filtre de pondération de la pente de l'enveloppe spectrale du signal (tilt).

Dans le cas présent, on supposera que le filtre de pondération perceptuelle est uniquement formé du filtre de pondération formantique dont la fonction de transfert est donnée par la formule (I) ci-dessus.

Or, la nature spectrale de la contribution à long terme est différente de celle de la contribution à court terme. Par conséquent, il est avantageux d'utiliser deux filtres de pondération formantique différents, permettant de contrôler indépendamment les distorsions à court terme et à long terme.

Un tel mode de réalisation selon l'invention est illustré sur la figure 2, dans laquelle, par rapport à la figure 1, le filtre unique FPP a été remplacé par un premier filtre de pondération formantique FPP1 pour la recherche à long terme, cascadé avec un deuxième filtre de pondération formantique FPP2 pour la recherche à court terme.

Puisque le filtre de pondération à court terme FPP2 est cascadé au filtre de pondération à long terme, les filtres apparaissant dans la boucle de recherche long terme doivent aussi apparaítre dans la boucle de recherche court terme.

La fonction de transfert W₁(z) du filtre de pondération formantique FPP1 est donnée par la formule (II) ci-dessous. W 1(z) = A(z/γ11) A(z/γ12) tandis que la fonction de transfert W₂(z) du filtre de pondération formantique FPP2 est donnée par la formule (III) ci-dessous. W 2 (z) = A(z/γ21) A(z/γ22)

Par ailleurs, le coefficient γ₁₂ est égal au coefficient γ₂₁. Ceci permet une nette simplification lorsqu'on cascade ces deux filtres. Ainsi, le filtre équivalent à la cascade de ces deux filtres a une fonction de transfert donnée par la formule (IV) ci-dessous. A(z/γ11) A(z/γ12)

Par ailleurs, si l'on utilise la valeur 1 pour le coefficient γ₁₁, alors le filtre de synthèse FP (ayant la fonction de transfert 1/A(z)) suivi du filtre de pondération à long terme FPP1 et du filtre de pondération FPP2 équivaut alors au filtre dont la fonction de transfert est donnée par la formule (V) ci-dessous. 1 A(z/γ22)

Ce qui réduit encore considérablement la complexité de l'algorithme d'extraction des excitations.

A titre indicatif, on peut par exemple utiliser pour les coefficients γ₁₁, γ₂₁ = γ₁₂ et γ₂₂, les valeurs respectives 1 ; 0,1 et 0,9.

L'invention s'applique avantageusement à la téléphonie mobile, et en particulier à tous terminaux distants appartenant à un système de communication sans fil.

Un tel terminal, par exemple un téléphone mobile TP, tel que celui illustré sur la figure 3, comporte de façon classique une antenne reliée par l'intermédiaire d'un duplexeur DUP à une chaíne de réception CHR et à une chaíne de transmission CHT. Un processeur en bande de base BB est relié respectivement à la chaíne de réception CHR et à la chaíne de transmission CHT par l'intermédiaire de convertisseurs analogiques numériques CAN et numériques analogiques CNA.

Classiquement, le processeur BB effectue des traitements en bande de base, et notamment un décodage de canal DCN, suivi d'un décodage de source DCS.

Pour l'émission, le processeur effectue un codage de source CCS suivi d'un codage de canal CCN.

Lorsque le téléphone mobile incorpore un codeur selon l'invention, celui-ci est incorporé au sein des moyens de codage de source CCS, tandis que le décodeur est incorporé au sein des moyens de décodage de source DCS.

Claims

Procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique, caractérisé par le fait qu'on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1), par le fait qu'on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2), et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
Dispositif d'encodage de la parole à bande élargie, comportant des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif, ainsi que des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique, caractérisé par le fait que les premiers moyens d'extraction (MEXT1) comprennent un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1), par le fait que les deuxièmes moyens d'extraction (MEXT2) comprennent le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2), et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
Terminal d'un système de communication sans fil, caractérisé par le fait qu'il incorpore un dispositif selon la revendication 2.
Terminal selon la revendication 3, caractérisé par le fait qu'il forme un téléphone mobile cellulaire.