FR2741743A1

FR2741743A1 - Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit

Info

Publication number: FR2741743A1
Application number: FR9513943A
Authority: FR
Inventors: Pierre Andre Laurent
Original assignee: Thomson CSF SA
Current assignee: Thales SA
Priority date: 1995-11-23
Filing date: 1995-11-23
Publication date: 1997-05-30
Anticipated expiration: 2015-11-23
Also published as: FR2741743B1

Abstract

Le procédé vise à l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur (2) dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole. Il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer (4, 5) la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante. Application: vocodeurs bas débits.

Description

La présente invention concerne un procédé et un dispositif pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débits.

Les vocodeurs sont des dispositifs qui transforment le signal de parole analogique en un train de signaux binaires susceptibles d'être stockés ou transmis sur voix radio ou filaire. Pour les transmissions à faibles débits typiquement de 2400 bits/s et moins il est connu d'utiliser des vocodeurs à prédiction linéaire suivant lesquels la majeur partie du débit se trouve être affectée à la description d'un filtre de prédiction qui est sensé décrire le spectre en fréquence du signal de parole. Ce spectre permet de distinguer les différents sons, par exemple un "a" d'un "o".Le débit important alloué au filtre fait que le débit restant pour les autres paramètres définissant le voisement, le fondamental, I'énergie, est réduit à la portion congrue ce qui ne permet de transmettre par exemple la valeur de l'énergie qu'une fois par trame, la durée d'une trame étant fixée par exemple entre 20 et 30 ms.

Or l'intelligibilité est conditionnée non seulement par la fidélité de reproduction du spectre en fréquence du signal de parole, mais aussi par la fidélité de reproduction des transitoires dont le spectre en fréquence est en général beaucoup plus plat que celui des sons stables. Si ces transitoires sont médiocrement reproduits, il devient difficile de distinguer par exemple un "t" d'un "k" ou un "b" d'un "p".

Le but de l'invention est de pallier les inconvénients précités
A cet effet l'invention a pour objet un procédé pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole, caractérisé en ce qu'il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante.

L'invention a pour avantage qu'elle permet à débit constant une meilleure intelligibilité de la parole synthétisée grâce à une description fine de son spectre en fréquence lorsque le son est stable et une description fine de la puissance du signal de parole et de sa vitesse d'évolution avec une description plus succincte de son spectre en fréquence pour les sons transitoires.

D'autres caractéristiques et avantages de l'invention apparaîtront dans la description qui suit faite en regard des dessins annexés qui représentent:
La figure 1 un organigramme illustrant les différentes étapes du procédé selon l'invention.

La figure 2 un organigramme montrant les différentes étapes de traitement entrant dans la mise en oeuvre de l'étape de décision de la figure 1.

La figure 3 différents formats de données allouées suivant l'état de la trame du signal de parole, aux filtres de prédiction du vocodeur.

L'amélioration de l'intelligibilité de la parole transmise par les vocodeurs à bas débit repose selon l'invention sur la constatation que si le signal de parole est stable, il convient de bien transmettre son spectre en fréquence, car l'oreille a le temps de l'analyser finement, et que par contre si le signal de parole est transitoire, c'est-à-dire varie rapidement, I'oreille n'a plus le temps d'analyser finement son spectre en fréquence, puisque la résolution de l'oreille est inversement proportionnelle à la durée d'analyse, et que la sensation auditive est alors plutôt fonction de la forme exacte de l'évolution temporelle du signal.

Le procédé de codage selon l'invention met en oeuvre la méthode connue de codage de la parole par prédiction linéaire consistant à découper le signal de parole en trames de durée constante, en transmettant dans chaque trame un paquet de données représentatif des paramètres de prédiction du ou des filtres de synthèses du vocodeur. Dans son principe, le procédé consiste à coder les données transmises de façon différente selon que les sons à transmettre sont très stables, hautement transitoires, ou dans une situation intermédiaire. Pour les sons très stables, le vocodeur réserve dans le champ des données qu'il transmet un maximum de bits à la description précise du spectre en fréquence du signal vocal et un minimum de bits à la quantification de son énergie.Pour des sons hautement transitoires, le vocodeur transmet avec un nombre de bits réduits le spectre du signal vocal, en réservant davantage de bits pour quantifier d'une part, son énergie et d'autre part sa vitesse d'évolution. Pour les situations intermédiaires, le nombre de bits réservé au codage du spectre et de l'énergie varie respectivement entre les deux valeurs extrêmes précédentes. Ceci nécessite naturellement de transmettre, en plus des informations relatives, au spectre et à la puissance du signal de parole, un indicateur de stabilité pour définir la situation courante.

Le procédé selon l'invention se déroule suivant les étapes 1 à 7 de l'organigramme de la figure 1. La première étape consiste à effectuer une analyse par prédiction linéaire du signal de parole préalablement échantillonné par plage d'un nombre déterminé N d'échantillons sg à sn 1. L'analyse consiste à évaluer les coefficients aj d'un filtre de prédiction A(z) de fonction de transfert

en minimisant son erreur de prédiction. L'erreur de prédiction est calculée à l'étape 2. Elle représente l'énergie résiduelle du signal obtenu en filtrant des échantillons sg son 1 par le filtre de fonction de transfert A(z).Chaque échantillon noté en du signal résiduel est déterminé selon la relation:

et l'erreur totale, E, a pour expression

La minimisation de la relation précédente conduit à résoudre un système de p équations à inconnues, défini par la relation:

<tb> <SEP> p
<tb> R(k)+aR(k-i)=0 <SEP> (4) <SEP> pourk=1..p
<tb> <SEP> i=l
<tb>
Dans ce système, Rk est le kème coefficient d'autocorrélation du signal, défini var:

La résolution du système d'équations (4) peut être effectuée à l'aide de l'algorithme connu Levinson-Durbin dont une description peut être trouvée à la page 124 du livre intitulé 'Traitement de la parole" de MM. René BOITE et
MURAT KUNT publié aux "Presses polytechniques Romandes" CHIOTS
Lausanne. II permet non seulement d'obtenir les coefficients aj mais aussi un jeu de p coefficients de réflexions notés K1 à Kp, de valeurs comprises entre -1 et +1 si le filtre 1/A(z) est stable.

Suivant ce processus le gain théorique G du filtre A(z), qui représente le rapport entre la puissance du signal résiduel (e) et celle du signal d'entrée (s) est donné par la relation simple: G=fl(I-Ki) (6)
La détermination de la fréquence du fondamental ou Pitch dans le langage Anglo saxon a lieu à l'étape 3, en évaluant le retard M pour lequel l'autocorrélation normalisée du signal est la plus élevée. Le calcul correspondant consiste à déterminer pour chaque valeur de M une valeur p(M) résultat de l'autocorrélation des échantillons de signal Sn obtenue par la relation:

La valeur de M retenue est celle pour laquelle p(M) est maximum.

Le procédé se poursuit aux étapes 4 et 5 par des mesures de puissance du signal à l'intérieur de fenêtres de longueur multiples de la fréquence du fondamental M. Pour que l'estimation de la puissance soit indépendante de la position de la fenêtre la mesure s'effectue par accumulation des valeurs des échantillons élevés au carré suivant la relation:

<tb> kM-l <SEP> (8)
<tb> <SEP> kM <SEP> = <SEP> kM <SEP> E <SEP> S2n
<tb> <SEP> n=0
<tb> dans laquelle k est choisit de telle sorte que la durée kM soit juste supérieure à une durée minimale prédéterminée.

A titre d'exemple, la durée d'une trame peut être fixée à 22,5 ms et l'échantillonnage du signal peut être fixé à 8000 échantillons par seconde comme cela a lieu dans certains vocodeurs standard ayant un débit fixé à 2400 bits/s, ce qui conduit à considérer 180 échantillons par trame.

Afin d'améliorer la finesse de définition de la puissance l'étape 4, consiste à effectuer dans chaque trame deux mesures de la puissance du signal, une dans la première demi trame, foumissant une puissance notée S1 et une dans la deuxième fournissant une puissance notée S2 et à effectuer à l'étape 5, six mesures de la puissance du signal résiduel e, trois par demi trame, notées El à E6. L'analyse par prédiction linéaire de l'étape 1 est alors effectuée deux fois par trame ce qui conduit à considérer deux valeurs de gain G1 et G2. A partir des valeurs numériques de l'exemple précité, les longueurs des fenêtres de mesure utilisées dans l'exécution des étapes 4 et 5 doivent être respectivement supérieures ou égales à 90 et 30.Une fois le calcul des puissances terminé le procédé détermine à l'étape 6 la nature stable ou instable du signal. Pour se faire, le processus de décision s'appuie sur le fait vérifié en pratique, que si le signal est stable, comme c'est le cas par exemple lorsqu'il est généré de façon synthétique en filtrant une excitation périodique, la puissance du signal résiduel e est très voisine de la puissance du signal original multipliée par le gain de prédiction G, G étant inférieur à 1. Le procédé consiste alors à comparer de la façon représentée à la figure 2, la puissance du signal résiduel e obtenue à l'étape 5 à G fois celle du signal, et à décider que le signal est transitoire si le résultat montre qu'elle s'écarte trop de cette valeur.Ceci a lieu, aux étapes 8 à12 en vérifiant que les puissances El, E2, et
E3, relevées sur la première demi trame sont toutes voisines de G1.S1, c'est-àdire toutes comprises entre a fois et ss fois G1.S1. Si tel est le cas, la demi trame est déclarée stable. Dans le cas contraire, I'étape 13 consiste à calculer trois gains en tension gi égaux à (Ei!(Si.Si))1!2 avec i=1, 2, 3. Un traitement identique est effectué selon les étapes 14 à 20 sur la deuxième demi trame, et, si cette trame apparaît instable, trois valeurs de gain en tension 94, 95, 96, sont aussi calculées comme précédemment. Les gains gj sont utilisés pour moduler rapidement le niveau du signal d'excitation du filtre de synthèse du vocodeur.Les valeurs des seuils a et ss sont réglés pour rendre maximum l'intelligibilité. A titre d'exemple, des valeurs a=0,8 et ss=1,3 conduisent à estimer instables environ 5 à 10% des demi-trames. En retoumant à la figure 1,
I'étape 7 suivante consiste à opérer une quantification du filtre de prédiction à partir des valeurs des gains calculés précédemment et des valeurs des coefficients ai du filtre de synthèse obtenues de l'analyse par prédiction linéaire de l'étape 1. Ce processus consiste à allouer un nombre déterminé K de bits pour les quantifications respectives de l'état de la trame, de l'état du ou des filtres de prédiction, et des gains correspondants.Suivant une première variante représentée aux figures 3A à 3C le processus consiste à réserver un bit B pour signaler si la trame courante est totalement stable ou non. Dans le cas où la trame est stable, K-l bits sont réservés à la quantification du filtre de prédiction et le bit B prend la valeur binaire 1. Dans les autres cas, le bit B est placé dans l'état binaire 0 et deux autres bits B1 et B2 sont utilisés pour signaler l'état de stabilité des deux demi-trames. Si une seule des demi-trames est instable, K1 bits sont utilisés à la quantification des trois gains correspondants, les K-3-KI bits restants étant réservés à la quantification du filtre de prédiction.Par contre si les deux demi-trames sont instables, K2 bits sont réservés pour quantifier les six gains locaux et les K-3-K2 bits restants sont réservés à la quantification du filtre. En pratique, quatre bits suffisent pour la quantification des trois gains et garantir une fidélité suffisante ce qui donne K1=4 et K2=2.K1=8. Cependant, il est à noter que parmi les 4 combinaisons possibles des bits B1 et B2 la combinaison qui pourrait correspondre à deux demi-trames stables n'est pas utilisée. A cette fin une deuxième variante du procédé peut consister à décrire l'état de stabilité des deux demi-trame par l'état des deux bits B1 et B2 en affectant K-2 bits à la description du filtre.Dans ces conditions si une seule des demi-trames est instable, K1 bits sont affectés pour la quantification des trois gains correspondants, et K-2-K1 bits sont réservés à la quantification du filtre. Enfin si les deux demi-trames sont instables, K2 bits sont alors utilisés à la quantification des six gains locaux et
K-2-k2 bits sont réservés à la quantification du filtre. Naturellement d'autres variantes de réalisation sont encore possibles.

Notamment, il peut être envisagé que suivant l'état de stabilité de la trame, certains paramètres ne soient pas transmis, afin d'augmenter d'autant le débit disponible pour la transmission des coefficients du filtre eVou le gain, ou qu'au contraire, certains paramètre soient transmis plus finement. II est toujours en effet possible dans ces cas de réserver un nombre maximum de bits à la quantification des coefficients du filtre de prédiction lorsque la trame est stable et à diminuer le débit alloué au filtre au fur et à mesure que la stabilité de la trame décroit en augmentant celui alloué à la description temporelle fine de l'évolution du niveau énergétique du signal.

II est aussi possible d'étendre le principe de l'invention à un découpage encore plus fin des trames en un nombre quelconque de sous trames en effectuant dans chaque sous trame un nombre déterminé n de mesures de puissance de façon similaire à l'analyse en demi trames décrite précédemment.

Une mise en oeuvre d'un dispositif conforme à l'invention pourra être réalisée en utilisant notamment des microprocesseurs de traitement du signal du commerce, convenablement programmés selon les étapes du procédé précédemment décrit.

Claims

REVENDICATIONS 1. Procédé pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur (2) dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole, caractérisé en ce qu'il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer (4,

5) la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante.

2. procédé selon la revendication 1, caractérisé en ce que la fréquence du fondamental est exprimée en nombre d'échantillons M du signal de parole et a pour valeur celle qui rend maximum l'autocorrélation des échantillons sn du signal de parole.

3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce qu'il consiste à attribuer (13, 19) des gains de filtre prédicteur dans chaque fenêtre de sous trame déclarée instable.

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'il consiste à quantifier (7) les coefficients du filtre prédicteur en fonction du caractère stable ou instable du signal de parole en accordant à la quantification des coefficients un nombre de bits maximum lorsque le signal est stable et en attribuant les bits non utilisés à la quantification des coefficients, à la quantification de gains du filtre prédicteur lorsque le signal de parole est instable.

5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que chaque trame du signal de parole est découpée en deux demi-trames.

6. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à attribuer un nombre déterminé K de bits à la quantification de l'état de chaque trame, un premier bit B étant réservé pour signaler son état stable ou instable et K-l bits étant affectés à la quantification des coefficients du filtre prédicteur lorsque la trame est stable.

7. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à découper chaque demi-trame le long de trois fenêtres d'échantillons successives et à utiliser deux bits B1 et B2 pour indiquer l'état de stabilité des deux demi-trames, en utilisant K1 bits pour quantifier trois gains correspondants de filtre prédicteur et K-3-K1 bits pour quantifier les coefficients de prédiction.

8. Procédé selon la revendication 7, caractérisé en ce qu'il consiste lorsque les deux demi-trames sont instables, à utiliser K2 bits pour quantifier six gains correspondants du filtre prédicteur et K-3-K2 bits pour quantifier les coefficients de prédiction.

9. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à attribuer un nombre déterminé K de bits à la quantification de l'état de chaque trame, à réserver deux bits B1, B2 pour décrire l'état de stabilité des deux demi-trames, à utiliser K-2 bits pour la quantification des coefficients du filtre prédicteur si les deux trames sont stables, à utiliser K1 bits pour quantifier trois gains de filtre de prédiction à l'intérieur de trois fenêtre disposées le long de la demi-trame et K-2-K1 bits pour la quantification du filtre, et à utiliser lorsque les deux demi-trames sont instables K2 bits pour quantifier 6 gains à l'intérieur de la trame le long de 6 fenêtres consécutives et K-2-K2 bits pour la quantification du filtre prédicteur.

10. Dispositif pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce qu'il comporte au moins un microprocesseur de traitement de signal convenablement programmé pour la mise en oeuvre du procédé.