FR2741743A1 - Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit - Google Patents
Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit Download PDFInfo
- Publication number
- FR2741743A1 FR2741743A1 FR9513943A FR9513943A FR2741743A1 FR 2741743 A1 FR2741743 A1 FR 2741743A1 FR 9513943 A FR9513943 A FR 9513943A FR 9513943 A FR9513943 A FR 9513943A FR 2741743 A1 FR2741743 A1 FR 2741743A1
- Authority
- FR
- France
- Prior art keywords
- bits
- frame
- speech signal
- signal
- unstable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 238000013139 quantization Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 description 12
- 230000001052 transient effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Le procédé vise à l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur (2) dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole. Il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer (4, 5) la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante. Application: vocodeurs bas débits.
Description
La présente invention concerne un procédé et un dispositif pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débits.
Les vocodeurs sont des dispositifs qui transforment le signal de parole analogique en un train de signaux binaires susceptibles d'être stockés ou transmis sur voix radio ou filaire. Pour les transmissions à faibles débits typiquement de 2400 bits/s et moins il est connu d'utiliser des vocodeurs à prédiction linéaire suivant lesquels la majeur partie du débit se trouve être affectée à la description d'un filtre de prédiction qui est sensé décrire le spectre en fréquence du signal de parole. Ce spectre permet de distinguer les différents sons, par exemple un "a" d'un "o".Le débit important alloué au filtre fait que le débit restant pour les autres paramètres définissant le voisement, le fondamental, I'énergie, est réduit à la portion congrue ce qui ne permet de transmettre par exemple la valeur de l'énergie qu'une fois par trame, la durée d'une trame étant fixée par exemple entre 20 et 30 ms.
Or l'intelligibilité est conditionnée non seulement par la fidélité de reproduction du spectre en fréquence du signal de parole, mais aussi par la fidélité de reproduction des transitoires dont le spectre en fréquence est en général beaucoup plus plat que celui des sons stables. Si ces transitoires sont médiocrement reproduits, il devient difficile de distinguer par exemple un "t" d'un "k" ou un "b" d'un "p".
Le but de l'invention est de pallier les inconvénients précités
A cet effet l'invention a pour objet un procédé pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole, caractérisé en ce qu'il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante.
A cet effet l'invention a pour objet un procédé pour l'amélioration de l'intelligibilité de la parole dans les vocodeurs à bas débit dans lesquels le signal de parole échantillonné sn est découpé en trames de durée déterminée, chaque trame étant associée à un filtre prédicteur dont les coefficients sont calculés en tenant compte de la configuration stable ou instable du signal de parole, caractérisé en ce qu'il consiste, pour déterminer le caractère stable ou instable du signal de parole, - à découper chaque trame en un nombre déterminé de sous trames - à calculer la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante.
L'invention a pour avantage qu'elle permet à débit constant une meilleure intelligibilité de la parole synthétisée grâce à une description fine de son spectre en fréquence lorsque le son est stable et une description fine de la puissance du signal de parole et de sa vitesse d'évolution avec une description plus succincte de son spectre en fréquence pour les sons transitoires.
D'autres caractéristiques et avantages de l'invention apparaîtront dans la description qui suit faite en regard des dessins annexés qui représentent:
La figure 1 un organigramme illustrant les différentes étapes du procédé selon l'invention.
La figure 1 un organigramme illustrant les différentes étapes du procédé selon l'invention.
La figure 2 un organigramme montrant les différentes étapes de traitement entrant dans la mise en oeuvre de l'étape de décision de la figure 1.
La figure 3 différents formats de données allouées suivant l'état de la trame du signal de parole, aux filtres de prédiction du vocodeur.
L'amélioration de l'intelligibilité de la parole transmise par les vocodeurs à bas débit repose selon l'invention sur la constatation que si le signal de parole est stable, il convient de bien transmettre son spectre en fréquence, car l'oreille a le temps de l'analyser finement, et que par contre si le signal de parole est transitoire, c'est-à-dire varie rapidement, I'oreille n'a plus le temps d'analyser finement son spectre en fréquence, puisque la résolution de l'oreille est inversement proportionnelle à la durée d'analyse, et que la sensation auditive est alors plutôt fonction de la forme exacte de l'évolution temporelle du signal.
Le procédé de codage selon l'invention met en oeuvre la méthode connue de codage de la parole par prédiction linéaire consistant à découper le signal de parole en trames de durée constante, en transmettant dans chaque trame un paquet de données représentatif des paramètres de prédiction du ou des filtres de synthèses du vocodeur. Dans son principe, le procédé consiste à coder les données transmises de façon différente selon que les sons à transmettre sont très stables, hautement transitoires, ou dans une situation intermédiaire. Pour les sons très stables, le vocodeur réserve dans le champ des données qu'il transmet un maximum de bits à la description précise du spectre en fréquence du signal vocal et un minimum de bits à la quantification de son énergie.Pour des sons hautement transitoires, le vocodeur transmet avec un nombre de bits réduits le spectre du signal vocal, en réservant davantage de bits pour quantifier d'une part, son énergie et d'autre part sa vitesse d'évolution. Pour les situations intermédiaires, le nombre de bits réservé au codage du spectre et de l'énergie varie respectivement entre les deux valeurs extrêmes précédentes. Ceci nécessite naturellement de transmettre, en plus des informations relatives, au spectre et à la puissance du signal de parole, un indicateur de stabilité pour définir la situation courante.
Le procédé selon l'invention se déroule suivant les étapes 1 à 7 de l'organigramme de la figure 1. La première étape consiste à effectuer une analyse par prédiction linéaire du signal de parole préalablement échantillonné par plage d'un nombre déterminé N d'échantillons sg à sn 1. L'analyse consiste à évaluer les coefficients aj d'un filtre de prédiction A(z) de fonction de transfert
en minimisant son erreur de prédiction. L'erreur de prédiction est calculée à l'étape 2. Elle représente l'énergie résiduelle du signal obtenu en filtrant des échantillons sg son 1 par le filtre de fonction de transfert A(z).Chaque échantillon noté en du signal résiduel est déterminé selon la relation:
et l'erreur totale, E, a pour expression
en minimisant son erreur de prédiction. L'erreur de prédiction est calculée à l'étape 2. Elle représente l'énergie résiduelle du signal obtenu en filtrant des échantillons sg son 1 par le filtre de fonction de transfert A(z).Chaque échantillon noté en du signal résiduel est déterminé selon la relation:
et l'erreur totale, E, a pour expression
La minimisation de la relation précédente conduit à résoudre un système de p équations à inconnues, défini par la relation:
<tb> <SEP> p
<tb> R(k)+aR(k-i)=0 <SEP> (4) <SEP> pourk=1..p
<tb> <SEP> i=l
<tb>
Dans ce système, Rk est le kème coefficient d'autocorrélation du signal, défini var:
<tb> R(k)+aR(k-i)=0 <SEP> (4) <SEP> pourk=1..p
<tb> <SEP> i=l
<tb>
Dans ce système, Rk est le kème coefficient d'autocorrélation du signal, défini var:
La résolution du système d'équations (4) peut être effectuée à l'aide de l'algorithme connu Levinson-Durbin dont une description peut être trouvée à la page 124 du livre intitulé 'Traitement de la parole" de MM. René BOITE et
MURAT KUNT publié aux "Presses polytechniques Romandes" CHIOTS
Lausanne. II permet non seulement d'obtenir les coefficients aj mais aussi un jeu de p coefficients de réflexions notés K1 à Kp, de valeurs comprises entre -1 et +1 si le filtre 1/A(z) est stable.
MURAT KUNT publié aux "Presses polytechniques Romandes" CHIOTS
Lausanne. II permet non seulement d'obtenir les coefficients aj mais aussi un jeu de p coefficients de réflexions notés K1 à Kp, de valeurs comprises entre -1 et +1 si le filtre 1/A(z) est stable.
Suivant ce processus le gain théorique G du filtre A(z), qui représente le rapport entre la puissance du signal résiduel (e) et celle du signal d'entrée (s) est donné par la relation simple: G=fl(I-Ki) (6)
La détermination de la fréquence du fondamental ou Pitch dans le langage Anglo saxon a lieu à l'étape 3, en évaluant le retard M pour lequel l'autocorrélation normalisée du signal est la plus élevée. Le calcul correspondant consiste à déterminer pour chaque valeur de M une valeur p(M) résultat de l'autocorrélation des échantillons de signal Sn obtenue par la relation:
La détermination de la fréquence du fondamental ou Pitch dans le langage Anglo saxon a lieu à l'étape 3, en évaluant le retard M pour lequel l'autocorrélation normalisée du signal est la plus élevée. Le calcul correspondant consiste à déterminer pour chaque valeur de M une valeur p(M) résultat de l'autocorrélation des échantillons de signal Sn obtenue par la relation:
La valeur de M retenue est celle pour laquelle p(M) est maximum.
Le procédé se poursuit aux étapes 4 et 5 par des mesures de puissance du signal à l'intérieur de fenêtres de longueur multiples de la fréquence du fondamental M. Pour que l'estimation de la puissance soit indépendante de la position de la fenêtre la mesure s'effectue par accumulation des valeurs des échantillons élevés au carré suivant la relation:
<tb> kM-l <SEP> (8)
<tb> <SEP> kM <SEP> = <SEP> kM <SEP> E <SEP> S2n
<tb> <SEP> n=0
<tb> dans laquelle k est choisit de telle sorte que la durée kM soit juste supérieure à une durée minimale prédéterminée.
<tb> <SEP> kM <SEP> = <SEP> kM <SEP> E <SEP> S2n
<tb> <SEP> n=0
<tb> dans laquelle k est choisit de telle sorte que la durée kM soit juste supérieure à une durée minimale prédéterminée.
A titre d'exemple, la durée d'une trame peut être fixée à 22,5 ms et l'échantillonnage du signal peut être fixé à 8000 échantillons par seconde comme cela a lieu dans certains vocodeurs standard ayant un débit fixé à 2400 bits/s, ce qui conduit à considérer 180 échantillons par trame.
Afin d'améliorer la finesse de définition de la puissance l'étape 4, consiste à effectuer dans chaque trame deux mesures de la puissance du signal, une dans la première demi trame, foumissant une puissance notée S1 et une dans la deuxième fournissant une puissance notée S2 et à effectuer à l'étape 5, six mesures de la puissance du signal résiduel e, trois par demi trame, notées El à E6. L'analyse par prédiction linéaire de l'étape 1 est alors effectuée deux fois par trame ce qui conduit à considérer deux valeurs de gain G1 et G2. A partir des valeurs numériques de l'exemple précité, les longueurs des fenêtres de mesure utilisées dans l'exécution des étapes 4 et 5 doivent être respectivement supérieures ou égales à 90 et 30.Une fois le calcul des puissances terminé le procédé détermine à l'étape 6 la nature stable ou instable du signal. Pour se faire, le processus de décision s'appuie sur le fait vérifié en pratique, que si le signal est stable, comme c'est le cas par exemple lorsqu'il est généré de façon synthétique en filtrant une excitation périodique, la puissance du signal résiduel e est très voisine de la puissance du signal original multipliée par le gain de prédiction G, G étant inférieur à 1. Le procédé consiste alors à comparer de la façon représentée à la figure 2, la puissance du signal résiduel e obtenue à l'étape 5 à G fois celle du signal, et à décider que le signal est transitoire si le résultat montre qu'elle s'écarte trop de cette valeur.Ceci a lieu, aux étapes 8 à12 en vérifiant que les puissances El, E2, et
E3, relevées sur la première demi trame sont toutes voisines de G1.S1, c'est-àdire toutes comprises entre a fois et ss fois G1.S1. Si tel est le cas, la demi trame est déclarée stable. Dans le cas contraire, I'étape 13 consiste à calculer trois gains en tension gi égaux à (Ei!(Si.Si))1!2 avec i=1, 2, 3. Un traitement identique est effectué selon les étapes 14 à 20 sur la deuxième demi trame, et, si cette trame apparaît instable, trois valeurs de gain en tension 94, 95, 96, sont aussi calculées comme précédemment. Les gains gj sont utilisés pour moduler rapidement le niveau du signal d'excitation du filtre de synthèse du vocodeur.Les valeurs des seuils a et ss sont réglés pour rendre maximum l'intelligibilité. A titre d'exemple, des valeurs a=0,8 et ss=1,3 conduisent à estimer instables environ 5 à 10% des demi-trames. En retoumant à la figure 1,
I'étape 7 suivante consiste à opérer une quantification du filtre de prédiction à partir des valeurs des gains calculés précédemment et des valeurs des coefficients ai du filtre de synthèse obtenues de l'analyse par prédiction linéaire de l'étape 1. Ce processus consiste à allouer un nombre déterminé K de bits pour les quantifications respectives de l'état de la trame, de l'état du ou des filtres de prédiction, et des gains correspondants.Suivant une première variante représentée aux figures 3A à 3C le processus consiste à réserver un bit B pour signaler si la trame courante est totalement stable ou non. Dans le cas où la trame est stable, K-l bits sont réservés à la quantification du filtre de prédiction et le bit B prend la valeur binaire 1. Dans les autres cas, le bit B est placé dans l'état binaire 0 et deux autres bits B1 et B2 sont utilisés pour signaler l'état de stabilité des deux demi-trames. Si une seule des demi-trames est instable, K1 bits sont utilisés à la quantification des trois gains correspondants, les K-3-KI bits restants étant réservés à la quantification du filtre de prédiction.Par contre si les deux demi-trames sont instables, K2 bits sont réservés pour quantifier les six gains locaux et les K-3-K2 bits restants sont réservés à la quantification du filtre. En pratique, quatre bits suffisent pour la quantification des trois gains et garantir une fidélité suffisante ce qui donne K1=4 et K2=2.K1=8. Cependant, il est à noter que parmi les 4 combinaisons possibles des bits B1 et B2 la combinaison qui pourrait correspondre à deux demi-trames stables n'est pas utilisée. A cette fin une deuxième variante du procédé peut consister à décrire l'état de stabilité des deux demi-trame par l'état des deux bits B1 et B2 en affectant K-2 bits à la description du filtre.Dans ces conditions si une seule des demi-trames est instable, K1 bits sont affectés pour la quantification des trois gains correspondants, et K-2-K1 bits sont réservés à la quantification du filtre. Enfin si les deux demi-trames sont instables, K2 bits sont alors utilisés à la quantification des six gains locaux et
K-2-k2 bits sont réservés à la quantification du filtre. Naturellement d'autres variantes de réalisation sont encore possibles.
E3, relevées sur la première demi trame sont toutes voisines de G1.S1, c'est-àdire toutes comprises entre a fois et ss fois G1.S1. Si tel est le cas, la demi trame est déclarée stable. Dans le cas contraire, I'étape 13 consiste à calculer trois gains en tension gi égaux à (Ei!(Si.Si))1!2 avec i=1, 2, 3. Un traitement identique est effectué selon les étapes 14 à 20 sur la deuxième demi trame, et, si cette trame apparaît instable, trois valeurs de gain en tension 94, 95, 96, sont aussi calculées comme précédemment. Les gains gj sont utilisés pour moduler rapidement le niveau du signal d'excitation du filtre de synthèse du vocodeur.Les valeurs des seuils a et ss sont réglés pour rendre maximum l'intelligibilité. A titre d'exemple, des valeurs a=0,8 et ss=1,3 conduisent à estimer instables environ 5 à 10% des demi-trames. En retoumant à la figure 1,
I'étape 7 suivante consiste à opérer une quantification du filtre de prédiction à partir des valeurs des gains calculés précédemment et des valeurs des coefficients ai du filtre de synthèse obtenues de l'analyse par prédiction linéaire de l'étape 1. Ce processus consiste à allouer un nombre déterminé K de bits pour les quantifications respectives de l'état de la trame, de l'état du ou des filtres de prédiction, et des gains correspondants.Suivant une première variante représentée aux figures 3A à 3C le processus consiste à réserver un bit B pour signaler si la trame courante est totalement stable ou non. Dans le cas où la trame est stable, K-l bits sont réservés à la quantification du filtre de prédiction et le bit B prend la valeur binaire 1. Dans les autres cas, le bit B est placé dans l'état binaire 0 et deux autres bits B1 et B2 sont utilisés pour signaler l'état de stabilité des deux demi-trames. Si une seule des demi-trames est instable, K1 bits sont utilisés à la quantification des trois gains correspondants, les K-3-KI bits restants étant réservés à la quantification du filtre de prédiction.Par contre si les deux demi-trames sont instables, K2 bits sont réservés pour quantifier les six gains locaux et les K-3-K2 bits restants sont réservés à la quantification du filtre. En pratique, quatre bits suffisent pour la quantification des trois gains et garantir une fidélité suffisante ce qui donne K1=4 et K2=2.K1=8. Cependant, il est à noter que parmi les 4 combinaisons possibles des bits B1 et B2 la combinaison qui pourrait correspondre à deux demi-trames stables n'est pas utilisée. A cette fin une deuxième variante du procédé peut consister à décrire l'état de stabilité des deux demi-trame par l'état des deux bits B1 et B2 en affectant K-2 bits à la description du filtre.Dans ces conditions si une seule des demi-trames est instable, K1 bits sont affectés pour la quantification des trois gains correspondants, et K-2-K1 bits sont réservés à la quantification du filtre. Enfin si les deux demi-trames sont instables, K2 bits sont alors utilisés à la quantification des six gains locaux et
K-2-k2 bits sont réservés à la quantification du filtre. Naturellement d'autres variantes de réalisation sont encore possibles.
Notamment, il peut être envisagé que suivant l'état de stabilité de la trame, certains paramètres ne soient pas transmis, afin d'augmenter d'autant le débit disponible pour la transmission des coefficients du filtre eVou le gain, ou qu'au contraire, certains paramètre soient transmis plus finement. II est toujours en effet possible dans ces cas de réserver un nombre maximum de bits à la quantification des coefficients du filtre de prédiction lorsque la trame est stable et à diminuer le débit alloué au filtre au fur et à mesure que la stabilité de la trame décroit en augmentant celui alloué à la description temporelle fine de l'évolution du niveau énergétique du signal.
II est aussi possible d'étendre le principe de l'invention à un découpage encore plus fin des trames en un nombre quelconque de sous trames en effectuant dans chaque sous trame un nombre déterminé n de mesures de puissance de façon similaire à l'analyse en demi trames décrite précédemment.
Une mise en oeuvre d'un dispositif conforme à l'invention pourra être réalisée en utilisant notamment des microprocesseurs de traitement du signal du commerce, convenablement programmés selon les étapes du procédé précédemment décrit.
Claims (1)
- 5) la puissance du signal dans chaque sous trame - à effectuer dans chaque sous trame un nombre déterminé n de mesures de puissance du signal résiduel obtenu en sortie du filtre prédicteur durant des fenêtres de temps consécutives multiples de la fréquence du fondamental du signal de parole - et à comparer chacune des n mesures de puissance obtenues à l'énergie du signal de parole calculée dans la sous trame correspondante.2. procédé selon la revendication 1, caractérisé en ce que la fréquence du fondamental est exprimée en nombre d'échantillons M du signal de parole et a pour valeur celle qui rend maximum l'autocorrélation des échantillons sn du signal de parole.3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce qu'il consiste à attribuer (13, 19) des gains de filtre prédicteur dans chaque fenêtre de sous trame déclarée instable.4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'il consiste à quantifier (7) les coefficients du filtre prédicteur en fonction du caractère stable ou instable du signal de parole en accordant à la quantification des coefficients un nombre de bits maximum lorsque le signal est stable et en attribuant les bits non utilisés à la quantification des coefficients, à la quantification de gains du filtre prédicteur lorsque le signal de parole est instable.5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que chaque trame du signal de parole est découpée en deux demi-trames.6. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à attribuer un nombre déterminé K de bits à la quantification de l'état de chaque trame, un premier bit B étant réservé pour signaler son état stable ou instable et K-l bits étant affectés à la quantification des coefficients du filtre prédicteur lorsque la trame est stable.7. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à découper chaque demi-trame le long de trois fenêtres d'échantillons successives et à utiliser deux bits B1 et B2 pour indiquer l'état de stabilité des deux demi-trames, en utilisant K1 bits pour quantifier trois gains correspondants de filtre prédicteur et K-3-K1 bits pour quantifier les coefficients de prédiction.8. Procédé selon la revendication 7, caractérisé en ce qu'il consiste lorsque les deux demi-trames sont instables, à utiliser K2 bits pour quantifier six gains correspondants du filtre prédicteur et K-3-K2 bits pour quantifier les coefficients de prédiction.9. Procédé selon la revendication 5, caractérisé en ce qu'il consiste à attribuer un nombre déterminé K de bits à la quantification de l'état de chaque trame, à réserver deux bits B1, B2 pour décrire l'état de stabilité des deux demi-trames, à utiliser K-2 bits pour la quantification des coefficients du filtre prédicteur si les deux trames sont stables, à utiliser K1 bits pour quantifier trois gains de filtre de prédiction à l'intérieur de trois fenêtre disposées le long de la demi-trame et K-2-K1 bits pour la quantification du filtre, et à utiliser lorsque les deux demi-trames sont instables K2 bits pour quantifier 6 gains à l'intérieur de la trame le long de 6 fenêtres consécutives et K-2-K2 bits pour la quantification du filtre prédicteur.10. Dispositif pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce qu'il comporte au moins un microprocesseur de traitement de signal convenablement programmé pour la mise en oeuvre du procédé.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9513943A FR2741743B1 (fr) | 1995-11-23 | 1995-11-23 | Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9513943A FR2741743B1 (fr) | 1995-11-23 | 1995-11-23 | Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2741743A1 true FR2741743A1 (fr) | 1997-05-30 |
FR2741743B1 FR2741743B1 (fr) | 1998-01-02 |
Family
ID=9484859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9513943A Expired - Fee Related FR2741743B1 (fr) | 1995-11-23 | 1995-11-23 | Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2741743B1 (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01261700A (ja) * | 1988-04-13 | 1989-10-18 | Hitachi Ltd | 音声符号化方式 |
EP0566131A2 (fr) * | 1992-04-15 | 1993-10-20 | Sony Corporation | Méthode et dispositif pour la discrimination entre sons voisés et non-voisés |
WO1995028824A2 (fr) * | 1994-04-15 | 1995-11-02 | Hughes Aircraft Company | Procede de codage de signaux de parole |
-
1995
- 1995-11-23 FR FR9513943A patent/FR2741743B1/fr not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01261700A (ja) * | 1988-04-13 | 1989-10-18 | Hitachi Ltd | 音声符号化方式 |
EP0566131A2 (fr) * | 1992-04-15 | 1993-10-20 | Sony Corporation | Méthode et dispositif pour la discrimination entre sons voisés et non-voisés |
WO1995028824A2 (fr) * | 1994-04-15 | 1995-11-02 | Hughes Aircraft Company | Procede de codage de signaux de parole |
Non-Patent Citations (3)
Title |
---|
D.L.THOMSON, D.P.PREZAS: "selective modeling of the LPC residual during unvoiced frames: white noise or pulse excitation", ICASSP '86, vol. 4, 7 April 1986 (1986-04-07) - 11 April 1986 (1986-04-11), TOKYO, JAPAN, pages 3087 - 3090, XP002012494 * |
KUREMATSU A ET AL: "A linear predictive vocoder with new pitch extraction and exciting source", ICASSP 79. 1979 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, WASHINGTON, DC, USA, 2-4 APRIL 1979, 1979, NEW YORK, NY, USA, IEEE, USA, pages 69 - 72, XP002012493 * |
PATENT ABSTRACTS OF JAPAN vol. 014, no. 015 (P - 989) 12 January 1990 (1990-01-12) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
US6453282B1 (en) | 1997-08-22 | 2002-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for detecting a transient in a discrete-time audiosignal |
Also Published As
Publication number | Publication date |
---|---|
FR2741743B1 (fr) | 1998-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0768770B1 (fr) | Procédé et dispositif de création d'un bruit de confort dans un système de transmission numérique de parole | |
KR100754085B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
EP2080195A1 (fr) | Synthèse de blocs perdus d'un signal audionumérique, avec correction de période de pitch | |
EP0127718A1 (fr) | Procédé de détection d'activité dans un système de transmission de la voix | |
FR2520539A1 (fr) | Procede et systeme de traitement des silences dans un signal de parole | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
FR2596936A1 (fr) | Systeme de transmission d'un signal vocal | |
EP2936488B1 (fr) | Atténuation efficace de pré-échos dans un signal audionumérique | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
FR2784218A1 (fr) | Procede de codage de la parole a bas debit | |
EP1267325A1 (fr) | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede | |
EP0490740A1 (fr) | Procédé et dispositif pour l'évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit. | |
EP0685833B1 (fr) | Procédé de codage de parole à prédiction linéaire | |
EP0195441B1 (fr) | Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation | |
EP1875465A1 (fr) | Procede d'adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques | |
EP2347411B1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
EP2005424A2 (fr) | Procede de post-traitement d'un signal dans un decodeur audio | |
FR2741743A1 (fr) | Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit | |
EP2589045B1 (fr) | Codage/décodage prédictif linéaire adaptatif | |
EP0347307B1 (fr) | Procédé de codage et codeur de parole à prédiction linéaire | |
EP1192619B1 (fr) | Codage et decodage audio par interpolation | |
CA2079884A1 (fr) | Procede et dispositif de codage bas debit de la parole | |
EP1192618B1 (fr) | Codage audio avec liftrage adaptif | |
EP1192621B1 (fr) | Codage audio avec composants harmoniques | |
FR2737360A1 (fr) | Procedes de codage et de decodage de signaux audiofrequence, codeur et decodeur pour la mise en oeuvre de tels procedes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CD | Change of name or company name | ||
ST | Notification of lapse |