CA2079884A1 - Procede et dispositif de codage bas debit de la parole - Google Patents
Procede et dispositif de codage bas debit de la paroleInfo
- Publication number
- CA2079884A1 CA2079884A1 CA 2079884 CA2079884A CA2079884A1 CA 2079884 A1 CA2079884 A1 CA 2079884A1 CA 2079884 CA2079884 CA 2079884 CA 2079884 A CA2079884 A CA 2079884A CA 2079884 A1 CA2079884 A1 CA 2079884A1
- Authority
- CA
- Canada
- Prior art keywords
- coding
- frames
- frame
- pitch
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000001755 vocal effect Effects 0.000 claims abstract description 10
- 239000011295 pitch Substances 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 101000984710 Homo sapiens Lymphocyte-specific protein 1 Proteins 0.000 description 1
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 1
- 102100027105 Lymphocyte-specific protein 1 Human genes 0.000 description 1
- 101100166829 Mus musculus Cenpk gene Proteins 0.000 description 1
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
2079884 9117541 PCTABS00106 Le procédé consiste après avoir découpé le signal de parole en trames de longueur constante, à calculer (4...10) les caractéristiques de N filtres de modélisation du conduit vocal ainsi que les caractéristiques de période fondamentale (pitch), de voisement et d'énergie du signal vocal. Un codage en bloc est effectué pour les filtres d'une part, pour le pitch et le voisement d'autre part. L'énergie du signal de parole est déterminée un nombre P de fois par trame pour N trames, puis codée en un seul bloc. Applications: vocodeurs à bas débit 800 bits/s.
Description
WO 91/17541 PC r/FR91/00329
2 0 7 ~88 1 Procédé et dispoYitif de codage bas débit de ~ p~role.
La présente invention concerne un procedé et un disposi-tif de codage bas débit de la parole.
Elle s 'applique notarnment à la réalisation de vocodeur~
pour les lisisons radio HF, ou de ceux utilisés pour la message-5rie vocale.
Dans ces domaines, le volume d'informations à transmettre se heurte de plus en plus aux limites technologiques des équipe-ments susceptibles de vehiculer la p~role. Ainsi pour des trans-missions dont le débit est inférieur à 2400 bits par seconde, 15les techniques de codage connues (MIC, DELTA, RELP etc. . . ) ne sont plus adaptées, le signal de parole ne pouvant plus etre transmis psr sa forme d'onde. Pour assurer ces transmissions il devient nécessalre d'utiliser les techniques de codage beaucoup plus sophistiquées des vocodeurs. Alnsi, la plupflrt des voco-5deurs tres bas déblt utilisent une technique de codage vectoriel de leur filtre numérique pour modéliser le conduit vocal. Cette modéli~ation a lieu par recherche d'une référence dans un dic-tionnaire. Cependant cette technique qul est ~ la fois très compllquée et couteuse à mettre en oeuvre ne permet pas d'obte-20nir une quantiflcation f3ne du signal de parole. Les dlfic1l1tés viennent en outre du fait que l'énergie du signal est souvent mal représentée et donc mal codée, de la sorte les brusques varlatlons d'amplltude du signal vocal ne peuvent plus etre restltuées correctement.
2SLe but de l'invention est de palller les inconvénients précltés .
A cet effet, I'Jnventlon a pour ob~et un procéde de co-dage a bas deblt de la parole, caractérl9é en ce qu'i~ consiste aprés avolr découpe le signAl de parole en trames de longueur 30constante, a calclller les caractérlstlques de N filtres de motéll~ation du conduit vocal alnsl que les caracteristlques de pérlode ~ondflmentale (pltch), de volsement et d'energie : .-. . :
"" , , ~ :
WO 91/17541 PCl/FR91/00329 '~798~1 2 du signal vocal par intervalles déterminés de .~ trames successi-ves en calculant l'énergie du signal de parole un nombre P déter-miné de fcis par trame pour coder l'ensemble de ces caractéristi-ques. D'autres caractéristiques et avantages de l'invention apparaitront à l'aide de la description faite en regsrd des dessins annexés qui représentent:
La figure 1 un organigramme illustrant le procéde de codage de la psrole mis en oeuvre par l'invention.
La figure 2 un mode de codage des coefficients LSP du filtre d'analyse mis en oeuvre a la figure 1 pour modéliser le conduit vocal.
La figure 3 un tableau de coefficients LSP.
La flgure 4 des chemins de codage de trames par inter?o-lation .
La figure 5 une table de codage de "pitch".
La figure 6 un organigramme illustrant le procédé de synthese du signal de parole mis en oeuvre par l'invention.
La figure 7 un graphe pour illustrer un mode d'interpola-tion des filtres de synthèse mis en oeuvre par l'invention.
La figure 8 un mode de réalisation d'un disposltif pour la mise en oeuvre du procédé selon l'invention.
Le procéde de codsge selon l'invention consiste après avoir découpé le signal de parole en trames de longueur cons-tante d'envlron 20 à 25 ms comme ceci a lieu habituellement dans les vocodeurs ~ déterminer et coder les caractéristiques du signal de parole sur N trames successives en déterminant l'énergle du slgnal P fois par trame.
La synthèse du signal de parole sur chaque trame a lieu ensulte en procédant au detramage et au decodage des valeurs des caractérlstlques codées du slgnal de parole.
Les étapes representatlves d'un precédé de codage selon l'inventlon appllquées a un cas ou N = 3 trames successives sont anAlysees sont représentées sur l'organlgramme de la figure 1.
Sur cet organlgramme le procédé commence aux étapes 1 ~ 6 par 3S le calcul sur la premlere trame analysee des coef~lc~en~ "1.$P"
WO 91/17541 Pcr/FR9l/oo329 ,;
2 ~
où "LSP" est l'abréviation anglaise de "Line Spectrum Pair".
d'un filtre d'analyse modelisant le conduit vocal: ce calcul peut être effectué par exemple en suivant la méthode connue décrite dans l'article de MM. Peter KABAL et ~a~i PRAKASA
RAMACHANDRA~ ayant pour titre "The computation of line spectral Frequencies using Chebyshev polynomials" publié dans IEE Transactions on Acoustics, Speech and Signal Processing ASSP-34 Dec. 86.
Après échantlllonnage du signal de parole sur chaque 1~ trame et quantification des échantillons sur un nombre déterminé
de bits ceux-ci sont préaccentués a l'étape 3. Comme l'opération d'échantilionnage rend périodique le spectre du slgnal de pa-role, le nombre d'échantillons pris en compte pour la détermina-tion des coefficients du fiitre de modélisation du conduit vocal est limité de façon connue en faisant le produit des échantil-lons préaccentués de l'étape 3 par une fenêtre de HAMMING de durée égale à celie d'une trame, cette fenêtre présentant aussi l'avantage de renforcer les résonances.
Les coefficients ki du fiitre de modélisation du con-duit vocal sont calcules à l'étape 5 à partir de coefficients d'autocorrélation Ri définis par une relation de la forme:
Ri = ~ S(k~ .S(k,i~ (1) ou l est un nombre entler variant de O à 10 par exemple, et S
représente un échsnti~lon de signal preaccentué et fenêtré.
Le calcul des coefficients Kl peut être effectué à
l'étape 5 en appllquant l'algorlthme connu de M. LEROUX-GUEGUEN dont une descrlptlon peut être trouvée dans l'article
La présente invention concerne un procedé et un disposi-tif de codage bas débit de la parole.
Elle s 'applique notarnment à la réalisation de vocodeur~
pour les lisisons radio HF, ou de ceux utilisés pour la message-5rie vocale.
Dans ces domaines, le volume d'informations à transmettre se heurte de plus en plus aux limites technologiques des équipe-ments susceptibles de vehiculer la p~role. Ainsi pour des trans-missions dont le débit est inférieur à 2400 bits par seconde, 15les techniques de codage connues (MIC, DELTA, RELP etc. . . ) ne sont plus adaptées, le signal de parole ne pouvant plus etre transmis psr sa forme d'onde. Pour assurer ces transmissions il devient nécessalre d'utiliser les techniques de codage beaucoup plus sophistiquées des vocodeurs. Alnsi, la plupflrt des voco-5deurs tres bas déblt utilisent une technique de codage vectoriel de leur filtre numérique pour modéliser le conduit vocal. Cette modéli~ation a lieu par recherche d'une référence dans un dic-tionnaire. Cependant cette technique qul est ~ la fois très compllquée et couteuse à mettre en oeuvre ne permet pas d'obte-20nir une quantiflcation f3ne du signal de parole. Les dlfic1l1tés viennent en outre du fait que l'énergie du signal est souvent mal représentée et donc mal codée, de la sorte les brusques varlatlons d'amplltude du signal vocal ne peuvent plus etre restltuées correctement.
2SLe but de l'invention est de palller les inconvénients précltés .
A cet effet, I'Jnventlon a pour ob~et un procéde de co-dage a bas deblt de la parole, caractérl9é en ce qu'i~ consiste aprés avolr découpe le signAl de parole en trames de longueur 30constante, a calclller les caractérlstlques de N filtres de motéll~ation du conduit vocal alnsl que les caracteristlques de pérlode ~ondflmentale (pltch), de volsement et d'energie : .-. . :
"" , , ~ :
WO 91/17541 PCl/FR91/00329 '~798~1 2 du signal vocal par intervalles déterminés de .~ trames successi-ves en calculant l'énergie du signal de parole un nombre P déter-miné de fcis par trame pour coder l'ensemble de ces caractéristi-ques. D'autres caractéristiques et avantages de l'invention apparaitront à l'aide de la description faite en regsrd des dessins annexés qui représentent:
La figure 1 un organigramme illustrant le procéde de codage de la psrole mis en oeuvre par l'invention.
La figure 2 un mode de codage des coefficients LSP du filtre d'analyse mis en oeuvre a la figure 1 pour modéliser le conduit vocal.
La figure 3 un tableau de coefficients LSP.
La flgure 4 des chemins de codage de trames par inter?o-lation .
La figure 5 une table de codage de "pitch".
La figure 6 un organigramme illustrant le procédé de synthese du signal de parole mis en oeuvre par l'invention.
La figure 7 un graphe pour illustrer un mode d'interpola-tion des filtres de synthèse mis en oeuvre par l'invention.
La figure 8 un mode de réalisation d'un disposltif pour la mise en oeuvre du procédé selon l'invention.
Le procéde de codsge selon l'invention consiste après avoir découpé le signal de parole en trames de longueur cons-tante d'envlron 20 à 25 ms comme ceci a lieu habituellement dans les vocodeurs ~ déterminer et coder les caractéristiques du signal de parole sur N trames successives en déterminant l'énergle du slgnal P fois par trame.
La synthèse du signal de parole sur chaque trame a lieu ensulte en procédant au detramage et au decodage des valeurs des caractérlstlques codées du slgnal de parole.
Les étapes representatlves d'un precédé de codage selon l'inventlon appllquées a un cas ou N = 3 trames successives sont anAlysees sont représentées sur l'organlgramme de la figure 1.
Sur cet organlgramme le procédé commence aux étapes 1 ~ 6 par 3S le calcul sur la premlere trame analysee des coef~lc~en~ "1.$P"
WO 91/17541 Pcr/FR9l/oo329 ,;
2 ~
où "LSP" est l'abréviation anglaise de "Line Spectrum Pair".
d'un filtre d'analyse modelisant le conduit vocal: ce calcul peut être effectué par exemple en suivant la méthode connue décrite dans l'article de MM. Peter KABAL et ~a~i PRAKASA
RAMACHANDRA~ ayant pour titre "The computation of line spectral Frequencies using Chebyshev polynomials" publié dans IEE Transactions on Acoustics, Speech and Signal Processing ASSP-34 Dec. 86.
Après échantlllonnage du signal de parole sur chaque 1~ trame et quantification des échantillons sur un nombre déterminé
de bits ceux-ci sont préaccentués a l'étape 3. Comme l'opération d'échantilionnage rend périodique le spectre du slgnal de pa-role, le nombre d'échantillons pris en compte pour la détermina-tion des coefficients du fiitre de modélisation du conduit vocal est limité de façon connue en faisant le produit des échantil-lons préaccentués de l'étape 3 par une fenêtre de HAMMING de durée égale à celie d'une trame, cette fenêtre présentant aussi l'avantage de renforcer les résonances.
Les coefficients ki du fiitre de modélisation du con-duit vocal sont calcules à l'étape 5 à partir de coefficients d'autocorrélation Ri définis par une relation de la forme:
Ri = ~ S(k~ .S(k,i~ (1) ou l est un nombre entler variant de O à 10 par exemple, et S
représente un échsnti~lon de signal preaccentué et fenêtré.
Le calcul des coefficients Kl peut être effectué à
l'étape 5 en appllquant l'algorlthme connu de M. LEROUX-GUEGUEN dont une descrlptlon peut être trouvée dans l'article
3 de la revue IEEE Transact~ons ou Acougtlcs Speech, and Signal Processing June 1977 ayant pour tltre "A flxed po~nt computation of partlal correlation coefflclents". Ce calcul revlent h inver-ser une matrice carrée dont les éléments sont les coe~ficients Rlde la relatlon (I) .~ , .
.
, ', WO91/17541 PCI/FR91/003'9 2 ~7 ~
Le passage des coefficients de réflexions à des coeffi-cients de prédiction Ai a lieu à l'étape 8. Ce passage utilise aussi un algorithme connu sous le nom d 'algorithme de Levison dont une description peut être trouvee dans l'article 5 intitule:
"The Wiener RM5 error croterion in filter design and prediction J Math Phys, 25 pp 614-617 (1947) "
Enfin les coefficients LSP du filtre sont calculés à
partir de deux polynomes P et Q décrits comme suit dans le plan 10 des transformées en Z, où Z est la variable complexe de ces polynômes, p(z-l)=A(z-l)-z-ll~A(z) (2) et Q(z l)=A(z-l)+z-ll A(Z) (3 15 avec A(Z 1) = 1 + 1~ Ai . Z 1 (4) si ei ~ i et ej J3i désignent les racines des polyno-mes P et Q les coefficients LSP sont par définition les fréquen-20 ces fi et gi des srguments de ces racinessoit: f; = xi Fe/211 (5) et gi = nl Fe/211 (6) Dans ce calcul Fe représente la fréquence d~échantillon nage du signal de parole.
Les fréquences f~ et gl sont conservées dans une mémoire, non représentée et les calculs précédents sont recommen-cés sur les échantillons des deux trames qui suivent. Lorsque les param~tres de trols trames consecutives sont calculés et que trols )eux de coefficients ont été stockés le procédé passe à
30 leur codage à l'étape 13.
Le calcul de la période fondamentale du slgnal et du volsement a lleu de facon connue par exécutlon des étapes 9 et 10. Au cours de ces étapes le slgnal de parole est classe en deux catégorles de sons, les sons volsés et les sons non voisés.
3S Les sons voisés qul sont produJts a partir des cordes vocales 5 2 ~ 7 ~
sont assimiles à une suite d'impulsions dont la période du fonda-mental porte le nom de "Pitch" en anglais. Les sons non voisés qui sont produits par des turbulences sont assimilés à du bruit blanc. Ainsi lorsque le signal de parole présente des periodici-tés marques le procede reconna;t B l'étape 10 pour chaque trame un son voisé, et un son non voise dans le cas contraire. Ls reconnaissance a lieu après un pretraitement du signal pour renforcer les informations utiles et limiter celles qui ne le sont pas. Ce prétraitement consiste à effectuer un premier fil-trage passe bas du signal, suivi d'un ébasage et d'un deuxième filtrage Comme la fréquence fondsmentale du signal de parole varie entre 50 et 400 Hertz le premier filtrage est efEectué par exemple au moyen, d'un simple filtre de "Butterworth" d'ordre 3 dont la fréquence de coupure à 3dB peut être fixée à 600 Hertz.
15 L'ébasage place ensuite à une amplitude nulle les échantillons du signal dont le niveau est inférieur a un certain seuil préde-terminé variable éventuellement sulvant l'amplitude du signal vocal. Cet ébasage permet d'accentuer l'aspect periodique du signsl tout en diminuant les détails nuisibles aux traitements 20 ultérieurs.
Enfin, le deuxieme filtrage permet de lisser les résul-tats de l'ébasage en éliminsnt les hautes fréquences. A cette fin, un filtre de Butterworth identique 8U pemier filtre peut être utilisé.
Les calculs du pltch et du volsement ont lieu de fsçon connue par utillsation de la fonction AhtDF (Average Magnitude Dlfference Function ) . Ils se déroulent suivant cinq étapes qui conslstent 1. A c81culer une déclslon pré11minaire de voisement à
30 partlr des valeurs de l'énergle, du filtre de modélisation et du nombre de passages par l'smpiltude nulle du signal.
2. A calculer un seuil de voisement a partir de la déci-slon du vol~ement préliminalre, de l'énergie basse fréquence et de constantes internes.
3S 3. A calculer pour chaque valeur de R une fonctlon:
.. ~ .
2~17!1,~3~ 6 ~DF~k) =SOMMEI (S(n) S(n-k) I (8) où s(n) représente le signal pretraité, et à calculer les valeurs maximales de cette fonction.
.
, ', WO91/17541 PCI/FR91/003'9 2 ~7 ~
Le passage des coefficients de réflexions à des coeffi-cients de prédiction Ai a lieu à l'étape 8. Ce passage utilise aussi un algorithme connu sous le nom d 'algorithme de Levison dont une description peut être trouvee dans l'article 5 intitule:
"The Wiener RM5 error croterion in filter design and prediction J Math Phys, 25 pp 614-617 (1947) "
Enfin les coefficients LSP du filtre sont calculés à
partir de deux polynomes P et Q décrits comme suit dans le plan 10 des transformées en Z, où Z est la variable complexe de ces polynômes, p(z-l)=A(z-l)-z-ll~A(z) (2) et Q(z l)=A(z-l)+z-ll A(Z) (3 15 avec A(Z 1) = 1 + 1~ Ai . Z 1 (4) si ei ~ i et ej J3i désignent les racines des polyno-mes P et Q les coefficients LSP sont par définition les fréquen-20 ces fi et gi des srguments de ces racinessoit: f; = xi Fe/211 (5) et gi = nl Fe/211 (6) Dans ce calcul Fe représente la fréquence d~échantillon nage du signal de parole.
Les fréquences f~ et gl sont conservées dans une mémoire, non représentée et les calculs précédents sont recommen-cés sur les échantillons des deux trames qui suivent. Lorsque les param~tres de trols trames consecutives sont calculés et que trols )eux de coefficients ont été stockés le procédé passe à
30 leur codage à l'étape 13.
Le calcul de la période fondamentale du slgnal et du volsement a lleu de facon connue par exécutlon des étapes 9 et 10. Au cours de ces étapes le slgnal de parole est classe en deux catégorles de sons, les sons volsés et les sons non voisés.
3S Les sons voisés qul sont produJts a partir des cordes vocales 5 2 ~ 7 ~
sont assimiles à une suite d'impulsions dont la période du fonda-mental porte le nom de "Pitch" en anglais. Les sons non voisés qui sont produits par des turbulences sont assimilés à du bruit blanc. Ainsi lorsque le signal de parole présente des periodici-tés marques le procede reconna;t B l'étape 10 pour chaque trame un son voisé, et un son non voise dans le cas contraire. Ls reconnaissance a lieu après un pretraitement du signal pour renforcer les informations utiles et limiter celles qui ne le sont pas. Ce prétraitement consiste à effectuer un premier fil-trage passe bas du signal, suivi d'un ébasage et d'un deuxième filtrage Comme la fréquence fondsmentale du signal de parole varie entre 50 et 400 Hertz le premier filtrage est efEectué par exemple au moyen, d'un simple filtre de "Butterworth" d'ordre 3 dont la fréquence de coupure à 3dB peut être fixée à 600 Hertz.
15 L'ébasage place ensuite à une amplitude nulle les échantillons du signal dont le niveau est inférieur a un certain seuil préde-terminé variable éventuellement sulvant l'amplitude du signal vocal. Cet ébasage permet d'accentuer l'aspect periodique du signsl tout en diminuant les détails nuisibles aux traitements 20 ultérieurs.
Enfin, le deuxieme filtrage permet de lisser les résul-tats de l'ébasage en éliminsnt les hautes fréquences. A cette fin, un filtre de Butterworth identique 8U pemier filtre peut être utilisé.
Les calculs du pltch et du volsement ont lieu de fsçon connue par utillsation de la fonction AhtDF (Average Magnitude Dlfference Function ) . Ils se déroulent suivant cinq étapes qui conslstent 1. A c81culer une déclslon pré11minaire de voisement à
30 partlr des valeurs de l'énergle, du filtre de modélisation et du nombre de passages par l'smpiltude nulle du signal.
2. A calculer un seuil de voisement a partir de la déci-slon du vol~ement préliminalre, de l'énergie basse fréquence et de constantes internes.
3S 3. A calculer pour chaque valeur de R une fonctlon:
.. ~ .
2~17!1,~3~ 6 ~DF~k) =SOMMEI (S(n) S(n-k) I (8) où s(n) représente le signal pretraité, et à calculer les valeurs maximales de cette fonction.
4. A comparer et étudier les valeurs maximales obtenues pour en déduire le voisement et le pitch de la trame.
5. Et à corriger le voisement et le pitch de la trame précédente en fonction des résultats de la trame courante pour conserver une certaine stationnarité au voisement.
Le calcul d'énergie qui a lieu à l'étape 8 est exécuté
sur quatre sous trames, Ce calcul a lieu en prenant le loga-. rithme à base 2 de la somme des énergies de chaque échantillons preaccentué d une sous trame, Les sous trames dans chaque trame sont joir.tives Cll se chevAuchent pour avoir une longueur multiple du "pitch".
l 5 Une fois que l~3s caractéristiques, de modélisation du filtre, d'énergie, de voisement et de pitch sont obtenues pour trois trames successives le procédé passe à leur codage selon les étapes 13 a 16, Le codage du filtre des trois trames dési-gnées ci-après par trame 1, trame 2 et trame 3 s'effectue en 20 deux temps en commençant par la trame 3.
Le codage de la trame 3 est de type scalaire. Il s'effec-tue en application de l'algorithme connue sous l'appellAtion "Backward Sequential adaptative" tel que décrit par exemple dans l'artlcle de la revue IEEE on selected sreas in communic~-tions, Vol, 6 feb, 88 de MM. Sugamara N et FAVARDIN N (1988) ayant pour tltre "Quantizer design in LSP speech analysis".
L'algorithme de codage est exécuté dans l'ordre décrois-sant des coefficients LSP en commençant par le dernier des mA-nieres représentées aux figures 2 et 3. Pour un filtre de modélisstion du conduit vocal a lO coefficlents LSP par exemple le codage du dernier coeEficlent LSP(10) a lleu de façon li-né81re entre deux valeurs de fréquences FloMIN et F1oMAX
et 8 lleu sur Nvlo vAIeurs codées linésirement sur NB1o bits.
7 2~79~
Les codages des LSP(i) autres coefficients pour i = 9, 8...1 ;3 lieu par comparaison du coeEficient LSPQ(i+l) à une va-]eur de fréquence maximum FjMAX
Si LSPQ(i ~ 1)>FiMAX alors le codage du coefficient est 5effectué lineairement entre deux valeurs FjMIN et FiM19X sur NVj valeurs et donc sur N~3; bits.
Si LSP(i+l)<FiMAX alors le codage du coefficient est effectué linéairement entre FiMIN et LSPQ(i+1) sur NVi va-leurs et donc sur NBibits.
l0Au cours du codage des trames 1 et 2 une bonne approxi-mation des valeurs de coefficients LSP correspondant aux trames e~ ~ es~ ot~tenue a partir de l interpolation entre les trames O (trame O = trame 3 du groupe de 3 trames precédentes) et 3.
Dans ce processus les trames 1 et 2 ne sont pas codées directe-ment mais c'est le type d'interpolation permettant de les quanti-fier le plus fldèlement possible qui est codé.
Pour chacune des valeurs de coefficients LSP d'ordre impairs des trames 1 ou 2, le codeur détermine parmi 3 interpola-tions représentées par le graphe de la figure 4 celle qui lui 20semble donner la meilleure approximation des valeurs des trames 1 et 2.
Les trois cas d'interpo1stlons possibles cas O, cas 1 et cas 2 donnent pour les trsmes l et 2 des coefficients LSPQ défi-nis en liaison avec la figure 4 comme suit. (LSPQ (trame l) ~
25Valeur Quantlfiée du LSP de la trame i Cac O :LSPQ(casO,tramel)=(2*LSPQ(trameO) ~LSPQ(trame3))/3 LSPQ(casO,trame2)=(LSPQ(trameO)~2~"LSPQ(trame3) )/3 Cas 1: LSPQ ( cas l , tramel ) = (LSPQ ( trameO) ~ 2~LSPQ ( trame3 ) ) / 3 30LSPQ(cas1, trame2)=LSPQ(trame3) Cas 2: LSPQ(cas2,tramel)=LSPQ(trameO) LSPQ(cas2,trame2)=(2~LSPQ(trame0)~LSPQ(trame3))~3 Le procédé cho1slt ensulte parml les 3 interpolat ions 3 5 précédentes celle qul mlnlmlse l'erreur de quantlflcatlon, ~tl-2~79~ 8 mée au moyen d'une ~onction D~ TTER définie ci-dessou~ en adoptant la valeur de code correspond~nte.
La fonction D_INTER est définie comme suit.
D_INTER(i) = W1. (LSPQ(cas i, trame 1)-LSP(Trame 1))3 W2 . ( LSPQ ( cas i, Trame 2 ) - LS P ( Trsme ' ) ) où LSPQ(cas i Trame j) est la valeur du coefficient LSP impair de la trame j quantifié au moyen del'interpolation du type i.
LSP(trame 3) = Valeur réelle dans la trame j du coef-ficient LSP impair à quantifier l 0 W1 ~ valeur de l'énergie de la trame 1 W2 = valeur de l'énergie de la trame 2 On obtient ainsi S codes de 3 cas chacun, soit 3;'=243 cas possibles. Le code obtenu est égal a Code LSP1 + 3. Code LSP3 ~ 9. Code LSP5 ~ 27. Code LSP7 5 + 81 Code LSP9 Ce codage tient sur 8 bits.
Le codage du pitch et du voisement ont lieu à l'étape 1~t sur trols trames consécutives.
Le type de voisement courant est déterrnine parmi si.Y cas 20 possibles ~ partir des voisements des trames 1, 2 et 3 et du voisement de la trame 0 qui précede chaque groupe de trames 1.
2 et 3.
Les types de cas posslbles considérés sont les suivants.
2 5 trame 1 trame 2 trame 3 Type 1 non voisé non voisé non voisé
Type 2 non ~roisé non voisé voisé
Type 3 non voisé volsé voisé
Type 4 volsé non volsé non voisé
Type 5 voisé volsé non volsé
Type 8 volsé voisé volsé
Une table de codage représenté a la ilgure 5 permet d'as-3S socler à toute aleur du pltch un nombre de la table dont la WO 91/17~41 PCT/FR91/00329 9 2 ~ ? 3 " ,,~
valeur désignée par la suite par "N tableau" est la plus proche du pitch.
Le codage des six types de cas possibles précédents a lieu alors de la manière suivante ~
Le code 0 est attribue au type 1. I;n code égal à IB VA-leur "N. tableau" du pitch de la trame 3 est attribué au type ~.
Un code égal à 64 auquel est ajouté la valeur "N. tableau" du pitch de la trame 3 est attribue au type 3. Un code égal à 128 auquel est ajouté la valeur "N. tableau" du pitch de la trame est attribué au type 4. Un code egal à 192 auquel est a~outé la valeur "N. tableau du pitch de la trame 1 est attribué au type ~ .
Le codage du type 6 a lieu de façon toute particulière ~n pro,je-tant le vecteur compose des trois valeurs des pitchs des trois trames sur les 3 vecteurs (Vect 1, Vect 2, Vect 3) propres pour l 5 coder les trois projections obtenues, Ces trois vecteurs Vect 1.
Vect 2, Vect 3 sont une approximation des 3 premiers vecteurs propres de la matrice d'intercorrélation. Corrune la projection sur le premler vecteur propre donne la moyenne des pitchs 11 est plus simple de prendre directement comme code pour la premiere pro~ection la valeur "N. tableau" qui est la plus proche de la moyenne (P1 ~ P2 + P3)/3 des pitchs des trames 1, 2 et 3.
Le code correspondant est alors code sur les 63 valeurs de la table de codage.
La projection sur le deuxième vecteur propre (Vect 2) est egale 8U produit scalaire des pitchs des trames 1, 2 et 3 par le 25 deux~eme vecteur propre (Vect 2) et la projection sur le troi-slème vecteur propre (Vect 3) est égale au produit scalaire, des pltchs des trames 1, 2 et 3 par le trolsieme vecteur propre (Vect 3).
Les codes correspondants peuvent etre obtenus respective-ment sur ~eulement 4 et 3 valeurs de la table de codage.
Le codage de l'énergie qul est effectué à l'étage 15 a lleu de façon connue et décrlte dans la demande de brevet FR
2 631 146 sur trols trames consécutives. Quatre valeur de l'éner-3 S gle corre~pondant aux 4 sous trames de chacune des trols trames 2 ~ 7 ~ o sont codées. Cependant pour él~rniner l'information redondant~
dans ces 12 valeurs une Analyse p~r Composantes Principales du type de ceLie décrite ayant pour titre "Eléments d'analyse des donnees" dans le livre de MM. DIDAY LEMAIRE POI~GET et TESTU publié par Dunod est effectuée. Le codage a iieu selon deux étapes. IJne première étape consiste a effectuer un change-ment de base. Le vecteur énergle de dirnension 12 composé des 12 valeurs d'énergie des 3 trames est projeté sur les 3 premiers axes principaux déterminés lors de l'analyse par composantes principales (plus de 97~6 de l'information est contenue dans ces 3 projections).
La deuxième étape consiste à quantifier ces 3 projec-tions la premiere projection est quanti~iée sur 4 bits la deuxieme sur 3 bits et la troisième sur 2 bits.
Le codage de l'énergie a~nsi obtenu est alors défini sur 4 + 3 ~2 = 9 bits Le tramage qui est effectué à l'étape 16 consiste A effec-tuer un regroupement de tous les codes pour former un mot contlnu de 54 bits décomposés comme sulte:
1) Code énergie 3 trames sur 9 bits.
2) Code pitch 3 trames sur 10 bits.
3) Code f11tre trame 3 sur 27 bits.
4) Code filtres trames 1 et 2 sur 8 bits.
solt au total 9 ~ 10~27 + 8 = 54 bits.
A titre d'exemple pour le cas d'une durée de trame de 22 5 ms le procédé permet d'obtenlr dans ces conditions un déblt binaire par seconde de 54/(3*0 0225) = 800 bits par se-conde La synthese c'est-à-dire le décodage du slgnal de parole se déroule selon les étapes 17 a 28 de l'organlgramme de la flgure 6 8ulvant d'une part les etapes 17 a 21 pour détramer et décoder les valeurs des coefflcients LSP du flltre (étape 18) du pltch (étape 19) du voisement et de l'énergle (étape 20) pour trols trames consécutlves et d'autre part suivant les étapes 22 a 28 qui réallsent la synthèse du signal cie parole WO 91/17~41 PCT/FP~91/0032~
2~ 7~8~l successivement pour ch~cune des trois trames à partir des infor-mations obtenues lors de l'exécution des étapes 1~ a ~1. Le détramz ge et le decodage suivent des procédures inverses aux procédures de tramage et de décodage definie lors de l'analyse illustrée par l'organigramme de la figure 1. La mise en forme du filtre de synthèse consiste A effectuer à l'étape 23 un calcul d'interpolation des coefficients LSP sur quatre sous trames et un calcul pour transformer les coefficients LSP en coefficient~
Ai. Ce dernier calcul est suivi à l'étape 24 par un calcul de gain du filtre de synthèse pour les 4 sous trames auquel est a,iouté un calcul de l'énergie du signal d'excitation du filtre.
Afin d'éviter des transitions brutales entre filtres dissembla-bles celles-ci se font a l'étape 23 en quatre etapes tcus les quarts de trame. Les quatre filtres interpolés doivent alors vérifier une relation de la forme :
LSP(SS Tri,TrN)=(LSP(TrN-1~(4~ LSP(TrN)~i)/4 ou LSP(SS Tri, Tr ~') désigne la valeur du fiitre interpolé dan~
la sous trame i de la trame ~'.
L'interpolAtion a lieu suivant le schéma de la figure ,.
Comme les 12 énergies décodées correspondent a l'énergie du signal de parole apres préaocentuation, il faut pour obtenir l'énergie du signal d'excitation diviser l'énergie par le gain du flltre.
Le galn du filtre de chaque sous trame est calcule en utllisant les coefficients Ki suivant la relation Galn du iltre 1 = ~ (1-K2) (9) i=l En1n la derniere etspe conslste h déterminer IA vAleur de l'éc8rt type de l'~nergie de chaque sous trame (valeur utili-sée lors du calcul ~ie l'excitation).
L'ensemble du procédé de codage et de décoda~e selon 3S l'lnventlon sont executAbles AU moyen d'une structure micropro-W O 91/17541 PCT/FR91/003~9 2~ 1 12 grammée formée de la facon représentée à titre d'e.~emple sur la figure 8 par un microprocesseur de traitement du signal '9 tel que celui commercialisé par la société Texas Instrument sous IA
designation TMS 320C25. Suivsnt cette structure ]e signal de parole est d'abord échanti1ionné par un convertisseur analogique numérique 30 avant d'etre appliqué sur un bus de donnée 31 du microprocesseur 29. Un filtre analogique 32 couplé à un disposi-tif de contrdle automatique de gain 33 filtre le signal de p~-role avant son échantillonnage. Les programmes et les données mis en oeuvre pour l'exécution du procéde selon l'invention sont inscrits dans une mémoire morte 34 et dans une mémoire vive 3~
reliées au microprocesseur 29. Un circuit d'interface 36 relie le microprocesseur 29 par l'intermédiaire d'une ligne de donnée 37 a des dispositifs de transmission extérieurs au vocodeur non représentés.
Un dispositif de réception de la parole formé d'un haut p~rleur 38, d'un amplificateur de puissance 39 un filtre analo-gique 40, est relié au microprocesseur par l'intermédiaire d'un convertisseur numérique analogique 41.
.
' . . .
: ' .
. : ., ' , . . ' ;' '
Le calcul d'énergie qui a lieu à l'étape 8 est exécuté
sur quatre sous trames, Ce calcul a lieu en prenant le loga-. rithme à base 2 de la somme des énergies de chaque échantillons preaccentué d une sous trame, Les sous trames dans chaque trame sont joir.tives Cll se chevAuchent pour avoir une longueur multiple du "pitch".
l 5 Une fois que l~3s caractéristiques, de modélisation du filtre, d'énergie, de voisement et de pitch sont obtenues pour trois trames successives le procédé passe à leur codage selon les étapes 13 a 16, Le codage du filtre des trois trames dési-gnées ci-après par trame 1, trame 2 et trame 3 s'effectue en 20 deux temps en commençant par la trame 3.
Le codage de la trame 3 est de type scalaire. Il s'effec-tue en application de l'algorithme connue sous l'appellAtion "Backward Sequential adaptative" tel que décrit par exemple dans l'artlcle de la revue IEEE on selected sreas in communic~-tions, Vol, 6 feb, 88 de MM. Sugamara N et FAVARDIN N (1988) ayant pour tltre "Quantizer design in LSP speech analysis".
L'algorithme de codage est exécuté dans l'ordre décrois-sant des coefficients LSP en commençant par le dernier des mA-nieres représentées aux figures 2 et 3. Pour un filtre de modélisstion du conduit vocal a lO coefficlents LSP par exemple le codage du dernier coeEficlent LSP(10) a lleu de façon li-né81re entre deux valeurs de fréquences FloMIN et F1oMAX
et 8 lleu sur Nvlo vAIeurs codées linésirement sur NB1o bits.
7 2~79~
Les codages des LSP(i) autres coefficients pour i = 9, 8...1 ;3 lieu par comparaison du coeEficient LSPQ(i+l) à une va-]eur de fréquence maximum FjMAX
Si LSPQ(i ~ 1)>FiMAX alors le codage du coefficient est 5effectué lineairement entre deux valeurs FjMIN et FiM19X sur NVj valeurs et donc sur N~3; bits.
Si LSP(i+l)<FiMAX alors le codage du coefficient est effectué linéairement entre FiMIN et LSPQ(i+1) sur NVi va-leurs et donc sur NBibits.
l0Au cours du codage des trames 1 et 2 une bonne approxi-mation des valeurs de coefficients LSP correspondant aux trames e~ ~ es~ ot~tenue a partir de l interpolation entre les trames O (trame O = trame 3 du groupe de 3 trames precédentes) et 3.
Dans ce processus les trames 1 et 2 ne sont pas codées directe-ment mais c'est le type d'interpolation permettant de les quanti-fier le plus fldèlement possible qui est codé.
Pour chacune des valeurs de coefficients LSP d'ordre impairs des trames 1 ou 2, le codeur détermine parmi 3 interpola-tions représentées par le graphe de la figure 4 celle qui lui 20semble donner la meilleure approximation des valeurs des trames 1 et 2.
Les trois cas d'interpo1stlons possibles cas O, cas 1 et cas 2 donnent pour les trsmes l et 2 des coefficients LSPQ défi-nis en liaison avec la figure 4 comme suit. (LSPQ (trame l) ~
25Valeur Quantlfiée du LSP de la trame i Cac O :LSPQ(casO,tramel)=(2*LSPQ(trameO) ~LSPQ(trame3))/3 LSPQ(casO,trame2)=(LSPQ(trameO)~2~"LSPQ(trame3) )/3 Cas 1: LSPQ ( cas l , tramel ) = (LSPQ ( trameO) ~ 2~LSPQ ( trame3 ) ) / 3 30LSPQ(cas1, trame2)=LSPQ(trame3) Cas 2: LSPQ(cas2,tramel)=LSPQ(trameO) LSPQ(cas2,trame2)=(2~LSPQ(trame0)~LSPQ(trame3))~3 Le procédé cho1slt ensulte parml les 3 interpolat ions 3 5 précédentes celle qul mlnlmlse l'erreur de quantlflcatlon, ~tl-2~79~ 8 mée au moyen d'une ~onction D~ TTER définie ci-dessou~ en adoptant la valeur de code correspond~nte.
La fonction D_INTER est définie comme suit.
D_INTER(i) = W1. (LSPQ(cas i, trame 1)-LSP(Trame 1))3 W2 . ( LSPQ ( cas i, Trame 2 ) - LS P ( Trsme ' ) ) où LSPQ(cas i Trame j) est la valeur du coefficient LSP impair de la trame j quantifié au moyen del'interpolation du type i.
LSP(trame 3) = Valeur réelle dans la trame j du coef-ficient LSP impair à quantifier l 0 W1 ~ valeur de l'énergie de la trame 1 W2 = valeur de l'énergie de la trame 2 On obtient ainsi S codes de 3 cas chacun, soit 3;'=243 cas possibles. Le code obtenu est égal a Code LSP1 + 3. Code LSP3 ~ 9. Code LSP5 ~ 27. Code LSP7 5 + 81 Code LSP9 Ce codage tient sur 8 bits.
Le codage du pitch et du voisement ont lieu à l'étape 1~t sur trols trames consécutives.
Le type de voisement courant est déterrnine parmi si.Y cas 20 possibles ~ partir des voisements des trames 1, 2 et 3 et du voisement de la trame 0 qui précede chaque groupe de trames 1.
2 et 3.
Les types de cas posslbles considérés sont les suivants.
2 5 trame 1 trame 2 trame 3 Type 1 non voisé non voisé non voisé
Type 2 non ~roisé non voisé voisé
Type 3 non voisé volsé voisé
Type 4 volsé non volsé non voisé
Type 5 voisé volsé non volsé
Type 8 volsé voisé volsé
Une table de codage représenté a la ilgure 5 permet d'as-3S socler à toute aleur du pltch un nombre de la table dont la WO 91/17~41 PCT/FR91/00329 9 2 ~ ? 3 " ,,~
valeur désignée par la suite par "N tableau" est la plus proche du pitch.
Le codage des six types de cas possibles précédents a lieu alors de la manière suivante ~
Le code 0 est attribue au type 1. I;n code égal à IB VA-leur "N. tableau" du pitch de la trame 3 est attribué au type ~.
Un code égal à 64 auquel est ajouté la valeur "N. tableau" du pitch de la trame 3 est attribue au type 3. Un code égal à 128 auquel est ajouté la valeur "N. tableau" du pitch de la trame est attribué au type 4. Un code egal à 192 auquel est a~outé la valeur "N. tableau du pitch de la trame 1 est attribué au type ~ .
Le codage du type 6 a lieu de façon toute particulière ~n pro,je-tant le vecteur compose des trois valeurs des pitchs des trois trames sur les 3 vecteurs (Vect 1, Vect 2, Vect 3) propres pour l 5 coder les trois projections obtenues, Ces trois vecteurs Vect 1.
Vect 2, Vect 3 sont une approximation des 3 premiers vecteurs propres de la matrice d'intercorrélation. Corrune la projection sur le premler vecteur propre donne la moyenne des pitchs 11 est plus simple de prendre directement comme code pour la premiere pro~ection la valeur "N. tableau" qui est la plus proche de la moyenne (P1 ~ P2 + P3)/3 des pitchs des trames 1, 2 et 3.
Le code correspondant est alors code sur les 63 valeurs de la table de codage.
La projection sur le deuxième vecteur propre (Vect 2) est egale 8U produit scalaire des pitchs des trames 1, 2 et 3 par le 25 deux~eme vecteur propre (Vect 2) et la projection sur le troi-slème vecteur propre (Vect 3) est égale au produit scalaire, des pltchs des trames 1, 2 et 3 par le trolsieme vecteur propre (Vect 3).
Les codes correspondants peuvent etre obtenus respective-ment sur ~eulement 4 et 3 valeurs de la table de codage.
Le codage de l'énergie qul est effectué à l'étage 15 a lleu de façon connue et décrlte dans la demande de brevet FR
2 631 146 sur trols trames consécutives. Quatre valeur de l'éner-3 S gle corre~pondant aux 4 sous trames de chacune des trols trames 2 ~ 7 ~ o sont codées. Cependant pour él~rniner l'information redondant~
dans ces 12 valeurs une Analyse p~r Composantes Principales du type de ceLie décrite ayant pour titre "Eléments d'analyse des donnees" dans le livre de MM. DIDAY LEMAIRE POI~GET et TESTU publié par Dunod est effectuée. Le codage a iieu selon deux étapes. IJne première étape consiste a effectuer un change-ment de base. Le vecteur énergle de dirnension 12 composé des 12 valeurs d'énergie des 3 trames est projeté sur les 3 premiers axes principaux déterminés lors de l'analyse par composantes principales (plus de 97~6 de l'information est contenue dans ces 3 projections).
La deuxième étape consiste à quantifier ces 3 projec-tions la premiere projection est quanti~iée sur 4 bits la deuxieme sur 3 bits et la troisième sur 2 bits.
Le codage de l'énergie a~nsi obtenu est alors défini sur 4 + 3 ~2 = 9 bits Le tramage qui est effectué à l'étape 16 consiste A effec-tuer un regroupement de tous les codes pour former un mot contlnu de 54 bits décomposés comme sulte:
1) Code énergie 3 trames sur 9 bits.
2) Code pitch 3 trames sur 10 bits.
3) Code f11tre trame 3 sur 27 bits.
4) Code filtres trames 1 et 2 sur 8 bits.
solt au total 9 ~ 10~27 + 8 = 54 bits.
A titre d'exemple pour le cas d'une durée de trame de 22 5 ms le procédé permet d'obtenlr dans ces conditions un déblt binaire par seconde de 54/(3*0 0225) = 800 bits par se-conde La synthese c'est-à-dire le décodage du slgnal de parole se déroule selon les étapes 17 a 28 de l'organlgramme de la flgure 6 8ulvant d'une part les etapes 17 a 21 pour détramer et décoder les valeurs des coefflcients LSP du flltre (étape 18) du pltch (étape 19) du voisement et de l'énergle (étape 20) pour trols trames consécutlves et d'autre part suivant les étapes 22 a 28 qui réallsent la synthèse du signal cie parole WO 91/17~41 PCT/FP~91/0032~
2~ 7~8~l successivement pour ch~cune des trois trames à partir des infor-mations obtenues lors de l'exécution des étapes 1~ a ~1. Le détramz ge et le decodage suivent des procédures inverses aux procédures de tramage et de décodage definie lors de l'analyse illustrée par l'organigramme de la figure 1. La mise en forme du filtre de synthèse consiste A effectuer à l'étape 23 un calcul d'interpolation des coefficients LSP sur quatre sous trames et un calcul pour transformer les coefficients LSP en coefficient~
Ai. Ce dernier calcul est suivi à l'étape 24 par un calcul de gain du filtre de synthèse pour les 4 sous trames auquel est a,iouté un calcul de l'énergie du signal d'excitation du filtre.
Afin d'éviter des transitions brutales entre filtres dissembla-bles celles-ci se font a l'étape 23 en quatre etapes tcus les quarts de trame. Les quatre filtres interpolés doivent alors vérifier une relation de la forme :
LSP(SS Tri,TrN)=(LSP(TrN-1~(4~ LSP(TrN)~i)/4 ou LSP(SS Tri, Tr ~') désigne la valeur du fiitre interpolé dan~
la sous trame i de la trame ~'.
L'interpolAtion a lieu suivant le schéma de la figure ,.
Comme les 12 énergies décodées correspondent a l'énergie du signal de parole apres préaocentuation, il faut pour obtenir l'énergie du signal d'excitation diviser l'énergie par le gain du flltre.
Le galn du filtre de chaque sous trame est calcule en utllisant les coefficients Ki suivant la relation Galn du iltre 1 = ~ (1-K2) (9) i=l En1n la derniere etspe conslste h déterminer IA vAleur de l'éc8rt type de l'~nergie de chaque sous trame (valeur utili-sée lors du calcul ~ie l'excitation).
L'ensemble du procédé de codage et de décoda~e selon 3S l'lnventlon sont executAbles AU moyen d'une structure micropro-W O 91/17541 PCT/FR91/003~9 2~ 1 12 grammée formée de la facon représentée à titre d'e.~emple sur la figure 8 par un microprocesseur de traitement du signal '9 tel que celui commercialisé par la société Texas Instrument sous IA
designation TMS 320C25. Suivsnt cette structure ]e signal de parole est d'abord échanti1ionné par un convertisseur analogique numérique 30 avant d'etre appliqué sur un bus de donnée 31 du microprocesseur 29. Un filtre analogique 32 couplé à un disposi-tif de contrdle automatique de gain 33 filtre le signal de p~-role avant son échantillonnage. Les programmes et les données mis en oeuvre pour l'exécution du procéde selon l'invention sont inscrits dans une mémoire morte 34 et dans une mémoire vive 3~
reliées au microprocesseur 29. Un circuit d'interface 36 relie le microprocesseur 29 par l'intermédiaire d'une ligne de donnée 37 a des dispositifs de transmission extérieurs au vocodeur non représentés.
Un dispositif de réception de la parole formé d'un haut p~rleur 38, d'un amplificateur de puissance 39 un filtre analo-gique 40, est relié au microprocesseur par l'intermédiaire d'un convertisseur numérique analogique 41.
.
' . . .
: ' .
. : ., ' , . . ' ;' '
Claims (9)
1. Procédé de codage à bas débit de la parole caractéri-sé en ce qu'il consiste après avoir découpé le signal de parole en trames de longueur constante! à calculer (4...10) les caracté-ristiques de N filtres de modélisation du conduit vocal ainsi que les caractéristiques de période fondamentale (pitch), de voisement et d'énergie du signal vocal par intervalles détermi-nés de N trames successives en calculant l'énergie du signal de parole en nombre P déterminé de fois par trame pour coder l'en-semble de ces caractéristiques.
2. Procédé selon la revendication 1, caractérisé en ce que les caractéristiques des filtres de modélisation du con-duit vocal sont formés de coefficients LSP.
3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que le nombre N est égal à trois.
4. Procédé selon la revendication 3, caractérisé en ce que le codage des coefficients LSP a lieu scalairement sur une première trame et par interpolation sur les deux autres.
5. Procédé selon la revendication 4, caractérisé en ce que le codage scalaire des coefficients de la troisième trame a lieu par application de l'algorithme "Backward Sequential Adaptative".
6. Procédé selon l'une quelconque des revendications 4 et 5, caractérisé en ce que le codage par interpolation sur les deux autres trames a lieu par recherche parmi trois interpola-tions possibles celle qui présente l'erreur de quantification minimum.
7. Procédé selon l'une quelconque des revendications 1 à
6, caractérisé en ce que le codage de la période fondamentale (pitch) et du voisement ont lieu sur trois trames consécuti-ves et a lieu par adressage direct d'une table de codage par la valeur du (pitch) lorsqu'll existe au moins un son non voisé
dans une trame et par codage d'une valeur de pitch obtenue par transformation vectorielle des valeurs de "pitch" existant sur les trois trames lorsque le son est voisé sur les trois trames, dans cette transformation le vecteur composé des trois valeurs des pitchs des trois trames est projeté sur les trois premiers vecteurs propres d'une matrice d'intercorrélation et les trois valeurs des trois projections sont codés.
6, caractérisé en ce que le codage de la période fondamentale (pitch) et du voisement ont lieu sur trois trames consécuti-ves et a lieu par adressage direct d'une table de codage par la valeur du (pitch) lorsqu'll existe au moins un son non voisé
dans une trame et par codage d'une valeur de pitch obtenue par transformation vectorielle des valeurs de "pitch" existant sur les trois trames lorsque le son est voisé sur les trois trames, dans cette transformation le vecteur composé des trois valeurs des pitchs des trois trames est projeté sur les trois premiers vecteurs propres d'une matrice d'intercorrélation et les trois valeurs des trois projections sont codés.
8. Procédé selon l'une quelconque des revendications 1 à
7, caractérisé en ce que le codage de l'énergie est effectué sur 4 sous trames dans chaque trame.
7, caractérisé en ce que le codage de l'énergie est effectué sur 4 sous trames dans chaque trame.
9. Dispositif pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce qu'il comprend une structure microprogrammée compose d'une mé-moire morte 34 et d'une mémoire vive 35 reliées a un microproces-seur de traitement du signal 29, le microprocesseur 29 étant relié d'une part, à un convertisseur analogique numérique 31 pour convertir le signal de parole en échantillons numériques et di 'autre part à un convertisseur numérique analogique pour con-vertir les échantillons de parole formes par le microprocesseur en signaux analogiques pour exciter un dispositif 38 de restitu-tion du son ainsi qu'a ligne de donnée extérieure 37 pour un circuit d'interface 36.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9005400A FR2661541A1 (fr) | 1990-04-27 | 1990-04-27 | Procede et dispositif de codage bas debit de la parole. |
FR90/05400 | 1990-04-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CA2079884A1 true CA2079884A1 (fr) | 1991-10-28 |
Family
ID=9396170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA 2079884 Abandoned CA2079884A1 (fr) | 1990-04-27 | 1991-04-19 | Procede et dispositif de codage bas debit de la parole |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP0454552A3 (fr) |
JP (1) | JPH05507796A (fr) |
CA (1) | CA2079884A1 (fr) |
FR (1) | FR2661541A1 (fr) |
WO (1) | WO1991017541A1 (fr) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2684225A1 (fr) * | 1991-11-22 | 1993-05-28 | Thomson Csf | Procede de quantification de l'energie du signal de parole dans un vocodeur a tres faible debit. |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1203906A (fr) * | 1982-10-21 | 1986-04-29 | Tetsu Taguchi | Vocodeur a trame de longueur variable |
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
FR2654542B1 (fr) * | 1989-11-14 | 1992-01-17 | Thomson Csf | Procede et dispositif de codage de filtres predicteurs de vocodeurs tres bas debit. |
-
1990
- 1990-04-27 FR FR9005400A patent/FR2661541A1/fr not_active Withdrawn
-
1991
- 1991-04-19 CA CA 2079884 patent/CA2079884A1/fr not_active Abandoned
- 1991-04-19 JP JP91508756A patent/JPH05507796A/ja active Pending
- 1991-04-19 WO PCT/FR1991/000329 patent/WO1991017541A1/fr active Application Filing
- 1991-04-19 EP EP19910401051 patent/EP0454552A3/fr not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP0454552A3 (en) | 1992-01-02 |
EP0454552A2 (fr) | 1991-10-30 |
WO1991017541A1 (fr) | 1991-11-14 |
JPH05507796A (ja) | 1993-11-04 |
FR2661541A1 (fr) | 1991-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0782128B1 (fr) | Procédé d'analyse par prédiction linéaire d'un signal audiofréquence, et procédés de codage et de décodage d'un signal audiofréquence en comportant application | |
US5873059A (en) | Method and apparatus for decoding and changing the pitch of an encoded speech signal | |
EP1316087B1 (fr) | Dissimulation d'erreurs de transmission dans un signal audio | |
EP1224662B1 (fr) | Codage de la parole a debit binaire variable de type celp avec classification phonetique | |
EP1221694A1 (fr) | Codeur/decodeur vocal | |
EP0731348B1 (fr) | Système de stockage et d'extraction d'informations liées au traitement de la parole | |
FR2929466A1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
FR2784218A1 (fr) | Procede de codage de la parole a bas debit | |
EP1048024B1 (fr) | Procede de codage vocal en presence de bruit de fond | |
EP1836699B1 (fr) | Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme | |
SE470577B (sv) | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud | |
EP2347411B1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
JPH10177398A (ja) | 音声符号化装置 | |
US5812966A (en) | Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair | |
WO2023165946A1 (fr) | Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones | |
CA2079884A1 (fr) | Procede et dispositif de codage bas debit de la parole | |
EP2589045B1 (fr) | Codage/décodage prédictif linéaire adaptatif | |
JP3163206B2 (ja) | 音響信号符号化装置 | |
WO2005114653A1 (fr) | Procede de quantification d'un codeur de parole a tres bas debit | |
JP2003323200A (ja) | 音声符号化のための線形予測係数の勾配降下最適化 | |
EP1521243A1 (fr) | Procédé de codage de la parole avec réduction de bruit au moyen de la modification du gain du livre de codage | |
EP0596785A1 (fr) | Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en oeuvre du procédé | |
JPH043878B2 (fr) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FZDE | Dead |