EP0076234B1

EP0076234B1 - Procédé et dispositif pour traitement digital de la parole réduisant la redondance

Info

Publication number: EP0076234B1
Application number: EP82810391A
Authority: EP
Inventors: Stephan Dr. Horvath; Carlo Bernasconi
Original assignee: Gretag AG
Current assignee: Omnisec AG Te Regensdorf Zwitserland
Priority date: 1981-09-24
Filing date: 1982-09-20
Publication date: 1985-09-04
Also published as: DE3266042D1; EP0076234A1; US4618982A; CA1184656A; JPS5870300A; ATE15415T1

Claims

1. Procédé de traitement de parole réduisant la redondance selon la méthode de prédiction linéaire, où du côté analyse le signal numérique de parole obtenu par exploration du signal analogique de parole, le cas échéant soumis à une limitation de bande, est divisé en éléments et, pour chaque élément de parole, les paramètres d'un filtre de modèle de parole, un paramètre de puissance sonore et le paramètre de hauteur sonore (période de la fréquence fondamentale de bande sonore) sont déterminés et sont tenus à disposition pour la transmission sous une forme codée ou bien sont transmis, et où, du côté synthèse, les paramètres de filtre, le paramètre de puissance sonore et le paramètre de hauteur sonore sont décodés et, au moyen desdits paramètres, un étage de synthèse se composant essentiellement d'un générateur d'excitation et d'un filtre de modèle de parole est commandé pour régénérer le signal de parole, caractérisé en ce que le codage des paramètres est effectué par blocs, par l'intermédiaire respectivement de deux ou trois éléments de parole se succédant, les paramètres du premier élément de parole étant codés respectivement sous une forme complète et au moins une partie des paramètres des éléments restants étant codée sous une forme différentielle ou laissée de côté.

2. Procédé selon la revendication 1, caractérisé en ce que le codage des paramètres est effectué d'une manière différente selon que le premier élément de parole d'un bloc d'éléments de parole correspond à un son timbré ou à un son sourd.

3. Procédé selon la revendication 2, caractérisé en ce que, dans le cas de blocs comportant chacun trois éléments de parole et pour un premier élément de parole timbré, les paramètres de filtre et de hauteur sonore du premier élément sont codés sous une forme complète tandis que les paramètres de filtre et de hauteur sonore des deux éléments restants sont codés sous la forme de leurs différences avec les paramètres correspondants du premier élément ou du second élément de parole, et en ce que, dans le cas d'un premier élément de parole sourd, les paramètres de filtre d'ordres supérieurs sont laissés de côté et les paramètres de filtre subsistants des trois éléments de parole sont codés sous une forme complète tandis que les paramètres de hauteur sonore sont codés de la même façon que dans le cas d'un son timbré.

4. Procédé selon la revendication 2, caractérisé en ce que, dans le cas de blocs comportant chacun trois éléments de parole et pour un premier élément de parole timbré, les paramètres de filtre et les paramètres de hauteur sonore du premier élément de parole sont codés sous une forme complète, le paramètre de filtre de l'élément central de parole n'est essentiellement pas codé et le paramètre de hauteur sonore de cet élément de parole est codé sous la forme de sa différence avec le paramètre de hauteur sonore du premier élément de parole, tandis que les paramètres de filtre et de hauteur sonore du dernier élément de parole sont codés sous la forme de leurs différences avec les paramètres correspondants du premier élément de parole, et en ce que, dans le cas d'un premier élément de parole sourd, des paramètres de filtre d'ordres supérieurs sont laissés de côté et les paramètres de filtres restants des trois éléments de parole sont codés sous une forme complète tandis que les paramètres de hauteur sonore sont codés comme dans le cas d'un son timbré.

5. Procédé selon la revendication 2, caractérisé en ce que, dans le cas de blocs comportant chacun deux éléments de parole et pour un premier élément de parole timbré, les paramètres de filtre et de hauteur sonore du premier élément de parole sont codés sous une forme complète et des paramètres de filtre du second élément de parole ne sont essentiellement pas codés ou bien ils le sont sous la forme de leurs différences avec les paramètres correspondants du premier élément, tandis que le paramètre de hauteur sonore du second élément de parole est codé sous la forme de sa différence avec le paramètre de hauteur sonore du premier élément de parole, et en ce que, dans le cas d'un premier élément de parole sourd, les paramètres de filtre d'ordres supérieurs sont laissés de côté et les paramètres de filtre restants des deux éléments de parole sont codés sous une forme complète tandis que le paramètre de hauteur sonore est codé de la même façon que dans le cas d'un son timbré.

6. Procédé selon l'une des revendications 3 ou 4, caractérisé en ce que, dans le cas d'un premier élément de parole timbré, les paramètres de puissance sonore du premier et du dernier élément de parole sont codés sous une forme complète tandis que celui de l'élément de parole central n'est essentiellement pas codé ou bien l'est sous la forme de sa différence avec le paramètre de puissance sonore du premier élément de parole et en ce que, dans le cas d'un premier élément de parole sourd, les paramètres de puissance sonore du premier et du dernier élément de parole sont codés sous une forme complète tandis que celui de l'élément central est codé sous la forme de sa différence avec le paramètre de puissance sonore- du premier élément de parole.

7. Procédé selon la revendication 5, caractérisé en ce que, dans le cas d'un premier élément de parole timbré, le paramètre de puissance sonore du premier élément de parole est codé sous une forme complète et celui du second élément de parole n'est essentiellement pas codé ou bien l'est sous la forme de sa différence avec le paramètre de puissance sonore du premier élément de parole et en ce que, dans le cas d'un premier élément de parole sourd, le paramètre de puissance sonore du premier élément de parole est codé sous une forme complète tandis que celui du second élément de parole est codé sous la forme de sa différence avec le paramètre de puissance sonore du premier élément de parole.

8. Procédé selon l'une des revendications 3 à 7, caractérisé en ce que, dans le cas d'une alternance d'un son timbré à un son sourd, ou inversement, à l'intérieur d'un bloc d'éléments de parole, le paramètre de hauteur sonore de l'élément de parole correspondant est remplacé par un mot de code spécial.

9. Procédé selon la revendication 8, caractérisé en ce que du côté synthèse, lors de l'apparition du mot de code et quand l'élément de parole précédent était sourd, on utilise comme paramètre de hauteur sonore correspondant une valeur moyenne obtenue à partir des paramètres de hauteur sonore d'un certain nombre d'éléments de parole produits précédemment.

10. Procédé selon l'une des revendications précédentes, caractérisé en ce que, du côté synthèse, le paramètre de hauteur sonore décodé est comparé avec une valeur moyenne obtenue à partir des paramètres de hauteur sonore d'un certain nombre d'éléments de parole précédents et, lors d'un dépassement d'un écart maximal prédéterminé, il est remplacé par la valeur moyenne présente.

11. Procédé selon l'une des revendications précédentes, caractérisé en ce que la longueur des différents éléments de parole, pour lesquels on a obtenu à chaque fois les paramètres de parole, s'élève au maximum à environ 30 ms, de préférence à environ 20 ms.

12. Procédé selon l'une des revendications précédentes, caractérisé en ce que le nombre des éléments de parole par seconde sélève au moins à environ 55, de préférence à au moins 60.

13. Dispositif pour la mise en oeuvre du procédé selon une des revendications précédentes, comportant une partie de préparation de signaux, qui explore de façon synchronisée le signal analogique de parole et qui convertit en signaux numériques les valeurs d'exploration ainsi obtenues, une partie d'analyse, qui analyse par éléments le signal de parole converti numériquement ainsi qu'un calculateur de paramètres, un étage de discrimination de hauteur sonore et un étage de calcul de hauteur sonore, et en outre un étage de codage, qui code les paramètres de parole obtenus par la partie d'analyse, caractérisé en ce que la partie d'analyse est un système à processeurs multiples comportant un processeur principal (50) et deux processeurs auxiliaires (60, 70), un processeur auxiliaire (60) assurant une mémorisation intermédiaire du signal de parole, produisant à partir du signal de parole mémorisé de façon intermédiaire le signal d'erreur de prédiction par un filtrage inverse et formant à partir de celui-ci, le cas échéant après un filtrage passe-bas, la fonction d'auto- corrélation normalisée, le processeur principal (50) effectuant l'analyse proprement dite du signal de parole et l'autre processeur auxiliaire (70) intervenant pour le codage des paramètres de parole obtenus par le processeur principal en liaison avec le premier processeur auxiliaire.