EP0076233B1

EP0076233B1 - Procédé et dispositif pour traitement digital de la parole réduisant la redondance

Info

Publication number: EP0076233B1
Application number: EP82810390A
Authority: EP
Inventors: Stephan Dr. Horvath; Yung-Shain Wu
Original assignee: Gretag AG
Current assignee: Omnisec AG Te Regensdorf Zwitserland
Priority date: 1981-09-24
Filing date: 1982-09-20
Publication date: 1985-09-11
Also published as: DE3266204D1; CA1184657A; EP0076233A1; ATE15563T1; US4589131A; JPS5870299A

Claims

1. Procédé de traitement de parole réduisant la redondance conformément à la méthode de prédiction linéaire, dans lequel le signal numérique de parole obtenu par analyse d'un signal analogique de parole, le cas échéant à limitation de bande, est divisé en éléments et, pour chaque élément de parole, les paramètres d'un filtre de modèle de parole sont calculés et une décision son timbré-son sourd est prise et, dans le cas d'un son timbré, la période de la fréquence fondamentale de corde vocale (période de hauteur sonore) est déterminée, caractérisé en ce que, pour la décision timbré-sourd, le signal de parole ou un signal dérivé de celui-ci est initialement analysé d'après un premier critère à valeur de seuil, la valeur de seuil étant choisie de manière que, lorsque le critère est satisfait, on obtienne une décision sûre à au moins 97%, de préférence à 100%, en ce que, lorsque le premier critère n'est pas satisfait, le signal de parole ou un signal dérivé de celui-ci est analysé d'après un second critère à autre valeur de seuil, la valeur de seuil étant choisie de manière que, lorsque le critère est satisfait, on obtienne une décision sûre à au moins 97%, de préférence à 100%, et en ce que lorsqu'également Je second critère n'est pas satisfait, le signal de parole ou un signal dérivé de celui-ci est soumis à au moins encore un autre critère de décision.

2. Procédé selon la revendication 1, caractérisé en ce que le premier critère est un test d'énergie dans lequel l'énergie relative (E,) du signal de parole est déterminée et l'elennent de parolo <;st considéré comme sourd lorsque l'énergie (E,,) ne dépasse pas un seuil d'énergie minimale (EL).

3. Procédé selon la revendication 1, caractérisé en ce que le premier critère est un test de passage au zéro dans lequel le nombre (ZC) de passages au zéro du signal de parole est déterminé, et l'élément de parole est considéré comme sourd lorsque ce nombre (ZC) dépasse un nombre maximal (ZCU).

4. Procédé selon la revendications 2, caractérisé en ce que le second critère est un test de passage au zéro conformément à la revendication 3.

5. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un autre critère est un test à valeur de seuil d'une fonction d'auto-corrélation normalisée (AKF), qui est obtenue par auto-corrélation du signal d'erreur de prédiction formé à partir du signal numérique de parole au moyen d'un filtre d'inversion remplissant une fonction de transmission inverse du filtre de modèle de parole, l'élément de parole étant considéré comme timbré lorsque le second maximum (RXX) de la fonction d'auto-corrélation normalisée (AKF) dépasse une valeur de seuil (RU).

6. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un autre critère est un test d'énergie d'erreur résiduelle, auquel cas le signal d'erreur de prédiction est formé à partir du signal numérique de parole au moyen d'un filtre d'inversion remplissant une fonction de transmission inverse du filtre de modèle de parole et son énergie et également l'énergie (E_s) du signal de parole sont déterminées, et en outre le rapport V. de l'énergie du signal d'erreur de prédiction et de l'énergie (E_s) du signal de parole est établi et est comparé avec un seuil inférieur de rapport (VL) et l'élément de parole est considéré comme timbré lorsque ce rapport (V_o) est inférieur au seuil (VL).

7. Procédé selon la revendication 6, caractérisé en ce que le rapport d'énergies (V_o) est additionnel- lement comparé avec un seuil supérieur de rapport (VU) et l'élément de parole est considéré comme sourd lorsque le rapport (V_o) est plus grand que ce seuil supérieur (VU).

8. Procédé selon la revendication 2 ou 4, ou une des revendications 5 à 7, caractérisé en ce qu'un autre critère de décision est un second test d'énergie, où l'énergie (E_s) du signal de parole est comparée avec un second seuil supérieur d'énergie minimale (EU) et l'élément de parole est considéré comme timbré lorsque l'énergie (E_s) dépasse ce seuil supérieur d'énergie minimale (EU).

9. Procédé selon la revendication 3 ou 4 et l'une des revendications 5 à 8, caractérisé en ce qu'un autre critère de décision est un second test de passage au zéro, où le nombre (ZC) des passages au zéro du signal de parole est comparé avec un second nombre maximal inférieur (ZCL) et l'élément de parole est considéré comme sourd lorsque le nombre (ZC) dépasse ce nombre maximal inférieur (ZCL).

10. Procédé selon la revendication 5 et l'une des revendications 6 et 7, caractérisé en ce qu'un autre critère de décision consiste en un second test à valeur de seuil de la fonction d'auto-corrélation normalisée (AKF), auquel cas l'élément de parole est considéré comme timbré lorsque le second maximum (RXX) de la fonction d'auto-corrélation normalisée (AKF) est supérieur à une seconde valeur de seuil plus basse (RM).

11. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un autre critère de décision est une comparaison transversale avec de préférence deux à trois éléments de parole placés immédiatement avant l'élément de parole considéré, auquel cas l'élément de parole n'est considéré comme sourd que lorsque tous les élément de parole précédents sont également sourds.

12. Procédé selon la revendication 5 et l'une des revendications 6 à 11, caractérisé en ce que le signal de parole appliqué au filtre d'inversion pour la formation du signal d'erreur de prédiction, ou bien le signal d'erreur de prédiction, est soumis à un filtrage passe-bas avant l'auto-corrélation.

13. Procédé selon les revendications 4 à 12, caractérisé en ce que la décision timbré-sourd est effectuée au moyen des critères de décision d'un premier test d'énergie, d'un premier test de passage au zéro, d'un premier test à valeur de seuil de la fonction d'auto-corrélation, d'un ou de plusieurs tests d'énergie d'erreur résiduelle, d'un second test de passage au zéro, d'un second test d'énergie, d'un second test à valeur de seuil de la fonction d'auto-corrélation et d'une comparaison transversale.

14. Procédé selon les revendications 4 à 9 et 11, caractérisé en ce que la décision timbré-sourd est effectuée au moyen des critères de décision d'un premier test d'énergie, d'un premier test de passage au zéro, d'un premier test à valeur de seuil de la fonction d'auto-corrélation, d'un ou plusieurs tests d'énergie d'erreur résiduelle, d'un second test d'énergie, d'un second test de passage au zéro et d'une comparaison transversale.

15. Procédé selon la revendication 12, caractérisé en ce que le filtrage passe-bas du signal d'erreur de prédiction est effectué avec une fréquence limite comprise entre 700 et 1200 Hz, de préférence entre 800 et 900 Hz.

16. Procédé selon la revendication 12 ou 15, caractérisé en ce que le filtrage passe-bas est effectué au moyen d'un filtre numérique à flanc raide (7) ayant une caractéristique elliptique et une pente de flancs d'au moins 150 à 180 db/octave.

17. Procédé selon la revendication 5, caractérisé en ce que, dans le cas d'une parole à large bande, la valeur de seuil (RU) est choisie entre 0,55 et 0,75, de préférence à environ 0,6, par rapport au maximum d'auto-corrélation d'ordre zéro.

18. Procédé selon la revendication 10, caractérisé en ce que, dans le cas d'une parole à large bande, la valeur de seuil inférieure (RM) est choisie entre 0,35 et 0,45, de préférence à environ 0,42, par rapport au maximum d'auto-corrélation d'ordre zéro.

19. Procédé selon la revendication 2, caractérisé en ce que, dans le cas d'une parole à large bande, le seuil d'énergie minimale (EL) est choisi dans la plage comprise entre 1,1 · 10 ⁴ et 1_'4 · 10 ⁴, en étant de préférence d'environ 1,2 · 10 ⁴.

20. Procédé selon la revendication 8, caractérisé en ce que, dans le cas d'une parole à large bande, le seuil d'énergie minimale supérieur (EU) est choisi dans la plage comprise entre 1,3 · 10 3 et 1,80 - 10-³, en étant de préférence d'environ 1,5 - 10--³.

21. Procédé selon la revendication 3, caractérisé en ce que, dans le cas d'une parole à large bande, le nombre maximal (ZCU) est choisi entre 105 et 120, de préférence à environ 110, par rapport à une longueur d'élément de parole de 256 valeurs d'analyse.

22. Procédé selon la revendication 9, caractérisé en ce que, dans le cas d'une parole à large bande, le nombre maximal inférieur (ZCL) est choisi entre 70 et 90, de préférence à environ 80, par rapport à une longueur d'élément de parole de 256 valeurs d'analyse.

23. Procédé selon la revendication 6, caractérisé en ce que, dans le cas d'une parole à large bande, le seuil supérieur de rapport (VU) est choisi entre 0,6 et 0,75, de préférence à environ 0,7.

24. Procédé selon la revendication 7, caractérisé en ce que dans une parole à large bande, le seuil inférieur de rapport (VL) est choisi entre 0,05 et 0,15, de préférence à environ 0,1.

25. Procédé selon la revendication 5, caractérisé en ce que dans le cas d'une conversation téléphonique, la valeur de seuil (RU) est choisie entre 0,2 et 0,4, de préférence à environ 0,25, par rapport au maximum d'auto-corrélation d'ordre zéro.

26. Procédé selon la revendication 2, caractérisé, en ce que, dans le cas d'une conversation téléphonique, le seuil d'énergie minimale (EL) est choisi entre 1,4 . 10 ⁵ et 1,6 10 ⁵, de préférence à environ 1,5 - 10-5.

27. Procédé selon la revendication 8, caractérisé en ce que, dans le cas d'une conversation téléphonique, le seuil d'énergie minimale supérieur (EU) est choisi entre 1,3 - 10 ³et 1,8 - 10 ³, de préférence à environ 1,5 - 10-3.

28. Procédé selon la revendication 3, caractérisé en ce que dans le cas d'une conversation téléphonique, le nombre maximal (ZCU) est choisi entre 120 et 140, de préférence à environ 130, par rapport à une longueur d'élément de parole de 256 valeurs d'analyse.

29. Procédé selon la revendication 9, caractérisé en ce que, dans le cas d'une conversation téléphonique, le nombre maximal inférieur (ZCL) est choisi entre 100 et 120, de préférence à environ 110, par rapport à une longueur d'élément de parole de 256 valeurs d'analyse.

30. Procédé selon la revendication 6, caractérisé en ce que, dans le cas d'une conversation téléphonique, le seuil supérieur de rapport (VU) est choisi entre 0,5 et 0,7, de préférence à environ 0,6.

31. Procédé selon la revendication 7, caractérisé en ce que, dans le cas dune conversation téléphonique, le seuil inférieur de rapport (VL) est choisi entre 0,05 et 0,15, de préférence à environ 0,1.

32. Procédé selon l'une des revendications précédentes, caractérisé en ce que, pour la décision timbré-sourd, on effectue pour prendre une décesion une analyse d'un élément de parole qui se compose de l'élément de parole pour lequel la décision est prise, et respectivement d'au moins une partie des deux éléments de parole adjacents à l'élément de parole considéré.

33. Dispositif pour la mise en oeuvre du procédé selon l'une des revendications précédentes, comportant une partie de préparation de signaux qui analyse de façon synchronisée le signal analogique de parole et qui convertit en signaux numériques les valeurs d'analyse ainsi obtenues, ainsi qu'une partie d'analyse, qui analyse par éléments le signal de parole converti numériquement, et en outre un calculateur de paramètres, un étage de décision de hauteur sonore et un étage de calcul de hauteur sonore, caractérisé en ce que la partie d'analyse est un système à processeurs multiples comportant un processeur principal (50) et deux processeurs auxiliaires (60, 70), un processeur auxiliaire (60) assurant une mémorisation intermédiaire du signal de parole, produisant à partir du signal de parole mémorisé de façon intermédiaire, au moyen d'un filtrage inverse, le signal d'erreur de prédiction et établissant à partir de celui-ci, le cas échéant après un filtrage passe-bas, la fonction d'auto-corrélation normalisée, le processeur principal (50) effectuant l'analyse proprement dite du signal de parole et l'autre processeur auxiliaire (70) intervenant dans le codage des paramètres de parole obtenus par le processeur principal en liaison avec le premier processeur auxiliaire.