FR2683367A1

FR2683367A1 - Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole.

Info

Publication number: FR2683367A1
Application number: FR9213415A
Authority: FR
Inventors: Lee Chong Rak; Park Yong Kyu
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 1991-11-06
Filing date: 1992-11-06
Publication date: 1993-05-07
Anticipated expiration: 2012-11-06
Also published as: ES2037623A2; PT101037A; AT400646B; KR940002854B1; SE9203230L; IT1258235B; JPH06110498A; DE4237563C2; LU88189A1; ES2037623B1; FR2683367B1; GR920100488A; GB2261350B; GB2261350A; DK134192A; ATA219292A; JP2787179B2; GB9222756D0; DE4237563A1; ITMI922538A0

Abstract

La présente invention se réfère à une technologie concernant un système de synthèse de parole, et utilise un procédé de décomposition en formes d'onde périodiques et de repositionnement qui est un procédé de codage dans lequel des signaux d'un intervalle de son voisé dans la parole originale sont décomposés en vaguelettes dont chacune correspond à une forme d'onde de parole pour une période créée par chaque impulsion glottale et les vaguelettes sont respectivement codées et mémorisées, technologie au moyen de laquelle les vaguelettes les plus proches des positions où doivent être positionnées les vaguelettes sont choisies parmi des vaguelettes mémorisées, puis décodées et superposées l'une à l'autre de sorte que la qualité du son d'origine peut être conservée et que la durée et la fréquence de hauteur du segment de parole peuvent être commandées à volonté.

Description

i L'invention se réfère à un système de synthèse de parole et à un procédé

pour synthétiser la parole, et plus particulièrement à un procédé de codage de segments de parole et de commande de hauteur qui améliore de manière significative la qualité de la voix synthétisée. Le principe de la présente invention peut s'appliquer directement non seulement à la synthèse de la parole, mais aussi à la synthèse d'autres sons, tels que les sons d'instruments de musique ou le chant, dont chacun a une propriété semblable à celle de la parole, ou bien à un codage de parole à débit très faible ou à une conversion de débit de parole La présente invention sera décrite ci-dessous en se concentrant sur la synthèse

de la parole.

Il existe des procédés de synthèse de parole pour mettre en oeuvre un système de synthèse de parole à partir de texte qui peuvent synthétiser des vocabulaires illimités en convertissant du texte, c'est-à-dire des chaînes de caractères, en parole Cependant, un procédé facile à mettre en oeuvre et utilisé plus généralement est le procédé de synthèse par segments, aussi appelé procédé de synthèse par concaténation, dans lequel la parole humaine est échantillonnée et analysée en unités phonétiques, telles que les demi-syllabes ou diphones, afin d'obtenir des segments courts de parole qui sont alors codés et stockés en mémoire, et quand le texte est

introduit, il est converti en transcriptions phonétiques.

Des segments de parole correspondant aux transcriptions phonétiques sont alors recherchés dans la mémoire de manière séquentielle et décodés afin de synthétiser la

parole correspondant au texte introduit.

Dans ce type de procédé de synthèse de la parole par segments, l'un des éléments les plus importants qui conditionne la qualité de la parole synthétisée est le procédé de codage des segments de parole Dans le procédé antérieur de synthèse de parole par segments du système de synthèse de parole, un procédé de codage vocal d'une qualité de parole médiocre est surtout utilisé comme procédé de codage de parole pour stocker des segments de parole Cependant, c'est l'une des raisons les plus importantes qui détériorent la qualité de la parole

synthétisée Une brève description en se référant au

procédé antérieur de codage de segments de parole est

donnée ci-après.

Les procédés de codage de parole peuvent être

classés sommairement en un procédé de codage de forme

d'onde d'une bonne qualité de parole et en un procédé de "vocodage" de qualité de parole médiocre Etant donné que le procédé de codage de forme d'onde se propose de transférer la forme d'onde telle qu'elle est, il est très difficile de changer la fréquence et la durée de hauteur, de sorte qu'il est impossible d'ajuster l'intonation et le débit de parole quand on réalise la synthèse de parole Il est aussi impossible de lier entre eux les segments de parole de *manière harmonieuse, de sorte que le procédé de codage de forme d'onde n'est fondamentalement pas adapté au codage de segments de parole. Au contraire, quand le procédé de vocodage (aussi

appelé procédé d'analyse-synthèse) est utilisé, la struc-

ture de hauteur et la durée du segment de parole peuvent être changées à volonté De plus, étant donné que les segments de parole peuvent aussi être liés graduellement en interpolant les paramètres de l'enveloppe spectrale de sorte que le procédé de vocodage convient aux moyens de codage de synthèse de parole à partir de texte, des procédés de vocodage, tels que le codage par prédiction linéaire ou le vocodage de formants, sont adoptés dans

la plupart des systèmes actuels de synthèse de parole.

Cependant, étant donné que la qualité de la parole décodée est médiocre quand la parole est codée en utilisant le procédé de vocodage, la parole synthétisée obtenue en décodant les segments de parole stockés et en les concaténant ne peut pas avoir une qualité de parole

supérieure à celle offerte par le procédé de vocodage.

Les tentatives faites jusqu'ici pour améliorer la qualité de parole offerte par le procédé de vocodage ont remplacé le train d'impulsions utilisé par un signal

d'excitation qui a une forme d'onde moins artificielle.

Une telle tentative consistait à utiliser une forme d'onde ayant des sommets moins élevés que celle de l'impulsion, par exemple une forme d'onde triangulaire, ou semi-circulaire, ou une forme d'onde similaire à une impulsion glottale Une autre tentative consistait à sélectionner un échantillon d'impulsion de hauteur d'une ou plusieurs périodes de hauteur d'un signal résiduel obtenu par filtrage inverse, et à utiliser, au lieu de l'impulsion, une impulsion échantillon pour toute la période de temps ou pour une portion substantielle de cette période Cependant, de telles tentatives pour remplacer l'impulsion par une impulsion d'excitation ou d'autres formes d'onde n'ont pas amélioré la qualité de parole ou éventuellement ne l'ont améliorée que légèrement, et n'ont jamais permis d'obtenir une parole synthétisée ayant une qualité proche de celle du langage

naturel.

La présente invention a pour but de synthétiser une parole de haute qualité ayant un naturel et une intelligibilité du même degré que ceux de la parole humaine, en utilisant un nouveau procédé de codage de segments de parole permettant une bonne qualité et une commande de la hauteur Le procédé de la présente invention combine les mérites du procédé de codage de formes d'onde, qui assure une bonne qualité de parole mais sans la possibilité de commander la hauteur, et du procédé de vocodage qui fournit une commande de hauteur

mais n'a qu'une qualité de parole médiocre.

La présente invention utilise un procédé de décomposition en formes d'onde périodiques qui est un procédé de codage qui décompose un signal dans un secteur de son voisé de la parole originale en vaguelettes équivalant à des formes d'onde de parole d'une seule période émises par des impulsions glottales, afin de coder et de stocker le signal décomposé, et un procédé de repositionnement à base de distorsion dans le temps qui est un procédé de synthèse de forme d'onde capable d'ajustement arbitraire de la durée et de la hauteur de fréquence du segment de parole, tout en conservant la qualité de la parole originale, en sélectionnant les vaguelettes les plus proches des positions o les vaguelettes doivent être stockées parmi des vaguelettes stockées, en décodant ensuite les vaguelettes sélectionnées et en les superposant Pour les buts de cette invention, les sons musicaux sont traités comme des

sons voisés.

Les objectifs précédents doivent être considérés comme présentant seulement quelques unes des caractéristiques et des applications les plus pertinentes de l'invention Beaucoup d'autres résultats avantageux peuvent être obtenus en appliquant d'une manière différente l'invention décrite ici, ou en modifiant l'invention tout en restant dans le domaine délimité par la présente divulgation En conséquence, on peut obtenir d'autre objectifs et une compréhension plus complète de l'invention en se référant à la fois à l'abrégé de

l'invention et à la description détaillée ci-dessous qui

décrit le mode de réalisation préférentiel, en plus du

domaine de l'invention défini par les revendications

considérées en se référant aux dessins joints.

Des procédés de codage de segments de parole et de commande de hauteur pour des systèmes de synthèse de parole de la présente invention sont définis par les

revendications avec des modes de réalisation spécifiques

représentés dans les dessins joints Dans le but de résumer l'invention, l'invention se réfère à un procédé capable de synthétiser la parole qui se rapproche de la qualité de la parole naturelle en ajustant sa durée et sa hauteur de fréquence au moyen de codage en forme d'onde de vaguelettes de chaque période, en stockant ces vaguelettes en mémoire, et, au moment de la synthèse, en les décodant et en les positionnant à des instants de temps appropriés afin qu'elles aient la structure de hauteur désirée, et en les superposant ensuite pour produire de la parole naturelle, du chant, de la musique

ou des sons similaires.

La présente invention comprend un procédé de codage de segments de parole pour utilisation avec un système de synthèse de parole, dans lequel le procédé comprend la formation de vaguelettes au moyen de 1 'obtention de paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse Ceci est réalisé en analysant un signal numérique périodique ou quasi périodique, tel que de la parole voisée, avec la technique d'estimation de spectre Un signal original est d'abord décomposé en une réponse d'impulsion représentée par les paramètres d'enveloppe spectrale, et par un signal de train d'impulsions de hauteur périodique ou quasi périodique ayant une enveloppe spectrale presque plate Un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en segmentant le train d'impulsions de hauteur période par période, de sorte qu'un impulsion de hauteur est contenue dans chaque période, et une réponse d'impulsion correspondant à un ensemble de paramètres d'enveloppe spectrale dans le même intervalle de temps que le signal d'excitation sont combinés de manière à former une

vaguelette pour cette période.

Les vaguelettes, plutôt que d'être formées en codant des formes d'onde et d'être stockées en mémoire à l'avance, peuvent être formées en appariant des informations obtenues en codant en forme d' onde un signal d'impulsion de hauteur de chaque intervalle de période obtenu par segmentation par des informations obtenues en codant un ensemble de paramètres d'estimation d'enveloppe spectrale ayant le même intervalle de temps que les informations ci-dessus, ou avec une réponse d'impulsion correspondant aux paramètres, et en stockant en mémoire les informations de vaguelette Il y a deux procédés pour produire une parole synthétique en utilisant les informations de vaguelette stockées en mémoire Le premier procédé consiste à constituer chaque vaguelette en combinant un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en décodant les informations, avec une impulsion de réponse correspondant aux paramètres d'enveloppe spectrale décodés dans le même intervalle de temps que le signal d'excitation, et ensuite à assigner aux vaguelettes les instants de temps appropriés de sorte qu'elles aient une structure de hauteur et une structure de durée souhaitées, à les positionner aux instants de temps et

à les superposer.

Le second procédé consiste à constituer un signal d'excitation de synthèse en assignant les signaux d'impulsion de hauteur obtenus en décodant les informations de vaguelette à des instants de temps appropriés de sorte qu'ils aient une structure de hauteur et une structure de durée souhaitées et en les positionnant aux instants de temps, et à constituer un ensemble de paramètres d'enveloppe spectrale de synthèse soit en comprimant ou en étendant dans le temps l'ensemble de fonctions du temps des paramètres sur une base segment par segment, en fonction du fait que la durée d'un sous-segment dans un segment de vitesse à synthétiser est plus courte ou plus longue que celle d'un sous-segment correspondant dans le segment original de parole, respectivement, soit en positionnant l'ensemble de fonctions de temps des paramètres d'une période en synchronisme avec le signal associé d'impulsion de hauteur d'une période positionné de manière à former le signal d'excitation de synthèse, et à combiner le signal d'excitation de synthèse avec une réponse d'impulsion correspondant à l'ensemble de paramètres d'enveloppe spectrale de synthèse en utilisant un filtre variant dans le temps ou en utilisant une technique de combinaison

rapide basée sur la transformée rapide de Fourier (FFT).

Dans le dernier procédé, un intervalle vide se produit quand une période de hauteur souhaitée est plus longue que la période de hauteur originale, et un intervalle de recouvrement se produit quand la période de hauteur souhaitée est plus courte que la période de hauteur originale. Dans l'intervalle de recouvrement, le signal d'excitation de synthèse est obtenu en additionnant l'un à l'autre les signaux d'impulsion de hauteur qui se chevauchent ou en sélectionnant l'un d'entre eux, et le paramètre d'enveloppe spectrale est obtenu en sélectionnant soit l'un des paramètres d'enveloppe spectrale qui se chevauchent, soit en utilisant une

valeur moyenne des deux paramètres qui se chevauchent.

Dans l'intervalle vide, on obtient le signal d'excitation de synthèse en le remplissant avec des échantillons de valeur zéro, et le paramètre d'enveloppe spectrale de synthèse est obtenu en répétant les valeurs des paramètres d'enveloppe spectrale aux points de début et de fin des périodes précédente et suivante situées avant et après le centre de l'intervalle vide, ou en répétant une des deux valeurs ou une moyenne des deux valeurs, ou en le remplissant avec des valeurs et en reliant de manière lissée les deux valeurs. La présente invention comprend en outre un procédé de commande de hauteur d'un système de synthèse de parole capable de commander la durée et la hauteur d'un segment de parole au moyen d'un procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps qui permet de synthétiser la parole avec presque la même qualité que celle de la parole naturelle, en codant des instants de temps limites importants tels que le point de départ, le point final et les points d'état stationnaire dans un segment de parole et des positions d'impulsion de hauteur de chaque vaguelette ou chaque signal d'impulsion de hauteur, et en les stockant simultanément en mémoire à 1 'instant de stockage de chaque segment de parole, et, au moment de la synthèse, en obtenant une fonction de distorsion dans le temps grâce à une comparaison des instants de temps limites souhaités et des instants de temps limites originaux stockés correspondant aux instants de temps limites souhaités, en trouvant les instants de temps originaux correspondant à chaque position souhaitée d'impulsion de hauteur grâce à l'utilisation de la fonction de distorsion dans le temps, en sélectionnant des vaguelettes ayant les positions d'impulsion de hauteur les plus proches des instants de temps originaux et en les plaçant à des positions souhaitées d'impulsion

de hauteur, et en superposant les vaguelettes.

Le procédé de commande de hauteur peut en outre

comprendre la production de parole synthétique en sélec-

tionnant, au lieu des vaguelettes, des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant aux signaux d'impulsion de hauteur, en les positionnant, et en combinant les signaux d'impulsion de hauteur ainsi positionnés et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale afin de produire des vaguelettes, ou bien en combinant un signal d'excitation de synthèse obtenu en superposant les signaux d'impulsion de hauteur positionnés et une réponse d' impulsion variant dans le temps correspondant à des paramètres d' enveloppe spectrale de synthèse obtenus en concaténant les

paramètres d'enveloppe spectrale positionnés.

Un dispositif de synthèse de parole voisée d'un système de synthèse de parole est décrit ici et comprend un sous-ensemble de décodage 9 produisant des informations de vaguelette au moyen du décodage de codes de vaguelette à partir d'un bloc de stockage de segments de parole 5 Un sous-ensemble de commande de durée 10 produit des données de distorsion dans le temps à partir

de l'entrée de données de durée provenant d'un sous-

système de génération de prosodie 2, et des instants de temps limites compris dans des informations d'en-tête à partir du bloc de stockage de segments de parole 5 Un sous-ensemble de commande de hauteur 11 produit des informations de position d'impulsion de hauteur de sorte qu'il a une structure d'intonation conforme à celle indiquée par des données de structure d'intonation à partir de l'entrée des informations d'en-tête provenant du bloc de stockage de segments de parole 5, des données de structure d'intonation provenant du sous-système de génération de prosodie et des informations de distorsion dans le temps provenant du sous-ensemble de commande de durée 10 Un sous-ensemble de commande d'énergie 12 produit des informations de gain, de sorte que la parole synthétisée possède la structure d'accentuation telle qu'elle est indiquée par des données de structure

d' accentuation provenant de 1 'entrée de données de struc-

ture d'accentuation provenant du sous-système de génération de prosodie 2, par les informations de distorsion dans le temps provenant du sousensemble de commande de durée 10, et par des informations de position d' impulsion de hauteur provenant du sous-ensemble de commande de hauteur 11 Un sous-ensemble d'assemblage de formes d'onde 13 produit un signal de parole voisée à partir de l'entrée d'informations de vaguelettes provenant du sous-ensemble de décodage 9, des informations de distorsion dans le temps provenant du sous-ensemble de commande de durée 10, des informations

de position d'impulsion de hauteur provenant du sous-

ensemble de commande de hauteur 11 et des informations de gain provenant du sous-ensemble de commande d'énergie 12. Ainsi, selon la présente invention, du texte est introduit dans le sous-système de pré- traitement phonétique 1, dans lequel il est converti en symboles de transcription phonétique et en données d'analyse syntaxique Les données d'analyse syntaxique sont émises vers un sous-système de génération de prosodie 2 Le sous-système de génération de prosodie 2 envoie des informations de prosodie à un sous-système de concaténation de segments de parole 3 La sortie de

symboles de transcription phonétique provenant du sous-

système de pré-traitement est aussi envoyée au sous-

système de concaténation de segments de parole 3 Les symboles de transcription phonétique sont alors introduits dans le bloc de sélection de segments de parole 4 et les données de prosodie correspondantes sont introduites dans un bloc de synthèse de sons voisés 6 et dans un bloc de synthèse de sons non voisés 7 Dans le bloc de sélection de segments de parole 4, chaque symbole de transcription phonétique introduit est associé à une 1 i unité correspondante de synthèse de segment de parole, et une adresse de mémoire de l'unité de synthèse associée correspondant à chaque symbole de transcription phonétique est recherchée dans une table de segments de parole dans le bloc de stockage de segments de parole 5. L'adresse de l'unité de synthèse appariée est alors envoyée au bloc de stockage de segments de parole 5 ou bien le segment de parole correspondant, sous forme de vaguelette codée, est sélectionné pour chacune des adresses des unités de synthèse associées Le segment de parole sélectionné, sous forme de vaguelette codée, est envoyé au bloc de synthèse de sons voisés 6 pour le son voisé et au bloc de synthèse de sons non voisés 7 pour le son non voisé Le bloc de synthèse de sons voisés 6, qui utilise le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps pour synthétiser un son de parole, et le bloc de synthèse de sons non voisés 7 émettent en sortie des signaux numériques de synthèse de parole vers le convertisseur numérique-analogique 8 pour convertir les signaux numériques d'entrée en signaux

analogiques qui sont les sons de parole synthétisée.

Pour utiliser la présente invention, on enregistre d'abord de la parole et/ou de la musique sur une bande magnétique Le son résultant est alors converti de signaux analogiques en signaux numériques en soumettant les signaux analogiques à un filtre passe-bas et en envoyant les signaux filtrés à un convertisseur analogique- numérique Les signaux de parole numérisés résultants sont alors découpés en un certain nombre de segments de parole ayant des sons qui correspondent à des unités de synthèse, tels que des phonèmes, des diphones, des demi-syllabes et des sons similaires, en utilisant des outils connus de traitement de parole Chaque segment de parole résultant est alors différencié en segments de parole voisés et non voisés, en utilisant des outils connus de détection de sons voisés et non voisés et de traitement de parole Les segments de parole non voisés sont codés par des procédé connus de vocodage qui utilisent un bruit blanc aléatoire comme source de parole non voisée Les procédés de vocodage comprennent le codage par prédiction linéaire, les procédés de vocodage homomorphiques et par formants et des procédés similaires. Les segments de parole voisés sont utilisés pour

former des vaguelettes SJ(n) selon le procédé décrit ci-

dessous à la fig 4 Les vaguelettes SJ(n) sont alors codées en utilisant un procédé de codage de formes d'onde approprié Des procédés connus de codage de formes d'onde comprennent la modulation par impulsions codées (MIC), la modulation par impulsions et codage différentiel adaptatif (ADPCM), le codage par prédiction adaptative (APC) et des procédés similaires Les segments codés de parole voisée résultants sont stockés dans le bloc de stockage de segments de parole 5 comme représenté aux fig 6 A et 6 B Les segments codés de parole non voisée sont aussi stockés dans le bloc de stockage de segments

de parole 5.

Les caractéristiques les plus pertinentes et les plus importantes de la présente invention on été mises

en évidence ci-dessus afin que la description détaillée

de l'invention qui va suivre soit mieux comprise et que la présente contribution à l'évolution de la technique soit appréciée complètement Des caractéristiques supplémentaires de l'invention décrite ci-après forment

l'objet des revendications de l'invention Les personnes

expertes dans la technique peuvent se rendre compte que la conception et le mode de réalisation spécifique décrits ici peuvent être utilisés facilement comme base pour modifier ou concevoir d'autres structures afin de

réaliser les mêmes objectifs de la présente invention.

En outre, les personnes expertes dans la technique peuvent se rendre compte que de telles constructions équivalentes ne s'éloignent pas de l'esprit ni du domaine de l'invention tels qu'ils sont définis par les

revendications.

Pour une compréhension plus complète de la nature et des buts de l'invention, on devra se reporter à la

description détaillée qui suit, donnée en se référant aux

dessins joints, dans lesquels: la fig 1 illustre le système de synthèse de parole à partir de texte du procédé de synthèse par segments de parole; la fig 2 illustre le sous-système de concaténation de segments de parole; les fig 3 A à 3 T illustrent des formes d'onde afin d'expliquer le principe du procédé de décomposition de formes d'onde périodiques et le procédé de repositionnement de vaguelettes selon la présente invention; la fig 4 représente un diagramme synoptique pour expliquer le procédé de décomposition en formes d'onde périodiques; les fig 5 A à 5 E représentent des diagrammes synoptiques pour expliquer la mise en oeuvre du procédé de déconvolution aveugle; les fig 6 A et 6 B représentent des formats de code pour les informations de segments de parole voisés stockées dans le bloc de stockage de segments de parole la fig 7 représente le bloc de synthèse de parole voisée selon la présente invention; et les fig 8 A et 8 B représentent des graphiques pour expliquer le procédé de commande de durée et de

hauteur selon la présente invention.

Dans l'ensemble des diverses illustrations des dessins, les numéros de référence semblables désignent

des éléments similaires.

La structure du système de synthèse de parole à partir de texte du procédé de synthèse de segments de parole des réalisations antérieures consiste en trois sous-systèmes: A Un sous-système de pré- traitement phonétique ( 1); B un sous-système de génération de prosodie ( 2) ;et C un sous-système de concaténation de segments de parole ( 3) comme représenté à la fig 1 Quand le texte est introduit à partir d'un clavier, d'un ordinateur ou d'un autre système dans le système de synthèse de parole à partir de texte, le sous-système de pré-traitement phonétique ( 1) analyse la syntaxe du texte et convertit alors le texte en une chaîne de symboles de transcription phonétique en lui appliquant des règles d'enregistrement phonétique Le sous-système de génération de prosodie ( 2) produit des données de structure d'intonation et des données de structure d'accentuation en utilisant des données d'analyse syntaxique, de sorte qu'une intonation et un accent appropriés peuvent être appliqués à la chaîne de symboles de transcription phonétique, et envoie alors les données au sous-ensemble de concaténation de segments de parole ( 3) Le sous-système de génération de prosodie ( 2) fournit aussi les données relatives à la durée de chaque phonème au sous-système de concaténation de segments de

parole ( 3).

Les trois données de prosodie ci-dessus, c'est-à-

dire les données de structure d'intonation, les données de structure d' accentuation et les données concernant la durée de chaque phonème sont, en général, envoyées au sous-système de concaténation de segments de parole ( 3) en même temps que la chaîne de symboles de transcription phonétique créée par le sous-système de pré-traitement phonétique ( 1), bien qu'elles puissent être transférées au sous-système de concaténation de segments de parole ( 3) indépendamment de la chaîne de symboles de

transcription phonétique.

Le sous-système de concaténation de segments de parole ( 3) produit une parole continue en recherchant de manière séquentielle des segments de parole appropriés qui sont codés et stockés dans sa mémoire en fonction de la chaîne de symboles de transcription phonétique (non

représentée) et en les décodant A cet instant, le sous-

système de concaténation de segments de parole ( 3) peut produire une parole synthétique ayant l'intonation, l'accentuation et le débit de parole tels que voulus par le sous-système de génération de prosodie ( 2) en commandant l'énergie (intensité), la durée et la période de hauteur de chaque segment de parole en fonction des

informations de prosodie.

La présente invention améliore de façon remarquable la qualité de parole par comparaison avec la parole synthétisée des réalisations antérieures, grâce à l'amélioration du procédé de codage pour stocker les segments de parole dans le sous-système de concaténation

de segments de parole ( 3) Une description concernant le

fonctionnement du sous-système de concaténation de

segments de parole ( 3) suit, en se référant à la fig 2.

Quand la chaîne de symboles de transcription phonétique formée par le sous-système de pré-traitement phonétique ( 1) est introduite dans le bloc de sélection de segments de parole ( 4), le bloc de sélection de segments de parole ( 4) sélectionne de manière séquentielle les unités de synthèse, telles que des diphones et des demi-syllabes, en explorant en permanencela chaîne entrante de symboles de transcription phonétique, et trouve dans la mémoire correspondante, ainsi que le montre le tableau 1, les adresses des segments de parole correspondant aux unités de synthèse sélectionnées Le tableau 1 montre un exemple de table de segments de parole conservée dans le bloc de sélection de segments de parole ( 4) qui choisit des segments de parole à base de diphones Ceci entraîne la formation d'une adresse du segment de parole choisi qui est envoyée

au bloc de stockage de segments de parole ( 5).

Les segments de parole correspondant aux adresses du segment de parole sont codés selon le procédé de la présente invention qui sera décrit plus loin, et sont stockés aux adresses de la mémoire du bloc de stockage

de segments de parole ( 5).

Tableau 1

symbole de transcription adresse phonétique de segment de parole de mémoire (en hexadécimal) /ai/0000 /au/0021 /ab/OOA 3 /ad/OOFF Quand l'adresse du segment de parole sélectionné à partir du bloc de sélection de segments de parole ( 4) est introduite dans le bloc de stockage de segments de parole ( 5), le bloc de stockage de segments de parole ( 5) recherche les données du segment de parole correspondant dans la mémoire du bloc de stockage de segments de parole ( 5) et les envoie à un bloc de synthèse de sons voisés ( 6) si c'est un son voisé ou un son voisé fricatif, ou à un bloc de synthèse de sons non voisés ( 7) si c'est un son non voisé Chaque signal numérique de parole synthétisée du bloc de synthèse de sons voisés ( 6) et du bloc de synthèse de sons non voisés ( 6) est alors

converti en un signal analogique.

Ainsi, le signal numérique de parole synthétisée résultant émis par le bloc de synthèse de sons voisés ( 6) ou le bloc de synthèse de sons non voisés ( 7) est alors envoyé à un bloc de conversion numérique- analogique ( 8) consistant en un convertisseur numérique-analogique, un filtre analogique passe-bas et un amplificateur analogique, et est converti en un signal analogique afin d'obtenir

un son de parole synthétisée.

Quand le bloc de synthèse de sons voisés ( 6) et le bloc de synthèse de sons non voisés ( 7) concatènent les segments de parole, ils fournissent à la parole synthétisée la prosodie comme prévu par le sous-système de génération de prosodie ( 2) en ajustant de manière appropriée la durée, l'intensité et la fréquence de hauteur du segment de parole sur la base des informations de prosodie, c'est-à-dire les données de structure d'intonation, les données de structure

d'accentuation et les données de durée.

La préparation du segment de parole pour stockage dans le bloc de stockage de segments de parole ( 5) a lieu comme suit Une unité de synthèse est d'abord sélectionnée De telles unités de synthèse comprennent un phonème, un allophone, un diphone, une syllabe, une demi- syllabe, un ensemble CVC, VCV, CV, VC (ici, "C" représente un phonème de consonne et "V" un phonème de voyelle) ou des combinaisons de ces éléments Les unités de synthèse qui sont utilisées le

plus fréquemment sont les diphones et les demi-

syllabes. Le segment de parole correspondant à chaque élément d'un agrégat d'unités de synthèse est segmenté à partir des échantillons de parole qui sont réellement prononcés par un être humain En conséquence, le nombre d'éléments de l'agrégat d'unités de synthèse est le même que le nombre de segments de parole Par exemple, dans le cas o des demi-syllabes sont utilisées comme unités de synthèse en anglais, le nombre de demi-syllabes est d'environ 1000 et, en conséquence, le nombre de segments de parole est aussi d'environ 1000 En général, de tels segments de parole consistent en un intervalle de son

non voisé et un intervalle de son voisé.

Dans la présente invention, le segment de parole non voisé et le segment de parole voisé obtenus en segmentant le segment des réalisations antérieures en un intervalle de son non voisé et un intervalle de son voisé sont utilisés comme unité de synthèse de base La portion de synthèse de parole à son non voisé est réalisée selon les réalisations antérieures comme décrit ci-dessous La synthèse de parole à son voisé

est réalisée selon la présente invention.

Ainsi, les segments de parole non voisés sont décodés dans le bloc de synthèse de sons non voisés ( 7) représenté à la fig 2 Dans le cas de décodage du son non voisé, on a remarqué dans les réalisations antérieures que l'emploi d'un signal artificiel de bruit blanc aléatoire comme signal d'excitation pour un filtre de synthèse ne détériore ni ne diminue la qualité de la parole décodée C'est pourquoi, dans le codage et le décodage de segments de parole non voisés, le procédé de vocodage des réalisations antérieures peut être appliqué tel quel, et dans ce procédé le bruit blanc est utilisé comme signal d'excitation Par exemple, dans la synthèse de son non voisé des réalisations antérieures, le signal de bruit blanc peut être créé au moyen d'un algorithme de génération de nombres aléatoires, ou le signal de bruit blanc, créé d'avance et stocké en mémoire, peut être extrait de la mémoire lors de la synthèse, ou bien un signal résiduel, obtenu en filtrant l'intervalle de son non voisé de la parole réelle en utilisant un filtre inverse d'enveloppe spectrale et stocké en mémoire, peut être extrait de la mémoire lors de la synthèse S'il n'est pas nécessaire de modifier la durée du segment de parole non voisé, un procédé de codage extrêmement simple peut être utilisé, dans lequel la portion de son non voisé est codée selon un procédé de codage de forme d'onde tel que la modulation par impulsions codées (MIC) ou la modulation par impulsions et codage différentiel adaptatif (ADPCM), et est stockée Elle est ensuite

décodée afin d'être utilisée lors de la synthèse.

La présente invention se réfère à un procédé de codage et de synthèse des segments de parole voisés qui détermine la qualité de la parole synthétisée Une

description relative à un tel procédé et mettant

l'accent sur le bloc de stockage de segments de parole et le bloc de synthèse de sons voisés ( 6) est

représentée à la fig 2.

Les segments de parole voisés, parmi les segments de parole stockés dans la mémoire du bloc de stockage de segments de parole ( 5), sont décomposés en vaguelettes de composante périodique de hauteur en avance selon le procédé de décomposition en formes d'onde périodiques de la présente invention, et y sont stockés Le bloc de synthèse de sons voisés ( 6) synthétise une parole ayant les structures de hauteur et de durée souhaitées en sélectionnant et en combinant de manière appropriée les vaguelettes selon le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps Le principe de ces procédés est décrit ci-dessous en se référant aux dessins. La parole voisée S(n) est un signal périodique obtenu quand une onde périodique glottale produite dans les cordes vocales traverse le filtre de conduit acoustique vocal V(f) consistant en la cavité buccale, la cavité du pharynx et la cavité nasale Ici, on suppose que le filtre de conduit vocal V(f) comprend une caractéristique de fréquence due à l'effet des lèvres Un spectre S(f) de parole voisée est caractérisé par: 1 une structure fine variant rapidement par rapport à la fréquence "f"; et 2 une enveloppe spectrale variant lentement par rapport à cette fréquence, la première structure étant due à la périodicité du signal de parole voisé et la dernière reflétant le spectre d'une impulsion glottale et la caractéristique de fréquence du filtre

de conduit vocal.

Le spectre S(f) de la parole voisée revêt la même forme que celle obtenue quand la structure fine d'un train d'impulsions dû à des composantes harmoniques qui existent comme multiples entiers de la fréquence de hauteur Fo est multipliée par une fonction d'enveloppe spectrale H(f) C'est pourquoi la parole voisée S(n) peut être considérée comme un signal de sortie quand un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate et la même période que la parole voisée S(n) est introduit dans un filtre variant dans le temps ayant la même caractéristique de réponse en fréquence que la fonction d'enveloppe spectrale H(f) de la parole voisée S(n) Si l'on examine ceci en fonction du temps, la parole voisée S(n) est une combinaison d'une réponse d'impulsion h(n) du filtre H(f) et du signal périodique de train d'impulsions de hauteur e(n) Etant donné que H(f) correspond à la fonction d'enveloppe spectrale de la parole voisée S(n), le filtre variant dans le temps ayant H(f) comme caractéristique de réponse en fréquence sera appelé

filtre d'enveloppe spectrale ou filtre de synthèse.

A la fig 3 A, on a représenté un signal pour 4 périodes d'une forme d'onde glottale Couramment, les formes d'onde des impulsions glottales composant la forme d'onde glottale sont semblables les unes aux autres mais non complètement identiques, et aussi les intervalles de temps entre les impulsions glottales adjacentes sont semblables les uns aux autres mais non complètement égaux Comme décrit ci-dessus, la forme d'onde de parole voisée S(n) de la fig 3 C est créée quand la forme d'onde glottale g(n) représentée à la fig 3 A est filtrée par le filtre de conduit vocal V(f) La forme d'onde glottale g(n) est constituée des impulsions glottales gl(n), g 2 (n), g 3 (n) et g 4 (n) distinguées l'une de l'autre en termes de temps, et quand elles sont filtrées par le filtre de conduit vocal V(f), les vaguelettes sl(n), S 2 (n), S 3 (n) et s 4 (n) représentées à la fig 3 B sont créées La forme d'onde de parole voisée S(n) représentée à la fig 3 C

est créée en superposant de telles vaguelettes.

Un concept de base de la présente invention est que si l'on peut obtenir les vaguelettes qui composent un signal de parole voisé en décomposant ce signal de parole voisé, on peut synthétiser de la parole avec des structures d'accent et d'intonation arbitraires en modifiant l'intensité des vaguelettes

et les intervalles de temps qui les séparent.

Parce que la forme d'onde de parole voisée S(n) représentée à la fig 3 C a été créée en superposant les vaguelettes qui se chevauchent l'une l'autre dans le temps, il est difficile de récupérer les vaguelettes en partant de la forme d'onde de

parole S(n).

Afin que les vaguelettes de chaque période ne se chevauchent pas l'une l'autre dans le temps, la forme d'onde doit être une forme d'onde pointue dans laquelle l'énergie est concentrée autour d'un point dans le temps, comme représenté à la fig 3 F. Une forme d'onde pointue est une forme d'onde qui a une enveloppe spectrale presque plate dans le domaine de fréquence Quand une forme d'onde de parole voisée S(n) est donnée, un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate comme représenté à la fig 3 F peut être obtenu en sortie, en estimant l'enveloppe du spectre S(f) de la forme d'onde S(n) et en l'introduisant dans un filtre inverse d'enveloppe spectrale 1/H(f) ayant l'inverse de la fonction

d'enveloppe H(f) comme caractéristique de fréquence.

Les figures 4, SA et 5 B se réfèrent à cette étape.

Parce que les formes d'onde d'impulsion de hauteur de chaque période composant le signal périodique de train d'impulsions de hauteur e(n) comme représenté à la fig 3 F ne se chevauchent pas l'une l'autre dans le domaine du temps, elles peuvent être séparées Le principe du procédé de décomposition de formes d'onde périodiques est que, étant donné que les "signaux d'impulsion de hauteur pour une période" el(n), e 2 (n) ont un spectre sensiblement plat, s'ils sont réintroduits dans le filtre d'enveloppe spectrale H(f) de sorte que les signaux aient le spectre original, alors les vaguelettes Sl(n), 52 (n) etc telles que représenté à la fig 3 B, peuvent être obtenues. La fig 4 est un diagramme synoptique du procédé de décomposition de formes d'onde périodiques de la présente invention, dans lequel le segment de parole voisé est analysé en vaguelettes La forme d'onde de parole voisée S(n), qui est un signal numérique, est obtenue en limitant la bande du signal analogique de parole voisé ou le signal de son d'un instrument de musique au moyen d'un filtre passe-bas et en convertissant les signaux résultants dans une conversion analogique-numérique et en stockant les signaux sur un disque magnétique sous le format de code de la modulation par impulsions codées (MIC) en regroupant plusieurs bits à la fois, et elle est alors

extraite pour être traitée quand c'est nécessaire.

La première étape du processus de préparation de vaguelettes selon le procédé de décomposition de formes d'onde périodiques est une déconvolution aveugle dans laquelle la forme d'onde de parole voisée S(n) lsignal périodique S(n)l subit un traitement de déconvolution en une réponse d'impulsion h(n) qui est une fonction dans le temps de la fonction d'enveloppe spectrale H(f) du signal S(n), et un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate et la même période que celle du signal S(n) Voir les fig 5 A et 5 B et les

descriptions qui s'y rapportent.

Telle qu'on l'a décrite, pour la déconvolution aveugle, la technique d'estimation de spectre au moyen de laquelle la fonction d'enveloppe spectrale H(f) est

estimée à partir du signal S(n) est essentielle.

Les techniques antérieures d'estimation de spectre peuvent être classées en 3 procédés: 1 un procédé d'analyse de blocs; 2 un procédé d'analyse synchrone de hauteur; et 3 un procédé d'analyse séquentielle en

fonction de la longueur d'un intervalle d'analyse.

Le procédé d'analyse de blocs est un procédé dans lequel le signal de parole est divisé en blocs de durée constante de l'ordre de 10 à 20 millisecondes, et ensuite l'analyse est effectuée par rapport au nombre constant d'échantillons existant dans chaque bloc, en obtenant un ensemble (couramment 10 à 16 paramètres) de paramètres d'enveloppe spectrale pour chaque bloc, et dans ce procédé un procédé d'analyse homomorphique et un procédé d'analyse de blocs par

prédiction linéaire sont typiques.

Le procédé d'analyse synchrone de hauteur fournit un ensemble de paramètres d'enveloppe spectrale pour chaque période en effectuant l'analyse sur chaque période de signal de parole qui a été obtenue en divisant le signal de parole par la période de hauteur prise comme période unité (comme représenté à la fig 3 C), et, dans ce procédé, le procédé d'analyse par synthèse et le procédé d'analyse synchrone de hauteur par prédiction linéaire sont typiques. Dans le procédé d'analyse séquentielle, un ensemble de paramètres d'enveloppe spectrale est obtenu pour chaque échantillon de parole (comme représenté à la fig 3 D), en estimant le spectre pour chaque échantillon de parole, et dans ce procédé le procédé des moindres carrés et le procédé récursif des moindres carrés, qui sont une sorte de procédé de

filtrage adaptatif, sont typiques.

La fig 3 D représente la variation dans le temps des 4 premiers coefficients parmi 14 coefficients de réflexion kl, k 2, k 14 qui constituent un ensemble de paramètres d'enveloppe spectrale obtenus par le procédé d'analyse

séquentielle (prière de se référer à la fig 5 A).

Comme on peut le voir d'après le dessin, les valeurs des paramètres d'enveloppe spectrale varient constamment en raison du mouvement continuel des organes d'articulation, ce qui signifie que la réponse d'impulsions h(n) du filtre d'enveloppe spectrale varie en permanence Ici, pour la commodité de l'explication, on suppose que h(n) ne varie pas pendant un intervalle d'une période, h(n) pendant la première, la deuxième et la troisième période est désigné respectivement par h(n)1, h(n)2 et h(n)3 comme montré à la fig 3 E. Un ensemble de paramètres d'enveloppe obtenu par diverses techniques d'estimation de spectre, telle qu'un cepstre CL(i) qui est un ensemble de paramètres obtenu par le procédé d'analyse homomorphique, et un ensemble de coefficients de prédiction (ai) ou un ensemble de coefficients de réflexion (ki), ou un ensemble de paires de spectres de ligne etc qui est obtenu en appliquant le procédé récursif des moindres carrés ou le procédé de prédiction linéaire, sont également considérés comme des fonctions H(f) ou h(n), parce qu'ils peuvent faire la caractéristique de fréquence H(f) ou la réponse

d'impulsions h(n) du filtre d'enveloppe spectrale.

C'est pourquoi la réponse en impulsions est aussi désignée ci-après comme l'ensemble de paramètres

d'enveloppe spectrale.

Les fig 5 A et 5 B montrent des procédés de

décomposition aveugle.

La fig 5 A montre un procédé de déconvolution aveugle réalisé en utilisant le procédé d'analyse par prédiction linéaire ou en utilisant le procédé récursif des moindres carrés qui sont tous deux des procédés des réalisations antérieures Etant donné la forme d'onde de parole voisée S(n), telle que représentée à la fig 3 C, les coefficients de prédiction (ai, a 2, a N) ou les coefficients de réflexion (kl, k 2, k N) qui sont les paramètres

d'enveloppe spectrale représentant les carac-

téristiques de fréquence H(f) ou la réponse d'impulsion h(n) du filtre d'enveloppe spectrale sont obtenus en utilisant le procédé de prédiction linéaire

ou le procédé récursif des moindres carrés.

Normalement, 10 à 16 coefficients de prédiction sont suffisants pour l'ordre de la prédiction "N" En utilisant les coefficients de prédiction (al, a 2, a N) et les coefficients de réflexion (kl, k 2, k N) comme paramètres d'enveloppe spectrale, un filtre inverse d'enveloppe spectrale (ou appelé simplement filtre inverse) ayant la caractéristique de fréquence de l/H(f) qui est l'inverse de la caractéristique de fréquence H(f) du filtre d'enveloppe spectrale, peut facilement être construit par une personne experte dans la technique Si la forme d'onde de parole voisée est introduite dans le filtre inverse d'enveloppe spectrale qui est aussi appelé filtre d'erreur de prédiction linéaire dans le procédé d'analyse par prédiction linéaire ou dans le procédé récursif des moindres carrés, alors le signal périodique de train d'impulsions de hauteur du type de la fig 3 F ayant l'enveloppe spectrale plate désigné comme signal d'erreur de prédiction ou signal résiduel peut être

obtenu à la sortie du filtre.

Les fig 5 B et 5 C montrent le procédé de déconvolution aveugle utilisant le procédé d'analyse homomorphique qui est un procédé d'analyse par blocs, dans lesquelles la fig 5 B montre le procédé mis en oeuvre par une décision de fréquence et la fig 5 C montre le procédé mis en oeuvre par le filtrage inver- se.

Une description de la fig 5 B suit Des

échantillons de parole pour l'analyse d'un bloc sont obtenus en multipliant le signal de parole voisé S(n) par une fonction à fenêtre trapézoïdale (tapered window) telle que la fonction fenêtre de Hamming ayant une durée d'environ 10 à 20 ms Une séquence de cepstre c(i) est alors obtenue en traitant les

échantillons de parole au moyen d'une série de procé-

dures de traitement homomorphique consistant en une transformée discrète de Fourier telle que représenté à

la fig 5 D Le cepstre est une fonction de la qué-

frence qui est une unité similaire au temps.

Un cepstre de quéfrence basse CL(i) situé autour d'une origine représentant l'enveloppe spectrale de la parole voisée S(n) et un cepstre de quéfrence élevée CH(i) représentant un signal périodique de train d'impulsions de hauteur e(n) sont capables d'être séparés l'un de l'autre dans un domaine de quéfrence Autrement dit, multiplier le cepstre c(i) par une fonction de fenêtre à basse quéfrence, respectivement par une fonction de fenêtre

à haute quéfrence, donne CL(i) et CH(i) respecti-

vement En les soumettant respectivement à une procédure de traitement homomorphique inverse telle que représenté à la fig 5 E, on obtient la réponse d'impulsions h(n) et le signal de train d'impulsions de hauteur e(n) Dans ce cas, étant donné que soumettre le CH(i) à la procédure de traitement homomorphique inverse ne donne pas directement le signal de train d'impulsions de hauteur e(n) mais donne le signal de train d'impulsions de hauteur d'un bloc, multiplié par une fonction fenêtre du temps w(n), e(n) peut être obtenu en multipliant de nouveau le signal de train d'impulsions de hauteur par une fonction fenêtre inverse du temps 1/w(n) correspondant à l'inverse de w(n). Le procédé de la fig 5 C est le même que celui de la fig 5 B, excepté seulement le fait qu'à la fig. C, on utilise CL(i) au lieu de CH(i) pour obtenir le

signal de train d'impulsions de hauteur e(n).

Autrement dit, dans ce procédé, en utilisant la propriété qu'une réponse d'impulsion inverse h 1 '(n) correspondant à 1/H(f), qui est un inverse des caractéristiques de fréquence H(f), peut être obtenue en soumettant CL(i), qui est obtenu en prenant l'opposé de CL(i), à la procédure de traitement homomorphique inverse, le signal périodique de train d'impulsions de hauteur e(n) peut être obtenu en sortie en construisant un filtre de réponse

d'impulsion de durée finie (FIR) qui a une réponse h-

'(n) comme réponse d'impulsion et en envoyant au filtre un signal original de parole S(n) qui n'est pas multiplié par une fonction fenêtre Ce procédé est un procédé de filtrage inverse qui est fondamentalement le même que celui de la fig 5 A, à la seule exception que tandis que dans l'analyse homomorphique de la fig. C le filtre inverse d'enveloppe spectrale 1/H(f) est construit en obtenant une réponse d'impulsion de h I'(n) du filtre inverse d'enveloppe spectrale, à la fig 5 A le filtre inverse d'enveloppe spectrale 1/H(f) peut être construit directement au moyen des coefficients de prédiction (ai) ou des coefficients de réflexion (ki) obtenus par le procédé d'analyse de prédiction linéaire. Dans la déconvolution aveugle basée sur l'analyse homomorphique, la réponse d'impulsion h(n) ou le cepstre de quéfrence basse CL(i) représentés par des lignes pointillées aux fig 5 B et 5 C peuvent être utilisés comme ensemble de paramètres d'enveloppe spectrale Quand on utilise la réponse d'impulsion {h( 0), h(l), h(N- l)}, un ensemble de paramètres d'enveloppe spectrale est normalement constitué d'un bon nombre de paramètres de l'ordre de N, compris entre 90 et 120, tandis que le nombre de paramètres peut être diminué à 50 ou 60 avec N étant compris entre 25 et 30 quand on utilise le cepstre {CL(-N)m

CL(-Ni 1), 0, CL(N)}.

Comme décrit ci-dessus, la forme d'onde de parole voisée S(n) est décomposée en la réponse d'impulsion h(n) du filtre d'enveloppe spectrale et le signal périodique de train d'impulsions de hauteur

e(n) selon la procédure de la fig 5.

Si le signal de train d'impulsions de hauteur et les paramètres d'enveloppe spectrale ont été obtenus selon la procédure de déconvolution aveugle, alors des positions d'impulsion de hauteur Pl, P 2 etc. sont obtenues à partir du signal périodique de train d'impulsions de hauteur e(n) ou du signal de parole s(n) en utilisant un algorithme de détection de position d'impulsion de hauteur dans le domaine du

temps, tel que l'algorithme de détection d'époque.

Ensuite, les signaux d'impulsion de hauteur el(n), e 2 (n) et e 3 (n) représentés respectivement aux fig 3 H, 3 K et 3 N sont obtenus en segmentant périodiquement le signal de train d'impulsions de hauteur e(n) de sorte qu'une impulsion de hauteur soit comprise dans un intervalle d'une période comme montré à la fig 3 F. Comme positions de segmentation on peut choisir les points centraux entre les impulsions de hauteur ou des points qui sont éloignés d'un temps constant en avant de chaque impulsion de hauteur Cependant, comme la position de chaque impulsion de hauteur par rapport au temps coïncide avec la portion d'extrémité de chaque impulsion glottale, comme on s'en rendra compte complètement en comparant les fig 3 A et 3 F, il est préférable de sélectionner un point situé à un intervalle de temps constant en arrière de chaque impulsion de hauteur comme position de la segmentation, comme indiqué par la ligne pointillée à la fig 3 F Cependant, parce que l'impulsion de hauteur exerce l'effet le plus grand sur l'audibilité, il n'y a pas de différences significatives de parole

synthétisée entre les différents cas.

Si les signaux d'impulsion de hauteur el(n), e 2 (n), e 3 (n) etc obtenus par ce procédé sont respectivement combinés à nouveau avec les hl(n), h 2 (n), h 3 (n) de la fig 3 E, qui sont des réponses d'impulsion pendant l'intervalle de période des signaux d'impulsion el(n), e 2 (n), e 3 (n) etc, les vaguelettes souhaitées telles que celles représentées aux fig 3 M, 3 L et 3 ( 0) sont obtenues Une telle combinaison peut être effectuée de manière commode en introduisant chaque signal de train d'impulsions de hauteur dans le filtre d'enveloppe spectrale H(f) qui utilise les paramètres d'enveloppe spectrale comme coefficients de filtre comme montré à la fig 4 Par exemple, dans des cas o les coefficients de prédiction linéaire, ou les coefficients de réflexion, ou bien les paires de spectres de ligne sont utilisés comme paramètres d'enveloppe spectrale comme dans le procédé d'analyse par prédiction linéaire, un filtre à réponse d'impulsion de durée infinie (IIR) ayant les coefficients de prédiction linéaire ou les coefficients de réflexion, ou bien les paires de spectres de ligne comme coefficients de filtre est constitué Dans des cas o la réponse d'impulsion est utilisée pour les paramètres d'enveloppe spectrale comme dans le procédé d'analyse homomorphique, un filtre à réponse d'impulsion de durée finie (FIR) ayant la réponse d'impulsion comme coefficients de filtre est constitué Etant donné que le filtre de synthèse ne peut pas être constitué directement si le paramètre d'enveloppe spectrale est un rapport d'aire logarithmique ou le cepstre, les paramètres d'enveloppe spectrale devraient être retransformés en coefficients de réflexion ou en réponse d'impulsion afin d'être utilisés comme coefficients du filtre IIR ou FIR Si le signal d'impulsion de hauteur pour une période est le signal d'entrée du filtre d'enveloppe spectrale constitué comme décrit ci-dessus, avec les coefficients du filtre variant dans le temps conformément aux paramètres d'enveloppe spectrale correspondant au même instant que chaque échantillon du signal d'impulsion de hauteur, alors la vaguelette

pour cette période est émise.

Pour cette raison, les "formes d'onde en fonction du temps" des paramètres d'enveloppe spectrale sont découpées au même point que quand e(n) a été découpé afin d'obtenir le signal d'impulsion de hauteur pour chaque période Par exemple, dans le cas d'analyse séquentielle, les paramètres d'enveloppe spectrale de la première période kl(n)l, k 2 (n)1, etc, tels que représentés à la fig 3 G, sont obtenus en découpant les paramètres d'enveloppe spectrale correspondant à la même période de temps que le premier signal d'impulsion de hauteur el(n) représenté à la fig 3 H dans les fonctions du temps kl(n), k 2 (n) etc des paramètres d'enveloppe spectrale comme représenté à la fig 3 D Les deuxièmes et les troisièmes paramètres d'enveloppe spectrale indiqués en trait continu aux fig 3 J et 3 M peuvent aussi être

obtenus d'une manière similaire mentionnée ci-dessus. A la fig 4, les coefficients de réflexion kl, k 2, k N et la réponse

d'impulsion h( 0), h(l), h(N-l) sont représentés comme ensemble typique de paramètres d'enveloppe spectrale, dans lesquels ils sont désignés par kl(n), k 2 (n), kn(n) et par h(O,n), h(l,n), n(N-1, n) afin de souligner qu'ils sont des fonctions du temps De la même manière, dans les cas o le cepstre CL(i) est utilisé comme ensemble de paramètres

d'enveloppe spectrale, il sera désigné par CL(i, n).

Etant donné que dans le cas du procédé d'analyse de hauteur synchrone, contrairement au procédé d'analyse séquentielle, on n'obtient pas les fonctions du temps des paramètres d'enveloppe spectrale mais les valeurs des paramètres d'enveloppe spectrale qui sont des constantes sur l'intervalle d'analyse, il serait n Acessaire de construire les fonctions du temps des paramètres d'enveloppe spectrale à partir des valeurs des paramètres d'enveloppe spectrale et de segmenter ensuite les fonctions du temps période par période afin d'obtenir

les paramètres d'enveloppe spectrale pour une période.

Cependant, en réalité, il est commode de procéder

comme suit au lieu de composer les fonctions du temps.

Autrement dit, dans le cas du procédé d'analyse de hauteur synchrone, étant donné qu'un ensemble de paramètres d'enveloppe spectrale ayant des valeurs constantes correspond à chaque intervalle de hauteur tel que représenté en trait pointillé à la fig 8 B, les paramètres d'enveloppe spectrale ne montrent aucune variation même quand leurs fonctions du temps sont segmentées période par période C'est pourquoi les paramètres d'enveloppe spectrale pour une période devant être stockés dans une mémoire-tampon ne sont pas des fonctions du temps mais des constantes

indépendantes du temps.

Dans le cas du procédé d'analyse par blocs, étant donné qu'on obtient pour chaque bloc un ensemble de paramètres constants d'enveloppe spectrale, les valeurs d'un paramètre d'enveloppe spectrale pour une période appartenant à un bloc, par exemple kl(n)l, kl(n)2,, kl(n)M ne sont pas seulement constamment indépendantes du temps mais aussi identiques (ici, les notations kl(n)j désignent la fonction du temps de kl pour le j-ième intervalle de période, et M représente le nombre d'intervalles de période de hauteur

appartenant à un bloc).

On peut remarquer que dans le cas du procédé d'analyse par blocs, quand le signal d'impulsion de hauteur chevauche la limite de deux blocs adjacents, les paramètres d'enveloppe spectrale du bloc précédent et du bloc suivant devront être utilisés respectivement pour les portions de signal précédente

et suivante divisées en fonction de la limite de blocs.

Comme on peut le voir à la fig 3 I, la durée de la vaguelette n'est pas nécessairement égale à une période C'est pourquoi, avant d'appliquer le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale d'une longueur de période obtenue par segmentation périodique du filtre d'enveloppe spectrale, les processus d'adjonction de zéros et de traînage de paramètres représentés à la fig 4 sont nécessaires pendant la durée du signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale doivent durer au moins aussi longtemps que ceux de la durée effective de la vaguelette Le processus d'adjonction de zéros consiste à rendre la durée totale du signal d'impulsion de hauteur aussi longue que la longueur nécessaire en adjoignant des échantillons ayant une valeur zéro au signal d'impulsion de hauteur d'une période Le processus de traînage de paramètres consiste à rendre la durée totale d'un paramètre d'enveloppe spectrale aussi longue que la longueur nécessaire en adjoignant pendant les périodes suivantes le paramètre d'enveloppe spectrale au paramètre d'enveloppe spectrale d'une durée de période Cependant, même si c'est un procédé simple d'adjoindre de manière répétée la valeur finale du paramètre d'enveloppe spectrale d'une période ou la valeur initiale du paramètre d'enveloppe spectrale de la valeur suivante, la qualité de la parole synthétisée n'est pas détériorée

de manière significative.

Le fait que la durée effective de la vaguelette à créer par le filtre d'enveloppe spectrale dépende des valeurs des paramètres d'enveloppe spectrale rend difficile de l'estimer à l'avance Cependant, étant donné que dans la pratique on n'obtient pas d'erreurs significatives dans la plupart des cas si on considère que la durée effective d'une vaguelette est de 2 périodes à partir de la position d'impulsion de hauteur dans le cas d'une voix d'homme, et de 3 périodes à partir de la position d'impulsion de hauteur dans le cas d'une voix de femme ou d'enfant, il est commode de décider que la durée du "signal d'impulsion de hauteur avec traînage" devant être obtenue par adjonction de zéros et que la "durée de paramètres d'enveloppe spectrale avec traînage" devant être réalisée par traînage de paramètres deviennent 3 et 4 durées de période pour des voix d'homme et de femme respectivement, dans le cas o la segmentation périodique est réalisée juste après les impulsions de hauteur A la fig 3 G, des paramètres d'enveloppe spectrale avec traînage pour la première période de l'intervalle de 3 périodes "ad" obtenus en adjoignant les paramètres d'enveloppe spectrale pour l'intervalle de 2 périodes "bd" indiqué par la ligne pointillée juste après le paramètre d'enveloppe spectrale de l'intervalle de première période "ab" obtenu par la segmentation périodique ont été représentés à titre d'exemple A la fig 3 H, un signal d'impulsion de hauteur avec traînage pour la première période de l'intervalle de 3 périodes "ad", obtenu en adjoignant des échantillons de valeur zéro à l'intervalle de 2 périodes "bd" contigu au signal d'impulsion de hauteur de l'intervalle de la première période "ab" obtenu par la segmentation périodique est

montré à titre d'exemple.

Dans le cas décrit ci-dessus, étant donné que la durée après l'adjonction de zéros et le traînage de paramètres est augmentée de 3 ou 4 périodes, alors que la durée du signal d'impulsion de hauteur et du paramètre d'enveloppe spectrale avant l'adjonction de zéros et le traînage de paramètres est d'une période, des mémoires-tampons sont prévues entre la segmentation périodique et le traînage de paramètres, comme représenté à la fig 4, et le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale obtenus par la segmentation périodique et stockés ensuite dans les mémoires-tampons sont alors récupérés

quand nécessaire, de sorte qu'une mise en mémoire-

tampon dans le temps est réalisée.

Si le signal d'impulsion de hauteur avec traînage et les paramètres d'enveloppe spectrale avec traînage sont obtenus par l'adjonction de zéros et le traînage de paramètres de la fig 4, le "signal de vaguelette" Sl(n) pour la première période de la durée de l'intervalle de 3 périodes tel que l'intervalle "ad" comme représenté à la fig 3 I peut finalement être obtenu en envoyant le signal d'impulsion de hauteur avec traînage de la première période tel que l'intervalle "ad" de la fig 3 H au filtre d'enveloppe spectrale H(f) et en faisant varier de manière synchrone les coefficients de la même manière que le paramètre d'enveloppe spectrale avec traînage de la première période telle que l'intervalle "ad" de la fig 3 G Les signaux de vaguelette 52 (n) et 53 (n) pour la deuxième et la troisième période respectivement peuvent être obtenus de manière analogue. Comme décrit ci- dessus, la forme d'onde de parole voisée S(n) est finalement décomposée en les vaguelettes composant la forme d'onde S(n) au moyen de la procédure de la fig 4 Bien entendu, en réorganisant les vaguelettes des fig 31, 3 L et 3 ( 0) obtenues en re-décomposant les points d'origine, on obtient la fig 3 B et si on superpose les vaguelettes, la forme d'onde de parole originale S(n) telle que montrée à la fig 3 C est obtenue à nouveau Ainsi, en faisant varier de manière appropriée l'intervalle de temps entre les vaguelettes obtenues par décomposition, on peut obtenir une synthèse de parole ayant la structure arbitraire souhaitée de hauteur, c'est-à-dire l'intonation De même, en faisant varier de manière appropriée l'énergie des vaguelettes, on peut obtenir une synthèse de parole ayant la structure

arbitraire souhaitée d'accent.

Dans le bloc de stockage de segments de parole représenté à la fig 2, chaque segment de parole voisée, décomposé en autant de vaguelettes qu'il y a d'impulsions de hauteur selon le procédé représenté à la fig 4, est stocké sous le format montré à la fig. 6 A, que l'on appelle informations de segment de parole Dans un champ d'en-tête qui est une portion préliminaire des informations de segment de parole, des instants de temps limites Bi, B 2,, BL qui sont des instants de temps importants dans le segment de parole, et des positions d'impulsion de hauteur Pl, P 2,, PM de chaque signal d'impulsion de hauteur utilisés dans la synthèse de chaque vaguelette sont stockés, dans lesquels le nombre d'échantillons correspondant à chaque instant de temps est enregistré en prenant comme point O la première position d'échantillon du premier signal d'impulsion de hauteur el(n) L'instant de temps limite est la position dans

le temps des points limites situés entre les sous-

segments obtenus quand le segment de parole est segmenté en plusieurs sous-segments Par exemple, la voyelle précédée et suivie de consonnes peut être considérée comme consistant en 3 sous-segments pour une parole à vitesse faible, étant donné que la voyelle peut être divisée en un intervalle de portion médiane en régime permanent, et deux intervalles de transition présents avant et après l'intervalle en

régime permanent, et 3 points d'extrémité des sous-

segments sont stockés comme instants de temps limites

dans le champ d'en-tête du segment de parole.

Cependant, dans le cas o le segment de parole de la voyelle peut être considéré comme consistant en 2 sous-segments, deux instants de temps limites sont

stockés dans les informations d'en-tête.

Dans le champ de code de vaguelettes, qui est la dernière partie des informations de segments de parole, sont stockés des codes de vaguelettes qui sont des codes obtenus en codant en forme d'onde la vaguelette correspondant à chaque période Les vaguelettes peuvent être codées par le procédé simple de codage de formes d'onde, tel que la MIC, mais étant donné que les vaguelettes ont une corrélation significative à court terme et à long terme, la quantité de mémoire nécessaire pour le stockage peut être diminuée de manière importante si les vaguelettes sont codées en formes d'onde de manière efficace en utilisant un codage ADPCM (modulation par impulsions et codage différentiel adaptatif) qui a une boucle de prédiction de hauteur, un codage prédictif adaptatif

ou un procédé numérique adaptatif de modulation delta.

Le procédé au moyen duquel sont codées en formes d'onde les vaguelettes obtenues par décomposition, les codes résultants étant stockés et, lors de la synthèse, étant décodés, réorganisés et superposés pour produire la parole synthétisée, est appelé le

"procédé de stockage de codes de forme d'onde".

Le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale correspondants peuvent être considérés comme identiques à la vaguelette, parce qu'ils sont des matériaux avec lesquels la vaguelette peut être construite C'est pourquoi on pourrait aussi envisager le procédé dans lequel les "codes sources" obtenus en codant les signaux d'impulsion de hauteur et les paramètres d'enveloppe spectrale seraient stockés, les vaguelettes seraient obtenues à partir des signaux d'impulsion de hauteur et des paramètres d'enveloppe spectrale obtenus en décodant les codes sources, et les vaguelettes seraient alors réorganisées et superposées pour produire la parole synthétisée Ce procédé est appelé "procédé de stockage de codes sources" Ce procédé correspond à celui dans lequel le signal d'impulsion de hauteur et les paramètres

d'enveloppe spectrale stockés dans les mémoires-

tampons, au lieu des vaguelettes obtenues en sortie à la fig 4, sont associés les uns avec les autres dans le même intervalle de période et stockés ensuite dans le bloc de stockage de segments de parole C'est pourquoi dans le procédé de stockage de codes sources, les procédures qui suivent la mémoire-tampon à la figure 4, c'est-à-dire la procédure de traînage de paramètres, la procédure d'adjonction de zéros et la procédure de filtrage par le filtre de synthèse H(f) sont exécutées dans le sous-ensemble d'assemblage de

formes d'onde de la fig 7.

Dans le procédé de stockage de codes sources, le format des informations de segment de parole est tel que représenté à la fig 6 B qui est la même que la fig 6 A à l'exception du contenu du champ de codes de vaguelettes Autrement dit, les signaux d'impulsion de hauteur et les paramètres d'enveloppe spectrale nécessaires à la synthèse des vaguelettes, au lieu des vaguelettes elles-mêmes, sont codés et stockés aux emplacements o la vaguelette pour chaque période doit être stockée à la fig 6 A. Les paramètres d'enveloppe spectrale sont codés selon le procédé connu de quantification des paramètres d'enveloppe spectrale et stockés dans le champ de codes de vaguelette A cet instant, si les paramètres d'enveloppe spectrale sont transformés de manière appropriée avant la quantification, le codage peut être effectué de manière efficace Par exemple, il est préférable de transformer les coefficients de prédiction en paramètres de spectre de ligne et les coefficients de réflexion en rapports logarithmiques d'aires et de les quantifier De plus, étant donné que la réponse d'impulsion fait apparaître une corrélation étroite entre des échantillons adjacents et entre des réponses d'impulsion adjacentes, si elles sont codées en forme d'onde selon un procédé de codage différentiel, le volume de données nécessaires au stockage peut être réduit de manière importante Dans le cas des paramètres de cepstrum, on connaît un procédé de codage dans lequel le paramètre de cepstrum est transformé de sorte que le volume de données peut

* être réduit de manière importante.

D'une part, le signal d'impulsion de hauteur est codé selon un procédé approprié de codage de forme d'onde et le code résultant est stocké dans le champ de codes de vaguelette Les signaux d'impulsion de hauteur ont peu de corrélation à court terme mais ont les uns avec les autres une corrélation à long terme significative C'est pourquoi si le procédé de codage de forme d'onde, tel que le codage adaptatif MIC à prédiction de hauteur qui a la boucle de prédiction de hauteur, est utilisé, une parole synthétisée de haute qualité peut être obtenue même si le volume de mémoire nécessaire pour le stockage est réduit à 3 bits par échantillon Le coefficient de prédiction d'un algorithme de prédiction de hauteur peut être une valeur obtenue pour chaque période de hauteur selon un

procédé d'auto-corrélation ou peut être une constante.

A la première étape du codage, l'effet de prédiction de hauteur peut être accru par normalisation en divisant le signal d'impulsion de hauteur à coder par la racine carrée de l'énergie moyenne par échantillon "G" Le décodage est exécuté dans le bloc de synthèse de parole voisée et le signal d'impulsion de hauteur est reconstitué à son amplitude d'origine en le multipliant par "G" de nouveau à l'étape finale du décodage. A la fig 6 B, on a représenté les informations de segment de parole dans le cas o un procédé d'analyse par prédiction linéaire est adopté qui utilise 14 coefficients de réflexion comme paramètres d'enveloppe spectrale Si l'intervalle d'analyse pour l'analyse par prédiction linéaire est la période de hauteur, 14 coefficients de réflexion correspondent à

chaque signal d'impulsion de hauteur et sont stockés.

Si l'intervalle d'analyse est un bloc d'une certaine longueur, les coefficients de réflexion pour plusieurs signaux d'impulsion de hauteur dans un bloc ont les mêmes valeurs, de sorte que le volume de mémoire nécessaire pour le stockage des vaguelettes est réduit Dans ce cas, comme décrit ci-dessus, étant donné que les coefficients de réflexion du premier bloc ou du dernier bloc sont utilisés au moment de la synthèse pour le signal d'impulsion de hauteur situé de part et d'autre de la limite de deux blocs selon que les échantillons du signal sont après ou avant le point limite, la position du point limite entre les

blocs doit être également stockée dans le champ d'en-

tête Si le procédé d'analyse séquentielle tel que le procédé récursif des moindres carrés est utilisé, les coefficients de réflexion kl, k 2,, k 14 deviennent des fonctions continues de l'indice de temps "n" ainsi que le montre la fig 3 D, et beaucoup de mémoire est nécessaire pour stocker les fonctions du temps kl(n), k 2 (n),, k 14 (n) En prenant pour exemple le cas de la fig 3, les formes d'onde pour l'intervalle "ab" des fig 3 G et 3 H comme première période, pour l'intervalle "bc" des fig 3 J et 3 K comme deuxième période, et pour l'intervalle "cd" des fig 3 M et 3 N comme troisième période du champ de codes de vaguelettes, sont stockées dans le champ de codes de vaguelettes. Le procédé de stockage de codes de forme d'onde et le procédé de stockage de codes sources sont essentiellement le même procédé et, en fait, le code de forme d'onde obtenu quand les vaguelettes sont codées selon le procédé efficace de codage de forme d'onde tel que le codage par prédiction adaptative dans le procédé de stockage de code de forme d'onde devient presque le même par son contenu que le code source obtenu par le procédé de stockage de codes sources Le code de forme d'onde dans le procédé de stockage de codes de forme d'onde et le code source dans le procédé de stockage de codes sources sont

globalement appelés code de vaguelette.

La fig 7 illustre la configuration interne du bloc de synthèse de parole voisée de la présente invention Les codes de vaguelette, stockés dans le champ de codes de vaguelette des informations de segment de parole reçus du bloc de stockage de segments de parole, sont décodés par un sous-ensemble de décodage 9, selon une procédure inverse de la procédure selon laquelle ils ont été codés Les signaux de vaguelette obtenus quand les codes de forme d'onde sont décodés dans le procédé de stockage de formes d'onde, ou bien les signaux d'impulsion de hauteur obtenus quand les codes sources sont décodés dans le procédé de stockage de codes sources et les paramètres d'enveloppe spectrale associés aux signaux d'impulsion de hauteur sont appelés les informations de vaguelette, et sont envoyés au sous-ensemble d'assemblage de formes d'onde 13 D'une part, les

informations d'en-tête stockées dans le champ d'en-

tête des informations de segment de parole sont le signal d'entrée envoyé à un sous-ensemble de commande de durée 10 et un sous-ensemble de commande de hauteur 11. Le sous-ensemble de commande de durée 10 de la fig 7 reçoit en entrée les données de durée figurant dans les informations de prosodie et les instants de temps limites compris dans les informations d'en-tête de segments de parole, et produit les informations de distorsion dans le temps en utilisant les données de durée et les instants de temps limites et fournit les

informations de distorsion dans le temps au sous-

ensemble d'assemblage de formes d'onde 13, au sous-

ensemble de commande de hauteur 11 et au sous-ensemble de commande d'énergie 12 Si la durée totale du segment de parole devient plus longue ou plus courte, la durée des sous-segments constituant le segment de parole devient respectivement plus longue ou plus courte, alors que le rapport de l'expansion ou de la

compression dépend de la propriété de chaque sous-

segment Par exemple, dans le cas d'une voyelle précédée et suivie de consonnes, la durée de l'intervalle d'état stationnaire qui est au milieu a un taux de variation sensiblement plus grand que ceux des intervalles de transition situés de part et d'autre de la voyelle Le sous-ensemble de commande de durée compare la durée BL au segment de parole original qui a été stocké et la durée du segment de parole à synthétiser indiquée par les données de durée, et obtient la durée de chaque sous-segment à

synthétiser correspondant à la durée de chaque sous-

segment original en utilisant leur taux de variation ou la règle de durée, obtenant ainsi les instants de temps limites de la parole synthétisée Les instants de temps limites originaux Bi, B 2, etc et les instants de temps limites B'1, B'2, etc de la parole synthétisée associés en correspondance avec les instants de temps limites originaux sont appelés globalement les informations de distorsion dans le temps, et dans le cas de la fig 8, par exemple, les informations de distorsion dans le temps peuvent être représentées par f(Bl, B'1), (B 2, B'2), (B 3, B'3),

(B 4, B'4)}.

La fonction du sous-ensemble de commande de hauteur de la fig 7 est de produire les informations de position d'impulsion de hauteur de manière que la parole synthétisée ait la structure d'intonation indiquée par les données de structure d'intonation, et de fournir ces informations au sous-ensemble d'assemblage de formes d'onde et au sous- ensemble de commande d'énergie Le sous-ensemble de commande de hauteur reçoit en entrée les données de structure d'intonation qui sont les valeurs cibles de fréquence de hauteur pour chaque phonème, et produit, en reliant de manière lissée les valeurs cibles de fréquence de hauteur, un contour de hauteur représentant la variation continue de fréquence de hauteur en fonction du temps Le sous-ensemble de commande de hauteur peut refléter un phénomène de micro-intonation dû à un obstacle dans le contour de hauteur Cependant, dans ce cas, le contour de hauteur devient une fonction discontinue dans laquelle la valeur de fréquence de hauteur varie brusquement en fonction du temps au point limite entre le phonème faisant obstacle et l'autre phonème adjacent La fréquence de hauteur est obtenue en échantillonnant le contour de hauteur à la première position de hauteur du segment de parole, et la période de hauteur est obtenue en prenant un inverse de la fréquence de hauteur, et ensuite le point précédé par la période de hauteur est déterminé comme la deuxième position d'impulsion de hauteur La période de hauteur suivante est alors obtenue à partir de la fréquence de hauteur en ce point et la position d'impulsion de hauteur suivante est obtenue à son tour, et la répétition d'une telle procédure pourrait donner toutes les positions d'impulsion de hauteur de la parole synthétisée Comme première position d'impulsion de hauteur du segment de parole, on peut choisir le premier échantillon ou ses échantillons avoisinants dans le cas du premier segment de parole d'une série de segments de parole voisée continue de la parole synthétisée, et la première position d'impulsion de hauteur pour le segment de parole suivant est déterminée comme étant le point correspondant à la position de l'impulsion de hauteur suivant la dernière impulsion de hauteur du segment de parole précédent, et ainsi de suite Le sous-ensemble de commande de hauteur envoie dans un même bloc les positions d'impulsion de hauteur P'l, P'2, etc de parole synthétisée obtenues telles quelles et les positions originales d'impulsion de hauteur Pi, P 2 etc comprises dans les informations d'en-tête de segment de parole vers le sous-ensemble d'assemblage de formes d'onde et le sous-ensemble de commande d'énergie, o elles sont appelées les informations de position d'impulsion de hauteur Dans le cas de la fig 8, par exemple, les informations de position d'impulsion de hauteur peuvent être représentées par

"(Pl, P 2, P 9), (P'1, P'2,, P'8)}.

Le sous-ensemble de commande d'énergie de la fig 7 produit des informations de gain au moyen desquelles la parole synthétisée a la structure d'accent telle qu'indiqué par les données de structure d'accent, et les envoie au sous-ensemble d'assemblage de formes d'onde Le sous-ensemble de commande d'énergie reçoit en entrée les données de structure d'accent qui sont les valeurs cibles d'amplitude pour chaque phonème, et produit, en les reliant de manière lissée, un contour d'énergie représentant la variation continue de l'amplitude en fonction du temps On suppose que les segments de parole sont normalisés d'avance à l'instant du stockage, de sorte qu'ils ont une énergie relative en fonction de la classe de segment de parole afin de refléter la différence relative d'énergie pour chaque phonème Par exemple, dans le cas de voyelles, une voyelle grave a une énergie par unité de temps plus grande qu'une voyelle aiguë, et un son nasal a une énergie par unité de temps qui est environ la moitié de celle de la voyelle De plus, l'énergie pendant l'intervalle de fermeture d'un son sonore est très faible C'est pourquoi, quand les segments de parole sont stockés, ils devront être codés après un ajustement en avance de sorte qu'ils aient une telle énergie relative Dans

ce cas, le contour d'énergie produit dans le sous-

ensemble de commande d'énergie devient un gain devant être multiplié par la forme d'onde à synthétiser Le sous-ensemble de commande d'énergie obtient les valeurs de gain Gi, G 2, etc à chaque position d'impulsion de hauteur P'l, P'2, etc de la parole synthétisée en utilisant le contour d'énergie et les informations de position d'impulsion de hauteur, et les délivre au sous-ensemble d'assemblage de formes d'onde et celles-ci sont appelées informations de gain Dans le cas de la fig 8, par exemple, les informations de gain peuvent être représentées par

{(P'l, Gl), (P'2, G 2),, (P'8, G 8)}.

Le sous-ensemble d'assemblage de formes d'onde 13 de la fig 7 reçoit en entrée les informations de vaguelette décrites ci-dessus, les informations de distorsion dans le temps, les informations de position d'impulsion de hauteur et les informations de gain, et

produit finalement le signal de parole voisé Le sous-

ensemble d'assemblage de formes d'onde produit la parole ayant la structure d'intonation, la structure d'accent et la durée comme indiqué par les informations de prosodie en utilisant les informations de vaguelette reçues du sous-ensemble de décodage A cet instant, certaines des vaguelettes sont répétées, et certaines sont omises Les données de durée, les données de structure d'intonation et les données de structure d'accent comprises dans les informations de prosodie sont des informations indicatives indépendantes l'une de l'autre, tandis qu'elles doivent être traitées comme si elles étaient reliées entre elles parce qu'elles ont un interrelation entre ces trois informations quand la forme d'onde est

synthétisée au moyen des informations de vaguelette.

Un des problèmes les plus importants dans l'assemblage de formes d'onde est le choix de la vaguelette comme vaguelette destinée à être réorganisée à chaque position d'impulsion de hauteur de la parole synthétisée Si les vaguelettes appropriées ne sont pas sélectionnées et réorganisées, une parole

synthétisée de bonne qualité ne peut pas être obtenue.

On a donné ci-dessous une description du

fonctionnement du sous-ensemble d'assemblage de formes d'onde utilisant le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps de la présente invention, qui est un procédé de repositionnement devaguelettes capable d'obtenir une qualité élevée en synthétisant de la parole synthétique grâce à l'utilisation des informations de segment de parole reçues du bloc de stockage de

segments de parole.

La procédure de synthèse de formes d'onde de parole voisée du sousensemble d'assemblage de formes d'onde consiste en deux étapes, à savoir l'étape de repositionnement de vaguelettes faisant appel à la fonction de distorsion dans le temps, et l'étape de superposition pour superposer les vaguelettes

repositionnées.

Autrement dit, dans le cas du procédé de stockage de codes de forme d'onde, les mieux adaptées parmi les positions d'impulsion de hauteur de la parole synthétisée sont choisies parmi les signaux de vaguelette reçus comme informations de vaguelette et sont positionnées à leurs emplacements d'impulsion de hauteur, et leurs gains sont ajustés et ensuite la

parole synthétisée est produite en les superposant.

Dans le procédé de stockage de codes sources, le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale pour chaque période correspondant au signal d' impulsion de hauteur sont reçus comme informations de vaguelette Dans ce cas, deux procédés d' assemblage de parole synthétique sont possibles Le premier procédé consiste à obtenir chaque vaguelette en attribuant au filtre de synthèse les paramètres d 'enveloppe spectrale et le signal d' impulsion de hauteur pour une longueur d' intervalle de 2 à 4 périodes obtenue en effectuant les procédures correspondant au côté droit de la mémoire-tampon de la fig 4, c'est-à-dire le traînage de paramètres décrit auparavant et l'adjonction de zéros aux informations de vaguelette, et à assembler ensuite la parole synthétique avec les vaguelettes selon une procédure identique à celle du procédé de stockage de code de forme d'onde Ce procédé est fondamentalement le même que l'assemblage de la parole synthétique dans le procédé de stockage de codes de forme d'onde, et en

conséquence sa description séparée sera omise Le

deuxième procédé consiste à obtenir un signal de train d' impulsions de hauteur de synthèse ou signal d'excitation de synthèse ayant une enveloppe spectrale plate mais ayant une structure de hauteur différente de celle du signal périodique original de train d'impulsions de hauteur, en sélectionnant parmi les signaux d'impulsion de hauteur ceux qui sont les plus appropriés aux positions d'impulsion de hauteur de la parole synthétique et en les positionnant et en ajustant leurs gains, et ensuite en les superposant, et à obtenir des paramètres d'enveloppe spectrale de synthèse constitués en reliant le paramètre d'enveloppe spectrale avec chaque signal d'impulsion de hauteur ou signal d'excitation de synthèse, et ensuite à produire la parole synthétisée en attribuant le signal d'excitation de synthèse et les paramètres d'enveloppe spectrale au filtre de synthèse Ces deux procédés sont essentiellement les mêmes, excepté le fait que la séquence entre le filtre de synthèse et la procédure de superposition dans l'assemblage de la

parole de synthèse sont inversées.

Le procédé d'assemblage de parole de synthèse exposé ci-dessus est décrit ci-dessous en se référant à la fig 8 Le procédé de repositionnement de vaguelettes peut être fondamentalement appliqué à la fois au procédé de stockage de codes de forme d'onde et au procédé de stockage de codes sources C'est pourquoi les procédures d'assemblage de formes d'ondes de parole de synthèse dans les deux procédés seront

décrites simultanément en se référant à la fig 8.

A la fig 8 A, on a représenté la corrélation entre le segment original de parole et le segment de parole à synthétiser Les instants de temps limites d'origine Bl, B 2, etc indiqués par des lignes pointillées, les instants de temps limites B'l, B'2, etc du son synthétisé et la corrélation entre eux indiquée par les traits interrompus sont inclus dans les informations de distorsion dans le temps reçues du sous- ensemble de commande de durée De plus, les positions originales d'impulsion de hauteur Pl, P 2 etc indiquées par les trait pleins et les positions d'impulsion de hauteur P'l, P'2, etc du son synthétisé sont incluses dans les informations de

position d'impulsion de hauteur reçues du sous-

ensemble de commande de hauteur Pour la commodité de

l'explication de la fig 8, on a supposé que la pé-

riode de hauteur de la parole originale et la période de hauteur du son synthétisé sont constantes respectivement et que la dernière est égale à 1,5 fois

la première.

Le sous-ensemble d'assemblage de formes d'onde forme d'abord les fonctions de distorsion dans le temps, comme montré à la fig 8 B, en utilisant les instants de temps limites originaux, les instants de temps limites du son synthétisé et la corrélation entre eux L'abscisse de la fonction de distorsion dans le temps représente le temps "t" du segment de parole original, et l'ordonnée représente le temps "t"' du segment de parole à synthétiser A la fig 8 A, par exemple, étant donné que le premier sous-segment et le dernier sous-segment du segment de parole original devraient être comprimés de 2/3 et être étendus de 2 fois, leur corrélation apparaît comme des droites ayant des pentes respectives 2/3 et 2 dans la fonction de distorsion dans le temps de la fig 8 B Le deuxième sous-segment ne varie pas dans sa durée, de sorte qu'il apparaît comme une droite de pente 1 dans la fonction de distorsion dans le temps Le deuxième sous-segment du segment de parole à synthétiser résulte de la répétition de l'instant de temps limite "BlI" du segment de parole original, et, au contraire, le troisième sous-segment du segment de parole original a varié à un instant de temps limite "B'3 " dans le segment de parole à synthétiser La corrélation dans de tels cas apparaît respectivement comme une ligne verticale et une ligne horizontale La fonction de distorsion dans le temps est donc obtenue en représentant comme deux points l'instant de temps limite du segment original de parole et l'instant de temps limite du segment de parole à synthétiser correspondant à l'instant de temps limite du segment

original de parole et en les reliant par une droite.

Dans certains cas, il peut être possible de représenter la corrélation entre les sous-segments de manière à se rapprocher davantage de la réalité en

reliant les points par une courbe lissée.

Dans le procédé de stockage de codes de forme d'onde, le sous-ensemble d'assemblage de formes d'onde trouve l'instant de temps original correspondant à la position d'impulsion de hauteur du son synthétisé en utilisant la fonction de distorsion dans le temps, et trouve la vaguelette ayant la position d'impulsion de hauteur la plus proche de l'instant de temps original, et positionne alors la vaguelette à la position

d'impulsion de hauteur du son synthétisé.

Dans l'étape suivante, le sous-ensemble d'assemblage de formes d'onde multiplie chaque signal de vaguelette positionné par le gain correspondant à la position d'impulsion de hauteur du signal de vaguelette trouvé à partir des informations de gain, et obtient finalement le son synthétisé souhaité en superposant par simple addition les signaux de vaguelette ajustés en gain A la fig 3 Q, on a représenté le son synthétisé obtenu par une telle procédure de superposition dans le cas o les vaguelettes des fig 3 I, 3 L et 3 ( 0) sont repositionnées comme à la fig 3 P. De la même manière, dans le procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde trouve l'instant de temps original correspondant à la position d'impulsion de hauteur du son synthétisé en utilisant la fonction de distorsion dans le temps et trouve le signal d'impulsion de hauteur ayant la position d'impulsion de hauteur la plus proche de l'instant de temps original, et positionne alors le signal d'impulsion de hauteur à la position d'impulsion de hauteur du son synthétisé. Les nombres pour les signaux d'impulsion de hauteur ou les vaguelettes positionnés de cette manière à chaque position d'impulsion de hauteur du segment de parole à synthétiser sont représentés aux fig 8 A et 8 B Comme on peut le voir sur les dessins, quelques unes des vaguelettes constituant le segment de parole original sont omises en raison de la compression des sous-segments, et quelques une sont utilisées de manière répétitive en raison de l'expansion des sous- segments On a supposé, à la fig. 8, que le signal d'impulsion de hauteur pour chaque période était obtenu en segmentant juste après chaque impulsion de hauteur. La superposition des vaguelettes dans le procédé de stockage de codes de forme d'onde est équivalente à la superposition des signaux d'impulsion de hauteur dans le procédé de stockage de codes sources C'est pourquoi, dans le cas du procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde multiplie chaque signal d'impulsion de hauteur repositionné par le gain correspondant à la position d'impulsion de hauteur du signal d'impulsion de hauteur repositionné trouvé à partir des informations de gain, et obtient finalement le signal d'excitation de synthèse souhaité en superposant les signaux d'impulsion de hauteur ajustés en gain Cependant, dans ce cas, étant donné que la plus grande partie de l'énergie est concentrée sur l'impulsion de hauteur, on peut envisager de construire le signal d'excitation de synthèse en obtenant d'abord un signal d'excitation de synthèse sans ajustement de gain, en superposant les signaux d'impulsion de hauteur positionnés, et en multipliant alors le signal d'excitation de synthèse sans ajustement de gain par le contour d'énergie produit dans le sous-ensemble de commande d'énergie, au lieu de superposer les signaux d'impulsion de hauteur à gain constant ajusté La fig 3 R représente le signal d'excitation de synthèse obtenu quand les signaux d'impulsion de hauteur des fig 3 H, 3 K, 3 N sont repositionnés selon une telle procédure, de sorte que la structure de hauteur devient la même que dans le cas de la fig 3 P. Dans le procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde a besoin de créer les paramètres d'enveloppe spectrale de synthèse, et deux manières sont possibles, à savoir le procédé de compression et d'expansion représenté à la fig 8 A, et le procédé de correspondance synchrone représenté à la fig 8 B Si les paramètres d'enveloppe spectrale sont des fonctions continues du temps et représentent complètement l'enveloppe du spectre de parole, les paramètres d'enveloppe spectrale de synthèse peuvent être obtenus simplement en comprimant

ou en étendant dans le temps, sous-segment par sous-

segment, les paramètres d'enveloppe spectrale originaux A la fig 8 A, le paramètre d'enveloppe spectrale obtenu par le procédé d'analyse séquentielle a été représenté sous forme de courbe en trait interrompu, et le paramètre d'enveloppe spectrale codé en remplaçant approximativement la courbe par des segments de droite reliant plusieurs points tels que A, B, C etc a été représenté en trait continu Etant donné que la position dans le temps de chaque point varie seulement pour donner les points A', B', C' etc. en conséquence de la compression et de l'expansion dans le temps, un tel procédé de codage de segments de droite est particulièrement approprié dans le cas de compression et d'expansion dans le temps Cependant, dans le cas o l'on utilise le procédé d'analyse de blocs ou le procédé d'analyse de hauteur synchrone, étant donné que la correspondance spectrale n'est pas précise et que la variation dans le temps du paramètre d'enveloppe spectrale est discontinue, le procédé de compression et d'expansion dans le temps ne peut pas donner au son de synthèse la qualité souhaitée, il est préférable d'utiliser le procédé de correspondance synchrone dans lequel les paramètres d'enveloppe spectrale sont assemblés en corrélant les paramètres d'enveloppe spectrale pour chaque intervalle de période de hauteur avec chaque signal d'impulsion de hauteur correspondant, comme montré à la fig 8 B. Autrement dit, étant donné que la vaguelette, dans le procédé de stockage de codes de forme d'onde, est équivalente au signal d'impulsion de hauteur et aux paramètres d'enveloppe spectrale correspondants pour le même intervalle de période de hauteur, les paramètres d'enveloppe spectrale peuvent être créés en positionnant de manière synchrone les paramètres d'enveloppe spectrale pour un intervalle d'une période dans le même intervalle de période de chaque signal positionné d'impulsion de hauteur A la fig 8 B, kl qui est un des paramètres d'enveloppe spectrale, et k'l qui est le paramètre d'enveloppe spectrale de synthèse correspondant à kl assemblé au moyen de tels procédés pour le procédé d'analyse par blocs et le procédé d'analyse de hauteur synchrone sont représentés respectivement en trait plein et en trait interrompu Bien entendu, comme mentionné ci-dessus, avec le paramètre d'enveloppe spectrale obtenu par le procédé d'analyse séquentielle, le paramètre d'enveloppe spectrale de synthèse peut être assemblé en utilisant le procédé de la fig 8 A Par exemple, si le signal d'impulsion de hauteur pour chaque période a été repositionné comme montré à la fig 3 R, les paramètres d'enveloppe spectrale pour chaque période sont situés comme représenté à la fig 3 S conformément

aux signaux d'impulsion de hauteur.

Au moment de l'assemblage du signal d'excitation de synthèse et des paramètres d'enveloppe spectrale de synthèse dans le procédé de stockage de codes sources, si la période de hauteur du son synthétisé est plus longue que la période de hauteur originale, un intervalle vide en résulte entre deux intervalles de période de hauteur adjacents, ainsi

qu'il est indiqué par des traits obliques à la fig 8.

Si la période de hauteur du son synthétise est plus courte que la période de hauteur originale, des

intervalles de recouvrement dans lesquels deux inter-

valles de période de hauteur adjacents se chevauchent l'un l'autre se produisent L'intervalle de recouvrement "fb" et l'intervalle vide "gh" sont représentés à titre d'exemple aux fig 3 R et 3 S Comme décrit précédemment, les signaux d'impulsion de hauteur repositionnés devront être superposés au moment du recouvrement Cependant, il est raisonnable de prendre la moyenne des paramètres d'enveloppe spectrale repositionnés conformément aux signaux d'impulsion de hauteur, au lieu de les superposer au moment du recouvrement C'est pourquoi le procédé d'assemblage du signal d'excitation de synthèse et des paramètres d'enveloppe spectrale de synthèse en tenant compte des intervalles vides et des intervalles de

recouvrement est le suivant.

Les échantillons de valeur zéro sont insérés dans l'intervalle vide au moment de l'assemblage du signal d'excitation de synthèse Dans le cas d'un son voisé fricatif, un son plus naturel peut être synthétisé si on insère dans l'intervalle vide le signal de bruit soumis à un filtre passe-haut plutôt que les échantillons de valeur zéro Les signaux d'impulsion de hauteur repositionnés doivent être additionnés dans l'intervalle de recouvrement Etant donné qu'un tel procédé d'addition est gênant, il est commode d'utiliser un procédé de troncature dans lequel un signal seulement est sélectionné parmi deux signaux d'impulsion de hauteur qui se chevauchent dans l'intervalle de recouvrement La qualité du son synthétisé en utilisant le procédé de troncature n'est pas détériorée de manière significative A la fig 3 R, l'intervalle vide "gh" a été rempli d'échantillons de valeur zéro, et le signal d'impulsion de hauteur du premier intervalle a été choisi dans l'intervalle de

recouvrement "fb" Autrement dit, dans le cas d'occur-

rence de recouvrement, le premier des intervalles de recouvrement de chaque signal d'impulsion de hauteur a été tronqué, et ce procédé est physiquement plus significatif que le procédé dans lequel les signaux d'impulsion de hauteur sont créés en segmentant juste en face de l'impulsion de hauteur et, au moment de la synthèse, le dernier parmi les intervalles de recouvrement du signal d'impulsion de hauteur est tronqué s'ils se chevauchent, comme décrit précédemment Cependant, en réalité, les deux méthodes n'entraînent pas de différence significative dans la

qualité de son du son synthétisé.

Au moment de l'assemblage du paramètre d'enve-

loppe spectrale, il est préférable que l'intervalle vide soit rempli de valeurs qui varient linéairement depuis une valeur du paramètre d'enveloppe spectrale au point d'extrémité de l'intervalle de la période précédente jusqu'à la valeur du paramètre d'enveloppe spectrale au point de début de la période suivante, et que dans l'intervalle de recouvrement le paramètre d'enveloppe spectrale varie graduellement du paramètre d'enveloppe spectrale de la période précédente à celui de la période suivante, en utilisant le procédé d'interpolation dans lequel la moyenne de deux paramètres d'enveloppe spectrale qui se chevauchent est obtenue avec des valeurs de pondération qui varient linéairement par rapport au temps Cependant, étant donné que ces procédés sont gênants, le procédé suivant peut être utilisé qui est plus commode et ne détériore pas de manière significative la qualité du son En effet, pour le paramètre d'enveloppe spectrale dans l'intervalle vide, la valeur du paramètre d'enveloppe spectrale au point d'extrémité de l'intervalle de période précédent peut être utilisée de manière répétitive comme à la fig 8 b, ou la valeur du paramètre d'enveloppe spectrale au point de début de l'intervalle de période suivant peut être utilisée de manière répétitive, ou la moyenne arithmétique des valeurs des deux paramètres d'enveloppe spectrale peut être utilisée, ou bien les valeurs du paramètre d'enveloppe spectrale aux points d'extrémité et de début des intervalles de période précédent et suivant peuvent être utilisées respectivement avant et après le centre de l'intervalle vide servant de limite Pour le paramètre d'enveloppe spectrale dans l'intervalle de recouvrement, on peut choisir simplement l'une ou l'autre partie correspondant à l'impulsion de hauteur choisie A la fig 3 S, par exemple, étant donné que le signal d'impulsion de hauteur pour l'intervalle de période précédent a été choisi comme signal d'excitation de synthèse dans l'intervalle de recouvrement "fb", les valeurs de paramètres pour l'intervalle de période précédent ont été choisies de la même manière comme paramètres d'enveloppe spectrale de synthèse Dans l'intervalle vide "gh" des fig 8 B et 3 S, les valeurs de paramètres d'enveloppe spectrale à la fin de l'intervalle de période précédent ont été utilisées de manière répétitive Bien entendu, dans le cas de la fig 3 S, dans lequel le paramètre d'enveloppe spectrale est une fonction continue du temps, le procédé dans lequel la dernière valeur de l'intervalle de période précédent ou la première valeur de l'intervalle de période suivant sont utilisées de manière répétitive pour l'intervalle vide, et le procédé dans lequel les deux valeurs varient linéairement pendant l'intervalle vide donnent

le même résultat.

Si le signal d'excitation de synthèse et tous les paramètres d'enveloppe spectrale de synthèse pour un segment ont été assemblés, alors le sous-ensemble d'assemblage de formes d'onde lisse normalement les deux extrémités des paramètres d'enveloppe spectrale de synthèse en utilisant le procédé d'interpolation, de sorte que la variation du paramètre d'enveloppe spectrale est progressive entre des segments de parole adjacents Si le signal d'excitation de synthèse et les paramètres d'enveloppe spectrale de synthèse assemblés comme ci-dessus sont introduits respectivement comme signal d'excitation et comme coefficients de filtre dans le filtre de synthèse du sous-ensemble d'assemblage de formes d'onde, le son synthétisé souhaité est finalement émis par le filtre de synthèse Le signal d'excitation de synthèse obtenu quand les signaux d'impulsion de hauteur des fig 3 H, 3 K, et 3 N sont repositionnés de manière que la structure de hauteur soit la même que celle de la fig. 3 P, est représenté à la fig 3 R, et les paramètres d'enveloppe spectrale de synthèse obtenus en faisant correspondre les paramètres d'enveloppe spectrale pour une période des fig 3 G, 3 J et 3 M aux signaux d'impulsion de hauteur dans le signal d'excitation de

synthèse de la fig 3 R sont représentés à la fig 35.

En constituant un filtre de synthèse à variation dans le temps ayant comme coefficients de filtre les coefficients de réflexion variant comme représenté à la fig 3 S et en envoyant le signal d'excitation de synthèse comme montré à la fig 3 R au filtre de synthèse à variation dans le temps, on obtient le son synthétisé de la fig 3 T qui est presque le même que le son synthétisé de la fig 3 P. En comparant maintenant le procédé de stockage de codes de forme d'onde et le procédé de stockage de codes sources, les deux procédés peuvent être considérés en principe comme identiques Cependant, quand on concatène des segments de parole de connectivité mutuelle médiocre, il y a une différence en ce qu'il est possible, en lissant les paramètres d'enveloppe spectrale au moyen du procédé d'interpolation, de synthétiser le son relié de manière lissée dans le cas du procédé de stockage de codes sources, alors que c'est impossible dans le cas du procédé de stockage de codes de forme d'onde De plus, le procédé de stockage de codes sources nécessite une mémoire plus petite que le procédé de stockage de codes de forme d'onde, étant donné que la seule forme d'onde d'une longueur d'une période par vaguelette doit être stockée dans le procédé de stockage de codes sources, et présente l'avantage qu'il est facile d'intégrer la fonction du bloc de synthèse de sons voisés et la fonction du bloc de synthèse de sons non voisés décrit auparavant Dans le cas o l'on utilise le procédé d'analyse homomorphique, le cepstre ou la réponse d'impulsion peuvent être utilisés comme ensemble de paramètres d'enveloppe spectrale dans le procédé de stockage de codes de forme d'onde, alors qu'il est pratiquement impossible dans le procédé de stockage de codes sources d'utiliser le cepstre nécessitant le calcul par blocs, parce que la durée du bloc de synthèse ayant les valeurs des paramètres constants d'enveloppe spectrale de synthèse varie bloc par bloc comme on peut le voir d'après le paramètre d'enveloppe spectrale de synthèse de la fig 8 B représenté en trait plein Le procédé de stockage de codes sources selon la présente invention utilise l'impulsion de

hauteur d'une période comme impulsion d'excitation.

Cependant, il est différent du procédé d'excitation par impulsions régulières des réalisations antérieures qui se propose de substituer à l'impulsion un échantillon d'impulsion de hauteur, en ce que dans la présente invention l'impulsion de hauteur de chaque période et les paramètres d'enveloppe spectrale de chaque période correspondant à l'impulsion de hauteur sont combinés pour créer la vaguelette de chaque période.

Comme on peut le voir dans la description ci-

dessus, la présente invention convient au codage et au décodage du segment de parole du système de synthèse de parole à partir de texte du procédé de synthèse par segments de parole De plus, étant donné que la présente invention est un procédé dans lequel les durées totale et partielle et la structure de hauteur des unités phonétiques arbitraires telles que le

phonème, la demi-syllabe, le diphone et le sous-

segment, etc constituant la parole peuvent être modifiés librement et indépendamment, elle peut être utilisée dans un système de conversion de débit de parole ou un système de modification dans le temps qui modifie la vitesse vocale dans un rapport constant de manière à être plus rapide ou plus lente que la vitesse originale sans changer la structure d'intonation de la parole, et elle peut aussi être utilisée dans un système de synthèse de parole chantée ou dans un système de codage à débit de parole très faible tel qu'un vocodeur phonétique ou un vocodeur par segments qui transfère la parole en changeant la durée et la hauteur de segments de parole

types stockés à l'avance.

Un autre domaine d'application de la présente invention est un système de synthèse de sons musicaux tel qu'un instrument de musique électronique utilisant le procédé par échantillonnage Etant donné que presque tous les sons de la gamme des instruments de musique électroniques sont des formes d'onde numériques codées, stockées et reproduites quand on le demande à partir du clavier etc dans les réalisations antérieures pour les procédés d'échantillonnage pour des instruments de musique électroniques, il existe l'inconvénient que beaucoup

de mémoire est nécessaire pour stocker le son musical.

Cependant, si la décomposition en formes d'onde périodiques et le procédé de repositionnement de vaguelettes de la présente invention sont utilisés, la quantité de mémoire nécessaire peut être réduite de manière importante, parce que les sons de diverses hauteurs peuvent être synthétisés en échantillonnant

les tons de seulement quelques types de hauteurs.

Typiquement, un son musical consiste de 3 parties, à

savoir une attaque, une partie soutenue et une chute.

Etant donné que l'enveloppe spectrale varie progressivement non seulement entre les 3 parties mais encore pendant la partie soutenue, le timbre varie aussi en conséquence C'est pourquoi, si les segments de son musical sont codés selon le procédé de décomposition en formes d'onde périodiques et stockés en prenant les instants appropriés o le spectre varie fortement comme instants de temps limites, et si le son est synthétisé selon le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps décrit ci-dessus quand cela est demandé à partir du clavier etc, alors le son musical ayant

la hauteur arbitraire souhaitée peut être synthétisé.

Cependant, dans des cas o le signal de son musical est décomposé selon le procédé de prédiction linéaire, étant donné qu'il y a une tendance pour que l'enveloppe spectrale précise ne soit pas obtenue et que l'impulsion de hauteur ne soit pas pointue, il est recommandé de réduire le nombre de paramètres d'enveloppe spectrale utilisés pour l'analyse et de

différencier le signal avant l'analyse.

Bien que cette invention ait été décrite dans sa forme préférentielle avec un certain nombre de particularités, les personnes expertes en la technique

pourront remarquer que la présente description de la

forme préférentielle a été faite seulement à titre d'exemple, et que de nombreux changements dans les détails de construction, de combinaison et d'agencement des éléments peuvent être apportés sans

s'éloigner de l'esprit et du domaine de l'invention.

Claims

REVENDICATIONS

1 Procédé de codage de segments de parole pour utilisation dans un système de synthèse de parole comprenant: la formation de vaguelettes en obtenant des paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse en analysant un signal numérique périodique ou quasi périodique au moyen de l'utilisation d'une technique d'estimation de spectre, en effectuant une déconvolution du signal original en une réponse d'impulsion représentée par des paramètres d'enveloppe spectrale et un signal périodique ou quasi périodique de train d'impulsions de hauteur ayant une enveloppe spectrale sensiblement plate, et en effectuant une convolution d'un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en segmentant ledit signal de train d'impulsions de hauteur pour chaque période de sorte qu'une impulsion de hauteur soit contenue dans chaque période, et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale dans le même intervalle de temps que ledit signal d'excitation; et le codage en formes d'onde de vaguelettes de chaque période, en les stockant en mémoire, et, au moment de la synthèse de parole, en décodant les vaguelettes, en ajustant la durée et la fréquence de hauteur en assignant les vaguelettes à des instants de temps appropriés de sorte qu'elles aient la structure de hauteur désirée, en les positionnant auxdits instants de temps et en les superposant, synthétisant ainsi la parole.

2 Procédé de codage de segments de parole selon la revendication 1, dans lequel les vaguelettes sont formées en associant les informations obtenues en codant en formes d'onde un signal d'impulsion de hauteur de chaque période obtenu par segmentation à des informations obtenues en codant un ensemble de paramètres d'estimation d'enveloppe spectrale d'une période pendant le même intervalle de temps et en stockant lesdites informations dans lesdites mémoires, et, au moment de la synthèse, des vaguelettes sont créées en effectuant une convolution d' un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur

d'une période obtenue en décodant lesdites informa-

tions et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale décodés dans le même

intervalle de temps que ledit signal d'excitation.

3 Procédé de codage de segments de parole selon la revendication 2, dans lequel le son de parole synthétisé est produit au moment de la synthèse en effectuant une convolution d'un signal d'excitation de synthèse formé en assignant des signaux d'impulsion de hauteur obtenus en décodant lesdites informations à des instants de temps appropriés de sorte qu'ils aient une structure de hauteur souhaitée et en les positionnant auxdits instants de temps, o un intervalle vide se produisant quand une période de hauteur souhaitée est plus longue qu'une période de hauteur originale est rempli avec des échantillons de valeur zéro et dans un intervalle de recouvrement se produisant quand ladite structure de hauteur souhaitée est plus courte que ladite période de hauteur originale les signaux d'impulsion de hauteur qui se recouvrent sont additionnés l'un à l'autre ou bien un signal est choisi parmi eux, et une réponse d'impulsion variant dans le temps correspondant à un

ensemble de paramètres d'enveloppe spectrale de syn-

thèse qui est formé soit en comprimant, respectivement

en étendant dans le temps, sous-segment par sous-

segment, l'ensemble de fonctions du temps desdits paramètres selon que la durée d'un sous-segment dans un segment de parole à synthétiser est plus courte,

respectivement plus longue, que celle d'un sous-

segment correspondant dans le segment de parole original, ou en positionnant l'ensemble de fonctions du temps desdits paramètres d'une période de manière synchrone avec ledit signal d'impulsion de hauteur associé positionné de manière à former ledit signal d'excitation de synthèse, et o dans ce dernier cas un paramètre d'enveloppe spectrale de synthèse dans ledit intervalle vide est obtenu en répétant la valeur du paramètre d'enveloppe spectrale au point d'extrémité de la période précédente ou la valeur du paramètre d'enveloppe spectrale au premier point de la période suivante ou une valeur moyenne desdites deux valeurs ou en remplissant avec des valeurs reliant de manière progressive lesdites deux valeurs, ou en répétant les valeurs des paramètres d'enveloppe spectrale au point d'extrémité et au premier point des périodes précédente et suivante avant et après le centre de l'intervalle vide, et ledit paramètre d'enveloppe spectrale de synthèse dans ledit intervalle de recouvrement est obtenu en choisissant soit l'un ou l'autre des paramètres d'enveloppe spectrale se chevauchant soit en utilisant une valeur moyenne

desdits deux paramètres se chevauchant.

4 Procédé de commande de hauteur d'un système de synthèse de parole comprenant: la commande simultanée de la durée et de la hauteur d'un segment de parole par un procédé de repositionnement de vaguelette basé sur la distorsion dans le temps en codant des instants de temps limites comprenant un point de début, un point d'extrémité et un point d'état stationnaire dans un segment de parole et des positions d'impulsion de hauteur de chaque vaguelette ou signal d'impulsion de hauteur d'une période et en les stockant simultanément dans des mémoires au moment du stockage de chaque segment de parole, et au moment de la synthèse, l'obtention d'une fonction de distorsion dans le temps en comparant des instants de temps limites souhaités et des instants de temps limites originaux stockés en mémoire correspondant auxdits instants de temps limites souhaités, la recherche d'instants de temps originaux correspondant à chaque position d'impulsion de hauteur souhaitée en utilisant ladite fonction de distorsion dans le temps, la sélection de vaguelettes ayant des positions d'impulsion de hauteur les plus proches desdits instants de temps originaux et le positionnement de ces vaguelettes aux positions souhaitées d'impulsion de hauteur, et la superposition

desdites vaguelettes.

5 Procédé de commande de hauteur d'un système de synthèse de parole selon la revendication 4, comprenant en outre la production de parole synthétique en sélectionnant des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsion de hauteur et en les positionnant, et la convolution d'un desdits signaux positionnés d'impulsion de hauteur et d'une réponse d'impulsion correspondant auxdits paramètres d'enveloppe spectrale afin de produire des vaguelettes, et la superposition desdites vaguelettes produites.

6 Procédé de commande de hauteur d'un système de synthèse de parole selon la revendication 4, comprenant en outre la production de parole synthétique en sélectionnant des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsion de hauteur et en les positionnant, et la convolution d'un signal d'excitation de synthèse obtenu en superposant lesdits signaux positionnés d'impulsion de hauteur selon le procédé décrit dans la revendication 3 et une réponse d'impulsion variant dans le temps correspondant à des paramètres d'enveloppe spectrale de synthèse obtenus en concaténant lesdits paramètres positionnés d'enveloppe spectrale selon le procédé

décrit dans la revendication 3.

7 Dispositif de synthèse de parole voisée pour utilisation dans un système de synthèse de parole comprenant: un sous-ensemble de décodage ( 9) produisant des informations de vaguelette en décodant des codes de vaguelette à partir d'un bloc de stockage de segments de parole ( 5); un sous-ensemble de commande de durée ( 10) produisant des informations de distorsion dans le temps à partir de l'entrée de données de durée provenant d'un sous-système de génération de prosodie ( 2) et des instants de temps limites compris dans des informations d'en-tête à partir dudit bloc de stockage de segments de parole ( 5); un sous- ensemble de commande de hauteur ( 11) produisant des informations de position d'impulsion de hauteur de sorte qu'elles aient une structure d'intonation telle qu'indiqué par des données de structure d'intonation provenant de l'entrée desdites informations d'en-tête provenant dudit bloc de stockage de segments de parole ( 5), lesdites données de structure d'intonation provenant dudit sous-système de génération de prosodie et lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10); un sous- ensemble de commande d'énergie ( 12) produisant des informations de gain de telle sorte que de la parole synthétisée ait une structure d'accent telle qu'indiqué par les données de structure d'accent provenant de l'entrée desdites données de structure d'accent provenant dudit sous- ensemble de génération de prosodie ( 2), lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10) et des informations de position d'impulsion de hauteur provenant dudit sous-ensemble de commande de hauteur ( 11); un sous- ensemble d'assemblage de formes d'onde ( 13) produisant un signal de parole voisée à partir de

l'entrée desdites informations de vaguelette en prove-

nance dudit sous-ensemble de décodage ( 9), lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10), lesdites informations de position d'impulsion de hauteur provenant dudit sous-ensemble de commande de hauteur ( 11) et lesdites informations de gain provenant dudit sous-ensemble de commande d'énergie

( 12).