<Desc/Clms Page number 1>
DESCRIPTION METHODES DE CODAGE DE SEGMENTS DU DISCOURS ET DE REGLAGE DU PAS POUR DES SYSTEMES DE SYNTHESE DE LA PAROLE Domaine de l'invention
L'invention concerne un système de synthèse de la parole ainsi qu'une méthode de synthèse de la parole et plus particulièrement une méthode de codage de segments du discours et de réglage du pas qui améliorent significativement la qualité de la parole synthétisée.
Le principe de la présente invention peut s'appliquer directement, non seulement à la synthèse de la parole, mais également à la synthèse d'autres sons tels que les sons d'instruments de musique ou de chansons, chacun d'eux ayant une propriété semblable à celle de la parole ou encore à un codage de parole de très petite vitesse ou à une transformation de la vitesse de la parole. La présente invention sera décrite ci-dessous en se concentrant sur la synthèse de la parole.
Il existe des procédés de synthèse de la parole pour la mise en oeuvre d'un système de synthèse texte-paroles qui peut synthétiser un vocabulaire innombrable en transformant un texte, c'est-à-dire des chaînes de caractères en paroles. Toutefois, un procédé aisé à mettre en oeuvre et utilisé le plus fréquemment est un procédé de synthèse segmentaire de la parole, également appelé procédé de
<Desc/Clms Page number 2>
synthèse par concaténation, dans lequel la parole humaine est échantillonnée et analysée en unités phonétiques telles que des semi-syllabes ou des diphonèmes pour obtenir de courts segments de paroles qui sont alors codés et mis en mémoire et une fois que le texte est entré, il est transformé en transcriptions phonétiques.
Les segments de paroles correspondant aux transcriptions phonétiques sont alors extraits séquentiellement de la mémoire et décodés pour synthétiser la parole correspondant au texte entré.
Dans ce type de méthode de synthèse segmentaire de la parole, un des éléments les plus importants qui commande la qualité de la parole synthétisée est la méthode de codage des segments de paroles. Dans le procédé de synthèse segmentaire de la parole de l'état de la technique du système de synthèse de la parole, un procédé de codage de la voix procurant une parole de qualité médiocre est principalement utilisé comme procédé de codage de la parole pour mettre en mémoire des segments de discours. Toutefois, ceci est une des causes les plus importantes de réduction de la qualité de la parole synthétisée. Une brève description du procédé de codage segmentaire de la parole de l'état de la technique est exposée ci-après.
Les procédés de codage de la parole peuvent être subdivisés approximativement en procédés de codage en forme d'ondes procurant une parole de bonne qualité et en procédés de codage de la voix procurant une parole de qualité médiocre. Etant donné que le procédé de codage en forme d'ondes est un procédé qui vise à transférer les ondes de la parole telles quelles, il est très difficile de modifier la fréquence de pas et la durée, si bien qu'il est impossible de régler l'intonation et la vitesse de la parole lorsque la synthèse de la parole est mise en oeuvre. Il est également impossible d'associer les segments de parole
<Desc/Clms Page number 3>
entre eux sans à-coups, si bien que le procédé de codage en forme d'ondes est fondamentalement inapproprié pour le codage de segments de discours.
En revanche, lorsque le procédé de codage de la voix (aussi appelé procédé analyse-synthèse) est utilisé, le modèle de pas et la durée du segment de discours peuvent être modifiés de manière arbitraire. En outre, étant donné que les segments de discours peuvent également être associés en souplesse par interpolation des paramètres d'estimation de l'enveloppe spectrale, si bien que le procédé de codage de la voix est approprié pour le moyen de codage destiné à la synthèse texte en paroles, des procédés de codage de la voix tels que le codage prédictif linéaire (LPC) ou le codage formant de la voix, sont adoptés dans la plupart des systèmes actuels de synthèse de la parole.
Toutefois, étant donné que la qualité de la parole décodée est médiocre lorsque la parole est codée en utilisant le procédé de codage de la voix, la parole synthétisée obtenue en décodant les segments de discours mis en mémoire et en les soumettant à une concaténation, ne peut avoir une qualité meilleure que celle offerte par le procédé de codage de la voix.
Les tentatives entreprises à ce jour pour améliorer la qualité de la parole offerte par le procédé de codage de la voix remplacent le train d'impulsions utilisé par un signal d'excitation qui possède une forme ondulaire moins artificielle. Une telle tentative a été d'utiliser une forme d'ondes ayant une hauteur de crête inférieure à celle de l'impulsion, par exemple une forme d'onde triangulaire ou une forme d'onde en demi-cercle ou encore une forme semblable à une impulsion glottale. Une autre tentative a été de sélectionner une impulsion de pas d'échantillonnage d'une ou plusieurs des périodes de pas de signaux résiduels
<Desc/Clms Page number 4>
obtenues par filtration inversée et d'utiliser, au lieu de l'impulsion, une impulsion d'échantillonnage pour la totalité du temps ou pour un laps de temps essentiellement long.
Toutefois, de telles tentatives pour remplacer l'impulsion par une impulsion d'excitation ayant d'autres formes d'ondes n'ont pas amélioré la qualité de la parole ou seulement dans une moindre mesure, si elles l'ont fait et n'ont jamais obtenu une parole synthétisée d'une qualité proche de celle de la voix humaine.
L'objet de la présente invention est de synthétiser une parole de qualité supérieure ayant un caractère naturel et une intelligibilité à l'égal de ceux de la parole humaine en utilisant un nouveau procédé de codage de segments de discours permettant d'obtenir une parole de bonne qualité et un bon réglage du pas. Le procédé de la présente invention combine les avantages du procédé de codage en forme d'onde qui procure une parole de bonne qualité, mais sans l'aptitude de réglage du pas et le procédé de codage de la voix qui procure un réglage du pas, mais produit une parole de qualité médiocre.
La présente invention utilise un procédé de décomposition périodique en forme d'ondes constituant un procédé de codage qui décompose un signal dans un secteur de sons sonores dans le discours original en ondelettes équivalant à des formes d'ondes de paroles d'une période obtenues par des impulsions glottales pour coder et mémoriser le signal décomposé, ainsi qu'un procédé de réinsertion d'ondelettes basé sur une variation temporelle, à savoir un procédé de synthèse en forme d'ondes capable de procurer un réglage arbitraire de la durée et de la fréquence du pas des segments de discours, tout en maintenant la qualité de la parole originale en sélectionnant parmi les ondelettes mises en mémoire celles qui sont les plus proches des
<Desc/Clms Page number 5>
positions dans lesquelles les ondelettes doivent être placées,
puis en décodant et en superposant les ondelettes sélectionnées. Pour les objets de la présente invention, les sons musicaux sont traités comme des sons sonores.
Les objets susmentionnés doivent être considérés comme représentant simplement quelques-unes des caractéristiques et des applications les plus pertinentes de l'invention.
D'autres résultats avantageux peuvent être obtenus en appliquant d'une manière différente l'invention révélée ou en modifiant l'invention dans le cadre de la publication.
En conséquence, d'autres objets et une compréhension plus complète de l'invention peuvent être obtenus en se référant à la fois au résumé de l'invention et à la description détaillée ci-dessous qui décrivent la forme de réalisation préférée, en plus de la portée de l'invention définie par les revendications à la lumière des figures annexées.
RESUME DE L'INVENTION
Des procédés de codage de segments de discours et de réglage du pas pour des systèmes de synthèse de la parole de la présente invention sont définis par les revendications, des formes de réalisation spécifiques étant représentées dans les dessins annexés. Pour résumer l'invention, celle-ci concerne un procédé capable de synthétiser une voix d'une qualité proche à celle de la parole naturelle en réglant sa durée et sa fréquence de pas par codage d'ondelettes de chaque période en forme d'ondes, en les mémorisant et, au moment de la synthèse, en les décodant et en les insérant à des repères temporels appropriés de manière à posséder le modèle de pas désiré et ensuite en les superposant pour générer une parole naturelle, une chanson, de la musique et autres.
<Desc/Clms Page number 6>
La présente invention comprend un procédé de codage de segments de discours destiné à être utilisé avec un système de synthèse de la parole, dans lequel le procédé comprend la formation d'ondelettes en procurant des paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse. Cette caractéristique est réalisée en analysant un signal numérique périodique ou quasi périodique, tel qu'une parole sonore, à l'aide de la technique d'estimation du spectre. Un signal original est d'abord déconvolué en une réponse impulsionnelle représentée par les paramètres d'enveloppe spectrale et en un signal de train d'impulsions de pas périodiques ou quasi périodiques ayant une enveloppe spectrale pratiquement plate.
Un signal d'excitation obtenu en ajoutant des échantillons à valeur zéro à un signal d'impulsion de pas d'une période obtenu par segmentation du signal de train d'impulsions de pas, période par période, de telle sorte qu'une impulsion de pas soit contenue dans chaque période et une réponse impulsionnelle correspondant à un jeu de paramètres d'enveloppe spectrale dans le même intervalle de temps que celui du signal d'excitation sont convolués pour former une ondelette pour cette période.
Les ondelettes, plutôt que d'être formées par codage en forme d'ondes et mémorisées à l'avance, peuvent être formées en appariant l'information obtenue par codage en forme d'ondes d'un signal d'impulsion de pas de chaque intervalle de période, obtenu par segmentation, avec une information obtenue en codant un jeu de paramètres d'estimation d'enveloppe spectrale ayant le même intervalle de temps que celui de l'information ci-dessus ou bien avec une réponse impulsionnelle correspondant aux paramètres et en mettant en mémoire les informations quant aux ondelettes.
Il existe deux procédés pour produire une parole synthétique en utilisant l'information des ondelettes mises en
<Desc/Clms Page number 7>
mémoire. Le premier procédé est de constituer chaque ondelette en convoluant un signal d'excitation obtenu en ajoutant des échantillons à valeur zéro après un signal d'impulsion de pas d'une période, obtenu par décodage de l'information et une réponse impulsionnelle correspondant aux paramètres décodés d'enveloppe spectrale dans le même intervalle de temps que celui du signal d'excitation et ensuite, d'affecter les ondelettes à des repères temporels appropriés de telle sorte qu'elles possèdent un modèle de pas et un modèle de durée désirés, de les insérer aux repères temporels et ensuite, de les superposer.
Le second procédé consiste à constituer un signal synthétique d'excitation en affectant les signaux d'impulsions de pas, obtenus par décodage des informations des ondelettes, à des repères temporels appropriés de telle sorte qu'ils possèdent un modèle de pas et un modèle de durée désirés et en les insérant aux repères temporels, et à constituer un jeu de paramètres synthétiques d'enveloppe spectrale, soit en comprimant soit en élargissant dans le temps le jeu de fonctions temporelles des paramètres sur une base, sous-segment par sous-segment, en fonction du fait que la durée d'un sous-segment dans un segment de discours destiné à être synthétisé est respectivement plus courte ou plus longue que celle d'un sous-segment correspondant dans le segment de discours original ;
ou bien en insérant le jeu de fonctions temporelles des paramètres d'une période de manière synchrone avec le signal apparié d'impulsion de pas d'une période inséré pour former le signal synthétique d'excitation et pour convoluer le signal synthétique d'excitation, et une réponse impulsionnelle correspondant au jeu de paramètres synthétiques d'enveloppe spectrale en utilisant un filtre à variation temporelle ou en utilisant une technique de convolution rapide à base FFT (Fast Fourier Transform = transformation accélérée de
<Desc/Clms Page number 8>
Fourier). Dans ce dernier procédé, un intervalle blanc apparaît lorsqu'une période de pas désirée est plus longue que la période de pas originale et un intervalle de chevauchement apparaît lorsque la période de pas désirée est plus courte que la période de pas originale.
Dans l'intervalle de chevauchement, le signal synthétique d'excitation est obtenu en ajoutant l'un à l'autre les signaux chevauchés d'impulsions de pas ou en sélectionnant l'un d'entre eux, et le paramètre d'enveloppe spectrale est obtenu soit en sélectionnant un des paramètres chevauchés d'enveloppe spectrale, soit en utilisant une valeur moyenne des deux paramètres chevauchés.
Dans l'intervalle blanc, le signal synthétique d'excitation est obtenu en le remplissant avec des échantillons à valeur zéro, et le paramètre synthétique d'enveloppe spectrale est obtenu en répétant les valeurs des paramètres d'enveloppe spectrale aux points de début et de fin des périodes précédente et suivante, avant et après le centre de l'intervalle blanc, ou bien en répétant une des deux valeurs ou encore une valeur moyenne des deux valeurs, ou encore en le remplissant de valeurs et en reliant les deux valeurs en souplesse.
La présente invention comprend, en outre, un procédé de réglage du pas d'un système de synthèse de la parole capable de régler la durée et le pas d'un segment de discours par un procédé de réinsertion d'ondelettes basé sur une variation temporelle, qui rend possible la synthèse de voix d'une qualité proche de celle de la voix humaine en codant des repères temporels limites importants tels que le point de départ, le point final et les points d'état stationnaire dans un segment de discours, ainsi que les positions d'impulsions de pas de chaque ondelette ou chaque
<Desc/Clms Page number 9>
signal d'impulsion de pas et en les mettant en mémoire simultanément chaque segment de discours, et, au moment de la synthèse,
en obtenant une fonction de la variation temporelle en comparant les repères temporels limites désirés et les repères temporels limites originaux mis en mémoire de manière correspondante aux repères temporels limites désirés ; en recherchant les repères temporels originaux correspondant à chaque position d'impulsion de pas désirée en utilisant la fonction de variation temporelle ; en sélectionnant les ondelettes dont les positions d'impulsions de pas sont les plus proches des repères temporels originaux et en les insérant à des positions d'impulsions de pas ; et en superposant les ondelettes.
Le procédé de réglage du pas peut englober, en outre, la production d'une parole synthétique en sélectionnant des signaux d'impulsions de pas d'une période et des paramètres d'enveloppe spectrale correspondant aux signaux d'impulsions de pas, au lieu des ondelettes, en les insérant, et en convoluant les signaux d'impulsions de pas insérés et la réponse impulsionnelle correspondant aux paramètres d'enveloppe spectrale pour produire des ondelettes et superposer les ondelettes produites ou bien en convoluant un signal synthétique d'excitation obtenu par superposition des signaux insérés d'impulsions de pas, et une réponse impulsionnelle à variation temporelle correspondant à des paramètres synthétiques d'enveloppe spectrale, réalisés par concaténation des paramètres insérés d'enveloppe spectrale.
Un dispositif pour la synthèse de la parole sonore est révélé et englobe un sous-bloc de décodage 9 produisant une information d'ondelettes par décodage de codes d'ondelettes provenant du bloc 5 de mémorisation de segments de discours. Un sous-bloc 10 de réglage de la durée produit des données de variation temporelle à partir de l'entrée de
<Desc/Clms Page number 10>
données de durée provenant d'un sous-système 2 de génération de prosodie et de repères temporels limites inclus dans une information de tête provenant du bloc 5 de mémorisation de segments de discours.
Un sous-bloc 11 de réglage du pas produit une information quant aux positions d'impulsions de pas de telle sorte qu'elle possède un modèle d'intonation tel qu'indiqué par des données de modèle d'intonation provenant de l'entrée d'information de tête du bloc de mémorisation 5 de segments de discours, par les données de modèle d'intonation provenant du sous-système de génération de prosodie et par l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée.
Un sous-bloc 12 de réglage de l'énergie produit une information quant au gain de telle sorte que la parole synthétisée possède le modèle d'accent indiqué par les données de modèle d'accentuation de l'entrée des données de modèle d'accentuation provenant du sous-système 2 de génération de prosodie, de l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée et de l'information quant aux positions d'impulsions de pas provenant du sous-bloc 11 de réglage du pas.
Un sous-bloc 13 d'assemblage en forme d'ondes produit un signal de parole sonore émanant de l'entrée de l'information d'ondelettes provenant du sous-bloc de décodage 9, de l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée, de l'information quant aux positions d'impulsions de pas provenant du sous-bloc 11 de réglage du pas et de l'information quant au gain provenant du sous-bloc 12 de réglage de l'énergie.
Ainsi, conformément à la présente invention, le texte est entré dans le sous-système 1 de prétraitement phonétique où il est transformé en symboles de transcription phonétique et en données d'analyse syntaxique. Les données d'analyse syntaxique sont envoyées à un sous-système 2 de
<Desc/Clms Page number 11>
génération de prosodie. Le sous-système 2 de génération de prosodie envoie une information prosodique au sous-système 3 de concaténation de segments de discours. La sortie de symboles de transcription phonétique provenant du sous-système de prétraitement est également entrée dans le sous-système 3 de concaténation de segments de discours.
Les symboles de transcription phonétique sont alors entrés dans le bloc 4 de sélection de segments de discours et les données prosodiques correspondantes sont entrées dans le bloc 6 de synthèse de sons sonores et dans le bloc de synthèse 7 de sons sourds. Dans le bloc 4 de sélection de segments de discours, chaque symbole de transcription phonétique entré est apparié à une unité de synthèse correspondante de segments de discours et une adresse de mémoire de l'unité de synthèse appariée correspondant à chaque symbole de transcription phonétique entré est recherchée dans une table de segments de discours dans le bloc de mémorisation 5 de segments de discours.
L'adresse de l'unité de synthèse appariée est alors envoyée au bloc 5 de mémorisation de segments de discours, où le segment de discours correspondant sous forme d'ondelette codée est sélectionné pour chacune des adresses des unités de synthèse appariées. Le segment de discours sélectionné sous forme d'ondelette codée est envoyé au bloc de synthèse 6 de sons sonores destiné aux sons sonores et au bloc de synthèse 7 de sons sourds destiné aux sons sourds.
Le bloc de synthèse 6 de sons sonores, qui utilise le procédé de réinsertion d'ondelettes basé sur la variation temporelle pour synthétiser les sons de la parole, et le bloc de synthèse 7 de sons sourds envoient des signaux numériques de paroles synthétiques au convertisseur numérique-analogique pour transformer les signaux numériques entrés en signaux analogiques qui constituent les sons de la parole synthétisée.
<Desc/Clms Page number 12>
Pour la mise en oeuvre de la présente invention, de la parole et/ou de la musique sont d'abord enregistrées sur une bande magnétique. Le son résultant est alors transformé en passant de signaux analogiques en signaux numériques, en soumettant à un filtrage passe-bas les signaux analogiques et en acheminant ensuite les signaux filtrés à un convertisseur analogique-numérique. Les signaux de paroles numérisés obtenus sont alors segmentés en un certain nombre de segments de discours dont les sons correspondent à des unités de synthèse telles que des phonèmes, des diphonèmes, des demi-syllabes et analogues, en utilisant des instruments d'édition de la parole. Chaque segment de discours obtenu est alors différencié en segments de discours sonores et sourds en utilisant une détection connue sonore/sourd, ainsi que des instruments d'édition de la parole.
Les segments de discours sourds sont encodés par des procédés connus de codage de la voix, qui utilisent des bruits blancs aléatoires comme source de parole sourde. Les procédés de codage de la voix englobent des procédés LPC, des procédés d'homomorphisme, des procédés de codage formant de la voix, et analogues.
Les segments de discours sonores sont utilisés pour former des ondelettes sj (n) conformément au procédé révélé ci-dessous en figure 4. Les ondelettes sj (n) sont alors encodées en utilisant un procédé de codage approprié en forme d'ondes. Des procédés de codage connus en forme d'ondes englobent la modulation par impulsions codées (PCM), la modulation codée par impulsion différentielle adaptable (ADPCM), le codage adaptable aux prévisions (APC) et analogues. Les segments de discours sonores encodés obtenus sont mémorisés dans le bloc 5 de mémorisation de segments de discours, comme représenté dans les figures 6A et 6B. Les segments de discours sourds encodés sont également mis en mémoire dans le bloc 5 de mémorisation de
<Desc/Clms Page number 13>
segments de discours.
Les caractéristiques les plus pertinentes et les plus importantes de la présente invention ont été décrites ci-dessus dans le but de mieux faire comprendre la description détaillée de l'invention qui suit et pour que la contribution de la présente invention à la technique soit complètement comprise. Des caractéristiques supplémentaires de l'invention décrite ci-après font l'objet des revendications de l'invention. Le spécialiste de la technique peut comprendre que la conception et la forme de réalisation spécifique révélées dans le présent document peuvent être aisément utilisées comme bases pour modifier ou pour concevoir d'autres structures pour la mise en oeuvre des objets analogues à ceux de la présente invention.
En outre, l'homme de métier peut se rendre compte que de telles constructions équivalentes ne sortent pas du cadre et de l'esprit de l'invention telle que présentée dans les revendications.
BREVE DESCRIPTION DES FIGURES
Pour obtenir une idée plus complète de la nature et des objets de l'invention, il y a lieu de faire référence à la description détaillée ci-après, prise conjointement avec les dessins annexés dans lesquels : la figure 1 illustre le système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole ; la figure 2 illustre le sous-système de concaténation de segments de discours ; les figures 3A à 3T illustrent des formes d'ondes pour expliquer le principe du procédé de décomposition en forme d'ondes périodiques, ainsi que le procédé de réinsertion d'ondelettes selon la présente invention ;
<Desc/Clms Page number 14>
la figure 4 illustre un schéma logique pour expliquer le procédé de décomposition en forme d'ondes périodiques ;
les figures 5A à 5E illustrent des schémas logiques pour expliquer le processus du procédé de déconvolution aveugle ; les figures 6A et 6B illustrent des formats de codes pour l'information quant aux segments de discours sonores mise en mémoire dans le bloc de mémorisation de segments de discours ; la figure 7 illustre le bloc de synthèse de paroles sonores selon la présente invention ; et les figures 8A et 8B illustrent des graphiques pour expliquer le procédé de réglage de la durée et du pas selon la présente invention.
Les chiffres de référence similaires se réfèrent à des parties similaires tout au long des diverses vues des dessins.
DESCRIPTION DETAILLEE DE L'INVENTION
La structure du système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole de la technique antérieure consiste en trois sous-systèmes : A. Un sous-système de prétraitement phonétique (1) ; B. Un sous-système de génération de prosodie (2) ; et C. Un sous-système (3) de concaténation de segments de discours, représenté en figure 1. Lorsque le texte est entré à partir d'un clavier, d'un ordinateur ou de n'importe quel autre système, dans le système de synthèse texte-paroles, le sous-système de prétraitement phonétique (1) analyse la syntaxe du texte et modifie alors le texte pour obtenir une chaîne de symboles de transcription phonétique en y appliquant des règles de recodage phonétique.
Le système de génération de prosodie (2) génère des données de modèle d'intonation, ainsi que des données de
<Desc/Clms Page number 15>
modèle d'accentuation, en utilisant des données d'analyse syntaxique, de telle sorte qu'une intonation et une accentuation appropriées puissent s'appliquer à la chaîne de symboles de transcription phonétique et ensuite, envoie les données au sous-système (3) de concaténation de segments de discours. Le sous-système de génération de prosodie (2) procure également les données quant à la durée de chaque phonème au sous-système de concaténation de segments de discours (3).
Les trois données prosodiques ci-dessus, c'est-à-dire les données de modèle d'intonation, les données de modèle d'accentuation et les données concernant la durée de chaque phonème sont en général envoyées au sous-système de concaténation de segments de discours (3) conjointement à la chaîne de symboles de transcription phonétique générée par le sous-système de prétraitement phonétique (1), bien qu'elles puissent être transférées au système de concaténation de segments de discours (3) de manière indépendante à la chaîne de symboles de transcription phonétique.
Le sous-système de concaténation (3) de segments de discours génère une parole continue en allant chercher successivement des segments de discours appropriés qui sont codés et mémorisés dans sa mémoire, en fonction de la chaîne de symboles à transcription phonétique (non représentée) et en les décodant. Au moment où le sous-système de concaténation (3) de segments de discours peut générer une parole synthétique ayant l'intonation, l'accentuation et la vitesse de parole, telles que l'envisage le sous-système de génération prosodique (2) en réglant l'énergie (intensité), la durée et la période de pas de chaque segment de discours en fonction de l'information prosodique.
La présente invention améliore de manière remarquable
<Desc/Clms Page number 16>
la qualité de la parole, par comparaison à la parole synthétisée de la technique antérieure en améliorant le procédé de codage pour mettre en mémoire les segments de discours dans le sous-système de concaténation (3) de segments de discours. Une description quant à la mise en oeuvre du sous-système (3) de concaténation de segments de discours en se référant à la figure 2 suit.
Lorsque la chaîne des symboles de transcription phonétique formée par le sous-système de prétraitement phonétique (1) est entrée dans le bloc de sélection (4) de segments de discours, le bloc de sélection (4) de segments de discours sélectionne successivement les unités de synthèse telles que les diphonèmes et les demi-syllabes en inspectant en continu la chaîne des symboles entrants à transcription phonétique et recherche dans sa mémoire les adresses des segments de discours correspondant aux unités de synthèse sélectionnées, comme indiqué dans le tableau 1.
Le tableau 1 représente un exemple de la table de segments de discours, conservée dans le bloc de sélection (4) de segments de discours, qui sélectionne des segments de discours à base de diphonèmes. Ceci donne lieu à la formation d'une adresse du segment de discours sélectionné, qui est envoyée au bloc de mémorisation 5 de segments de discours.
Les segments de discours correspondant aux adresses des segments de discours sont codés conformément au procédé de la présente invention, qui sera décrit ultérieurement, et ils sont mémorisés aux adresses de la mémoire du bloc de mémorisation (5) de segments de discours.
<Desc/Clms Page number 17>
Tableau 1
EMI17.1
<tb>
<tb> Symboles <SEP> de <SEP> transcription <SEP> Adresses <SEP> de <SEP> mémoire
<tb> phonétique <SEP> des <SEP> segments <SEP> de <SEP> discours <SEP> (hexadécimale)
<tb> /ai/ <SEP> 0000
<tb> /au/ <SEP> 0021
<tb> /ab/ <SEP> 00A3
<tb> /ad/ <SEP> 00FF
<tb> # <SEP> #
<tb> # <SEP> #
<tb> # <SEP> #
<tb>
Lorsque l'adresse du segment de discours sélectionné provenant du bloc de sélection (4) de segments de discours est entrée dans le bloc de mémorisation (5) de segments de discours, le bloc de mémorisation (5)
de segments de discours va chercher dans la mémoire du bloc de mémorisation (5) de segments de discours les données de segments de discours correspondantes et les envoie à un bloc de synthèse (6) de sons sonores s'il s'agit d'un son sonore ou à un son sonore fricatif ou encore à un bloc de synthèse (7) de sons sourds s'il s'agit d'un son sourd. C'est-à-dire que le bloc de synthèse (6) de sons sonores synthétise un signal numérique de parole correspondant aux segments de discours de sons sonores ; et le bloc de synthèse (7) de sons sourds synthétise un signal numérique de parole correspondant aux segments de discours de sons sourds. Chaque signal de parole numérique synthétisé du bloc de synthèse (6) de sons sonores et du bloc de synthèse (7) de sons sourds est alors transformé en un signal analogique.
Ainsi, le signal numérique de parole synthétisé
<Desc/Clms Page number 18>
obtenu, qui sort du bloc de synthèse (6) de sons sonores ou du bloc de synthèse (7) de sons sourds, est alors envoyé à un bloc (8) de conversion N/A consistant en un convertisseur numérique-analogique, en un filtre analogique passe-bas et en un amplificateur analogique, et il est transformé en un signal analogique pour procurer un son de parole synthétisé.
Lorsque le bloc de synthèse (6) de sons sonores et le bloc de synthèse (7) de sons sourds réalisent la concaténation des segments de discours, ils procurent la prosodie telle que recherchée par le sous-système de génération de prosodie (2) à la parole synthétisée en réglant, de manière appropriée, la durée, l'intensité et la fréquence de pas du segment de discours sur base de l'information prosodique, c'est-à-dire les données de modèle d'intonation, les données de modèle d'accentuation et les données de durée.
La préparation du segment de discours pour la mémorisation dans le bloc de mémorisation (5) de segments de discours est la suivante. Une unité de synthèse est d'abord sélectionnée. De telles unités de synthèse englobent des phonèmes, des allophones, des diphonèmes, des syllabes, des demi-syllabes, des unités CVC, VCV, CV, VC (dans le cas présent, "C" désigne une consonne,"V"désigne un phonème de voyelle, respectivement) ou encore des combinaisons de ces derniers. Les unités de synthèse qui sont le plus largement utilisées dans le procédé de synthèse actuel de la parole sont les diphonèmes et les demi-syllabes.
Le segment de discours correspondant à chaque élément d'un agrégat d'unités de synthèse est segmenté à partir des échantillons de paroles qui sont effectivement prononcé par un être humain. En conséquence, le nombre d'éléments dans l'agrégat d'unités de synthèse est le même que le nombre de
<Desc/Clms Page number 19>
segments de discours. Par exemple, dans le cas où des demi-syllabes sont utilisées comme unités de synthèse en anglais, le nombre de demi-syllabes est d'environ 1.000 et, par conséquent, le nombre de segments de discours est également d'environ 1.000. En général, de tels segments de discours sont constitués par l'intervalle de son sourd et par l'intervalle de son sonore.
Dans la présente invention, le segment de discours sourd et le segment de discours sonore obtenus par segmentation du segment de discours de la technique antérieure en intervalle de son sourd et en intervalle de son sonore sont utilisés comme unité de synthèse de base. La portion de synthèse de la parole de sons sourds est réalisée conformément à la technique antérieure comme décrit ci-dessous. La synthèse de la parole de sons sonores est réalisée conformément à la présente invention.
Ainsi, les segments de discours sourds sont codés au bloc de synthèse (7) de sons sourds, représenté en figure 2. Dans le cas du décodage du son sourd, il a été noté dans la technique antérieure que l'utilisation d'un signal de bruit blanc artificiel aléatoire comme signal d'excitation pour un filtre de synthèse ne détériore, ni ne diminue la qualité de la parole décodée. En conséquence, dans le codage et le décodage de segments de discours sourds, le procédé de codage de la voix de la technique antérieure peut être appliqué tel quel, procédé dans lequel le bruit blanc est utilisé comme signal d'excitation.
Par exemple, dans la synthèse de la technique antérieure, des sons sourds, le signal de bruit blanc peut être généré par un algorithme de génération de nombres aléatoires et il peut être utilisé, ou bien le signal de bruit blanc généré à l'avance et mémorisé peut être retiré de la mémoire lors de la synthèse ou bien un signal résiduel obtenu par filtra-
<Desc/Clms Page number 20>
tion de l'intervalle de son sourd de la parole réelle utilisant un filtre inverse à enveloppe spectrale et stocké dans la mémoire peut en être retiré lors de la synthèse.
S'il n'est pas nécessaire de modifier la durée du segment de discours sourd, un procédé de codage extrêmement simple peut être utilisé, dans lequel la portion de son sourd est codée conformément à un procédé de codage en forme d'ondes, tel que la modulation par impulsion codée (PCM) ou la modulation codée par impulsion différentielle adaptable (ADPCM), et est mise en mémoire. Elle est alors décodée pour être utilisée lors de la synthèse.
La présente invention concerne un procédé de codage de synthèse des segments de discours sonores, qui commande la qualité de la parole synthétisée. Une description concernant un tel procédé en insistant sur le bloc de mémorisation de segments de discours et sur le bloc de synthèse de sons sonores (6) est représentée en figure 2.
Les segments de discours sonores parmi les segments de discours stockés dans la mémoire du bloc de mémorisation (5) des segments de discours, sont décomposés au préalable en ondelettes de composants périodiques de pas conformément au procédé de décomposition en forme d'ondes périodiques de la présente invention et y sont mis en mémoire. Le bloc de synthèse (6) de sons sonores synthétise la parole possédant le pas désiré et les modèles de durée en sélectionnant et en arrangeant de manière appropriée les ondelettes en fonction du procédé de réinsertion d'ondelettes basé sur une variation temporelle. Le principe de ces procédés est décrit ci-dessous en se référant aux dessins.
La parole sonore s (n) est un signal périodique obtenu lorsqu'une onde glottale périodique générée par les cordes vocales passe par le filtre acoustique du tractus vocal
<Desc/Clms Page number 21>
V (f) constitué par la cavité buccale, la cavité pharyngienne et la cavité nasale. En l'occurrence, on suppose que le filtre du tractus vocal V (f) englobe une caractéristique de fréquence due à un effet de rayonnement provenant des lèvres.
Un spectre S (f) de la parole sonore est caractérisé par : 1. une structure fine variant rapidement par rapport à la fréquence'If" ; et 2. une enveloppe spectrale variant lentement par rapport à cette dernière, la première citée étant due à la périodicité du signal de parole sonore et la dernière citée reflétant le spectre d'une impulsion glottale et de la caractéristique de fréquence du filtre du tractus vocal.
Le spectre S (f) de la parole sonore adopte la même forme que celle obtenue lorsque la structure fine d'un train d'impulsions dû à des composantes harmoniques qui existent à des multiples entiers de la fréquence de pas Fo est multipliée par une fonction d'enveloppe spectrale H (f).
En conséquence, la parole sonore s (n) peut être conçue comme un signal de sortie lorsqu'un signal de train d'impulsions périodiques de pas possédant une enveloppe spectrale plate et la même période que celle de la parole sonore S (n), est entré dans un filtre à variation temporelle ayant la même caractéristique de réponse de fréquence que celle de la fonction d'enveloppe spectrale H (f) de la parole sonore s (n). En considérant ceci dans le domaine temporel, la parole sonore s (n) constitue une convolution d'une réponse impulsionnelle h (n) du filtre H (f) et du signal e (n) de train d'impulsions périodiques de pas.
Etant donné que H (f) correspond à la fonction d'enveloppe spectrale de la parole sonore s (n), le filtre à variation temporelle dont H (f) représente sa caractéristique de réponse de fréquence, est désigné comme étant un filtre d'enveloppe spectrale ou encore un filtre de synthèse.
<Desc/Clms Page number 22>
En figure 3A, un signal pour 4 périodes d'une forme d'onde glottale est illustré. Communément, les formes d'ondes des impulsions glottales composant la forme d'ondes glottales sont mutuellement semblables, mais pas complètement identiques, et, de la même manière, les temps d'intervalles entre les impulsions glottales adjacentes sont mutuellement similaires, mais pas complètement égaux. Comme décrit ci-dessus, la forme d'ondes s (n) de la parole sonore de la figure 3C est générée lorsque la forme d'onde glottale g (n) représentée en figure 3A est filtrée par le filtre V (f) du tractus vocal.
La forme d'onde glottale g (n) est constituée par les impulsions glottales gl (n), g2 (n), g3 (n) et g4 (n) distinctes l'une de l'autre en termes de temps et lorsqu'elles sont filtrées par le filtre V (f) du tractus vocal, les ondelettes sl (n), s2 (n), s3 (n) et s4 (n) représentées en figure 3B sont générées. La forme d'ondes s (n) de la parole sonore représentée en figure 3C est générée par superposition de telles ondelettes.
Un concept de base de la présente invention réside dans le fait que, si l'on peut obtenir les ondelettes qui composent un signal de parole sonore en décomposant le signal de parole sonore, on peut synthétiser la parole avec un modèle arbitraire d'accent et d'intonation en modifiant l'intensité des ondelettes et les intervalles de temps entre elles.
Etant donné que la forme d'ondes s (n) de la parole sonore représentée en figure 3C a été générée en superposant les ondelettes qui se chevauchent l'une l'autre dans le temps, il est difficile de récupérer les ondelettes de la forme d'ondes de parole s (n).
Afin que les ondes de chaque période ne se chevauchent pas mutuellement dans le temps, les ondes doivent être des
<Desc/Clms Page number 23>
ondes pointues, dans lesquelles l'énergie est concentrée autour d'un point dans le temps, comme indiqué en figure
EMI23.1
3F.
Une forme d'ondes pointue est une forme d'ondes qui possède une enveloppe spectrale pratiquement plate dans le domaine de la fréquence. Lorsqu'une forme d'ondes s (n) de parole sonore est donnée, un signal e (n) de train d'impulsions de pas périodiques possédant une enveloppe spectrale plate, comme représenté en figure 3F, peut être obtenue comme sortie en évaluant l'enveloppe du spectre S (f) de la forme d'ondes s (n) et en l'entrant dans un filtre inverse à enveloppe spectrale l/H (f) ayant l'inverse de la fonction d'enveloppe (H) comme caractéristique de fréquence. Les figures 4,5A et 5B concernent cette étape.
Etant donné que les formes d'ondes à impulsions de pas de chaque période composant le signal e (n) de train d'impulsions de pas périodiques, comme représenté en figure 3F, ne se chevauchent pas mutuellement dans le temps, elles peuvent être séparées. Le principe de la décomposition en forme d'ondes périodiques réside dans le fait que, étant donné que les"signaux à impulsions de pas pour une pério- de" séparés e1 (n), e2 (n),... possèdent un spectre essentiellement plat, s'ils sont entrés en retour dans le filtre d'enveloppe spectrale H (f) de telle sorte que les signaux possèdent le spectre original, alors les ondelettes sl (n), s2 (n), etc., comme représenté en figure 3B, peuvent être obtenues.
La figure 4 est un schéma logique du procédé de décomposition en forme d'ondes périodiques de la présente invention, dans lequel le segment de discours sonore est analysé en ondelettes. La forme d'ondes de parole sonore s (n), qui concerne un signal numérique, est obtenue en
<Desc/Clms Page number 24>
limitant par la bande le signal analogique de parole sonore ou le signal de son musical instrumental avec un filtre passe-bas, et en transformant les signaux résultants en signaux analogiques-numériques et en les mémorisant sur un disque magnétique sous la forme du format de code de modulation par pulsions codées (PCM) en groupant plusieurs bits à la fois, et elle est ensuite retirée en vue d'un traitement en cas de nécessité.
Le premier stade du procédé de préparation d'onde- lettes selon le procédé de décomposition en forme d'ondes périodiques est une déconvolution aveugle dans laquelle la forme d'ondes s (n) de parole sonore (signal périodique s (n)) est soumise à une déconvolution en une réponse impulsionnelle h (n), à savoir une fonction temporelle de la fonction d'enveloppe de spectre H (f) du signal s (n) et en un signal e (n) de train d'impulsions de pas périodiques possédant une enveloppe spectrale plate et la même période que celle du signal s (n). Voir les figures 5A et 5B et la discussion qui s'y rapporte.
Comme décrit, pour la déconvolution aveugle, la technique d'estimation du spectre avec laquelle on évalue la fonction d'enveloppe spectrale H (f) à partir du signal s (n) est essentielle.
Les techniques d'estimation du spectre de la technique antérieure peuvent être classifiées en trois procédés : 1. procédé d'analyse par blocs ; 2. procédé d'analyse par synchronisation de pas ; et 3. procédé d'analyse séquentielle en fonction de la longueur d'un intervalle d'analyse.
<Desc/Clms Page number 25>
Le procédé d'analyse par blocs concerne un procédé dans lequel le signal de parole est divisé en blocs de durée constante de l'ordre de 10 à 20 ms (millisecondes) et ensuite, l'analyse a lieu par rapport au nombre constant d'échantillons de paroles existant dans chaque bloc, en obtenant un jeu (communément de 10 à 16 paramètres) de paramètres d'enveloppe spectrale pour chaque bloc, procédé pour lequel un procédé d'analyse par homomorphisme, ainsi qu'un procédé d'analyse par prédiction linéaire en blocs sont spécifiques.
Le procédé d'analyse par synchronisation de pas obtient un jeu de paramètres d'enveloppe spectrale pour chaque période en mettant en oeuvre une analyse de chaque signal périodique de parole qui a été obtenu en divisant le signal de parole par la période de pas comme unité (comme représenté en figure 3C), procédé pour lequel le procédé d'analyse par synthèse et le procédé d'analyse de prédiction linéaire par synchronisation de pas sont spécifiques.
Dans le procédé d'analyse séquentielle, un jeu de paramètres d'enveloppe spectrale est obtenu pour chaque échantillon de parole (comme représenté en figure 3D) en estimant le spectre pour chaque échantillon de parole, procédé pour lequel le procédé des moindres carrés et le procédé des moindres carrés récurrents, qui concernent une espèce de procédé de filtrage adaptable, sont spécifiques.
La figure 3D représente la variation au cours du temps des 4 premiers coefficients de réflexion parmi 14 coefficients de réflexion kl, k2,..., kl4 qui constituent un jeu de paramètres d'enveloppe spectrale obtenu par le procédé d'analyse séquentielle. (Se référer à la figure 5A. ) Comme indiqué dans le dessin, les valeurs des paramètres de l'enveloppe spectrale changent continuellement du fait du
<Desc/Clms Page number 26>
mouvement continu des organes articulatoires, ce qui signifie que la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale change continuellement.
En l'occurrence, pour des commodités d'explication, en supposant que h (n) ne change pas dans un intervalle d'une période, h (n) au cours de la première, deuxième et troisième périodes est désigné respectivement par h (n) l, h (n) 2, h (n) 3, Comme représenté en figure 3E.
Un jeu de paramètres d'enveloppe obtenu par diverses techniques d'estimation du spectre, tel qu'un cepstrum CL (i) qui concerne un jeu de paramètres obtenu par le procédé d'analyse par homomorphisme et un jeu de coefficients de prédiction (ai) ou un jeu de coefficients de réflexion (ki) ou encore un jeu de paires de spectres à raies, etc. obtenus en appliquant le procédé des moindres carrés récurrents ou encore le procédé de prédiction linéaire, est traité de manière égale que le H (f) ou que le h (n), étant donné qu'il peut réaliser la caractéristique de fréquence H (f) ou la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale. En conséquence, ci-après, la réponse impulsionnelle est également désignée comme étant le jeu de paramètres d'enveloppe spectrale.
Les figures 5A et 5B représentent des procédés de la déconvolution aveugle.
La figure 5A représente un procédé de déconvolution aveugle mis en oeuvre en utilisant le procédé d'analyse de prédiction linéaire ou en utilisant le procédé des moindres carrés récurrents qui concernent tous deux des procédés de la technique antérieure. La forme d'ondes de parole sonore s (n) étant donnée, comme représenté en figure 3C, les coefficients de prédiction {al, a2,..., aN} ou les coefficients de réflexion (kl, k2,..., kN} qui concernent les
<Desc/Clms Page number 27>
paramètres d'enveloppe spectrale représentant la caractéristique de fréquence H (f) ou la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale, sont obtenus en utilisant le procédé d'analyse de prédiction linéaire ou le procédé des moindres carrés récurrents.
Normalement, 10 à 16 coefficients de prédiction sont suffisants pour l'ordre de prédiction "N". En utilisant les coefficients de prédiction {al, a2,..., aN} et les coefficients de réflexion {kl, k2,..., kN) comme paramètres d'enveloppe spectrale, un filtre inverse d'enveloppe spectrale (ou simplement désigné comme étant un filtre inverse) ayant la caractéristique de fréquence de l/H (f) qui est l'inverse de la caractéristique de fréquence H (f) du filtre d'enveloppe spectrale, peut aisément être construit par l'homme de métier.
Si la forme d'ondes de parole sonore constitue l'entrée dans le filtre inverse d'enveloppe spectrale également désigné comme étant un filtre d'erreur de prédiction linéaire dans le procédé d'analyse de prédiction linéaire ou dans le procédé des moindres carrés récurrents, le signal de train d'impulsions de pas périodiques du type de la figure 3F possédant l'enveloppe spectrale plate, désigné comme étant un signal d'erreur de prédiction ou un signal résiduel, peut être obtenu comme sortie provenant du filtre.
Les figures 5B et 5C représentent le procédé de déconvolution aveugle utilisant le procédé d'analyse par homomorphisme qui constitue un procédé d'analyse par blocs, tandis que la figure 5B représente le procédé mis en oeuvre par une division de fréquence (pas défini ou mentionné jusqu'à présent par rapport à cette--expliquer ou supprimer) et la figure 5C représente le procédé mis en oeuvre par filtrage inverse.
Une description de la figure 5B suit. Des échantillons
<Desc/Clms Page number 28>
de paroles pour l'analyse d'un bloc sont obtenus en multipliant le signal de parole sonore s (n) par une fonction à fenêtre conique telle qu'une fenêtre de Hamming ayant une durée d'environ 10 à 20 ms. Une séquence spectrale c (i) est alors obtenue en traitant les échantillons de paroles utilisant une série de procédés de traitement par homomorphisme consistant en une transformation discrète de Fourrier, un logarithme complexe et une transformation discrète de Fourrier inverse, comme représenté en figure 5D. Le cepstrum est fonction de la quéfrence qui est une unité similaire au temps.
Un cepstrum basse quéfrence CL (i) situé autour d'une origine représentant l'enveloppe spectrale de la parole sonore s (n) et un cepstrum haute quéfrence CH (i) représentant un signal e (n) de train d'impulsions de pas périodiques, sont capables d'être séparés l'un de l'autre dans le domaine de la quéfrence. C'est-à-dire que multiplier le cepstrum c (i) par une fonction de fenêtre basse quéfrence et une fonction de fenêtre haute quéfrence, respectivement, donne CL (i) et CH (i), respectivement. Le fait de les soumettre respectivement à un procédé de traitement homomorphique inverse, comme représenté en figure 5E, donne la réponse impulsionnelle h (n) et le signal de train d'impulsions de pas e (n).
Dans ce cas, puisque le fait de soumettre le CH (i) au procédé de traitement homomorphique inverse ne donne pas directement le signal de train d'impulsions de pas e (n), mais donne le signal de train d'impulsions de pas d'un bloc multiplié par une fonction de fenêtre de temps w (n), e (n) peut être obtenu en multipliant à nouveau le signal de train d'impulsions de pas par une fonction inverse de fenêtre de temps l/w (n) correspondant à l'inverse de w (n).
Le procédé de la figure 5C est le même que celui de la
<Desc/Clms Page number 29>
figure 5B, avec cette exception que seul CL (i) est utilisé au lieu de CH (i) dans la figure 5C pour obtenir le signal de train d'impulsions de pas périodiques e (n). C'est-à-dire que dans ce procédé, en utilisant la propriété telle qu'une réponse impulsionnelle h-l (n) correspondant à l/H (f) qui est un inverse des caractéristiques de fréquence H (f), peut être obtenue en traitant-CL (i) que l'on obtient en prenant le négatif de CL (i), en recourant au procédé de traitement homomorphique inverse, le signal de train d'impulsions de pas périodiques e (n) peut être obtenu comme sortie en construisant un filtre à réponse impulsionnelle à durée finie (FIR) qui possède h-l (n)
comme réponse impulsionnelle et entrant dans le filtre un signal de parole originale s (n) qui n'est pas multiplié par une fonction de fenêtre.
Ce procédé est un procédé de filtrage inverse qui est fondamentalement identique à celui de la figure 5A, avec cette seule exception que, tandis que dans l'analyse homomorphique de la figure 5C, le filtre inverse d'enveloppe spectrale 1/H (f) est construit en obtenant une réponse impulsionnelle h-l (n) du filtre inverse d'enveloppe spectrale, dans la figure 5A, le filtre inverse d'enveloppe
EMI29.1
spectrale l/H (f) peut être directement construit par les coefficients de prédiction {ai} ou par les coefficients de réflexion {ki} obtenus par le procédé d'analyse de prédiction linéaire.
Dans la déconvolution aveugle basée sur l'analyse homomorphique, la réponse impulsionnelle h (n) ou le cepstrum basse quéfrence CL (i), représentée par des lignes pointillées dans les figures 5B et 5C, peut être utilisée comme jeu de paramètres d'enveloppe spectrale. En utilisant la réponse impulsionnelle (h (0), h (1),..., h (N-1)}, un jeu de paramètres d'enveloppe spectrale comprend normalement un bon nombre de paramètres de l'ordre de N étant égal à 90-120, tandis que le nombre de paramètres peut diminuer
<Desc/Clms Page number 30>
jusqu'à 50-60, N étant égal à 25-30 en utilisant le cepstrum (CL (-N) m, CL (-N+1),..., 0,..., CL (N)}.
Comme décrit ci-dessus, la forme d'ondes s (n) de la parole sonore subit une déconvolution en réponse impulsionnelle h (n) du filtre d'enveloppe spectrale et en signal de train d'impulsions de pas périodiques e (n) selon le procédé de la figure 5. Une fois que le signal de train d'impulsions de pas et les paramètres d'enveloppe spectrale ont été obtenus conformément au procédé de déconvolution aveugle, les positions d'impulsions de pas P1, P2, etc. sont alors obtenues à partir du signal de train d'impulsions de pas périodiques e (n) ou du signal de paroles s (n) en utilisant un algorithme de détection de positions d'impulsions de pas dans le domaine du temps, tel que l'algorithme de détection"epoch".
Ensuite, les signaux d'impulsions de pas el (n), e2 (n) et e3 (n) représentés dans les figures 3H, 3K, 3N, respectivement, sont obtenus en segmentant périodiquement le signal de train d'impulsions de pas e (n) de telle sorte qu'une impulsion de pas soit incluse dans un intervalle de période, comme représenté en figure 3F. La décision peut être prise de considérer les positions de la segmentation comme étant les points centraux entre les impulsions de pas ou encore des points qui possèdent un temps constant en avant de chaque impulsion de pas.
Toutefois, étant donné que la position de chaque impulsion de pas par rapport au temps coïncide avec la portion finale de chaque impulsion glottale, comme le fera comprendre complètement la comparaison entre les figures 3A et 3F, il est préférable de sélectionner un point à temps constant derrière chaque impulsion de pas comme étant la position de la segmentation, comme indiqué par la ligne pointillée en figure 3F. Toutefois, étant donné que l'impulsion de pas présente l'effet maximal sur l'audibilité, il n'existe pas de différences significatives dans la
<Desc/Clms Page number 31>
parole synthétisée entre les cas.
Si les signaux d'impulsions de pas el (n), e2 (n), e3 (n), etc. obtenus par ce procédé sont respectivement convolués une nouvelle fois avec les hl (n), h2 (n), h3 (n) de la figure 3E qui concernent des réponses impulsionnelles au cours de l'intervalle de période des signaux d'impulsions de pas el (n), e2 (n), e3 (n), etc., les ondelettes recherchées telles que représentées dans les figures 3I, 3L, 3 (0) sont obtenues. Une telle convolution peut être réalisée de manière adéquate en entrant chaque signal de train d'impul- sions de pas dans le filtre d'enveloppe spectrale H (f) qui utilise les paramètres d'enveloppe spectrale comme coefficients de filtre, comme représenté en figure 4.
Par exemple, dans les cas où les coefficients de prédiction linéaire ou les coefficients de réflexion ou encore les paires de spectres à raies sont utilisés comme paramètres d'enveloppe spectrale comme dans le procédé d'analyse par prédiction linéaire, un filtre IIR (à réponse impulsionnelle à durée infinie) possédant les coefficients de prédiction linéaire ou les coefficients de réflexion ou encore les paires de spectres à raies comme coefficients de filtre est composé. Dans les cas où la réponse impulsionnelle est utilisée par les paramètres d'enveloppe spectrale comme dans le procédé d'analyse homomorphique, un filtre FIR ayant la réponse impulsionnelle comme"coefficients de prise"est composé.
Etant donné que le filtre de synthèse ne peut être directement composé si le paramètre d'enveloppe spectrale est un rapport d'aires logarithmiques ou le cepstrum, les paramètres d'enveloppe spectrale doivent être transformés en retour en coefficient de réflexion ou en réponse impulsionnelle pour être utilisés comme les coefficients du filtre IIR ou FIR. Si le signal d'impulsion de pas pour une période constitue l'entrée dans le filtre d'enveloppe spectrale composé comme décrit ci-dessus avec
<Desc/Clms Page number 32>
les coefficients de filtres modifiés au cours du temps conformément aux paramètres d'enveloppe spectrale correspondant au même instant que celui de chaque échantillon du signal d'impulsion de pas, alors l'ondelette pour cette période est émise.
Pour cette raison, les "formes d'ondes à fonction temporelle"des paramètres d'enveloppe spectrale sont découpés au même moment que celui auquel e (n) a été découpé pour obtenir le signal d'impulsion de pas pour chaque période. Par exemple, dans le cas de l'analyse séquentielle, les paramètres d'enveloppe spectrale de la première période kl (n) l, k2 (n) l, etc., comme représenté en figure 3G, sont obtenus en découpant les paramètres d'enveloppe spectrale de manière correspondante à la même période de temps que celle du signal d'impulsion de pas el (n) de la première période représenté en figure 3H, à partir des fonctions temporelles kl (n), k2 (n), etc. des paramètres d'enveloppe spectrale tels que représentés en figure 3D.
Les paramètres d'enveloppe spectrale de la deuxième et de la troisième périodes, indiqués par un trait plein dans les figures 3J et 3M, peuvent également être obtenus d'une manière similaire à celle mentionnée ci-dessus. En figure 4, les coefficients de réflexion kl, k2,..., kN et la réponse impulsionnelle h (0), h (l),..., h (N-l) sont représentés comme étant un jeu de paramètres spécifiques d'enveloppe spectrale où ils sont désignés par kl (n), k2 (n), ..., kN (n) et h (O, n), h (1, n),..., h (N-1n) pour insister sur le fait qu'il s'agit de fonctions temporelles. De la même manière, dans les cas où le cepstrum CL (i) est utilisé comme jeu de paramètres d'enveloppe spectrale, il sera désigné comme étant CL (i, n).
Etant donné que, contrairement au procédé d'analyse séquentielle, les fonctions temporelles des paramètres
<Desc/Clms Page number 33>
d'enveloppe spectrale ne sont pas obtenues dans le cas du procédé d'analyse par synchronisation de pas ou dans le procédé d'analyse en blocs, mais les valeurs de paramètres d'enveloppe spectrale qui sont constantes sur l'intervalle d'analyse sont obtenues, il sera nécessaire de fabriquer des fonctions temporelles des paramètres d'enveloppe spectrale à partir des valeurs de paramètres d'enveloppe spectrale et ensuite, de segmenter les fonctions temporelles, période par période, pour obtenir les paramètres d'enveloppe spectrale pour une période.
Toutefois, en réalité, il convient de procéder comme suit au lieu de composer les fonctions temporelles. C'est-à-dire que dans le cas du procédé d'analyse par synchronisation de pas, étant donné qu'un jeu de paramètres d'enveloppe spectrale ayant des valeurs constantes correspond à chaque intervalle de période de pas, comme représenté par une ligne pointillée en figure SB, les paramètres d'enveloppe spectrale ne présentent aucun changement, même lorsque leurs fonctions temporelles sont segmentées période par période. En conséquence, les paramètres d'enveloppe spectrale pour une période, qui doivent être mémorisés dans un tampon, ne sont pas des fonctions temporelles, mais bien des constantes indépendantes du temps.
Dans le cas du procédé d'analyse en blocs, étant donné qu'un jeu de paramètres constants d'enveloppe spectrale par bloc est obtenu, les valeurs d'un paramètre d'enveloppe spectrale pour une période appartenant à un bloc, par exemple kl (n) l, kl (n) 2,..., kl (n) M sont non seulement constamment indépendants du temps, mais également identiques.
(En l'occurrence, le k1 (n) j désigne la fonction temporelle de kl pour l'intervalle de période j-th et M représente le nombre d'intervalles de périodes de pas appartenant à un bloc.)
<Desc/Clms Page number 34>
Dans le cas du procédé d'analyse en blocs, il convient de noter que, lorsque le signal d'impulsion de pas se trouve sur la limite de deux blocs adjacents, les valeurs de paramètres d'enveloppe spectrale du bloc précédent et du bloc suivant seront utilisées respectivement pour les portions de signaux précédentes et suivantes, divisées par rapport à la limite du bloc.
Comme on peut le voir en figure 3I, la durée de l'ondelette n'est pas nécessairement égale à une période.
En conséquence, avant d'appliquer le signal d'impulsion de pas et les paramètres d'enveloppe spectrale de longueur d'une période obtenue par la segmentation périodique, au filtre d'enveloppe spectrale, les procédés d'ajout de la valeur zéro et d'addition d'un bord arrière aux paramètres représentés en figure 4 sont requis pour que la durée du signal d'impulsion de pas et des paramètres d'enveloppe spectrale soit au moins aussi longue que la durée effective de l'ondelette. Le procédé d'ajout de la valeur zéro consiste à faire en sorte que la durée totale du signal d'impulsion de pas soit aussi longue que requise en annexant les échantillons à valeur zéro au signal d'impulsion de pas d'une période.
Le procédé d'addition d'un bord arrière aux paramètres consiste à faire en sorte que la durée totale des paramètres d'enveloppe spectrale soit aussi longue que requise en annexant les paramètres d'enveloppe spectrale pour les périodes suivantes après les paramètres d'enveloppe spectrale de longueur d'une période.
Toutefois, même dans le cas d'un simple procédé d'annexage de manière répétée la valeur finale des paramètres d'enveloppe spectrale d'une période ou la première valeur des paramètres d'enveloppe spectrale de la période suivante, la qualité de la parole synthétisée ne s'en trouve pas dégradée de manière significative.
<Desc/Clms Page number 35>
Le fait que la durée effective de l'ondelette à générer par le filtre d'enveloppe spectrale dépende des valeurs des paramètres d'enveloppe spectrale, rend difficile de l'estimer à l'avance. Toutefois, étant donné que des erreurs importantes n'interviennent pas dans l'utilisation pratique dans la plupart des cas si l'on considère que la durée effective de l'ondelette est de 2 périodes à partir des positions d'impulsions de pas dans le cas d'une parole prononcée par une personne de sexe masculin et de 3 périodes par rapport aux positions d'impulsions de pas dans le cas d'une parole prononcée par une personne de sexe féminin ou par un enfant,
il convient de décider que la durée du "signal d'impulsion de pas additionné d'un bord arrière"à mettre en oeuvre par l'ajout de la valeur zéro et des "paramètres d'enveloppe spectrale additionnés d'un bord arrière"à mettre en oeuvre par addition d'un bord arrière aux paramètres, soit égale à des longueurs de 3 et de 4 périodes respectivement pour la parole exprimée par une personne de sexe masculin et une personne de sexe féminin, au cas où la segmentation périodique est réalisée directement après les impulsions de pas.
En figure 3G, les paramètres d'enveloppe spectrale additionnés d'un bord arrière pour la première période de l'intervalle"ad"de 3 périodes réalisé en annexant les paramètres d'enveloppe spectrale pour l'intervalle"bd"de 2 périodes indiqué par une ligne pointillée, à côté des paramètres d'enveloppe spectrale de l'intervalle"ab"de la première période obtenus par la segmentation périodique, sont représentés à titre d'exemple.
En figure 3H, un signal d'impulsion de pas additionné d'un bord arrière pour la première période de
EMI35.1
l'intervalle "ad" de 3 périodes mis en oeuvre en annexant les échantillons à valeur zéro à l'intervalle"bd"de 2 périodes, au signal d'impulsion de pas de l'intervalle"ab" de la première période obtenu par la segmentation périodique, est représenté à titre d'exemple.
<Desc/Clms Page number 36>
Dans le cas décrit ci-dessus, étant donné que la durée après l'ajout de la valeur zéro et l'addition d'un bord arrière aux paramètres est augmentée de 3 ou 4 périodes, tandis que la durée du signal d'impulsion de pas et des paramètres d'enveloppe spectrale avant l'ajout de la valeur zéro et l'addition d'un bord arrière aux paramètres équivaut à une période, des tampons sont procurés entre la segmentation périodique et l'addition d'un bord arrière aux paramètres, comme représenté en figure 4, et le signal d'impulsion de pas, ainsi que les paramètres d'enveloppe spectrale obtenus par la segmentation périodique sont alors mémorisés dans les tampons et extraits lorsqu'ils sont requis, si bien qu'un tamponnage temporel est réalisé.
Si le signal d'impulsion de pas additionné d'un bord arrière et les paramètres d'enveloppe spectrale additionnés d'un bord arrière sont obtenus par l'ajout de la valeur zéro et par l'addition d'un bord arrière aux paramètres en figure 4, le "signal d'ondelette" s1 (n) pour la première période de la longueur de l'intervalle de 3 périodes telle que l'intervalle"ad", comme représenté en figure 3I, peut finalement être obtenu en entrant le signal d'impulsion de pas de la première période additionné d'un bord arrière, tel que l'intervalle"ad"de la figure 3H, dans le filtre d'enveloppe spectrale H (f)
et en faisant varier de manière synchrone les coefficients de la même manière que les
EMI36.1
de paramètres d'enveloppe spectrale de la première période additionnés d'un bord arrière, tel que l'intervalle"ad"de la figure 3G. Les signaux d'ondelettes s2 (n) et s3 (n) pour la deuxième et la troisième périodes, respectivement, peuvent être obtenus de la même manière.
Comme décrit ci-dessus, la forme d'ondes de parole sonore s (n) est finalement décomposée en ondelettes composant la forme d'ondes s (n) par le procédé de la figure 4.
<Desc/Clms Page number 37>
Manifestement, le réarrangement des ondelettes de la figure 3I, de la figure 3L et de la figure 3 (0) obtenues par décomposition en retour au point original, donne la figure 3B et si les ondelettes sont superposées, la forme d'ondes de parole originale s (n), comme représenté en figure 3C, est à nouveau obtenue. Si les ondelettes de la figure 3I, de la figure 3L et de la figure 3 (0) sont réarrangées en faisant varier les espaces intermédiaires et sont alors superposées comme représenté en figure 3B, la forme d'ondes de parole possédant un modèle de pas différent, comme représenté en figure 3G, est obtenue.
Comme tel, le fait de faire varier de manière adéquate l'intervalle de temps entre les ondelettes obtenues par décomposition permet la synthèse de la parole ayant le modèle arbitraire de pas désiré, c'est-à-dire l'intonation. De la même manière, la fait de faire varier de manière appropriée l'énergie des ondelettes permet la synthèse de la parole ayant le modèle arbitraire d'accentuation désiré.
Dans le bloc de mémorisation de segments de discours représenté en figure 2, chaque segment de discours sonore décomposé en un nombre d'ondelettes correspondant au nombre d'impulsions de pas conformément au procédé représenté en figure 4, est mémorisé dans le format tel que représenté en figure 6A, qui est désigné comme étant l'information quant au segment de discours.
Dans un champ de tête qui constitue une partie antérieure de l'information quant aux segments de discours, les repères temporels limites Bl, B2,..., BL qui constituent des repères temporels importants dans le segment de discours, ainsi que les positions d'impulsions de pas Pi, P2,..., PM de chaque signal d'impulsion de pas utilisé dans la synthèse de chaque ondelette sont mis en mémoire, champ dans lequel le nombre d'échantillons correspondant à chaque repère temporel est enregistré en attribuant la valeur zéro à la première position d'échantillon-
<Desc/Clms Page number 38>
nage du premier signal d'impulsion de pas el (n). Le repère temporel limite concerne la position dans le temps des points limites entre les sous-segments obtenus lorsque le segment de discours est segmenté en plusieurs sous-segments.
Par exemple, la voyelle que des consonnes précèdent et suivent, peut être considérée comme consistant en trois sous-segments pour la parole à petite vitesse, étant donné que la voyelle peut être divisée en un intervalle d'état stationnaire de la partie centrale et en deux intervalles transitionnels présents avant et après l'intervalle à l'état stationnaire, et trois points terminaux des sous-segments sont mis en mémoire comme repères temporels limites dans le champ de tête du segment de discours.
Toutefois, dans le cas où l'échantillonnage est réalisé à une vitesse de parole plus grande, étant donné que l'intervalle transitionnel se réduit à un point, de telle sorte que le segment de discours de la voyelle peut être considéré comme consistant en deux sous-segments, deux repères temporels limites sont mis en mémoire dans l'information de tête.
Dans le champ de codes d'ondelettes, qui constitue la dernière partie de l'information quant aux segments de discours, les codes d'ondelettes qui sont des codes obtenus en codant en forme d'ondes l'ondelette correspondant à chaque période sont mis en mémoire. Les ondelettes peuvent être codées par le simple procédé de codage en forme d'ondes tel que le PCM, mais, étant donné que les ondelettes possèdent des corrélations importantes à court terme et à long terme, la quantité de mémoire nécessaire pour la mémorisation peut être significativement réduite si les ondelettes sont effectivement codées en forme d'ondes en utilisant le ADPCM possédant une boucle de prédiction de pas, un codage prédictif adaptable ou un procédé de modulation delta numérique adaptable.
Le procédé dans lequel les
<Desc/Clms Page number 39>
ondelettes obtenues par décomposition sont codées en forme d'ondes, les codes obtenus étant mis en mémoire et au moment de la synthèse, les codes sont décodés, réarrangés et superposés pour produire la parole synthétisée, est appelé le "procédé de mémorisation de codes en forme d'ondes".
Le signal d'impulsion de pas et les paramètres d'enveloppe spectrale correspondants peuvent être considérés comme étant identiques à l'ondelette, étant donné qu'il s'agit des matériaux dont peuvent être constituées les ondelettes. En conséquence, est également possible le procédé dans lequel les"codes de source"obtenus en codant les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale sont mis en mémoire et les ondelettes sont réalisées en obtenant les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale par décodage des codes de source, et les ondelettes sont alors réarrangées et superposées pour produire la parole synthétisée. Ce procédé est appelé le"procédé de mémorisation de codes de source".
Ce procédé correspond à celui dans lequel le signal d'impulsion de pas et les paramètres d'enveloppe spectrale mémorisés dans les tampons, au lieu des ondelettes obtenues comme sortie en figure 4, sont appariés l'un à l'autre dans le même intervalle de période et ensuite, mis en mémoire dans le bloc de mémorisation de segments de discours. Par conséquent, dans le procédé de mémorisation de codes de source, les procédés après le tampon en figure 4, c'est-à-dire le procédé d'addition d'un bord arrière aux paramètres, le procédé d'ajout de la valeur zéro et le procédé de filtrage par le filtre de synthèse H (f) sont réalisés dans le sous-bloc d'assemblage en forme d'ondes en figure 7.
Dans le procédé de mémorisation de codes de source, le
<Desc/Clms Page number 40>
format de l'information quant aux segments de discours est tel que représenté en figure 6B qui est la même que la figure 6A, à l'exception du contenu du champ de codes d'ondelettes. C'est-à-dire que les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale nécessaires pour la synthèse des ondelettes au lieu des ondelettes sont codés et mis en mémoire aux positions dans lesquelles l'ondelette, pour chaque période, doit être mise en mémoire en figure 6A.
Les paramètres d'enveloppe spectrale sont codés conformément au procédé de quantification de la technique antérieure des paramètres d'enveloppe spectrale et mis en mémoire dans le champ de codes d'ondelettes. A ce moment, si les paramètres d'enveloppe spectrale sont transformés de manière appropriée avant la quantification, le codage peut être réalisé de manière efficace. Par exemple, il est préférable de transformer les coefficients de prédiction en paramètres de paires de spectres à raies et les coefficients de réflexion en rapports d'espaces logarithmiques et de les quantifier.
En outre, étant donné que la réponse impulsionnelle possède une corrélation étroite entre des échantillons adjacents et entre des réponses impulsionnelles adjacentes, si le codage en forme d'ondes a lieu conformément à un procédé de codage différentiel, la quantité des données nécessaires pour la mémorisation peut être significativement réduite. Dans le cas de paramètres de cepstrum, un procédé de codage est connu, dans lequel les paramètres de cepstrum sont transformés de telle sorte que la quantité de données peut être significativement réduite.
D'une part, le signal d'impulsion de pas est codé conformément à un procédé approprié de codage en forme d'ondes et le code résultant est mis en mémoire dans le
<Desc/Clms Page number 41>
champ de codes d'ondelettes. Les signaux d'impulsions de pas possèdent une petite corrélation à court terme, mais ils possèdent une corrélation importante à long terme l'un par rapport à l'autre. En conséquence, si le procédé de codage en forme d'ondes, tel que le codage PCM adaptable par prédiction de pas, qui possède la boucle de prédiction de pas, est utilisé, une parole synthétisée de qualité supérieure peut être obtenue, même lorsque la quantité de mémoire nécessaire pour la mémorisation est réduite à 3 bits par échantillon.
Le coefficient de prédiction d'un prédicteur de pas peut être une valeur obtenue pour chaque période de pas en fonction du procédé d'auto-corrélation ou bien il peut s'agir d'une valeur constante. Au premier stade du codage, l'effet de prédiction de pas peut être augmenté par une normalisation en divisant le signal d'impulsion de pas destiné à être codé par la racine carrée de l'énergie moyenne par échantillon"G". Le décodage est réalisé dans le bloc de synthèse de parole sonore et le signal d'impulsion de pas est rétabli à sa grandeur originale en multipliant à nouveau par"G"au stade final du décodage.
En figure 6B, l'information quant aux segments de discours est représentée pour le cas où est adopté un procédé d'analyse prédictive linéaire qui utilise 14 coefficients de réflexion comme paramètres d'enveloppe spectrale. Si l'intervalle d'analyse pour l'analyse prédictive linéaire est la période de pas, 14 coefficients de réflexion correspondent à chaque signal d'impulsion de pas et sont mis en mémoire. Si l'intervalle d'analyse est un bloc d'une certaine longueur, les coefficients de réflexion pour plusieurs impulsions de pas dans un bloc ont les mêmes valeurs de telle sorte que la quantité de mémoire nécessaire pour la mémorisation des ondelettes est réduite.
Dans ce cas, comme mentionné ci-dessus, étant donné que les
<Desc/Clms Page number 42>
coefficients de réflexion du bloc antérieur ou du bloc postérieur sont utilisés au moment de la synthèse pour le signal d'impulsion de pas surplombant la limite du bloc, selon que les échantillons du signal se trouvent avant ou après le point limite, la position du point limite entre les blocs doit être mise en mémoire en plus dans le champ de tête. Si le procédé d'analyse séquentielle, tel que le procédé des moindres carrés récurrents, est utilisé, les coefficients de réflexion kl, k2,..., kl4 deviennent des fonctions continues de l'indice de temps"n", comme représenté en figure 3D, et une grande capacité de mémoire est requise pour mettre les fonctions temporelles kl (n), k2 (n), .... kl4 (n) en mémoire.
En prenant le cas de la figure 3 comme exemple, les formes d'ondes pour l'intervalle"ab"de la figure 3G et de la figure 3H comme première période et pour l'intervalle"bc"de la figure 3J et de la figure 3K comme deuxième période et pour l'intervalle"cd"de la figure 3M et de la figure 3N comme troisième période pour le champ de codes d'ondelettes sont mises en mémoire dans le champ de codes d'ondelettes.
Le procédé de mémorisation de codes d'ondelettes et le procédé de mémorisation de codes de source sont essentiellement le même procédé et en fait, le code en forme d'ondes obtenues lorsque les ondelettes sont codées en fonction du procédé de codage efficace en forme d'ondes, tel que le APC (codage prédictif adaptable) dans le procédé de mémorisation de codes en forme d'ondes, devient pratiquement le même que le code de source obtenu dans le procédé de mémorisation de codes de source quant à son contenu. Le code en forme d'ondes dans le procédé de mémorisation de codes en forme d'ondes et le code de source dans le procédé de mémorisation de codes de source sont appelés globalement le code d'ondelette.
<Desc/Clms Page number 43>
La figure 7 illustre la configuration interne du bloc de synthèse de paroles sonores de la présente invention. Les codes d'ondelettes mis en mémoire dans le champ de codes d'ondelettes de l'information quant aux segments de discours reçue à partir du bloc de mémorisation de segments de discours sont décodés dans le procédé inverse du procédé dans lequel ils ont été codés, à l'intervention d'un sous-bloc de décodage 9.
Les signaux d'ondelettes obtenus lorsque les codes en forme d'ondes sont décodés dans le procédé de mémorisation de codes en forme d'ondes ou bien les signaux d'impulsions de pas obtenus lorsque les codes de source sont décodés dans le procédé de mémorisation de codes de source et les paramètres d'enveloppe spectrale appariés aux signaux d'impulsions de pas sont appelés informations quant aux ondelettes et sont procurés au sous-bloc d'assemblage en forme d'ondes. D'une part, l'information de tête mise en mémoire dans le champ de tête de l'information quant aux segments de discours concerne l'entrée dans un sous-bloc de réglage de la durée 10 et dans un sous-bloc de réglage du pas 11.
Le sous-bloc de réglage de la durée de la figure 7 reçoit, comme entrée, les données de durée dans l'information prosodique et les repères temporels limites inclus dans l'information de tête de segments de discours et produit l'information quant à la variation temporelle en utilisant les données de durée et les repères temporels limites et procure l'information produite quant à la variation temporelle au sous-bloc 13 d'assemblage en forme d'ondes, au sous-bloc de réglage du pas et au sous-bloc de réglage de l'énergie. Si la durée totale du segment de discours s'allonge ou se raccourcit, la durée des sous-segments constituant le segment de discours s'allonge ou se raccourcit de manière correspondante, le rapport d'extension ou de compression dépendant de la propriété de chaque
<Desc/Clms Page number 44>
sous-segment.
Par exemple, dans le cas où une voyelle est précédée et suivie de consonnes, la durée de l'intervalle d'état stationnaire qui se trouve au milieu possède un taux de variation essentiellement plus grand que ceux des intervalles de transition des deux côtés de la voyelle. Le sous-bloc de réglage de la durée compare la durée BL du segment de discours original qui a été mis en mémoire et la durée du segment de discours à synthétiser indiquée par les données de durée, et obtient la durée de chaque sous-segment à synthétiser correspondant à la durée de chaque sous-segment original, en utilisant leur taux de variation ou leur règle de durée pour ainsi obtenir les repères temporels limites de la parole synthétisée.
Les repères temporels limites originaux Bl, B2, etc. et les repères temporels limites B'1, B'2, etc. de la parole synthétique appariés en correspondance avec les repères temporels limites originaux sont désignés globalement comme information quant à la variation temporelle ; après quoi, dans le cas de la figure 8, par exemple, l'information quant à la variation temporelle peut être présentée par { (Bl, B'1), (B2, b'2), (B2, B'3), (B3, B'3), (B4, B'4)}.
La fonction du sous-bloc de réglage du pas de la figure 7 est de produire l'information quant aux positions d'impulsions de pas de telle sorte que la parole synthétique possède la modèle d'intonation indiqué par les données de modèle d'intonation et le procure au sous-bloc d'assemblage en forme d'ondes et au sous-bloc de réglage de l'énergie. Le sous-bloc de réglage du pas reçoit, comme entrée, les données de modèle d'intonation qui concernent les valeurs de fréquence de pas cibles pour chaque phonème et produit un contour de pas représentant la variation continue de la fréquence de pas par rapport au temps en reliant en souplesse les valeurs de fréquences de pas cibles.
Le sous-bloc de réglage du pas peut refléter un
<Desc/Clms Page number 45>
phénomène de microintonation dû à un"obstruent"au contour du pas. Toutefois, dans ce cas, le contour de pas devient une fonction discontinue dans laquelle la valeur de fréquence de pas change brutalement par rapport au temps aux points limites entre le phonème obstruant et l'autre phonème adjacent. La fréquence de pas est obtenue en réalisant l'échantillonnage du contour de pas à la première position d'impulsion de pas du segment de discours, et la période de pas est obtenue en prenant l'inverse de la fréquence de pas et ensuite, le point précédé par la période de pas est déterminé comme étant la seconde position d'impulsion de pas.
La période de pas suivante est alors obtenue à partir de la fréquence de pas à ce point et la position ultérieure d'impulsions de pas est obtenue à son tour et la répétition d'un tel procédé pourrait donner toutes les positions d'impulsions de pas de la parole synthétisée. Il peut être décidé de faire en sorte que la première position d'impulsions de pas du segment de discours constitue le premier échantillon ou les échantillons voisins dans le cas du premier segment de discours d'une série de segments continus de paroles sonores de la parole synthétisée et la décision peut être prise de considérer la première position d'impulsions de pas pour le segment de discours suivant comme étant le point correspondant aux positions d'impulsions de pas à côté de la dernière impulsion de pas du segment de discours précédent, etc.
Le sous-bloc de réglage du pas envoie les positions d'impulsions de pas P'1, P'2, etc. de la parole synthétique obtenues comme telles et les positions originales dtimpulsions de pas PI, P2, etc. incluses dans l'information de tête quant aux segments de discours, conjointement en une liaison, au sous-bloc d'assemblage en forme d'ondes et au sous-bloc de réglage de l'énergie, où ils sont ainsi appelés information quant aux positions d'impulsions de pas. Dans le cas de la figure 8, par exemple, l'information
<Desc/Clms Page number 46>
quant aux positions d'impulsions de pas peut être représentée par { (P1, P2,..., P9), (P'1, P'2,..., P'8)}.
Le sous-bloc de réglage de l'énergie de la figure 7 produit une information quant au gain par laquelle la parole synthétisée possède le modèle d'accentuation, comme indiqué par les données de modèle d'accentuation, et l'envoie au sous-bloc d'assemblage en forme d'ondes. Le sous-bloc de réglage de l'énergie reçoit, comme entrée, les données de modèle d'accentuation qui concernent les valeurs d'amplitude cible pour chaque phonème, et produit un contour d'énergie représentant la variation continue de l'amplitude par rapport au temps en les reliant en souplesse. Il est supposé que les segments de discours sont normalisés à l'avance au moment de la mémorisation, si bien qu'ils possèdent une énergie relative en fonction de la classe du segment de discours pour refléter la différence relative d'énergie pour chaque phonème.
Par exemple, dans le cas de voyelles, une voyelle fermée possède une plus grande énergie par unité de temps qu'une voyelle ouverte et un son nasal possède environ la moitié de l'énergie par unité de temps, comparée à celle de la voyelle. En outre, l'énergie au cours de l'intervalle de fermeture du son explosif est très faible. En conséquence, lorsque les segments de discours sont mis en mémoire, ils seront codés après réglage préalable, si bien qu'ils possèdent une telle énergie relative. Dans ce cas, le contour d'énergie produit dans le sous-bloc de réglage de l'énergie devient un gain qui doit être multiplié par la forme d'ondes pour être synthétisé.
Le sous-bloc de réglage de l'énergie obtient les valeurs de gain Gl, G2, etc. à chaque position d'impulsions de pas Pl, P'2, etc. de la parole synthétique en utilisant les informations quant au contour d'énergie et aux positions d'impulsions de pas, et les procure au sous-bloc d'assemblage en forme d'ondes, ces informations
<Desc/Clms Page number 47>
étant appelées informations quant au gain. Dans le cas de la figure 8, par exemple, les informations quant au gain peuvent être représentées par { (P'l, Gl), (P'2, G2),..., (P'8, G8) }.
Le sous-bloc d'assemblage en forme d'ondes de la figure 7 reçoit, comme entrée, l'information des ondelettes décrite ci-dessus, l'information quant à la variation temporelle, l'information quant aux positions d'impulsions de pas et l'information quant au gain, et produit finalement le signal de parole sonore. Le sous-bloc d'assemblage en forme d'ondes produit la parole possédant le modèle d'intonation, le modèle d'accentuation et la durée comme indiqué par l'information prosodique en utilisant l'information quant aux ondelettes reçue en provenance du sous-bloc de décodage. A ce moment, certaines des ondelettes sont répétées et certaines sont omises.
Les données quant à la durée, les données quant au modèle d'intonation et les données quant au modèle d'accentuation incluses dans l'information prosodique, concernent des informations indicatrices mutuellement indépendantes, tandis qu'elles doivent être traitées en interrelation, étant donné qu'il existe une interrelation entre ces trois informations lorsque la forme d'ondes est synthétisée avec l'information des ondelettes. Un des problèmes les plus importants dans l'assemblage en forme d'ondes concerne le fait de savoir quelle ondelette sélectionnée comme ondelette destinée à être arrangée à chaque position d'impulsions de pas de la parole synthétisée. Si les ondelettes sélectionnées et arrangées ne sont pas les ondelettes adéquates, une parole synthétique de bonne qualité ne pourra être obtenue.
Ci-dessous, est proposée une description de la mise en oeuvre du sous-bloc d'assemblage en forme d'ondes utilisant le procédé de réinsertion d'ondelettes basé sur la variation temporelle de la présente invention, qui concerne un
<Desc/Clms Page number 48>
procédé de réinsertion d'ondelettes capable de procurer une qualité supérieure quant à la synthèse de la parole synthétique en utilisant l'information quant aux segments de discours reçue du bloc de mémorisation de segments de discours.
Le procédé de synthèse en forme d'ondes de la parole sonore du sous-bloc d'assemblage en forme d'ondes consiste en deux étapes, c'est-à-dire l'étape de réinsertion d'ondelettes en utilisant la fonction de variation temporelle et l'étape de superposition pour superposer les ondelettes réinsérées.
C'est-à-dire que, dans le cas du procédé de mémorisation de codes en forme d'ondes, les signaux d'ondelettes les mieux appropriés sont sélectionnés pour les positions d'impulsions de pas de la parole synthétique parmi les signaux d'ondelettes reçus à titre d'information quant aux ondelettes et sont insérés à leurs positions d'impulsions de pas et leur gain est réglé, et par la suite, la parole synthétisée est produite par leur superposition.
Dans le procédé de mémorisation de codes de source, le signal d'impulsion de pas et les paramètres d'enveloppe spectrale pour chaque période correspondant au signal d'impulsion de pas sont reçus comme information des ondelettes. Dans ce cas-ci, deux procédés d'assemblage de parole synthétique sont possibles.
Le premier procédé consiste à obtenir chaque ondelette en attribuant au filtre de synthèse les paramètres d'enveloppe spectrale et le signal d'impulsion de pas pour une longueur d'intervalle de 2 à 4 périodes obtenus en mettant en oeuvre les procédés correspondant au côté droit du tampon de la figure 4, c'est-à-dire l'addition d'un bord arrière aux paramètres et l'ajout de la valeur zéro décrits ci-dessus à propos de
<Desc/Clms Page number 49>
l'information quant aux ondelettes et ensuite, à assembler la parole synthétique avec les ondelettes conformément au procédé identique au procédé de mémorisation de codes en forme d'ondes. Ce procédé est fondamentalement le même que celui de l'assemblage de la parole synthétique dans le procédé de mémorisation de codes en forme d'ondes et, par conséquent, la description séparée sera omise.
Le second procédé consiste à obtenir un signal synthétique de train d'impulsions de pas ou un signal synthétique d'excitation ayant une enveloppe spectrale plate, mais possédant un modèle de pas différent de celui du signal original de train d'impulsions de pas périodiques, en sélectionnant les signaux d'impulsions périodiques les mieux appropriés aux positions d'impulsions périodiques de la parole synthétique parmi les signaux d'impulsions de pas, en les insérant et en réglant leurs gains, et en les superposant par la suite, pour obtenir des paramètres synthétiques d'enveloppe spectrale réalisés par la mise en relation des paramètres d'enveloppe spectrale avec chaque signal d'impulsion de pas constituant le signal synthétique de train d'impulsions de pas ou le signal synthétique d'excitation,
et ensuite pour produire la parole synthétisée en attribuant le signal synthétique d'excitation et les paramètres synthétiques d'enveloppe spectrale au filtre de synthèse. Ces deux procédés sont essentiellement identiques, à cette exception près que la séquence entre le filtre de synthèse et le procédé de superposition dans l'assemblage de la parole de synthèse est inversée.
Le procédé d'assemblage de la parole synthétique susmentionné est décrit ci-dessous en se référant à la figure 8. Le procédé de réinsertion d'ondelettes peut s'appliquer de manière fondamentalement égale à la fois au procédé de mémorisation de codes en forme d'ondes et au procédé de mémorisation de codes de source. En conséquence,
<Desc/Clms Page number 50>
les procédures d'assemblage en forme d'ondes de paroles synthétiques dans les deux procédés seront décrites simultanément en se référant à la figure 8.
En figure 8A, est illustrée la corrélation entre le segment de discours original et le segment de discours à synthétiser. Les repères temporels limites originaux B1, B2, etc., indiqués par des lignes pointillées, les repères temporels limites B'1, B'2, etc., du son synthétisé et la corrélation entre eux indiquée par les lignes en traits sont inclus dans l'information quant à la variation temporelle reçue du sous-bloc de réglage de la durée. En outre, les positions originales d'impulsions de pas P1, P2, etc., indiquées par les traits pleins et les positions d'impulsions de pas P'1, P'2, etc., du son synthétisé sont incluses dans l'information quant aux positions d'impulsions de pas, reçue du sous-bloc de réglage du pas.
Pour des raisons de commodité d'explication de la figure 8, il est supposé que la période de pas de la parole originale et que la période de pas du son synthétisé sont respectivement constantes, la dernière citée représentant 1,5 fois la première.
Le sous-bloc d'assemblage en forme d'ondes forme d'abord la fonction de variation temporelle comme représenté en figure 8B en utilisant les repères temporels limites originaux, les repères temporels limites du son synthétisé et la corrélation existant entre eux. L'abscisse de la fonction de variation temporelle représente le temps"t"du segment de discours original et l'ordonnée représente le temps "t'" du segment de discours à synthétiser. En figure 8A par exemple, étant donné que le premier sous-segment et que le dernier sous-segment du segment de discours original doivent être respectivement comprimés aux deux-tiers et étendus au double, leur corrélation apparaît sous forme des
<Desc/Clms Page number 51>
lignes de pentes 2/3 et 2 dans la fonction de variation temporelle de la figure 8B, respectivement.
Le second sous-segment ne varie pas quant à sa durée, de telle sorte qu'il apparaît sous forme d'une ligne de pente 1 dans la fonction de variation temporelle. Le deuxième sous-segment du segment de discours à synthétiser résulte de la répétition du repère temporel limite"Bl"du segment de discours original et, en revanche, le troisième sous-segment du segment de discours original varie jusqu'à un repère temporel limite "B'3" dans le segment de discours à synthétiser. Les corrélations dans de tels cas apparaissent respectivement sous forme d'une ligne verticale et d'une ligne horizontale.
Ainsi, la fonction de variation temporelle est obtenue en présentant le repère temporel limite du segment de discours original et le repère temporel limite du segment de discours à synthétiser correspondant au repère temporel limite du segment de discours original comme étant deux points et en les reliant par une ligne. Il peut être possible dans certains cas de présenter la corrélation entre les sous-segments pour qu'elle soit plus proche de la réalité en reliant les points par une courbe uniforme.
Dans le procédé de mémorisation de codes en forme d'ondes, le sous-bloc d'assemblage en forme d'ondes recherche le repère temporel original correspondant aux positions d'impulsions de pas du son synthétique en utilisant la fonction de variation temporelle et recherche l'ondelette possédant la position d'impulsions de pas la plus proche du repère temporel original et insère ensuite l'ondelette aux positions d'impulsions de pas du son synthétique.
A l'étape suivante, le sous-bloc d'assemblage en forme d'ondes multiplie chaque signal d'ondelette inséré, par le gain correspondant aux positions d'impulsions de pas du
<Desc/Clms Page number 52>
signal d'ondelette recherché à partir de l'information concernant le gain, et enfin obtient le son synthétique désiré en superposant les signaux d'ondelettes dont le gain a été réglé, simplement en les additionnant. En figure 3Q, est illustré le son synthétique produit par un tel procédé de superposition pour le cas où les ondelettes de la figure 3I, de la figure 3L et de la figure 3 (0) sont réinsérées comme en figure 3P.
De la même manière, dans le procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes recherche le repère temporel original correspondant aux positions d'impulsions de pas du son synthétique en utilisant la fonction de variation temporelle et recherche le signal d'impulsion de pas dont la position d'impulsions de pas est la plus proche du repère temporel original et ensuite, insère le signal d'impulsion de pas aux positions d'impulsions de pas du son synthétique.
Les chiffres destinés aux signaux d'impulsions de pas ou aux ondelettes insérées de cette manière à chaque position d'impulsions de pas du segment de discours à synthétiser sont représentés dans les figures 8A et 8B.
Comme indiqué dans les dessins, certaines des ondelettes constituant le segment de discours original ont été omises du fait de la compression des sous-segments et certaines sont utilisées de manière répétitive du fait de l'extension des sous-segments. L'hypothèse avait été admise en figure 8 que le signal d'impulsion de pas pour chaque période a été obtenu en procédant à une segmentation directement après chaque impulsion de pas.
La superposition des ondelettes dans le procédé de mémorisation de codes en forme d'ondes est équivalente à la superposition des signaux d'impulsions de pas dans le
<Desc/Clms Page number 53>
procédé de mémorisation de codes de source. En conséquence, dans le cas du procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes multiplie chaque signal d'impulsion de pas réinséré, par le gain correspondant aux positions d'impulsions de pas du signal d'impulsion de pas réinséré, recherché à partir de l'information quant au gain, et enfin obtient le signal synthétique d'excitation désiré en superposant les signaux d'impulsions de pas réglés quant au gain.
Toutefois, dans ce cas-ci, étant donné que la majeure partie de l'énergie est concentrée sur l'impulsion de pas, il peut être possible de réaliser le signal synthétique d'excitation en obtenant d'abord un signal synthétique d'excitation sans réglage du gain en superposant les signaux d'impulsions de pas insérés et ensuite, en multipliant le signal synthétique d'excitation sans réglage du gain par le contour d'énergie généré au sous-bloc de réglage de l'énergie au lieu de superposer les signaux d'impulsions de pas réglés quant au gain de manière constante. La figure 3R représente le signal synthétique d'excitation obtenu lorsque les signaux d'impulsions de pas de la figure 3H, de la figure 3K, de la figure 3N sont réinsérés conformément à un tel procédé, si bien que le modèle de pas devient le même que celui pour le cas de la figure 3P.
Dans le procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes doit réaliser les paramètres synthétiques d'enveloppe spectrale, et deux voies sont possibles, c'est-à-dire le procédé de compression et d'extension dans le temps représenté en figure 8A et le procédé de correspondance synchrone représenté en figure 8B. Si les paramètres d'enveloppe spectrale sont des fonctions continues par rapport au temps et représentent complètement l'enveloppe du spectre de parole, les paramètres synthétiques d'enveloppe spectrale peuvent être
<Desc/Clms Page number 54>
obtenus simplement en comprimant ou en étendant dans le temps les paramètres originaux d'enveloppe spectrale sur une base sous-segment par sous-segment.
En figure 8A, les paramètres d'enveloppe spectrale obtenus par le procédé d'analyse séquentielle sont représentés sous forme d'une courbe en pointillé et les paramètres d'enveloppe spectrale codés par approximation de la courbe en reliant divers points tels que A, B, C, etc. par des segments linéaires, sont représentés en trait plein. Etant donné que seule la position temporelle de chaque point varie pour donner les points A', B', C', etc. comme résultat de la compression et de l'extension dans le temps, un tel procédé de codage par segments de droite est particulièrement approprié pour le cas de la compression et de l'extension dans le temps.
Toutefois, dans le cas où l'on utilise le procédé d'analyse en blocs ou le procédé d'analyse par synchronisation de pas, étant donné que l'appariement spectral n'est pas précis et que la variation dans le temps des paramètres de l'enveloppe spectrale est discontinu, le procédé de compression et d'extension dans le temps ne peut donner la qualité synthétique sonore désirée et il est préférable d'utiliser le procédé de correspondance synchrone dans lequel les paramètres synthétiques d'enveloppe spectrale sont assemblés en corrélant les paramètres d'enveloppe spectrale pour chaque intervalle de période de pas avec chaque signal d'impulsion de pas correspondant, comme représenté en figure 8B.
C'est-à-dire qu'étant donné que l'ondelette dans le procédé de mémorisation de codes en forme d'ondes, est équivalent au signal d'impulsion de pas et aux paramètres correspondants d'enveloppe spectrale pour le même intervalle de période de pas, les paramètres synthétiques d'enveloppe spectrale peuvent être réalisés en insérant de manière synchrone les paramètres d'enveloppe spectrale pour un intervalle d'une période au même intervalle de période de chaque signal inséré d'impulsions de
<Desc/Clms Page number 55>
pas.
En figure SB, k1 qui représente un des paramètres d'enveloppe spectrale et k'l qui représente les paramètres synthétiques d'enveloppe spectrale correspondant à kl, assemblés par de tels procédés pour le procédé d'analyse en blocs et pour le procédé d'analyse par synchronisation de pas, sont représentés par des traits pleins et par une ligne pointillée, respectivement.
Bien entendu, comme mentionné ci-dessus, lorsque les paramètres d'enveloppe spectrale obtenus par le procédé d'analyse séquentielle, les paramètres synthétiques d'enveloppe spectrale peuvent être assemblés conformément au procédé de la figure 8A. Par exemple, si le signal d'impulsion de pas pour chaque période a été réinséré, comme représenté en figure 3R, les paramètres d'enveloppe spectrale pour chaque période sont insérés, comme représenté en figure 3S, en fonction des signaux d'impulsions de pas.
Au moment de l'assemblage du signal synthétique d'excitation et des paramètres synthétiques d'enveloppe spectrale dans le procédé de mémorisation de codes de source, si la période de pas du son synthétisé est plus longue que la période de pas originale, il s'ensuit alors un intervalle blanc entre deux intervalles adjacents de période de pas, comme représenté par des lignes obliques en figure 8. Si la période de pas du son synthétisé est plus courte que la période originale de pas, des intervalles de chevauchement se produisent, dans lesquels deux intervalles adjacents de période de pas se chevauchent mutuellement.
L'intervalle de chevauchement "fb" et l'intervalle blanc "gh"sont représentés en figure 3R et en figure 3S à titre d'exemple. Comme décrit précédemment, les signaux d'impulsions de pas réinsérés seront superposés au moment du chevauchement. Toutefois, il est raisonnable de faire la moyenne des paramètres d'enveloppe spectrale réinsérés conformément aux signaux d'impulsions de pas au lieu de les
<Desc/Clms Page number 56>
superposer au moment du chevauchement. Par conséquent, le procédé d'assemblage du signal synthétique d'excitation et des paramètres synthétiques d'enveloppe spectrale avec les intervalles blancs et les intervalles de chevauchement pris en considération se présente comme suit.
Les échantillons à valeur zéro sont insérés dans l'intervalle blanc au moment de l'assemblage du signal synthétique d'excitation. Dans le cas d'un son sonore fricatif, un son plus naturel peut être synthétisé si le signal de bruit filtré par un filtre passe-haut au lieu des échantillons à valeur zéro, est inséré dans l'intervalle blanc. Les signaux réinsérés d'impulsions de pas doivent être ajoutés dans l'intervalle de chevauchement. Etant donné qu'un tel procédé d'addition est fastidieux, il est commode d'utiliser un procédé de troncature dans lequel seulement un signal est sélectionné parmi deux signaux d'impulsions de pas qui se chevauchent dans l'intervalle de chevauchement. La qualité du son synthétisé utilisant le procédé de troncature n'est pas dégradée de manière significative.
En figure 3R, l'intervalle blanc gh a été rempli à l'aide d'échantillons zéro et le signal d'impulsion de pas de l'intervalle antérieur a été sélectionné dans l'intervalle de chevauchement fb. C'est-à-dire que, dans le cas de l'apparition du chevauchement, l'intervalle antérieur faisant partie des intervalles de chevauchement de chaque signal d'impulsion de pas a été tronqué, et ce procédé est physiquement plus significatif que le procédé dans lequel les signaux d'impulsions de pas sont réalisés par segmentation juste devant l'impulsion de pas et dans lequel, au moment de la synthèse, le dernier parmi les intervalles de chevauchement du signal d'impulsion de pas est tronqué en cas de chevauchement, comme décrit précédemment.
Toutefois, en réalité, aucun des deux procédés ne donne lieu à une différence significative quant à la
<Desc/Clms Page number 57>
qualité sonore du son synthétisé.
Au moment de l'assemblage des paramètres synthétiques d'enveloppe spectrale, il est idéal que l'intervalle blanc soit rempli à l'aide des valeurs qui varient linéairement entre une valeur des paramètres d'enveloppe spectrale au point final de l'intervalle de période précédent et une valeur des paramètres d'enveloppe spectrale au point de départ de la période suivante, et que, dans l'intervalle de chevauchement, les paramètres d'enveloppe spectrale varient progressivement entre les paramètres d'enveloppe spectrale de la période précédente et ceux de la période suivante en utilisant le procédé d'interpolation dans lequel on obtient la moyenne de deux paramètres chevauchés d'enveloppe spectrale avec des valeurs pondérales qui varient linéairement par rapport au temps.
Toutefois, étant donné que ces procédés sont fastidieux, le procédé ci-après peut être utilisé, dans la mesure où il est plus commode et ne dégrade pas significativement la qualité du son.
C'est-à-dire que, pour les paramètres d'enveloppe spectrale dans l'intervalle blanc, la valeur des paramètres d'enveloppe spectrale au point final de l'intervalle de la période précédente peut être utilisée de manière répétitive comme en figure 8b, ou bien la valeur des paramètres d'enveloppe spectrale au point de départ de l'intervalle de période suivant peut être utilisée de manière répétitive, la valeur de la moyenne arithmétique des deux paramètres d'enveloppe spectrale peut être utilisée ou bien les valeurs des paramètres d'enveloppe spectrale aux points de fin et de départ des intervalles de période précédent et suivant peuvent être utilisées respectivement avant et après le centre de l'intervalle blanc considéré comme une limite.
Pour les paramètres d'enveloppe spectrale dans l'intervalle de chevauchement, simplement n'importe quelle partie correspondant à l'impulsion de pas sélectionnée peut
<Desc/Clms Page number 58>
être sélectionnée. En figure 3S, par exemple, étant donné que le signal d'impulsion de pas pour l'intervalle de période précédent a été sélectionné comme signal synthétique d'excitation dans l'intervalle de chevauchement"fb", les valeurs de paramètres pour l'intervalle de période précédent ont été sélectionnées de la même manière comme paramètres synthétiques d'enveloppe spectrale. Dans l'intervalle blanc"gh"de la figure 8b et de la figure 3S, les valeurs des paramètres d'enveloppe spectrale à la fin de l'intervalle de période précédent ont été utilisées de manière répétitive.
Bien entendu, dans le cas de la figure 3S dans laquelle les paramètres d'enveloppe spectrale sont une fonction continue par rapport au temps, le procédé dans lequel la dernière valeur de l'intervalle de période précédent ou la première valeur de l'intervalle de période suivant est utilisée de manière répétitive au cours de l'intervalle blanc, et le procédé dans lequel les deux valeurs varient linéairement pendant l'intervalle blanc, donnent le même résultat.
Une fois que tous les signaux synthétiques d'excitation et que tous les paramètres synthétiques d'enveloppe spectrale pour un segment ont été assemblés, le sous-bloc d'assemblage en forme d'ondes lisse normalement les deux extrémités des paramètres synthétiques assemblés d'enveloppe spectrale en utilisant le procédé d'interpolation, si bien que la variation quant aux paramètres d'enveloppe spectrale se fait en souplesse entre des segments de discours adjacents. Si le signal synthétique d'excitation et les paramètres synthétiques d'enveloppe spectrale assemblés comme ci-dessus sont entrés comme signal d'excitation et comme coefficients de filtre, respectivement, dans le filtre de synthèse dans le sous-bloc d'assemblage en forme d'ondes, le son synthétique désiré est finalement émis par le filtre de synthèse.
Les signaux synthétiques
<Desc/Clms Page number 59>
d'excitation obtenus lorsque les signaux d'impulsions de pas des figures 3H, 3K et 3N sont réinsérés de telle sorte que le modèle de pas soit le même que celui de la figure 3P, sont représentés en figure 3R, et les paramètres synthétiques d'enveloppe spectrale obtenus en faisant correspondre les paramètres d'enveloppe spectrale pour une période des figures 3G, 3J et 3M aux signaux d'impulsions de pas dans le signal synthétique d'excitation de la figure 3R, sont représentés en figure 3S.
Le fait de constituer un filtre de synthèse à variation temporelle possédant, comme coefficients de filtre, les coefficients de réflexion qui varient comme représenté en figure 3S, et le fait d'entrer le signal synthétique d'excitation, comme représenté en figure 3R, dans le filtre de synthèse à variation temporelle, donnent le son synthétisé de la figure 3T qui est pratiquement le même que le son synthétisé de la figure 3P.
En comparant maintenant le procédé de mémorisation de codes en forme d'ondes et le procédé de mémorisation de codes de source, les deux procédés peuvent être considérés comme étant identiques en principe. Toutefois, lors de la concaténation de segments de discours manifestant une mauvaise aptitude à la connexion mutuelle, il existe une différence en ce sens qu'il est possible de synthétiser le son relié en souplesse en lissant les paramètres d'enveloppe spectrale par l'utilisation du procédé d'interpolation dans le cas du procédé de mémorisation de codes de source, cela étant impossible dans le cas du procédé de mémorisation de codes en forme d'ondes.
En outre, le procédé de mémorisation de codes de source requiert une mémoire inférieure à celle du procédé de mémorisation de codes en forme d'ondes, étant donné que la forme d'ondes de longueur de seulement une période par ondelette doit être mise en mémoire dans le procédé de mémorisation de codes de source, et il présente l'avantage de pouvoir intégrer
<Desc/Clms Page number 60>
aisément la fonction du bloc de synthèse de sons sonores et la fonction du bloc de synthèse de sons sourds décrits ci-dessus.
Lorsqu'on utilise le procédé d'analyse par homomorphisme, le cepstrum ou la réponse impulsionnelle peut être utilisé comme jeu de paramètres d'enveloppe spectrale dans le procédé de mémorisation de codes en forme d'ondes, tandis qu'il est pratiquement impossible, dans le procédé de mémorisation de codes de source, d'utiliser le cepstrum nécessitant le calcul à base de blocs, étant donné que la durée du bloc de synthèse possédant les valeurs des paramètres synthétiques constants d'enveloppe spectrale varie de bloc à bloc, comme indiqué dans les paramètres synthétiques d'enveloppe spectrale de la figure 8B représentés par un trait plein. Le procédé de mémorisation de codes de source selon la présente invention utilise l'impulsion de pas d'une période comme impulsion d'excitation.
Toutefois, il est différent du procédé d'excitation par impulsions de pas régulières de la technique antérieure, qui tente de substituer l'impulsion par une impulsion de pas d'échantillonnage, en ce que, dans la présente invention, l'impulsion de pas de chaque période et les paramètres d'enveloppe spectrale de chaque période correspondant à l'impulsion de pas sont joints pour procurer l'ondelette de chaque période.
Comme l'illustre la description précédente, la présente invention est appropriée pour le codage et le décodage des segments de discours du système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole. En outre, étant donné que la présente invention concerne un procédé dans lequel la durée totale et partielle, ainsi que le modèle de pas des unités phonétiques arbitraires telles que les phonèmes, les demi-syllabes et les sous-segments, etc.
constituant la parole, peuvent être modifiés librement et de manière indépendante, il peut être
<Desc/Clms Page number 61>
utilisé dans un système de transformation de vitesse de la parole ou dans un système de modification de l'échelle temporelle qui change la vitesse vocale à un rapport constant pour qu'elle soit plus rapide ou plus lente que la vitesse originale sans modifier le modèle d'intonation de la parole et il peut également être utilisé dans le système de synthèse de la voix chantante ou dans un système de codage de parole à très petite vitesse, tel qu'un vocodeur phonétique ou un vocodeur segmentaire qui transfère la parole en modifiant la durée et le pas de segments de discours faisant office de gabarits mémorisés à l'avance.
Un autre domaine d'application de la présente invention concerne le système de synthèse de sons musicaux, tel que l'instrument musical électronique du procédé d'échan- tillonnage. Etant donné que pratiquement tous les sons au sein de l'étendue du son des instruments de musique électroniques sont codés en forme d'ondes numériques, mis en mémoire et reproduits en cas de nécessité à partir du clavier, etc., dans la technique antérieure, pour les procédés d'échantillonnage destinés à des instruments de musique électronique, un inconvénient résidait dans le fait qu'une quantité importante de mémoire était requise pour mémoriser le son musical.
Toutefois, si la décomposition en forme d'ondes périodiques et si le procédé de réinsertion d'ondelettes de la présente invention est utilisé, la quantité requise de mémoire peut être significativement réduite, étant donné que les sons de pas divers peuvent être synthétisés en prélevant les sons de seulement quelques espèces de pas. Le son musical consiste principalement en 3 parties, c'est-à-dire une attaque, un soutien et un évanouissement. Etant donné que l'enveloppe spectrale varie progressivement non seulement entre les 3 parties, mais également au sein du soutien, le timbre varie également de manière correspondante.
En conséquence, si les segments de
<Desc/Clms Page number 62>
sons musicaux sont codés en fonction du procédé de décomposition en forme d'ondes périodiques décrit ci-dessus et mis en mémoire en prenant les repères temporels appropriés auxquels le spectre varie essentiellement, comme repères temporels limites, et si le son est synthétisé en fonction du procédé décrit ci-dessus de réinsertion d'ondelettes basé sur la variation temporelle, en cas de nécessité à partir du clavier, etc., alors le son musical ayant un pas désiré arbitraire peut être synthétisé.
Toutefois, dans des cas où le signal de son musical est déconvolué en fonction du procédé d'analyse prédictive linéaire, étant donné qu'il existe une tendance d'obtenir une enveloppe spectrale imprécise et une impulsion de pas qui n'est pas nette, il est recommandé de réduire le nombre de paramètres d'enveloppe spectrale utilisés pour l'analyse et de différencier le signal avant l'analyse.
Bien que la présente invention ait été décrite dans sa forme préférée avec un certain degré de particularité, l'homme de métier spécialisé dans la technique comprendra que la présente publication de la forme d'exécution recommandée a été réalisée à titre purement exemplatif et que bon nombre de changements quant aux détails de la construction, de la combinaison et de l'arrangement des parties peuvent être envisagés sans se départir de l'esprit et de la portée de l'invention.