FR2683367A1 - Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole. - Google Patents

Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole. Download PDF

Info

Publication number
FR2683367A1
FR2683367A1 FR9213415A FR9213415A FR2683367A1 FR 2683367 A1 FR2683367 A1 FR 2683367A1 FR 9213415 A FR9213415 A FR 9213415A FR 9213415 A FR9213415 A FR 9213415A FR 2683367 A1 FR2683367 A1 FR 2683367A1
Authority
FR
France
Prior art keywords
speech
time
spectral envelope
pitch
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9213415A
Other languages
English (en)
Other versions
FR2683367B1 (fr
Inventor
Lee Chong Rak
Park Yong Kyu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KT Corp
Original Assignee
KT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KT Corp filed Critical KT Corp
Publication of FR2683367A1 publication Critical patent/FR2683367A1/fr
Application granted granted Critical
Publication of FR2683367B1 publication Critical patent/FR2683367B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

La présente invention se réfère à une technologie concernant un système de synthèse de parole, et utilise un procédé de décomposition en formes d'onde périodiques et de repositionnement qui est un procédé de codage dans lequel des signaux d'un intervalle de son voisé dans la parole originale sont décomposés en vaguelettes dont chacune correspond à une forme d'onde de parole pour une période créée par chaque impulsion glottale et les vaguelettes sont respectivement codées et mémorisées, technologie au moyen de laquelle les vaguelettes les plus proches des positions où doivent être positionnées les vaguelettes sont choisies parmi des vaguelettes mémorisées, puis décodées et superposées l'une à l'autre de sorte que la qualité du son d'origine peut être conservée et que la durée et la fréquence de hauteur du segment de parole peuvent être commandées à volonté.

Description

i L'invention se réfère à un système de synthèse de parole et à un procédé
pour synthétiser la parole, et plus particulièrement à un procédé de codage de segments de parole et de commande de hauteur qui améliore de manière significative la qualité de la voix synthétisée. Le principe de la présente invention peut s'appliquer directement non seulement à la synthèse de la parole, mais aussi à la synthèse d'autres sons, tels que les sons d'instruments de musique ou le chant, dont chacun a une propriété semblable à celle de la parole, ou bien à un codage de parole à débit très faible ou à une conversion de débit de parole La présente invention sera décrite ci-dessous en se concentrant sur la synthèse
de la parole.
Il existe des procédés de synthèse de parole pour mettre en oeuvre un système de synthèse de parole à partir de texte qui peuvent synthétiser des vocabulaires illimités en convertissant du texte, c'est-à-dire des chaînes de caractères, en parole Cependant, un procédé facile à mettre en oeuvre et utilisé plus généralement est le procédé de synthèse par segments, aussi appelé procédé de synthèse par concaténation, dans lequel la parole humaine est échantillonnée et analysée en unités phonétiques, telles que les demi-syllabes ou diphones, afin d'obtenir des segments courts de parole qui sont alors codés et stockés en mémoire, et quand le texte est
introduit, il est converti en transcriptions phonétiques.
Des segments de parole correspondant aux transcriptions phonétiques sont alors recherchés dans la mémoire de manière séquentielle et décodés afin de synthétiser la
parole correspondant au texte introduit.
Dans ce type de procédé de synthèse de la parole par segments, l'un des éléments les plus importants qui conditionne la qualité de la parole synthétisée est le procédé de codage des segments de parole Dans le procédé antérieur de synthèse de parole par segments du système de synthèse de parole, un procédé de codage vocal d'une qualité de parole médiocre est surtout utilisé comme procédé de codage de parole pour stocker des segments de parole Cependant, c'est l'une des raisons les plus importantes qui détériorent la qualité de la parole
synthétisée Une brève description en se référant au
procédé antérieur de codage de segments de parole est
donnée ci-après.
Les procédés de codage de parole peuvent être
classés sommairement en un procédé de codage de forme
d'onde d'une bonne qualité de parole et en un procédé de "vocodage" de qualité de parole médiocre Etant donné que le procédé de codage de forme d'onde se propose de transférer la forme d'onde telle qu'elle est, il est très difficile de changer la fréquence et la durée de hauteur, de sorte qu'il est impossible d'ajuster l'intonation et le débit de parole quand on réalise la synthèse de parole Il est aussi impossible de lier entre eux les segments de parole de *manière harmonieuse, de sorte que le procédé de codage de forme d'onde n'est fondamentalement pas adapté au codage de segments de parole. Au contraire, quand le procédé de vocodage (aussi
appelé procédé d'analyse-synthèse) est utilisé, la struc-
ture de hauteur et la durée du segment de parole peuvent être changées à volonté De plus, étant donné que les segments de parole peuvent aussi être liés graduellement en interpolant les paramètres de l'enveloppe spectrale de sorte que le procédé de vocodage convient aux moyens de codage de synthèse de parole à partir de texte, des procédés de vocodage, tels que le codage par prédiction linéaire ou le vocodage de formants, sont adoptés dans
la plupart des systèmes actuels de synthèse de parole.
Cependant, étant donné que la qualité de la parole décodée est médiocre quand la parole est codée en utilisant le procédé de vocodage, la parole synthétisée obtenue en décodant les segments de parole stockés et en les concaténant ne peut pas avoir une qualité de parole
supérieure à celle offerte par le procédé de vocodage.
Les tentatives faites jusqu'ici pour améliorer la qualité de parole offerte par le procédé de vocodage ont remplacé le train d'impulsions utilisé par un signal
d'excitation qui a une forme d'onde moins artificielle.
Une telle tentative consistait à utiliser une forme d'onde ayant des sommets moins élevés que celle de l'impulsion, par exemple une forme d'onde triangulaire, ou semi-circulaire, ou une forme d'onde similaire à une impulsion glottale Une autre tentative consistait à sélectionner un échantillon d'impulsion de hauteur d'une ou plusieurs périodes de hauteur d'un signal résiduel obtenu par filtrage inverse, et à utiliser, au lieu de l'impulsion, une impulsion échantillon pour toute la période de temps ou pour une portion substantielle de cette période Cependant, de telles tentatives pour remplacer l'impulsion par une impulsion d'excitation ou d'autres formes d'onde n'ont pas amélioré la qualité de parole ou éventuellement ne l'ont améliorée que légèrement, et n'ont jamais permis d'obtenir une parole synthétisée ayant une qualité proche de celle du langage
naturel.
La présente invention a pour but de synthétiser une parole de haute qualité ayant un naturel et une intelligibilité du même degré que ceux de la parole humaine, en utilisant un nouveau procédé de codage de segments de parole permettant une bonne qualité et une commande de la hauteur Le procédé de la présente invention combine les mérites du procédé de codage de formes d'onde, qui assure une bonne qualité de parole mais sans la possibilité de commander la hauteur, et du procédé de vocodage qui fournit une commande de hauteur
mais n'a qu'une qualité de parole médiocre.
La présente invention utilise un procédé de décomposition en formes d'onde périodiques qui est un procédé de codage qui décompose un signal dans un secteur de son voisé de la parole originale en vaguelettes équivalant à des formes d'onde de parole d'une seule période émises par des impulsions glottales, afin de coder et de stocker le signal décomposé, et un procédé de repositionnement à base de distorsion dans le temps qui est un procédé de synthèse de forme d'onde capable d'ajustement arbitraire de la durée et de la hauteur de fréquence du segment de parole, tout en conservant la qualité de la parole originale, en sélectionnant les vaguelettes les plus proches des positions o les vaguelettes doivent être stockées parmi des vaguelettes stockées, en décodant ensuite les vaguelettes sélectionnées et en les superposant Pour les buts de cette invention, les sons musicaux sont traités comme des
sons voisés.
Les objectifs précédents doivent être considérés comme présentant seulement quelques unes des caractéristiques et des applications les plus pertinentes de l'invention Beaucoup d'autres résultats avantageux peuvent être obtenus en appliquant d'une manière différente l'invention décrite ici, ou en modifiant l'invention tout en restant dans le domaine délimité par la présente divulgation En conséquence, on peut obtenir d'autre objectifs et une compréhension plus complète de l'invention en se référant à la fois à l'abrégé de
l'invention et à la description détaillée ci-dessous qui
décrit le mode de réalisation préférentiel, en plus du
domaine de l'invention défini par les revendications
considérées en se référant aux dessins joints.
Des procédés de codage de segments de parole et de commande de hauteur pour des systèmes de synthèse de parole de la présente invention sont définis par les
revendications avec des modes de réalisation spécifiques
représentés dans les dessins joints Dans le but de résumer l'invention, l'invention se réfère à un procédé capable de synthétiser la parole qui se rapproche de la qualité de la parole naturelle en ajustant sa durée et sa hauteur de fréquence au moyen de codage en forme d'onde de vaguelettes de chaque période, en stockant ces vaguelettes en mémoire, et, au moment de la synthèse, en les décodant et en les positionnant à des instants de temps appropriés afin qu'elles aient la structure de hauteur désirée, et en les superposant ensuite pour produire de la parole naturelle, du chant, de la musique
ou des sons similaires.
La présente invention comprend un procédé de codage de segments de parole pour utilisation avec un système de synthèse de parole, dans lequel le procédé comprend la formation de vaguelettes au moyen de 1 'obtention de paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse Ceci est réalisé en analysant un signal numérique périodique ou quasi périodique, tel que de la parole voisée, avec la technique d'estimation de spectre Un signal original est d'abord décomposé en une réponse d'impulsion représentée par les paramètres d'enveloppe spectrale, et par un signal de train d'impulsions de hauteur périodique ou quasi périodique ayant une enveloppe spectrale presque plate Un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en segmentant le train d'impulsions de hauteur période par période, de sorte qu'un impulsion de hauteur est contenue dans chaque période, et une réponse d'impulsion correspondant à un ensemble de paramètres d'enveloppe spectrale dans le même intervalle de temps que le signal d'excitation sont combinés de manière à former une
vaguelette pour cette période.
Les vaguelettes, plutôt que d'être formées en codant des formes d'onde et d'être stockées en mémoire à l'avance, peuvent être formées en appariant des informations obtenues en codant en forme d' onde un signal d'impulsion de hauteur de chaque intervalle de période obtenu par segmentation par des informations obtenues en codant un ensemble de paramètres d'estimation d'enveloppe spectrale ayant le même intervalle de temps que les informations ci-dessus, ou avec une réponse d'impulsion correspondant aux paramètres, et en stockant en mémoire les informations de vaguelette Il y a deux procédés pour produire une parole synthétique en utilisant les informations de vaguelette stockées en mémoire Le premier procédé consiste à constituer chaque vaguelette en combinant un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en décodant les informations, avec une impulsion de réponse correspondant aux paramètres d'enveloppe spectrale décodés dans le même intervalle de temps que le signal d'excitation, et ensuite à assigner aux vaguelettes les instants de temps appropriés de sorte qu'elles aient une structure de hauteur et une structure de durée souhaitées, à les positionner aux instants de temps et
à les superposer.
Le second procédé consiste à constituer un signal d'excitation de synthèse en assignant les signaux d'impulsion de hauteur obtenus en décodant les informations de vaguelette à des instants de temps appropriés de sorte qu'ils aient une structure de hauteur et une structure de durée souhaitées et en les positionnant aux instants de temps, et à constituer un ensemble de paramètres d'enveloppe spectrale de synthèse soit en comprimant ou en étendant dans le temps l'ensemble de fonctions du temps des paramètres sur une base segment par segment, en fonction du fait que la durée d'un sous-segment dans un segment de vitesse à synthétiser est plus courte ou plus longue que celle d'un sous-segment correspondant dans le segment original de parole, respectivement, soit en positionnant l'ensemble de fonctions de temps des paramètres d'une période en synchronisme avec le signal associé d'impulsion de hauteur d'une période positionné de manière à former le signal d'excitation de synthèse, et à combiner le signal d'excitation de synthèse avec une réponse d'impulsion correspondant à l'ensemble de paramètres d'enveloppe spectrale de synthèse en utilisant un filtre variant dans le temps ou en utilisant une technique de combinaison
rapide basée sur la transformée rapide de Fourier (FFT).
Dans le dernier procédé, un intervalle vide se produit quand une période de hauteur souhaitée est plus longue que la période de hauteur originale, et un intervalle de recouvrement se produit quand la période de hauteur souhaitée est plus courte que la période de hauteur originale. Dans l'intervalle de recouvrement, le signal d'excitation de synthèse est obtenu en additionnant l'un à l'autre les signaux d'impulsion de hauteur qui se chevauchent ou en sélectionnant l'un d'entre eux, et le paramètre d'enveloppe spectrale est obtenu en sélectionnant soit l'un des paramètres d'enveloppe spectrale qui se chevauchent, soit en utilisant une
valeur moyenne des deux paramètres qui se chevauchent.
Dans l'intervalle vide, on obtient le signal d'excitation de synthèse en le remplissant avec des échantillons de valeur zéro, et le paramètre d'enveloppe spectrale de synthèse est obtenu en répétant les valeurs des paramètres d'enveloppe spectrale aux points de début et de fin des périodes précédente et suivante situées avant et après le centre de l'intervalle vide, ou en répétant une des deux valeurs ou une moyenne des deux valeurs, ou en le remplissant avec des valeurs et en reliant de manière lissée les deux valeurs. La présente invention comprend en outre un procédé de commande de hauteur d'un système de synthèse de parole capable de commander la durée et la hauteur d'un segment de parole au moyen d'un procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps qui permet de synthétiser la parole avec presque la même qualité que celle de la parole naturelle, en codant des instants de temps limites importants tels que le point de départ, le point final et les points d'état stationnaire dans un segment de parole et des positions d'impulsion de hauteur de chaque vaguelette ou chaque signal d'impulsion de hauteur, et en les stockant simultanément en mémoire à 1 'instant de stockage de chaque segment de parole, et, au moment de la synthèse, en obtenant une fonction de distorsion dans le temps grâce à une comparaison des instants de temps limites souhaités et des instants de temps limites originaux stockés correspondant aux instants de temps limites souhaités, en trouvant les instants de temps originaux correspondant à chaque position souhaitée d'impulsion de hauteur grâce à l'utilisation de la fonction de distorsion dans le temps, en sélectionnant des vaguelettes ayant les positions d'impulsion de hauteur les plus proches des instants de temps originaux et en les plaçant à des positions souhaitées d'impulsion
de hauteur, et en superposant les vaguelettes.
Le procédé de commande de hauteur peut en outre
comprendre la production de parole synthétique en sélec-
tionnant, au lieu des vaguelettes, des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant aux signaux d'impulsion de hauteur, en les positionnant, et en combinant les signaux d'impulsion de hauteur ainsi positionnés et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale afin de produire des vaguelettes, ou bien en combinant un signal d'excitation de synthèse obtenu en superposant les signaux d'impulsion de hauteur positionnés et une réponse d' impulsion variant dans le temps correspondant à des paramètres d' enveloppe spectrale de synthèse obtenus en concaténant les
paramètres d'enveloppe spectrale positionnés.
Un dispositif de synthèse de parole voisée d'un système de synthèse de parole est décrit ici et comprend un sous-ensemble de décodage 9 produisant des informations de vaguelette au moyen du décodage de codes de vaguelette à partir d'un bloc de stockage de segments de parole 5 Un sous-ensemble de commande de durée 10 produit des données de distorsion dans le temps à partir
de l'entrée de données de durée provenant d'un sous-
système de génération de prosodie 2, et des instants de temps limites compris dans des informations d'en-tête à partir du bloc de stockage de segments de parole 5 Un sous-ensemble de commande de hauteur 11 produit des informations de position d'impulsion de hauteur de sorte qu'il a une structure d'intonation conforme à celle indiquée par des données de structure d'intonation à partir de l'entrée des informations d'en-tête provenant du bloc de stockage de segments de parole 5, des données de structure d'intonation provenant du sous-système de génération de prosodie et des informations de distorsion dans le temps provenant du sous-ensemble de commande de durée 10 Un sous-ensemble de commande d'énergie 12 produit des informations de gain, de sorte que la parole synthétisée possède la structure d'accentuation telle qu'elle est indiquée par des données de structure
d' accentuation provenant de 1 'entrée de données de struc-
ture d'accentuation provenant du sous-système de génération de prosodie 2, par les informations de distorsion dans le temps provenant du sousensemble de commande de durée 10, et par des informations de position d' impulsion de hauteur provenant du sous-ensemble de commande de hauteur 11 Un sous-ensemble d'assemblage de formes d'onde 13 produit un signal de parole voisée à partir de l'entrée d'informations de vaguelettes provenant du sous-ensemble de décodage 9, des informations de distorsion dans le temps provenant du sous-ensemble de commande de durée 10, des informations
de position d'impulsion de hauteur provenant du sous-
ensemble de commande de hauteur 11 et des informations de gain provenant du sous-ensemble de commande d'énergie 12. Ainsi, selon la présente invention, du texte est introduit dans le sous-système de pré- traitement phonétique 1, dans lequel il est converti en symboles de transcription phonétique et en données d'analyse syntaxique Les données d'analyse syntaxique sont émises vers un sous-système de génération de prosodie 2 Le sous-système de génération de prosodie 2 envoie des informations de prosodie à un sous-système de concaténation de segments de parole 3 La sortie de
symboles de transcription phonétique provenant du sous-
système de pré-traitement est aussi envoyée au sous-
système de concaténation de segments de parole 3 Les symboles de transcription phonétique sont alors introduits dans le bloc de sélection de segments de parole 4 et les données de prosodie correspondantes sont introduites dans un bloc de synthèse de sons voisés 6 et dans un bloc de synthèse de sons non voisés 7 Dans le bloc de sélection de segments de parole 4, chaque symbole de transcription phonétique introduit est associé à une 1 i unité correspondante de synthèse de segment de parole, et une adresse de mémoire de l'unité de synthèse associée correspondant à chaque symbole de transcription phonétique est recherchée dans une table de segments de parole dans le bloc de stockage de segments de parole 5. L'adresse de l'unité de synthèse appariée est alors envoyée au bloc de stockage de segments de parole 5 ou bien le segment de parole correspondant, sous forme de vaguelette codée, est sélectionné pour chacune des adresses des unités de synthèse associées Le segment de parole sélectionné, sous forme de vaguelette codée, est envoyé au bloc de synthèse de sons voisés 6 pour le son voisé et au bloc de synthèse de sons non voisés 7 pour le son non voisé Le bloc de synthèse de sons voisés 6, qui utilise le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps pour synthétiser un son de parole, et le bloc de synthèse de sons non voisés 7 émettent en sortie des signaux numériques de synthèse de parole vers le convertisseur numérique-analogique 8 pour convertir les signaux numériques d'entrée en signaux
analogiques qui sont les sons de parole synthétisée.
Pour utiliser la présente invention, on enregistre d'abord de la parole et/ou de la musique sur une bande magnétique Le son résultant est alors converti de signaux analogiques en signaux numériques en soumettant les signaux analogiques à un filtre passe-bas et en envoyant les signaux filtrés à un convertisseur analogique- numérique Les signaux de parole numérisés résultants sont alors découpés en un certain nombre de segments de parole ayant des sons qui correspondent à des unités de synthèse, tels que des phonèmes, des diphones, des demi-syllabes et des sons similaires, en utilisant des outils connus de traitement de parole Chaque segment de parole résultant est alors différencié en segments de parole voisés et non voisés, en utilisant des outils connus de détection de sons voisés et non voisés et de traitement de parole Les segments de parole non voisés sont codés par des procédé connus de vocodage qui utilisent un bruit blanc aléatoire comme source de parole non voisée Les procédés de vocodage comprennent le codage par prédiction linéaire, les procédés de vocodage homomorphiques et par formants et des procédés similaires. Les segments de parole voisés sont utilisés pour
former des vaguelettes SJ(n) selon le procédé décrit ci-
dessous à la fig 4 Les vaguelettes SJ(n) sont alors codées en utilisant un procédé de codage de formes d'onde approprié Des procédés connus de codage de formes d'onde comprennent la modulation par impulsions codées (MIC), la modulation par impulsions et codage différentiel adaptatif (ADPCM), le codage par prédiction adaptative (APC) et des procédés similaires Les segments codés de parole voisée résultants sont stockés dans le bloc de stockage de segments de parole 5 comme représenté aux fig 6 A et 6 B Les segments codés de parole non voisée sont aussi stockés dans le bloc de stockage de segments
de parole 5.
Les caractéristiques les plus pertinentes et les plus importantes de la présente invention on été mises
en évidence ci-dessus afin que la description détaillée
de l'invention qui va suivre soit mieux comprise et que la présente contribution à l'évolution de la technique soit appréciée complètement Des caractéristiques supplémentaires de l'invention décrite ci-après forment
l'objet des revendications de l'invention Les personnes
expertes dans la technique peuvent se rendre compte que la conception et le mode de réalisation spécifique décrits ici peuvent être utilisés facilement comme base pour modifier ou concevoir d'autres structures afin de
réaliser les mêmes objectifs de la présente invention.
En outre, les personnes expertes dans la technique peuvent se rendre compte que de telles constructions équivalentes ne s'éloignent pas de l'esprit ni du domaine de l'invention tels qu'ils sont définis par les
revendications.
Pour une compréhension plus complète de la nature et des buts de l'invention, on devra se reporter à la
description détaillée qui suit, donnée en se référant aux
dessins joints, dans lesquels: la fig 1 illustre le système de synthèse de parole à partir de texte du procédé de synthèse par segments de parole; la fig 2 illustre le sous-système de concaténation de segments de parole; les fig 3 A à 3 T illustrent des formes d'onde afin d'expliquer le principe du procédé de décomposition de formes d'onde périodiques et le procédé de repositionnement de vaguelettes selon la présente invention; la fig 4 représente un diagramme synoptique pour expliquer le procédé de décomposition en formes d'onde périodiques; les fig 5 A à 5 E représentent des diagrammes synoptiques pour expliquer la mise en oeuvre du procédé de déconvolution aveugle; les fig 6 A et 6 B représentent des formats de code pour les informations de segments de parole voisés stockées dans le bloc de stockage de segments de parole la fig 7 représente le bloc de synthèse de parole voisée selon la présente invention; et les fig 8 A et 8 B représentent des graphiques pour expliquer le procédé de commande de durée et de
hauteur selon la présente invention.
Dans l'ensemble des diverses illustrations des dessins, les numéros de référence semblables désignent
des éléments similaires.
La structure du système de synthèse de parole à partir de texte du procédé de synthèse de segments de parole des réalisations antérieures consiste en trois sous-systèmes: A Un sous-système de pré- traitement phonétique ( 1); B un sous-système de génération de prosodie ( 2) ;et C un sous-système de concaténation de segments de parole ( 3) comme représenté à la fig 1 Quand le texte est introduit à partir d'un clavier, d'un ordinateur ou d'un autre système dans le système de synthèse de parole à partir de texte, le sous-système de pré-traitement phonétique ( 1) analyse la syntaxe du texte et convertit alors le texte en une chaîne de symboles de transcription phonétique en lui appliquant des règles d'enregistrement phonétique Le sous-système de génération de prosodie ( 2) produit des données de structure d'intonation et des données de structure d'accentuation en utilisant des données d'analyse syntaxique, de sorte qu'une intonation et un accent appropriés peuvent être appliqués à la chaîne de symboles de transcription phonétique, et envoie alors les données au sous-ensemble de concaténation de segments de parole ( 3) Le sous-système de génération de prosodie ( 2) fournit aussi les données relatives à la durée de chaque phonème au sous-système de concaténation de segments de
parole ( 3).
Les trois données de prosodie ci-dessus, c'est-à-
dire les données de structure d'intonation, les données de structure d' accentuation et les données concernant la durée de chaque phonème sont, en général, envoyées au sous-système de concaténation de segments de parole ( 3) en même temps que la chaîne de symboles de transcription phonétique créée par le sous-système de pré-traitement phonétique ( 1), bien qu'elles puissent être transférées au sous-système de concaténation de segments de parole ( 3) indépendamment de la chaîne de symboles de
transcription phonétique.
Le sous-système de concaténation de segments de parole ( 3) produit une parole continue en recherchant de manière séquentielle des segments de parole appropriés qui sont codés et stockés dans sa mémoire en fonction de la chaîne de symboles de transcription phonétique (non
représentée) et en les décodant A cet instant, le sous-
système de concaténation de segments de parole ( 3) peut produire une parole synthétique ayant l'intonation, l'accentuation et le débit de parole tels que voulus par le sous-système de génération de prosodie ( 2) en commandant l'énergie (intensité), la durée et la période de hauteur de chaque segment de parole en fonction des
informations de prosodie.
La présente invention améliore de façon remarquable la qualité de parole par comparaison avec la parole synthétisée des réalisations antérieures, grâce à l'amélioration du procédé de codage pour stocker les segments de parole dans le sous-système de concaténation
de segments de parole ( 3) Une description concernant le
fonctionnement du sous-système de concaténation de
segments de parole ( 3) suit, en se référant à la fig 2.
Quand la chaîne de symboles de transcription phonétique formée par le sous-système de pré-traitement phonétique ( 1) est introduite dans le bloc de sélection de segments de parole ( 4), le bloc de sélection de segments de parole ( 4) sélectionne de manière séquentielle les unités de synthèse, telles que des diphones et des demi-syllabes, en explorant en permanencela chaîne entrante de symboles de transcription phonétique, et trouve dans la mémoire correspondante, ainsi que le montre le tableau 1, les adresses des segments de parole correspondant aux unités de synthèse sélectionnées Le tableau 1 montre un exemple de table de segments de parole conservée dans le bloc de sélection de segments de parole ( 4) qui choisit des segments de parole à base de diphones Ceci entraîne la formation d'une adresse du segment de parole choisi qui est envoyée
au bloc de stockage de segments de parole ( 5).
Les segments de parole correspondant aux adresses du segment de parole sont codés selon le procédé de la présente invention qui sera décrit plus loin, et sont stockés aux adresses de la mémoire du bloc de stockage
de segments de parole ( 5).
Tableau 1
symbole de transcription adresse phonétique de segment de parole de mémoire (en hexadécimal) /ai/0000 /au/0021 /ab/OOA 3 /ad/OOFF Quand l'adresse du segment de parole sélectionné à partir du bloc de sélection de segments de parole ( 4) est introduite dans le bloc de stockage de segments de parole ( 5), le bloc de stockage de segments de parole ( 5) recherche les données du segment de parole correspondant dans la mémoire du bloc de stockage de segments de parole ( 5) et les envoie à un bloc de synthèse de sons voisés ( 6) si c'est un son voisé ou un son voisé fricatif, ou à un bloc de synthèse de sons non voisés ( 7) si c'est un son non voisé Chaque signal numérique de parole synthétisée du bloc de synthèse de sons voisés ( 6) et du bloc de synthèse de sons non voisés ( 6) est alors
converti en un signal analogique.
Ainsi, le signal numérique de parole synthétisée résultant émis par le bloc de synthèse de sons voisés ( 6) ou le bloc de synthèse de sons non voisés ( 7) est alors envoyé à un bloc de conversion numérique- analogique ( 8) consistant en un convertisseur numérique-analogique, un filtre analogique passe-bas et un amplificateur analogique, et est converti en un signal analogique afin d'obtenir
un son de parole synthétisée.
Quand le bloc de synthèse de sons voisés ( 6) et le bloc de synthèse de sons non voisés ( 7) concatènent les segments de parole, ils fournissent à la parole synthétisée la prosodie comme prévu par le sous-système de génération de prosodie ( 2) en ajustant de manière appropriée la durée, l'intensité et la fréquence de hauteur du segment de parole sur la base des informations de prosodie, c'est-à-dire les données de structure d'intonation, les données de structure
d'accentuation et les données de durée.
La préparation du segment de parole pour stockage dans le bloc de stockage de segments de parole ( 5) a lieu comme suit Une unité de synthèse est d'abord sélectionnée De telles unités de synthèse comprennent un phonème, un allophone, un diphone, une syllabe, une demi- syllabe, un ensemble CVC, VCV, CV, VC (ici, "C" représente un phonème de consonne et "V" un phonème de voyelle) ou des combinaisons de ces éléments Les unités de synthèse qui sont utilisées le
plus fréquemment sont les diphones et les demi-
syllabes. Le segment de parole correspondant à chaque élément d'un agrégat d'unités de synthèse est segmenté à partir des échantillons de parole qui sont réellement prononcés par un être humain En conséquence, le nombre d'éléments de l'agrégat d'unités de synthèse est le même que le nombre de segments de parole Par exemple, dans le cas o des demi-syllabes sont utilisées comme unités de synthèse en anglais, le nombre de demi-syllabes est d'environ 1000 et, en conséquence, le nombre de segments de parole est aussi d'environ 1000 En général, de tels segments de parole consistent en un intervalle de son
non voisé et un intervalle de son voisé.
Dans la présente invention, le segment de parole non voisé et le segment de parole voisé obtenus en segmentant le segment des réalisations antérieures en un intervalle de son non voisé et un intervalle de son voisé sont utilisés comme unité de synthèse de base La portion de synthèse de parole à son non voisé est réalisée selon les réalisations antérieures comme décrit ci-dessous La synthèse de parole à son voisé
est réalisée selon la présente invention.
Ainsi, les segments de parole non voisés sont décodés dans le bloc de synthèse de sons non voisés ( 7) représenté à la fig 2 Dans le cas de décodage du son non voisé, on a remarqué dans les réalisations antérieures que l'emploi d'un signal artificiel de bruit blanc aléatoire comme signal d'excitation pour un filtre de synthèse ne détériore ni ne diminue la qualité de la parole décodée C'est pourquoi, dans le codage et le décodage de segments de parole non voisés, le procédé de vocodage des réalisations antérieures peut être appliqué tel quel, et dans ce procédé le bruit blanc est utilisé comme signal d'excitation Par exemple, dans la synthèse de son non voisé des réalisations antérieures, le signal de bruit blanc peut être créé au moyen d'un algorithme de génération de nombres aléatoires, ou le signal de bruit blanc, créé d'avance et stocké en mémoire, peut être extrait de la mémoire lors de la synthèse, ou bien un signal résiduel, obtenu en filtrant l'intervalle de son non voisé de la parole réelle en utilisant un filtre inverse d'enveloppe spectrale et stocké en mémoire, peut être extrait de la mémoire lors de la synthèse S'il n'est pas nécessaire de modifier la durée du segment de parole non voisé, un procédé de codage extrêmement simple peut être utilisé, dans lequel la portion de son non voisé est codée selon un procédé de codage de forme d'onde tel que la modulation par impulsions codées (MIC) ou la modulation par impulsions et codage différentiel adaptatif (ADPCM), et est stockée Elle est ensuite
décodée afin d'être utilisée lors de la synthèse.
La présente invention se réfère à un procédé de codage et de synthèse des segments de parole voisés qui détermine la qualité de la parole synthétisée Une
description relative à un tel procédé et mettant
l'accent sur le bloc de stockage de segments de parole et le bloc de synthèse de sons voisés ( 6) est
représentée à la fig 2.
Les segments de parole voisés, parmi les segments de parole stockés dans la mémoire du bloc de stockage de segments de parole ( 5), sont décomposés en vaguelettes de composante périodique de hauteur en avance selon le procédé de décomposition en formes d'onde périodiques de la présente invention, et y sont stockés Le bloc de synthèse de sons voisés ( 6) synthétise une parole ayant les structures de hauteur et de durée souhaitées en sélectionnant et en combinant de manière appropriée les vaguelettes selon le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps Le principe de ces procédés est décrit ci-dessous en se référant aux dessins. La parole voisée S(n) est un signal périodique obtenu quand une onde périodique glottale produite dans les cordes vocales traverse le filtre de conduit acoustique vocal V(f) consistant en la cavité buccale, la cavité du pharynx et la cavité nasale Ici, on suppose que le filtre de conduit vocal V(f) comprend une caractéristique de fréquence due à l'effet des lèvres Un spectre S(f) de parole voisée est caractérisé par: 1 une structure fine variant rapidement par rapport à la fréquence "f"; et 2 une enveloppe spectrale variant lentement par rapport à cette fréquence, la première structure étant due à la périodicité du signal de parole voisé et la dernière reflétant le spectre d'une impulsion glottale et la caractéristique de fréquence du filtre
de conduit vocal.
Le spectre S(f) de la parole voisée revêt la même forme que celle obtenue quand la structure fine d'un train d'impulsions dû à des composantes harmoniques qui existent comme multiples entiers de la fréquence de hauteur Fo est multipliée par une fonction d'enveloppe spectrale H(f) C'est pourquoi la parole voisée S(n) peut être considérée comme un signal de sortie quand un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate et la même période que la parole voisée S(n) est introduit dans un filtre variant dans le temps ayant la même caractéristique de réponse en fréquence que la fonction d'enveloppe spectrale H(f) de la parole voisée S(n) Si l'on examine ceci en fonction du temps, la parole voisée S(n) est une combinaison d'une réponse d'impulsion h(n) du filtre H(f) et du signal périodique de train d'impulsions de hauteur e(n) Etant donné que H(f) correspond à la fonction d'enveloppe spectrale de la parole voisée S(n), le filtre variant dans le temps ayant H(f) comme caractéristique de réponse en fréquence sera appelé
filtre d'enveloppe spectrale ou filtre de synthèse.
A la fig 3 A, on a représenté un signal pour 4 périodes d'une forme d'onde glottale Couramment, les formes d'onde des impulsions glottales composant la forme d'onde glottale sont semblables les unes aux autres mais non complètement identiques, et aussi les intervalles de temps entre les impulsions glottales adjacentes sont semblables les uns aux autres mais non complètement égaux Comme décrit ci-dessus, la forme d'onde de parole voisée S(n) de la fig 3 C est créée quand la forme d'onde glottale g(n) représentée à la fig 3 A est filtrée par le filtre de conduit vocal V(f) La forme d'onde glottale g(n) est constituée des impulsions glottales gl(n), g 2 (n), g 3 (n) et g 4 (n) distinguées l'une de l'autre en termes de temps, et quand elles sont filtrées par le filtre de conduit vocal V(f), les vaguelettes sl(n), S 2 (n), S 3 (n) et s 4 (n) représentées à la fig 3 B sont créées La forme d'onde de parole voisée S(n) représentée à la fig 3 C
est créée en superposant de telles vaguelettes.
Un concept de base de la présente invention est que si l'on peut obtenir les vaguelettes qui composent un signal de parole voisé en décomposant ce signal de parole voisé, on peut synthétiser de la parole avec des structures d'accent et d'intonation arbitraires en modifiant l'intensité des vaguelettes
et les intervalles de temps qui les séparent.
Parce que la forme d'onde de parole voisée S(n) représentée à la fig 3 C a été créée en superposant les vaguelettes qui se chevauchent l'une l'autre dans le temps, il est difficile de récupérer les vaguelettes en partant de la forme d'onde de
parole S(n).
Afin que les vaguelettes de chaque période ne se chevauchent pas l'une l'autre dans le temps, la forme d'onde doit être une forme d'onde pointue dans laquelle l'énergie est concentrée autour d'un point dans le temps, comme représenté à la fig 3 F. Une forme d'onde pointue est une forme d'onde qui a une enveloppe spectrale presque plate dans le domaine de fréquence Quand une forme d'onde de parole voisée S(n) est donnée, un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate comme représenté à la fig 3 F peut être obtenu en sortie, en estimant l'enveloppe du spectre S(f) de la forme d'onde S(n) et en l'introduisant dans un filtre inverse d'enveloppe spectrale 1/H(f) ayant l'inverse de la fonction
d'enveloppe H(f) comme caractéristique de fréquence.
Les figures 4, SA et 5 B se réfèrent à cette étape.
Parce que les formes d'onde d'impulsion de hauteur de chaque période composant le signal périodique de train d'impulsions de hauteur e(n) comme représenté à la fig 3 F ne se chevauchent pas l'une l'autre dans le domaine du temps, elles peuvent être séparées Le principe du procédé de décomposition de formes d'onde périodiques est que, étant donné que les "signaux d'impulsion de hauteur pour une période" el(n), e 2 (n) ont un spectre sensiblement plat, s'ils sont réintroduits dans le filtre d'enveloppe spectrale H(f) de sorte que les signaux aient le spectre original, alors les vaguelettes Sl(n), 52 (n) etc telles que représenté à la fig 3 B, peuvent être obtenues. La fig 4 est un diagramme synoptique du procédé de décomposition de formes d'onde périodiques de la présente invention, dans lequel le segment de parole voisé est analysé en vaguelettes La forme d'onde de parole voisée S(n), qui est un signal numérique, est obtenue en limitant la bande du signal analogique de parole voisé ou le signal de son d'un instrument de musique au moyen d'un filtre passe-bas et en convertissant les signaux résultants dans une conversion analogique-numérique et en stockant les signaux sur un disque magnétique sous le format de code de la modulation par impulsions codées (MIC) en regroupant plusieurs bits à la fois, et elle est alors
extraite pour être traitée quand c'est nécessaire.
La première étape du processus de préparation de vaguelettes selon le procédé de décomposition de formes d'onde périodiques est une déconvolution aveugle dans laquelle la forme d'onde de parole voisée S(n) lsignal périodique S(n)l subit un traitement de déconvolution en une réponse d'impulsion h(n) qui est une fonction dans le temps de la fonction d'enveloppe spectrale H(f) du signal S(n), et un signal périodique de train d'impulsions de hauteur e(n) ayant une enveloppe spectrale plate et la même période que celle du signal S(n) Voir les fig 5 A et 5 B et les
descriptions qui s'y rapportent.
Telle qu'on l'a décrite, pour la déconvolution aveugle, la technique d'estimation de spectre au moyen de laquelle la fonction d'enveloppe spectrale H(f) est
estimée à partir du signal S(n) est essentielle.
Les techniques antérieures d'estimation de spectre peuvent être classées en 3 procédés: 1 un procédé d'analyse de blocs; 2 un procédé d'analyse synchrone de hauteur; et 3 un procédé d'analyse séquentielle en
fonction de la longueur d'un intervalle d'analyse.
Le procédé d'analyse de blocs est un procédé dans lequel le signal de parole est divisé en blocs de durée constante de l'ordre de 10 à 20 millisecondes, et ensuite l'analyse est effectuée par rapport au nombre constant d'échantillons existant dans chaque bloc, en obtenant un ensemble (couramment 10 à 16 paramètres) de paramètres d'enveloppe spectrale pour chaque bloc, et dans ce procédé un procédé d'analyse homomorphique et un procédé d'analyse de blocs par
prédiction linéaire sont typiques.
Le procédé d'analyse synchrone de hauteur fournit un ensemble de paramètres d'enveloppe spectrale pour chaque période en effectuant l'analyse sur chaque période de signal de parole qui a été obtenue en divisant le signal de parole par la période de hauteur prise comme période unité (comme représenté à la fig 3 C), et, dans ce procédé, le procédé d'analyse par synthèse et le procédé d'analyse synchrone de hauteur par prédiction linéaire sont typiques. Dans le procédé d'analyse séquentielle, un ensemble de paramètres d'enveloppe spectrale est obtenu pour chaque échantillon de parole (comme représenté à la fig 3 D), en estimant le spectre pour chaque échantillon de parole, et dans ce procédé le procédé des moindres carrés et le procédé récursif des moindres carrés, qui sont une sorte de procédé de
filtrage adaptatif, sont typiques.
La fig 3 D représente la variation dans le temps des 4 premiers coefficients parmi 14 coefficients de réflexion kl, k 2, k 14 qui constituent un ensemble de paramètres d'enveloppe spectrale obtenus par le procédé d'analyse
séquentielle (prière de se référer à la fig 5 A).
Comme on peut le voir d'après le dessin, les valeurs des paramètres d'enveloppe spectrale varient constamment en raison du mouvement continuel des organes d'articulation, ce qui signifie que la réponse d'impulsions h(n) du filtre d'enveloppe spectrale varie en permanence Ici, pour la commodité de l'explication, on suppose que h(n) ne varie pas pendant un intervalle d'une période, h(n) pendant la première, la deuxième et la troisième période est désigné respectivement par h(n)1, h(n)2 et h(n)3 comme montré à la fig 3 E. Un ensemble de paramètres d'enveloppe obtenu par diverses techniques d'estimation de spectre, telle qu'un cepstre CL(i) qui est un ensemble de paramètres obtenu par le procédé d'analyse homomorphique, et un ensemble de coefficients de prédiction (ai) ou un ensemble de coefficients de réflexion (ki), ou un ensemble de paires de spectres de ligne etc qui est obtenu en appliquant le procédé récursif des moindres carrés ou le procédé de prédiction linéaire, sont également considérés comme des fonctions H(f) ou h(n), parce qu'ils peuvent faire la caractéristique de fréquence H(f) ou la réponse
d'impulsions h(n) du filtre d'enveloppe spectrale.
C'est pourquoi la réponse en impulsions est aussi désignée ci-après comme l'ensemble de paramètres
d'enveloppe spectrale.
Les fig 5 A et 5 B montrent des procédés de
décomposition aveugle.
La fig 5 A montre un procédé de déconvolution aveugle réalisé en utilisant le procédé d'analyse par prédiction linéaire ou en utilisant le procédé récursif des moindres carrés qui sont tous deux des procédés des réalisations antérieures Etant donné la forme d'onde de parole voisée S(n), telle que représentée à la fig 3 C, les coefficients de prédiction (ai, a 2, a N) ou les coefficients de réflexion (kl, k 2, k N) qui sont les paramètres
d'enveloppe spectrale représentant les carac-
téristiques de fréquence H(f) ou la réponse d'impulsion h(n) du filtre d'enveloppe spectrale sont obtenus en utilisant le procédé de prédiction linéaire
ou le procédé récursif des moindres carrés.
Normalement, 10 à 16 coefficients de prédiction sont suffisants pour l'ordre de la prédiction "N" En utilisant les coefficients de prédiction (al, a 2, a N) et les coefficients de réflexion (kl, k 2, k N) comme paramètres d'enveloppe spectrale, un filtre inverse d'enveloppe spectrale (ou appelé simplement filtre inverse) ayant la caractéristique de fréquence de l/H(f) qui est l'inverse de la caractéristique de fréquence H(f) du filtre d'enveloppe spectrale, peut facilement être construit par une personne experte dans la technique Si la forme d'onde de parole voisée est introduite dans le filtre inverse d'enveloppe spectrale qui est aussi appelé filtre d'erreur de prédiction linéaire dans le procédé d'analyse par prédiction linéaire ou dans le procédé récursif des moindres carrés, alors le signal périodique de train d'impulsions de hauteur du type de la fig 3 F ayant l'enveloppe spectrale plate désigné comme signal d'erreur de prédiction ou signal résiduel peut être
obtenu à la sortie du filtre.
Les fig 5 B et 5 C montrent le procédé de déconvolution aveugle utilisant le procédé d'analyse homomorphique qui est un procédé d'analyse par blocs, dans lesquelles la fig 5 B montre le procédé mis en oeuvre par une décision de fréquence et la fig 5 C montre le procédé mis en oeuvre par le filtrage inver- se.
Une description de la fig 5 B suit Des
échantillons de parole pour l'analyse d'un bloc sont obtenus en multipliant le signal de parole voisé S(n) par une fonction à fenêtre trapézoïdale (tapered window) telle que la fonction fenêtre de Hamming ayant une durée d'environ 10 à 20 ms Une séquence de cepstre c(i) est alors obtenue en traitant les
échantillons de parole au moyen d'une série de procé-
dures de traitement homomorphique consistant en une transformée discrète de Fourier telle que représenté à
la fig 5 D Le cepstre est une fonction de la qué-
frence qui est une unité similaire au temps.
Un cepstre de quéfrence basse CL(i) situé autour d'une origine représentant l'enveloppe spectrale de la parole voisée S(n) et un cepstre de quéfrence élevée CH(i) représentant un signal périodique de train d'impulsions de hauteur e(n) sont capables d'être séparés l'un de l'autre dans un domaine de quéfrence Autrement dit, multiplier le cepstre c(i) par une fonction de fenêtre à basse quéfrence, respectivement par une fonction de fenêtre
à haute quéfrence, donne CL(i) et CH(i) respecti-
vement En les soumettant respectivement à une procédure de traitement homomorphique inverse telle que représenté à la fig 5 E, on obtient la réponse d'impulsions h(n) et le signal de train d'impulsions de hauteur e(n) Dans ce cas, étant donné que soumettre le CH(i) à la procédure de traitement homomorphique inverse ne donne pas directement le signal de train d'impulsions de hauteur e(n) mais donne le signal de train d'impulsions de hauteur d'un bloc, multiplié par une fonction fenêtre du temps w(n), e(n) peut être obtenu en multipliant de nouveau le signal de train d'impulsions de hauteur par une fonction fenêtre inverse du temps 1/w(n) correspondant à l'inverse de w(n). Le procédé de la fig 5 C est le même que celui de la fig 5 B, excepté seulement le fait qu'à la fig. C, on utilise CL(i) au lieu de CH(i) pour obtenir le
signal de train d'impulsions de hauteur e(n).
Autrement dit, dans ce procédé, en utilisant la propriété qu'une réponse d'impulsion inverse h 1 '(n) correspondant à 1/H(f), qui est un inverse des caractéristiques de fréquence H(f), peut être obtenue en soumettant CL(i), qui est obtenu en prenant l'opposé de CL(i), à la procédure de traitement homomorphique inverse, le signal périodique de train d'impulsions de hauteur e(n) peut être obtenu en sortie en construisant un filtre de réponse
d'impulsion de durée finie (FIR) qui a une réponse h-
'(n) comme réponse d'impulsion et en envoyant au filtre un signal original de parole S(n) qui n'est pas multiplié par une fonction fenêtre Ce procédé est un procédé de filtrage inverse qui est fondamentalement le même que celui de la fig 5 A, à la seule exception que tandis que dans l'analyse homomorphique de la fig. C le filtre inverse d'enveloppe spectrale 1/H(f) est construit en obtenant une réponse d'impulsion de h I'(n) du filtre inverse d'enveloppe spectrale, à la fig 5 A le filtre inverse d'enveloppe spectrale 1/H(f) peut être construit directement au moyen des coefficients de prédiction (ai) ou des coefficients de réflexion (ki) obtenus par le procédé d'analyse de prédiction linéaire. Dans la déconvolution aveugle basée sur l'analyse homomorphique, la réponse d'impulsion h(n) ou le cepstre de quéfrence basse CL(i) représentés par des lignes pointillées aux fig 5 B et 5 C peuvent être utilisés comme ensemble de paramètres d'enveloppe spectrale Quand on utilise la réponse d'impulsion {h( 0), h(l), h(N- l)}, un ensemble de paramètres d'enveloppe spectrale est normalement constitué d'un bon nombre de paramètres de l'ordre de N, compris entre 90 et 120, tandis que le nombre de paramètres peut être diminué à 50 ou 60 avec N étant compris entre 25 et 30 quand on utilise le cepstre {CL(-N)m
CL(-Ni 1), 0, CL(N)}.
Comme décrit ci-dessus, la forme d'onde de parole voisée S(n) est décomposée en la réponse d'impulsion h(n) du filtre d'enveloppe spectrale et le signal périodique de train d'impulsions de hauteur
e(n) selon la procédure de la fig 5.
Si le signal de train d'impulsions de hauteur et les paramètres d'enveloppe spectrale ont été obtenus selon la procédure de déconvolution aveugle, alors des positions d'impulsion de hauteur Pl, P 2 etc. sont obtenues à partir du signal périodique de train d'impulsions de hauteur e(n) ou du signal de parole s(n) en utilisant un algorithme de détection de position d'impulsion de hauteur dans le domaine du
temps, tel que l'algorithme de détection d'époque.
Ensuite, les signaux d'impulsion de hauteur el(n), e 2 (n) et e 3 (n) représentés respectivement aux fig 3 H, 3 K et 3 N sont obtenus en segmentant périodiquement le signal de train d'impulsions de hauteur e(n) de sorte qu'une impulsion de hauteur soit comprise dans un intervalle d'une période comme montré à la fig 3 F. Comme positions de segmentation on peut choisir les points centraux entre les impulsions de hauteur ou des points qui sont éloignés d'un temps constant en avant de chaque impulsion de hauteur Cependant, comme la position de chaque impulsion de hauteur par rapport au temps coïncide avec la portion d'extrémité de chaque impulsion glottale, comme on s'en rendra compte complètement en comparant les fig 3 A et 3 F, il est préférable de sélectionner un point situé à un intervalle de temps constant en arrière de chaque impulsion de hauteur comme position de la segmentation, comme indiqué par la ligne pointillée à la fig 3 F Cependant, parce que l'impulsion de hauteur exerce l'effet le plus grand sur l'audibilité, il n'y a pas de différences significatives de parole
synthétisée entre les différents cas.
Si les signaux d'impulsion de hauteur el(n), e 2 (n), e 3 (n) etc obtenus par ce procédé sont respectivement combinés à nouveau avec les hl(n), h 2 (n), h 3 (n) de la fig 3 E, qui sont des réponses d'impulsion pendant l'intervalle de période des signaux d'impulsion el(n), e 2 (n), e 3 (n) etc, les vaguelettes souhaitées telles que celles représentées aux fig 3 M, 3 L et 3 ( 0) sont obtenues Une telle combinaison peut être effectuée de manière commode en introduisant chaque signal de train d'impulsions de hauteur dans le filtre d'enveloppe spectrale H(f) qui utilise les paramètres d'enveloppe spectrale comme coefficients de filtre comme montré à la fig 4 Par exemple, dans des cas o les coefficients de prédiction linéaire, ou les coefficients de réflexion, ou bien les paires de spectres de ligne sont utilisés comme paramètres d'enveloppe spectrale comme dans le procédé d'analyse par prédiction linéaire, un filtre à réponse d'impulsion de durée infinie (IIR) ayant les coefficients de prédiction linéaire ou les coefficients de réflexion, ou bien les paires de spectres de ligne comme coefficients de filtre est constitué Dans des cas o la réponse d'impulsion est utilisée pour les paramètres d'enveloppe spectrale comme dans le procédé d'analyse homomorphique, un filtre à réponse d'impulsion de durée finie (FIR) ayant la réponse d'impulsion comme coefficients de filtre est constitué Etant donné que le filtre de synthèse ne peut pas être constitué directement si le paramètre d'enveloppe spectrale est un rapport d'aire logarithmique ou le cepstre, les paramètres d'enveloppe spectrale devraient être retransformés en coefficients de réflexion ou en réponse d'impulsion afin d'être utilisés comme coefficients du filtre IIR ou FIR Si le signal d'impulsion de hauteur pour une période est le signal d'entrée du filtre d'enveloppe spectrale constitué comme décrit ci-dessus, avec les coefficients du filtre variant dans le temps conformément aux paramètres d'enveloppe spectrale correspondant au même instant que chaque échantillon du signal d'impulsion de hauteur, alors la vaguelette
pour cette période est émise.
Pour cette raison, les "formes d'onde en fonction du temps" des paramètres d'enveloppe spectrale sont découpées au même point que quand e(n) a été découpé afin d'obtenir le signal d'impulsion de hauteur pour chaque période Par exemple, dans le cas d'analyse séquentielle, les paramètres d'enveloppe spectrale de la première période kl(n)l, k 2 (n)1, etc, tels que représentés à la fig 3 G, sont obtenus en découpant les paramètres d'enveloppe spectrale correspondant à la même période de temps que le premier signal d'impulsion de hauteur el(n) représenté à la fig 3 H dans les fonctions du temps kl(n), k 2 (n) etc des paramètres d'enveloppe spectrale comme représenté à la fig 3 D Les deuxièmes et les troisièmes paramètres d'enveloppe spectrale indiqués en trait continu aux fig 3 J et 3 M peuvent aussi être
obtenus d'une manière similaire mentionnée ci-dessus. A la fig 4, les coefficients de réflexion kl, k 2, k N et la réponse
d'impulsion h( 0), h(l), h(N-l) sont représentés comme ensemble typique de paramètres d'enveloppe spectrale, dans lesquels ils sont désignés par kl(n), k 2 (n), kn(n) et par h(O,n), h(l,n), n(N-1, n) afin de souligner qu'ils sont des fonctions du temps De la même manière, dans les cas o le cepstre CL(i) est utilisé comme ensemble de paramètres
d'enveloppe spectrale, il sera désigné par CL(i, n).
Etant donné que dans le cas du procédé d'analyse de hauteur synchrone, contrairement au procédé d'analyse séquentielle, on n'obtient pas les fonctions du temps des paramètres d'enveloppe spectrale mais les valeurs des paramètres d'enveloppe spectrale qui sont des constantes sur l'intervalle d'analyse, il serait n Acessaire de construire les fonctions du temps des paramètres d'enveloppe spectrale à partir des valeurs des paramètres d'enveloppe spectrale et de segmenter ensuite les fonctions du temps période par période afin d'obtenir
les paramètres d'enveloppe spectrale pour une période.
Cependant, en réalité, il est commode de procéder
comme suit au lieu de composer les fonctions du temps.
Autrement dit, dans le cas du procédé d'analyse de hauteur synchrone, étant donné qu'un ensemble de paramètres d'enveloppe spectrale ayant des valeurs constantes correspond à chaque intervalle de hauteur tel que représenté en trait pointillé à la fig 8 B, les paramètres d'enveloppe spectrale ne montrent aucune variation même quand leurs fonctions du temps sont segmentées période par période C'est pourquoi les paramètres d'enveloppe spectrale pour une période devant être stockés dans une mémoire-tampon ne sont pas des fonctions du temps mais des constantes
indépendantes du temps.
Dans le cas du procédé d'analyse par blocs, étant donné qu'on obtient pour chaque bloc un ensemble de paramètres constants d'enveloppe spectrale, les valeurs d'un paramètre d'enveloppe spectrale pour une période appartenant à un bloc, par exemple kl(n)l, kl(n)2,, kl(n)M ne sont pas seulement constamment indépendantes du temps mais aussi identiques (ici, les notations kl(n)j désignent la fonction du temps de kl pour le j-ième intervalle de période, et M représente le nombre d'intervalles de période de hauteur
appartenant à un bloc).
On peut remarquer que dans le cas du procédé d'analyse par blocs, quand le signal d'impulsion de hauteur chevauche la limite de deux blocs adjacents, les paramètres d'enveloppe spectrale du bloc précédent et du bloc suivant devront être utilisés respectivement pour les portions de signal précédente
et suivante divisées en fonction de la limite de blocs.
Comme on peut le voir à la fig 3 I, la durée de la vaguelette n'est pas nécessairement égale à une période C'est pourquoi, avant d'appliquer le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale d'une longueur de période obtenue par segmentation périodique du filtre d'enveloppe spectrale, les processus d'adjonction de zéros et de traînage de paramètres représentés à la fig 4 sont nécessaires pendant la durée du signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale doivent durer au moins aussi longtemps que ceux de la durée effective de la vaguelette Le processus d'adjonction de zéros consiste à rendre la durée totale du signal d'impulsion de hauteur aussi longue que la longueur nécessaire en adjoignant des échantillons ayant une valeur zéro au signal d'impulsion de hauteur d'une période Le processus de traînage de paramètres consiste à rendre la durée totale d'un paramètre d'enveloppe spectrale aussi longue que la longueur nécessaire en adjoignant pendant les périodes suivantes le paramètre d'enveloppe spectrale au paramètre d'enveloppe spectrale d'une durée de période Cependant, même si c'est un procédé simple d'adjoindre de manière répétée la valeur finale du paramètre d'enveloppe spectrale d'une période ou la valeur initiale du paramètre d'enveloppe spectrale de la valeur suivante, la qualité de la parole synthétisée n'est pas détériorée
de manière significative.
Le fait que la durée effective de la vaguelette à créer par le filtre d'enveloppe spectrale dépende des valeurs des paramètres d'enveloppe spectrale rend difficile de l'estimer à l'avance Cependant, étant donné que dans la pratique on n'obtient pas d'erreurs significatives dans la plupart des cas si on considère que la durée effective d'une vaguelette est de 2 périodes à partir de la position d'impulsion de hauteur dans le cas d'une voix d'homme, et de 3 périodes à partir de la position d'impulsion de hauteur dans le cas d'une voix de femme ou d'enfant, il est commode de décider que la durée du "signal d'impulsion de hauteur avec traînage" devant être obtenue par adjonction de zéros et que la "durée de paramètres d'enveloppe spectrale avec traînage" devant être réalisée par traînage de paramètres deviennent 3 et 4 durées de période pour des voix d'homme et de femme respectivement, dans le cas o la segmentation périodique est réalisée juste après les impulsions de hauteur A la fig 3 G, des paramètres d'enveloppe spectrale avec traînage pour la première période de l'intervalle de 3 périodes "ad" obtenus en adjoignant les paramètres d'enveloppe spectrale pour l'intervalle de 2 périodes "bd" indiqué par la ligne pointillée juste après le paramètre d'enveloppe spectrale de l'intervalle de première période "ab" obtenu par la segmentation périodique ont été représentés à titre d'exemple A la fig 3 H, un signal d'impulsion de hauteur avec traînage pour la première période de l'intervalle de 3 périodes "ad", obtenu en adjoignant des échantillons de valeur zéro à l'intervalle de 2 périodes "bd" contigu au signal d'impulsion de hauteur de l'intervalle de la première période "ab" obtenu par la segmentation périodique est
montré à titre d'exemple.
Dans le cas décrit ci-dessus, étant donné que la durée après l'adjonction de zéros et le traînage de paramètres est augmentée de 3 ou 4 périodes, alors que la durée du signal d'impulsion de hauteur et du paramètre d'enveloppe spectrale avant l'adjonction de zéros et le traînage de paramètres est d'une période, des mémoires-tampons sont prévues entre la segmentation périodique et le traînage de paramètres, comme représenté à la fig 4, et le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale obtenus par la segmentation périodique et stockés ensuite dans les mémoires-tampons sont alors récupérés
quand nécessaire, de sorte qu'une mise en mémoire-
tampon dans le temps est réalisée.
Si le signal d'impulsion de hauteur avec traînage et les paramètres d'enveloppe spectrale avec traînage sont obtenus par l'adjonction de zéros et le traînage de paramètres de la fig 4, le "signal de vaguelette" Sl(n) pour la première période de la durée de l'intervalle de 3 périodes tel que l'intervalle "ad" comme représenté à la fig 3 I peut finalement être obtenu en envoyant le signal d'impulsion de hauteur avec traînage de la première période tel que l'intervalle "ad" de la fig 3 H au filtre d'enveloppe spectrale H(f) et en faisant varier de manière synchrone les coefficients de la même manière que le paramètre d'enveloppe spectrale avec traînage de la première période telle que l'intervalle "ad" de la fig 3 G Les signaux de vaguelette 52 (n) et 53 (n) pour la deuxième et la troisième période respectivement peuvent être obtenus de manière analogue. Comme décrit ci- dessus, la forme d'onde de parole voisée S(n) est finalement décomposée en les vaguelettes composant la forme d'onde S(n) au moyen de la procédure de la fig 4 Bien entendu, en réorganisant les vaguelettes des fig 31, 3 L et 3 ( 0) obtenues en re-décomposant les points d'origine, on obtient la fig 3 B et si on superpose les vaguelettes, la forme d'onde de parole originale S(n) telle que montrée à la fig 3 C est obtenue à nouveau Ainsi, en faisant varier de manière appropriée l'intervalle de temps entre les vaguelettes obtenues par décomposition, on peut obtenir une synthèse de parole ayant la structure arbitraire souhaitée de hauteur, c'est-à-dire l'intonation De même, en faisant varier de manière appropriée l'énergie des vaguelettes, on peut obtenir une synthèse de parole ayant la structure
arbitraire souhaitée d'accent.
Dans le bloc de stockage de segments de parole représenté à la fig 2, chaque segment de parole voisée, décomposé en autant de vaguelettes qu'il y a d'impulsions de hauteur selon le procédé représenté à la fig 4, est stocké sous le format montré à la fig. 6 A, que l'on appelle informations de segment de parole Dans un champ d'en-tête qui est une portion préliminaire des informations de segment de parole, des instants de temps limites Bi, B 2,, BL qui sont des instants de temps importants dans le segment de parole, et des positions d'impulsion de hauteur Pl, P 2,, PM de chaque signal d'impulsion de hauteur utilisés dans la synthèse de chaque vaguelette sont stockés, dans lesquels le nombre d'échantillons correspondant à chaque instant de temps est enregistré en prenant comme point O la première position d'échantillon du premier signal d'impulsion de hauteur el(n) L'instant de temps limite est la position dans
le temps des points limites situés entre les sous-
segments obtenus quand le segment de parole est segmenté en plusieurs sous-segments Par exemple, la voyelle précédée et suivie de consonnes peut être considérée comme consistant en 3 sous-segments pour une parole à vitesse faible, étant donné que la voyelle peut être divisée en un intervalle de portion médiane en régime permanent, et deux intervalles de transition présents avant et après l'intervalle en
régime permanent, et 3 points d'extrémité des sous-
segments sont stockés comme instants de temps limites
dans le champ d'en-tête du segment de parole.
Cependant, dans le cas o le segment de parole de la voyelle peut être considéré comme consistant en 2 sous-segments, deux instants de temps limites sont
stockés dans les informations d'en-tête.
Dans le champ de code de vaguelettes, qui est la dernière partie des informations de segments de parole, sont stockés des codes de vaguelettes qui sont des codes obtenus en codant en forme d'onde la vaguelette correspondant à chaque période Les vaguelettes peuvent être codées par le procédé simple de codage de formes d'onde, tel que la MIC, mais étant donné que les vaguelettes ont une corrélation significative à court terme et à long terme, la quantité de mémoire nécessaire pour le stockage peut être diminuée de manière importante si les vaguelettes sont codées en formes d'onde de manière efficace en utilisant un codage ADPCM (modulation par impulsions et codage différentiel adaptatif) qui a une boucle de prédiction de hauteur, un codage prédictif adaptatif
ou un procédé numérique adaptatif de modulation delta.
Le procédé au moyen duquel sont codées en formes d'onde les vaguelettes obtenues par décomposition, les codes résultants étant stockés et, lors de la synthèse, étant décodés, réorganisés et superposés pour produire la parole synthétisée, est appelé le
"procédé de stockage de codes de forme d'onde".
Le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale correspondants peuvent être considérés comme identiques à la vaguelette, parce qu'ils sont des matériaux avec lesquels la vaguelette peut être construite C'est pourquoi on pourrait aussi envisager le procédé dans lequel les "codes sources" obtenus en codant les signaux d'impulsion de hauteur et les paramètres d'enveloppe spectrale seraient stockés, les vaguelettes seraient obtenues à partir des signaux d'impulsion de hauteur et des paramètres d'enveloppe spectrale obtenus en décodant les codes sources, et les vaguelettes seraient alors réorganisées et superposées pour produire la parole synthétisée Ce procédé est appelé "procédé de stockage de codes sources" Ce procédé correspond à celui dans lequel le signal d'impulsion de hauteur et les paramètres
d'enveloppe spectrale stockés dans les mémoires-
tampons, au lieu des vaguelettes obtenues en sortie à la fig 4, sont associés les uns avec les autres dans le même intervalle de période et stockés ensuite dans le bloc de stockage de segments de parole C'est pourquoi dans le procédé de stockage de codes sources, les procédures qui suivent la mémoire-tampon à la figure 4, c'est-à-dire la procédure de traînage de paramètres, la procédure d'adjonction de zéros et la procédure de filtrage par le filtre de synthèse H(f) sont exécutées dans le sous-ensemble d'assemblage de
formes d'onde de la fig 7.
Dans le procédé de stockage de codes sources, le format des informations de segment de parole est tel que représenté à la fig 6 B qui est la même que la fig 6 A à l'exception du contenu du champ de codes de vaguelettes Autrement dit, les signaux d'impulsion de hauteur et les paramètres d'enveloppe spectrale nécessaires à la synthèse des vaguelettes, au lieu des vaguelettes elles-mêmes, sont codés et stockés aux emplacements o la vaguelette pour chaque période doit être stockée à la fig 6 A. Les paramètres d'enveloppe spectrale sont codés selon le procédé connu de quantification des paramètres d'enveloppe spectrale et stockés dans le champ de codes de vaguelette A cet instant, si les paramètres d'enveloppe spectrale sont transformés de manière appropriée avant la quantification, le codage peut être effectué de manière efficace Par exemple, il est préférable de transformer les coefficients de prédiction en paramètres de spectre de ligne et les coefficients de réflexion en rapports logarithmiques d'aires et de les quantifier De plus, étant donné que la réponse d'impulsion fait apparaître une corrélation étroite entre des échantillons adjacents et entre des réponses d'impulsion adjacentes, si elles sont codées en forme d'onde selon un procédé de codage différentiel, le volume de données nécessaires au stockage peut être réduit de manière importante Dans le cas des paramètres de cepstrum, on connaît un procédé de codage dans lequel le paramètre de cepstrum est transformé de sorte que le volume de données peut
* être réduit de manière importante.
D'une part, le signal d'impulsion de hauteur est codé selon un procédé approprié de codage de forme d'onde et le code résultant est stocké dans le champ de codes de vaguelette Les signaux d'impulsion de hauteur ont peu de corrélation à court terme mais ont les uns avec les autres une corrélation à long terme significative C'est pourquoi si le procédé de codage de forme d'onde, tel que le codage adaptatif MIC à prédiction de hauteur qui a la boucle de prédiction de hauteur, est utilisé, une parole synthétisée de haute qualité peut être obtenue même si le volume de mémoire nécessaire pour le stockage est réduit à 3 bits par échantillon Le coefficient de prédiction d'un algorithme de prédiction de hauteur peut être une valeur obtenue pour chaque période de hauteur selon un
procédé d'auto-corrélation ou peut être une constante.
A la première étape du codage, l'effet de prédiction de hauteur peut être accru par normalisation en divisant le signal d'impulsion de hauteur à coder par la racine carrée de l'énergie moyenne par échantillon "G" Le décodage est exécuté dans le bloc de synthèse de parole voisée et le signal d'impulsion de hauteur est reconstitué à son amplitude d'origine en le multipliant par "G" de nouveau à l'étape finale du décodage. A la fig 6 B, on a représenté les informations de segment de parole dans le cas o un procédé d'analyse par prédiction linéaire est adopté qui utilise 14 coefficients de réflexion comme paramètres d'enveloppe spectrale Si l'intervalle d'analyse pour l'analyse par prédiction linéaire est la période de hauteur, 14 coefficients de réflexion correspondent à
chaque signal d'impulsion de hauteur et sont stockés.
Si l'intervalle d'analyse est un bloc d'une certaine longueur, les coefficients de réflexion pour plusieurs signaux d'impulsion de hauteur dans un bloc ont les mêmes valeurs, de sorte que le volume de mémoire nécessaire pour le stockage des vaguelettes est réduit Dans ce cas, comme décrit ci-dessus, étant donné que les coefficients de réflexion du premier bloc ou du dernier bloc sont utilisés au moment de la synthèse pour le signal d'impulsion de hauteur situé de part et d'autre de la limite de deux blocs selon que les échantillons du signal sont après ou avant le point limite, la position du point limite entre les
blocs doit être également stockée dans le champ d'en-
tête Si le procédé d'analyse séquentielle tel que le procédé récursif des moindres carrés est utilisé, les coefficients de réflexion kl, k 2,, k 14 deviennent des fonctions continues de l'indice de temps "n" ainsi que le montre la fig 3 D, et beaucoup de mémoire est nécessaire pour stocker les fonctions du temps kl(n), k 2 (n),, k 14 (n) En prenant pour exemple le cas de la fig 3, les formes d'onde pour l'intervalle "ab" des fig 3 G et 3 H comme première période, pour l'intervalle "bc" des fig 3 J et 3 K comme deuxième période, et pour l'intervalle "cd" des fig 3 M et 3 N comme troisième période du champ de codes de vaguelettes, sont stockées dans le champ de codes de vaguelettes. Le procédé de stockage de codes de forme d'onde et le procédé de stockage de codes sources sont essentiellement le même procédé et, en fait, le code de forme d'onde obtenu quand les vaguelettes sont codées selon le procédé efficace de codage de forme d'onde tel que le codage par prédiction adaptative dans le procédé de stockage de code de forme d'onde devient presque le même par son contenu que le code source obtenu par le procédé de stockage de codes sources Le code de forme d'onde dans le procédé de stockage de codes de forme d'onde et le code source dans le procédé de stockage de codes sources sont
globalement appelés code de vaguelette.
La fig 7 illustre la configuration interne du bloc de synthèse de parole voisée de la présente invention Les codes de vaguelette, stockés dans le champ de codes de vaguelette des informations de segment de parole reçus du bloc de stockage de segments de parole, sont décodés par un sous-ensemble de décodage 9, selon une procédure inverse de la procédure selon laquelle ils ont été codés Les signaux de vaguelette obtenus quand les codes de forme d'onde sont décodés dans le procédé de stockage de formes d'onde, ou bien les signaux d'impulsion de hauteur obtenus quand les codes sources sont décodés dans le procédé de stockage de codes sources et les paramètres d'enveloppe spectrale associés aux signaux d'impulsion de hauteur sont appelés les informations de vaguelette, et sont envoyés au sous-ensemble d'assemblage de formes d'onde 13 D'une part, les
informations d'en-tête stockées dans le champ d'en-
tête des informations de segment de parole sont le signal d'entrée envoyé à un sous-ensemble de commande de durée 10 et un sous-ensemble de commande de hauteur 11. Le sous-ensemble de commande de durée 10 de la fig 7 reçoit en entrée les données de durée figurant dans les informations de prosodie et les instants de temps limites compris dans les informations d'en-tête de segments de parole, et produit les informations de distorsion dans le temps en utilisant les données de durée et les instants de temps limites et fournit les
informations de distorsion dans le temps au sous-
ensemble d'assemblage de formes d'onde 13, au sous-
ensemble de commande de hauteur 11 et au sous-ensemble de commande d'énergie 12 Si la durée totale du segment de parole devient plus longue ou plus courte, la durée des sous-segments constituant le segment de parole devient respectivement plus longue ou plus courte, alors que le rapport de l'expansion ou de la
compression dépend de la propriété de chaque sous-
segment Par exemple, dans le cas d'une voyelle précédée et suivie de consonnes, la durée de l'intervalle d'état stationnaire qui est au milieu a un taux de variation sensiblement plus grand que ceux des intervalles de transition situés de part et d'autre de la voyelle Le sous-ensemble de commande de durée compare la durée BL au segment de parole original qui a été stocké et la durée du segment de parole à synthétiser indiquée par les données de durée, et obtient la durée de chaque sous-segment à
synthétiser correspondant à la durée de chaque sous-
segment original en utilisant leur taux de variation ou la règle de durée, obtenant ainsi les instants de temps limites de la parole synthétisée Les instants de temps limites originaux Bi, B 2, etc et les instants de temps limites B'1, B'2, etc de la parole synthétisée associés en correspondance avec les instants de temps limites originaux sont appelés globalement les informations de distorsion dans le temps, et dans le cas de la fig 8, par exemple, les informations de distorsion dans le temps peuvent être représentées par f(Bl, B'1), (B 2, B'2), (B 3, B'3),
(B 4, B'4)}.
La fonction du sous-ensemble de commande de hauteur de la fig 7 est de produire les informations de position d'impulsion de hauteur de manière que la parole synthétisée ait la structure d'intonation indiquée par les données de structure d'intonation, et de fournir ces informations au sous-ensemble d'assemblage de formes d'onde et au sous- ensemble de commande d'énergie Le sous-ensemble de commande de hauteur reçoit en entrée les données de structure d'intonation qui sont les valeurs cibles de fréquence de hauteur pour chaque phonème, et produit, en reliant de manière lissée les valeurs cibles de fréquence de hauteur, un contour de hauteur représentant la variation continue de fréquence de hauteur en fonction du temps Le sous-ensemble de commande de hauteur peut refléter un phénomène de micro-intonation dû à un obstacle dans le contour de hauteur Cependant, dans ce cas, le contour de hauteur devient une fonction discontinue dans laquelle la valeur de fréquence de hauteur varie brusquement en fonction du temps au point limite entre le phonème faisant obstacle et l'autre phonème adjacent La fréquence de hauteur est obtenue en échantillonnant le contour de hauteur à la première position de hauteur du segment de parole, et la période de hauteur est obtenue en prenant un inverse de la fréquence de hauteur, et ensuite le point précédé par la période de hauteur est déterminé comme la deuxième position d'impulsion de hauteur La période de hauteur suivante est alors obtenue à partir de la fréquence de hauteur en ce point et la position d'impulsion de hauteur suivante est obtenue à son tour, et la répétition d'une telle procédure pourrait donner toutes les positions d'impulsion de hauteur de la parole synthétisée Comme première position d'impulsion de hauteur du segment de parole, on peut choisir le premier échantillon ou ses échantillons avoisinants dans le cas du premier segment de parole d'une série de segments de parole voisée continue de la parole synthétisée, et la première position d'impulsion de hauteur pour le segment de parole suivant est déterminée comme étant le point correspondant à la position de l'impulsion de hauteur suivant la dernière impulsion de hauteur du segment de parole précédent, et ainsi de suite Le sous-ensemble de commande de hauteur envoie dans un même bloc les positions d'impulsion de hauteur P'l, P'2, etc de parole synthétisée obtenues telles quelles et les positions originales d'impulsion de hauteur Pi, P 2 etc comprises dans les informations d'en-tête de segment de parole vers le sous-ensemble d'assemblage de formes d'onde et le sous-ensemble de commande d'énergie, o elles sont appelées les informations de position d'impulsion de hauteur Dans le cas de la fig 8, par exemple, les informations de position d'impulsion de hauteur peuvent être représentées par
"(Pl, P 2, P 9), (P'1, P'2,, P'8)}.
Le sous-ensemble de commande d'énergie de la fig 7 produit des informations de gain au moyen desquelles la parole synthétisée a la structure d'accent telle qu'indiqué par les données de structure d'accent, et les envoie au sous-ensemble d'assemblage de formes d'onde Le sous-ensemble de commande d'énergie reçoit en entrée les données de structure d'accent qui sont les valeurs cibles d'amplitude pour chaque phonème, et produit, en les reliant de manière lissée, un contour d'énergie représentant la variation continue de l'amplitude en fonction du temps On suppose que les segments de parole sont normalisés d'avance à l'instant du stockage, de sorte qu'ils ont une énergie relative en fonction de la classe de segment de parole afin de refléter la différence relative d'énergie pour chaque phonème Par exemple, dans le cas de voyelles, une voyelle grave a une énergie par unité de temps plus grande qu'une voyelle aiguë, et un son nasal a une énergie par unité de temps qui est environ la moitié de celle de la voyelle De plus, l'énergie pendant l'intervalle de fermeture d'un son sonore est très faible C'est pourquoi, quand les segments de parole sont stockés, ils devront être codés après un ajustement en avance de sorte qu'ils aient une telle énergie relative Dans
ce cas, le contour d'énergie produit dans le sous-
ensemble de commande d'énergie devient un gain devant être multiplié par la forme d'onde à synthétiser Le sous-ensemble de commande d'énergie obtient les valeurs de gain Gi, G 2, etc à chaque position d'impulsion de hauteur P'l, P'2, etc de la parole synthétisée en utilisant le contour d'énergie et les informations de position d'impulsion de hauteur, et les délivre au sous-ensemble d'assemblage de formes d'onde et celles-ci sont appelées informations de gain Dans le cas de la fig 8, par exemple, les informations de gain peuvent être représentées par
{(P'l, Gl), (P'2, G 2),, (P'8, G 8)}.
Le sous-ensemble d'assemblage de formes d'onde 13 de la fig 7 reçoit en entrée les informations de vaguelette décrites ci-dessus, les informations de distorsion dans le temps, les informations de position d'impulsion de hauteur et les informations de gain, et
produit finalement le signal de parole voisé Le sous-
ensemble d'assemblage de formes d'onde produit la parole ayant la structure d'intonation, la structure d'accent et la durée comme indiqué par les informations de prosodie en utilisant les informations de vaguelette reçues du sous-ensemble de décodage A cet instant, certaines des vaguelettes sont répétées, et certaines sont omises Les données de durée, les données de structure d'intonation et les données de structure d'accent comprises dans les informations de prosodie sont des informations indicatives indépendantes l'une de l'autre, tandis qu'elles doivent être traitées comme si elles étaient reliées entre elles parce qu'elles ont un interrelation entre ces trois informations quand la forme d'onde est
synthétisée au moyen des informations de vaguelette.
Un des problèmes les plus importants dans l'assemblage de formes d'onde est le choix de la vaguelette comme vaguelette destinée à être réorganisée à chaque position d'impulsion de hauteur de la parole synthétisée Si les vaguelettes appropriées ne sont pas sélectionnées et réorganisées, une parole
synthétisée de bonne qualité ne peut pas être obtenue.
On a donné ci-dessous une description du
fonctionnement du sous-ensemble d'assemblage de formes d'onde utilisant le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps de la présente invention, qui est un procédé de repositionnement devaguelettes capable d'obtenir une qualité élevée en synthétisant de la parole synthétique grâce à l'utilisation des informations de segment de parole reçues du bloc de stockage de
segments de parole.
La procédure de synthèse de formes d'onde de parole voisée du sousensemble d'assemblage de formes d'onde consiste en deux étapes, à savoir l'étape de repositionnement de vaguelettes faisant appel à la fonction de distorsion dans le temps, et l'étape de superposition pour superposer les vaguelettes
repositionnées.
Autrement dit, dans le cas du procédé de stockage de codes de forme d'onde, les mieux adaptées parmi les positions d'impulsion de hauteur de la parole synthétisée sont choisies parmi les signaux de vaguelette reçus comme informations de vaguelette et sont positionnées à leurs emplacements d'impulsion de hauteur, et leurs gains sont ajustés et ensuite la
parole synthétisée est produite en les superposant.
Dans le procédé de stockage de codes sources, le signal d'impulsion de hauteur et les paramètres d'enveloppe spectrale pour chaque période correspondant au signal d' impulsion de hauteur sont reçus comme informations de vaguelette Dans ce cas, deux procédés d' assemblage de parole synthétique sont possibles Le premier procédé consiste à obtenir chaque vaguelette en attribuant au filtre de synthèse les paramètres d 'enveloppe spectrale et le signal d' impulsion de hauteur pour une longueur d' intervalle de 2 à 4 périodes obtenue en effectuant les procédures correspondant au côté droit de la mémoire-tampon de la fig 4, c'est-à-dire le traînage de paramètres décrit auparavant et l'adjonction de zéros aux informations de vaguelette, et à assembler ensuite la parole synthétique avec les vaguelettes selon une procédure identique à celle du procédé de stockage de code de forme d'onde Ce procédé est fondamentalement le même que l'assemblage de la parole synthétique dans le procédé de stockage de codes de forme d'onde, et en
conséquence sa description séparée sera omise Le
deuxième procédé consiste à obtenir un signal de train d' impulsions de hauteur de synthèse ou signal d'excitation de synthèse ayant une enveloppe spectrale plate mais ayant une structure de hauteur différente de celle du signal périodique original de train d'impulsions de hauteur, en sélectionnant parmi les signaux d'impulsion de hauteur ceux qui sont les plus appropriés aux positions d'impulsion de hauteur de la parole synthétique et en les positionnant et en ajustant leurs gains, et ensuite en les superposant, et à obtenir des paramètres d'enveloppe spectrale de synthèse constitués en reliant le paramètre d'enveloppe spectrale avec chaque signal d'impulsion de hauteur ou signal d'excitation de synthèse, et ensuite à produire la parole synthétisée en attribuant le signal d'excitation de synthèse et les paramètres d'enveloppe spectrale au filtre de synthèse Ces deux procédés sont essentiellement les mêmes, excepté le fait que la séquence entre le filtre de synthèse et la procédure de superposition dans l'assemblage de la
parole de synthèse sont inversées.
Le procédé d'assemblage de parole de synthèse exposé ci-dessus est décrit ci-dessous en se référant à la fig 8 Le procédé de repositionnement de vaguelettes peut être fondamentalement appliqué à la fois au procédé de stockage de codes de forme d'onde et au procédé de stockage de codes sources C'est pourquoi les procédures d'assemblage de formes d'ondes de parole de synthèse dans les deux procédés seront
décrites simultanément en se référant à la fig 8.
A la fig 8 A, on a représenté la corrélation entre le segment original de parole et le segment de parole à synthétiser Les instants de temps limites d'origine Bl, B 2, etc indiqués par des lignes pointillées, les instants de temps limites B'l, B'2, etc du son synthétisé et la corrélation entre eux indiquée par les traits interrompus sont inclus dans les informations de distorsion dans le temps reçues du sous- ensemble de commande de durée De plus, les positions originales d'impulsion de hauteur Pl, P 2 etc indiquées par les trait pleins et les positions d'impulsion de hauteur P'l, P'2, etc du son synthétisé sont incluses dans les informations de
position d'impulsion de hauteur reçues du sous-
ensemble de commande de hauteur Pour la commodité de
l'explication de la fig 8, on a supposé que la pé-
riode de hauteur de la parole originale et la période de hauteur du son synthétisé sont constantes respectivement et que la dernière est égale à 1,5 fois
la première.
Le sous-ensemble d'assemblage de formes d'onde forme d'abord les fonctions de distorsion dans le temps, comme montré à la fig 8 B, en utilisant les instants de temps limites originaux, les instants de temps limites du son synthétisé et la corrélation entre eux L'abscisse de la fonction de distorsion dans le temps représente le temps "t" du segment de parole original, et l'ordonnée représente le temps "t"' du segment de parole à synthétiser A la fig 8 A, par exemple, étant donné que le premier sous-segment et le dernier sous-segment du segment de parole original devraient être comprimés de 2/3 et être étendus de 2 fois, leur corrélation apparaît comme des droites ayant des pentes respectives 2/3 et 2 dans la fonction de distorsion dans le temps de la fig 8 B Le deuxième sous-segment ne varie pas dans sa durée, de sorte qu'il apparaît comme une droite de pente 1 dans la fonction de distorsion dans le temps Le deuxième sous-segment du segment de parole à synthétiser résulte de la répétition de l'instant de temps limite "BlI" du segment de parole original, et, au contraire, le troisième sous-segment du segment de parole original a varié à un instant de temps limite "B'3 " dans le segment de parole à synthétiser La corrélation dans de tels cas apparaît respectivement comme une ligne verticale et une ligne horizontale La fonction de distorsion dans le temps est donc obtenue en représentant comme deux points l'instant de temps limite du segment original de parole et l'instant de temps limite du segment de parole à synthétiser correspondant à l'instant de temps limite du segment
original de parole et en les reliant par une droite.
Dans certains cas, il peut être possible de représenter la corrélation entre les sous-segments de manière à se rapprocher davantage de la réalité en
reliant les points par une courbe lissée.
Dans le procédé de stockage de codes de forme d'onde, le sous-ensemble d'assemblage de formes d'onde trouve l'instant de temps original correspondant à la position d'impulsion de hauteur du son synthétisé en utilisant la fonction de distorsion dans le temps, et trouve la vaguelette ayant la position d'impulsion de hauteur la plus proche de l'instant de temps original, et positionne alors la vaguelette à la position
d'impulsion de hauteur du son synthétisé.
Dans l'étape suivante, le sous-ensemble d'assemblage de formes d'onde multiplie chaque signal de vaguelette positionné par le gain correspondant à la position d'impulsion de hauteur du signal de vaguelette trouvé à partir des informations de gain, et obtient finalement le son synthétisé souhaité en superposant par simple addition les signaux de vaguelette ajustés en gain A la fig 3 Q, on a représenté le son synthétisé obtenu par une telle procédure de superposition dans le cas o les vaguelettes des fig 3 I, 3 L et 3 ( 0) sont repositionnées comme à la fig 3 P. De la même manière, dans le procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde trouve l'instant de temps original correspondant à la position d'impulsion de hauteur du son synthétisé en utilisant la fonction de distorsion dans le temps et trouve le signal d'impulsion de hauteur ayant la position d'impulsion de hauteur la plus proche de l'instant de temps original, et positionne alors le signal d'impulsion de hauteur à la position d'impulsion de hauteur du son synthétisé. Les nombres pour les signaux d'impulsion de hauteur ou les vaguelettes positionnés de cette manière à chaque position d'impulsion de hauteur du segment de parole à synthétiser sont représentés aux fig 8 A et 8 B Comme on peut le voir sur les dessins, quelques unes des vaguelettes constituant le segment de parole original sont omises en raison de la compression des sous-segments, et quelques une sont utilisées de manière répétitive en raison de l'expansion des sous- segments On a supposé, à la fig. 8, que le signal d'impulsion de hauteur pour chaque période était obtenu en segmentant juste après chaque impulsion de hauteur. La superposition des vaguelettes dans le procédé de stockage de codes de forme d'onde est équivalente à la superposition des signaux d'impulsion de hauteur dans le procédé de stockage de codes sources C'est pourquoi, dans le cas du procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde multiplie chaque signal d'impulsion de hauteur repositionné par le gain correspondant à la position d'impulsion de hauteur du signal d'impulsion de hauteur repositionné trouvé à partir des informations de gain, et obtient finalement le signal d'excitation de synthèse souhaité en superposant les signaux d'impulsion de hauteur ajustés en gain Cependant, dans ce cas, étant donné que la plus grande partie de l'énergie est concentrée sur l'impulsion de hauteur, on peut envisager de construire le signal d'excitation de synthèse en obtenant d'abord un signal d'excitation de synthèse sans ajustement de gain, en superposant les signaux d'impulsion de hauteur positionnés, et en multipliant alors le signal d'excitation de synthèse sans ajustement de gain par le contour d'énergie produit dans le sous-ensemble de commande d'énergie, au lieu de superposer les signaux d'impulsion de hauteur à gain constant ajusté La fig 3 R représente le signal d'excitation de synthèse obtenu quand les signaux d'impulsion de hauteur des fig 3 H, 3 K, 3 N sont repositionnés selon une telle procédure, de sorte que la structure de hauteur devient la même que dans le cas de la fig 3 P. Dans le procédé de stockage de codes sources, le sous-ensemble d'assemblage de formes d'onde a besoin de créer les paramètres d'enveloppe spectrale de synthèse, et deux manières sont possibles, à savoir le procédé de compression et d'expansion représenté à la fig 8 A, et le procédé de correspondance synchrone représenté à la fig 8 B Si les paramètres d'enveloppe spectrale sont des fonctions continues du temps et représentent complètement l'enveloppe du spectre de parole, les paramètres d'enveloppe spectrale de synthèse peuvent être obtenus simplement en comprimant
ou en étendant dans le temps, sous-segment par sous-
segment, les paramètres d'enveloppe spectrale originaux A la fig 8 A, le paramètre d'enveloppe spectrale obtenu par le procédé d'analyse séquentielle a été représenté sous forme de courbe en trait interrompu, et le paramètre d'enveloppe spectrale codé en remplaçant approximativement la courbe par des segments de droite reliant plusieurs points tels que A, B, C etc a été représenté en trait continu Etant donné que la position dans le temps de chaque point varie seulement pour donner les points A', B', C' etc. en conséquence de la compression et de l'expansion dans le temps, un tel procédé de codage de segments de droite est particulièrement approprié dans le cas de compression et d'expansion dans le temps Cependant, dans le cas o l'on utilise le procédé d'analyse de blocs ou le procédé d'analyse de hauteur synchrone, étant donné que la correspondance spectrale n'est pas précise et que la variation dans le temps du paramètre d'enveloppe spectrale est discontinue, le procédé de compression et d'expansion dans le temps ne peut pas donner au son de synthèse la qualité souhaitée, il est préférable d'utiliser le procédé de correspondance synchrone dans lequel les paramètres d'enveloppe spectrale sont assemblés en corrélant les paramètres d'enveloppe spectrale pour chaque intervalle de période de hauteur avec chaque signal d'impulsion de hauteur correspondant, comme montré à la fig 8 B. Autrement dit, étant donné que la vaguelette, dans le procédé de stockage de codes de forme d'onde, est équivalente au signal d'impulsion de hauteur et aux paramètres d'enveloppe spectrale correspondants pour le même intervalle de période de hauteur, les paramètres d'enveloppe spectrale peuvent être créés en positionnant de manière synchrone les paramètres d'enveloppe spectrale pour un intervalle d'une période dans le même intervalle de période de chaque signal positionné d'impulsion de hauteur A la fig 8 B, kl qui est un des paramètres d'enveloppe spectrale, et k'l qui est le paramètre d'enveloppe spectrale de synthèse correspondant à kl assemblé au moyen de tels procédés pour le procédé d'analyse par blocs et le procédé d'analyse de hauteur synchrone sont représentés respectivement en trait plein et en trait interrompu Bien entendu, comme mentionné ci-dessus, avec le paramètre d'enveloppe spectrale obtenu par le procédé d'analyse séquentielle, le paramètre d'enveloppe spectrale de synthèse peut être assemblé en utilisant le procédé de la fig 8 A Par exemple, si le signal d'impulsion de hauteur pour chaque période a été repositionné comme montré à la fig 3 R, les paramètres d'enveloppe spectrale pour chaque période sont situés comme représenté à la fig 3 S conformément
aux signaux d'impulsion de hauteur.
Au moment de l'assemblage du signal d'excitation de synthèse et des paramètres d'enveloppe spectrale de synthèse dans le procédé de stockage de codes sources, si la période de hauteur du son synthétisé est plus longue que la période de hauteur originale, un intervalle vide en résulte entre deux intervalles de période de hauteur adjacents, ainsi
qu'il est indiqué par des traits obliques à la fig 8.
Si la période de hauteur du son synthétise est plus courte que la période de hauteur originale, des
intervalles de recouvrement dans lesquels deux inter-
valles de période de hauteur adjacents se chevauchent l'un l'autre se produisent L'intervalle de recouvrement "fb" et l'intervalle vide "gh" sont représentés à titre d'exemple aux fig 3 R et 3 S Comme décrit précédemment, les signaux d'impulsion de hauteur repositionnés devront être superposés au moment du recouvrement Cependant, il est raisonnable de prendre la moyenne des paramètres d'enveloppe spectrale repositionnés conformément aux signaux d'impulsion de hauteur, au lieu de les superposer au moment du recouvrement C'est pourquoi le procédé d'assemblage du signal d'excitation de synthèse et des paramètres d'enveloppe spectrale de synthèse en tenant compte des intervalles vides et des intervalles de
recouvrement est le suivant.
Les échantillons de valeur zéro sont insérés dans l'intervalle vide au moment de l'assemblage du signal d'excitation de synthèse Dans le cas d'un son voisé fricatif, un son plus naturel peut être synthétisé si on insère dans l'intervalle vide le signal de bruit soumis à un filtre passe-haut plutôt que les échantillons de valeur zéro Les signaux d'impulsion de hauteur repositionnés doivent être additionnés dans l'intervalle de recouvrement Etant donné qu'un tel procédé d'addition est gênant, il est commode d'utiliser un procédé de troncature dans lequel un signal seulement est sélectionné parmi deux signaux d'impulsion de hauteur qui se chevauchent dans l'intervalle de recouvrement La qualité du son synthétisé en utilisant le procédé de troncature n'est pas détériorée de manière significative A la fig 3 R, l'intervalle vide "gh" a été rempli d'échantillons de valeur zéro, et le signal d'impulsion de hauteur du premier intervalle a été choisi dans l'intervalle de
recouvrement "fb" Autrement dit, dans le cas d'occur-
rence de recouvrement, le premier des intervalles de recouvrement de chaque signal d'impulsion de hauteur a été tronqué, et ce procédé est physiquement plus significatif que le procédé dans lequel les signaux d'impulsion de hauteur sont créés en segmentant juste en face de l'impulsion de hauteur et, au moment de la synthèse, le dernier parmi les intervalles de recouvrement du signal d'impulsion de hauteur est tronqué s'ils se chevauchent, comme décrit précédemment Cependant, en réalité, les deux méthodes n'entraînent pas de différence significative dans la
qualité de son du son synthétisé.
Au moment de l'assemblage du paramètre d'enve-
loppe spectrale, il est préférable que l'intervalle vide soit rempli de valeurs qui varient linéairement depuis une valeur du paramètre d'enveloppe spectrale au point d'extrémité de l'intervalle de la période précédente jusqu'à la valeur du paramètre d'enveloppe spectrale au point de début de la période suivante, et que dans l'intervalle de recouvrement le paramètre d'enveloppe spectrale varie graduellement du paramètre d'enveloppe spectrale de la période précédente à celui de la période suivante, en utilisant le procédé d'interpolation dans lequel la moyenne de deux paramètres d'enveloppe spectrale qui se chevauchent est obtenue avec des valeurs de pondération qui varient linéairement par rapport au temps Cependant, étant donné que ces procédés sont gênants, le procédé suivant peut être utilisé qui est plus commode et ne détériore pas de manière significative la qualité du son En effet, pour le paramètre d'enveloppe spectrale dans l'intervalle vide, la valeur du paramètre d'enveloppe spectrale au point d'extrémité de l'intervalle de période précédent peut être utilisée de manière répétitive comme à la fig 8 b, ou la valeur du paramètre d'enveloppe spectrale au point de début de l'intervalle de période suivant peut être utilisée de manière répétitive, ou la moyenne arithmétique des valeurs des deux paramètres d'enveloppe spectrale peut être utilisée, ou bien les valeurs du paramètre d'enveloppe spectrale aux points d'extrémité et de début des intervalles de période précédent et suivant peuvent être utilisées respectivement avant et après le centre de l'intervalle vide servant de limite Pour le paramètre d'enveloppe spectrale dans l'intervalle de recouvrement, on peut choisir simplement l'une ou l'autre partie correspondant à l'impulsion de hauteur choisie A la fig 3 S, par exemple, étant donné que le signal d'impulsion de hauteur pour l'intervalle de période précédent a été choisi comme signal d'excitation de synthèse dans l'intervalle de recouvrement "fb", les valeurs de paramètres pour l'intervalle de période précédent ont été choisies de la même manière comme paramètres d'enveloppe spectrale de synthèse Dans l'intervalle vide "gh" des fig 8 B et 3 S, les valeurs de paramètres d'enveloppe spectrale à la fin de l'intervalle de période précédent ont été utilisées de manière répétitive Bien entendu, dans le cas de la fig 3 S, dans lequel le paramètre d'enveloppe spectrale est une fonction continue du temps, le procédé dans lequel la dernière valeur de l'intervalle de période précédent ou la première valeur de l'intervalle de période suivant sont utilisées de manière répétitive pour l'intervalle vide, et le procédé dans lequel les deux valeurs varient linéairement pendant l'intervalle vide donnent
le même résultat.
Si le signal d'excitation de synthèse et tous les paramètres d'enveloppe spectrale de synthèse pour un segment ont été assemblés, alors le sous-ensemble d'assemblage de formes d'onde lisse normalement les deux extrémités des paramètres d'enveloppe spectrale de synthèse en utilisant le procédé d'interpolation, de sorte que la variation du paramètre d'enveloppe spectrale est progressive entre des segments de parole adjacents Si le signal d'excitation de synthèse et les paramètres d'enveloppe spectrale de synthèse assemblés comme ci-dessus sont introduits respectivement comme signal d'excitation et comme coefficients de filtre dans le filtre de synthèse du sous-ensemble d'assemblage de formes d'onde, le son synthétisé souhaité est finalement émis par le filtre de synthèse Le signal d'excitation de synthèse obtenu quand les signaux d'impulsion de hauteur des fig 3 H, 3 K, et 3 N sont repositionnés de manière que la structure de hauteur soit la même que celle de la fig. 3 P, est représenté à la fig 3 R, et les paramètres d'enveloppe spectrale de synthèse obtenus en faisant correspondre les paramètres d'enveloppe spectrale pour une période des fig 3 G, 3 J et 3 M aux signaux d'impulsion de hauteur dans le signal d'excitation de
synthèse de la fig 3 R sont représentés à la fig 35.
En constituant un filtre de synthèse à variation dans le temps ayant comme coefficients de filtre les coefficients de réflexion variant comme représenté à la fig 3 S et en envoyant le signal d'excitation de synthèse comme montré à la fig 3 R au filtre de synthèse à variation dans le temps, on obtient le son synthétisé de la fig 3 T qui est presque le même que le son synthétisé de la fig 3 P. En comparant maintenant le procédé de stockage de codes de forme d'onde et le procédé de stockage de codes sources, les deux procédés peuvent être considérés en principe comme identiques Cependant, quand on concatène des segments de parole de connectivité mutuelle médiocre, il y a une différence en ce qu'il est possible, en lissant les paramètres d'enveloppe spectrale au moyen du procédé d'interpolation, de synthétiser le son relié de manière lissée dans le cas du procédé de stockage de codes sources, alors que c'est impossible dans le cas du procédé de stockage de codes de forme d'onde De plus, le procédé de stockage de codes sources nécessite une mémoire plus petite que le procédé de stockage de codes de forme d'onde, étant donné que la seule forme d'onde d'une longueur d'une période par vaguelette doit être stockée dans le procédé de stockage de codes sources, et présente l'avantage qu'il est facile d'intégrer la fonction du bloc de synthèse de sons voisés et la fonction du bloc de synthèse de sons non voisés décrit auparavant Dans le cas o l'on utilise le procédé d'analyse homomorphique, le cepstre ou la réponse d'impulsion peuvent être utilisés comme ensemble de paramètres d'enveloppe spectrale dans le procédé de stockage de codes de forme d'onde, alors qu'il est pratiquement impossible dans le procédé de stockage de codes sources d'utiliser le cepstre nécessitant le calcul par blocs, parce que la durée du bloc de synthèse ayant les valeurs des paramètres constants d'enveloppe spectrale de synthèse varie bloc par bloc comme on peut le voir d'après le paramètre d'enveloppe spectrale de synthèse de la fig 8 B représenté en trait plein Le procédé de stockage de codes sources selon la présente invention utilise l'impulsion de
hauteur d'une période comme impulsion d'excitation.
Cependant, il est différent du procédé d'excitation par impulsions régulières des réalisations antérieures qui se propose de substituer à l'impulsion un échantillon d'impulsion de hauteur, en ce que dans la présente invention l'impulsion de hauteur de chaque période et les paramètres d'enveloppe spectrale de chaque période correspondant à l'impulsion de hauteur sont combinés pour créer la vaguelette de chaque période.
Comme on peut le voir dans la description ci-
dessus, la présente invention convient au codage et au décodage du segment de parole du système de synthèse de parole à partir de texte du procédé de synthèse par segments de parole De plus, étant donné que la présente invention est un procédé dans lequel les durées totale et partielle et la structure de hauteur des unités phonétiques arbitraires telles que le
phonème, la demi-syllabe, le diphone et le sous-
segment, etc constituant la parole peuvent être modifiés librement et indépendamment, elle peut être utilisée dans un système de conversion de débit de parole ou un système de modification dans le temps qui modifie la vitesse vocale dans un rapport constant de manière à être plus rapide ou plus lente que la vitesse originale sans changer la structure d'intonation de la parole, et elle peut aussi être utilisée dans un système de synthèse de parole chantée ou dans un système de codage à débit de parole très faible tel qu'un vocodeur phonétique ou un vocodeur par segments qui transfère la parole en changeant la durée et la hauteur de segments de parole
types stockés à l'avance.
Un autre domaine d'application de la présente invention est un système de synthèse de sons musicaux tel qu'un instrument de musique électronique utilisant le procédé par échantillonnage Etant donné que presque tous les sons de la gamme des instruments de musique électroniques sont des formes d'onde numériques codées, stockées et reproduites quand on le demande à partir du clavier etc dans les réalisations antérieures pour les procédés d'échantillonnage pour des instruments de musique électroniques, il existe l'inconvénient que beaucoup
de mémoire est nécessaire pour stocker le son musical.
Cependant, si la décomposition en formes d'onde périodiques et le procédé de repositionnement de vaguelettes de la présente invention sont utilisés, la quantité de mémoire nécessaire peut être réduite de manière importante, parce que les sons de diverses hauteurs peuvent être synthétisés en échantillonnant
les tons de seulement quelques types de hauteurs.
Typiquement, un son musical consiste de 3 parties, à
savoir une attaque, une partie soutenue et une chute.
Etant donné que l'enveloppe spectrale varie progressivement non seulement entre les 3 parties mais encore pendant la partie soutenue, le timbre varie aussi en conséquence C'est pourquoi, si les segments de son musical sont codés selon le procédé de décomposition en formes d'onde périodiques et stockés en prenant les instants appropriés o le spectre varie fortement comme instants de temps limites, et si le son est synthétisé selon le procédé de repositionnement de vaguelettes basé sur la distorsion dans le temps décrit ci-dessus quand cela est demandé à partir du clavier etc, alors le son musical ayant
la hauteur arbitraire souhaitée peut être synthétisé.
Cependant, dans des cas o le signal de son musical est décomposé selon le procédé de prédiction linéaire, étant donné qu'il y a une tendance pour que l'enveloppe spectrale précise ne soit pas obtenue et que l'impulsion de hauteur ne soit pas pointue, il est recommandé de réduire le nombre de paramètres d'enveloppe spectrale utilisés pour l'analyse et de
différencier le signal avant l'analyse.
Bien que cette invention ait été décrite dans sa forme préférentielle avec un certain nombre de particularités, les personnes expertes en la technique
pourront remarquer que la présente description de la
forme préférentielle a été faite seulement à titre d'exemple, et que de nombreux changements dans les détails de construction, de combinaison et d'agencement des éléments peuvent être apportés sans
s'éloigner de l'esprit et du domaine de l'invention.

Claims (7)

REVENDICATIONS
1 Procédé de codage de segments de parole pour utilisation dans un système de synthèse de parole comprenant: la formation de vaguelettes en obtenant des paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse en analysant un signal numérique périodique ou quasi périodique au moyen de l'utilisation d'une technique d'estimation de spectre, en effectuant une déconvolution du signal original en une réponse d'impulsion représentée par des paramètres d'enveloppe spectrale et un signal périodique ou quasi périodique de train d'impulsions de hauteur ayant une enveloppe spectrale sensiblement plate, et en effectuant une convolution d'un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur d'une période obtenu en segmentant ledit signal de train d'impulsions de hauteur pour chaque période de sorte qu'une impulsion de hauteur soit contenue dans chaque période, et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale dans le même intervalle de temps que ledit signal d'excitation; et le codage en formes d'onde de vaguelettes de chaque période, en les stockant en mémoire, et, au moment de la synthèse de parole, en décodant les vaguelettes, en ajustant la durée et la fréquence de hauteur en assignant les vaguelettes à des instants de temps appropriés de sorte qu'elles aient la structure de hauteur désirée, en les positionnant auxdits instants de temps et en les superposant, synthétisant ainsi la parole.
2 Procédé de codage de segments de parole selon la revendication 1, dans lequel les vaguelettes sont formées en associant les informations obtenues en codant en formes d'onde un signal d'impulsion de hauteur de chaque période obtenu par segmentation à des informations obtenues en codant un ensemble de paramètres d'estimation d'enveloppe spectrale d'une période pendant le même intervalle de temps et en stockant lesdites informations dans lesdites mémoires, et, au moment de la synthèse, des vaguelettes sont créées en effectuant une convolution d' un signal d'excitation obtenu en adjoignant des échantillons de valeur zéro après un signal d'impulsion de hauteur
d'une période obtenue en décodant lesdites informa-
tions et une réponse d'impulsion correspondant aux paramètres d'enveloppe spectrale décodés dans le même
intervalle de temps que ledit signal d'excitation.
3 Procédé de codage de segments de parole selon la revendication 2, dans lequel le son de parole synthétisé est produit au moment de la synthèse en effectuant une convolution d'un signal d'excitation de synthèse formé en assignant des signaux d'impulsion de hauteur obtenus en décodant lesdites informations à des instants de temps appropriés de sorte qu'ils aient une structure de hauteur souhaitée et en les positionnant auxdits instants de temps, o un intervalle vide se produisant quand une période de hauteur souhaitée est plus longue qu'une période de hauteur originale est rempli avec des échantillons de valeur zéro et dans un intervalle de recouvrement se produisant quand ladite structure de hauteur souhaitée est plus courte que ladite période de hauteur originale les signaux d'impulsion de hauteur qui se recouvrent sont additionnés l'un à l'autre ou bien un signal est choisi parmi eux, et une réponse d'impulsion variant dans le temps correspondant à un
ensemble de paramètres d'enveloppe spectrale de syn-
thèse qui est formé soit en comprimant, respectivement
en étendant dans le temps, sous-segment par sous-
segment, l'ensemble de fonctions du temps desdits paramètres selon que la durée d'un sous-segment dans un segment de parole à synthétiser est plus courte,
respectivement plus longue, que celle d'un sous-
segment correspondant dans le segment de parole original, ou en positionnant l'ensemble de fonctions du temps desdits paramètres d'une période de manière synchrone avec ledit signal d'impulsion de hauteur associé positionné de manière à former ledit signal d'excitation de synthèse, et o dans ce dernier cas un paramètre d'enveloppe spectrale de synthèse dans ledit intervalle vide est obtenu en répétant la valeur du paramètre d'enveloppe spectrale au point d'extrémité de la période précédente ou la valeur du paramètre d'enveloppe spectrale au premier point de la période suivante ou une valeur moyenne desdites deux valeurs ou en remplissant avec des valeurs reliant de manière progressive lesdites deux valeurs, ou en répétant les valeurs des paramètres d'enveloppe spectrale au point d'extrémité et au premier point des périodes précédente et suivante avant et après le centre de l'intervalle vide, et ledit paramètre d'enveloppe spectrale de synthèse dans ledit intervalle de recouvrement est obtenu en choisissant soit l'un ou l'autre des paramètres d'enveloppe spectrale se chevauchant soit en utilisant une valeur moyenne
desdits deux paramètres se chevauchant.
4 Procédé de commande de hauteur d'un système de synthèse de parole comprenant: la commande simultanée de la durée et de la hauteur d'un segment de parole par un procédé de repositionnement de vaguelette basé sur la distorsion dans le temps en codant des instants de temps limites comprenant un point de début, un point d'extrémité et un point d'état stationnaire dans un segment de parole et des positions d'impulsion de hauteur de chaque vaguelette ou signal d'impulsion de hauteur d'une période et en les stockant simultanément dans des mémoires au moment du stockage de chaque segment de parole, et au moment de la synthèse, l'obtention d'une fonction de distorsion dans le temps en comparant des instants de temps limites souhaités et des instants de temps limites originaux stockés en mémoire correspondant auxdits instants de temps limites souhaités, la recherche d'instants de temps originaux correspondant à chaque position d'impulsion de hauteur souhaitée en utilisant ladite fonction de distorsion dans le temps, la sélection de vaguelettes ayant des positions d'impulsion de hauteur les plus proches desdits instants de temps originaux et le positionnement de ces vaguelettes aux positions souhaitées d'impulsion de hauteur, et la superposition
desdites vaguelettes.
5 Procédé de commande de hauteur d'un système de synthèse de parole selon la revendication 4, comprenant en outre la production de parole synthétique en sélectionnant des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsion de hauteur et en les positionnant, et la convolution d'un desdits signaux positionnés d'impulsion de hauteur et d'une réponse d'impulsion correspondant auxdits paramètres d'enveloppe spectrale afin de produire des vaguelettes, et la superposition desdites vaguelettes produites.
6 Procédé de commande de hauteur d'un système de synthèse de parole selon la revendication 4, comprenant en outre la production de parole synthétique en sélectionnant des signaux d'impulsion de hauteur d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsion de hauteur et en les positionnant, et la convolution d'un signal d'excitation de synthèse obtenu en superposant lesdits signaux positionnés d'impulsion de hauteur selon le procédé décrit dans la revendication 3 et une réponse d'impulsion variant dans le temps correspondant à des paramètres d'enveloppe spectrale de synthèse obtenus en concaténant lesdits paramètres positionnés d'enveloppe spectrale selon le procédé
décrit dans la revendication 3.
7 Dispositif de synthèse de parole voisée pour utilisation dans un système de synthèse de parole comprenant: un sous-ensemble de décodage ( 9) produisant des informations de vaguelette en décodant des codes de vaguelette à partir d'un bloc de stockage de segments de parole ( 5); un sous-ensemble de commande de durée ( 10) produisant des informations de distorsion dans le temps à partir de l'entrée de données de durée provenant d'un sous-système de génération de prosodie ( 2) et des instants de temps limites compris dans des informations d'en-tête à partir dudit bloc de stockage de segments de parole ( 5); un sous- ensemble de commande de hauteur ( 11) produisant des informations de position d'impulsion de hauteur de sorte qu'elles aient une structure d'intonation telle qu'indiqué par des données de structure d'intonation provenant de l'entrée desdites informations d'en-tête provenant dudit bloc de stockage de segments de parole ( 5), lesdites données de structure d'intonation provenant dudit sous-système de génération de prosodie et lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10); un sous- ensemble de commande d'énergie ( 12) produisant des informations de gain de telle sorte que de la parole synthétisée ait une structure d'accent telle qu'indiqué par les données de structure d'accent provenant de l'entrée desdites données de structure d'accent provenant dudit sous- ensemble de génération de prosodie ( 2), lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10) et des informations de position d'impulsion de hauteur provenant dudit sous-ensemble de commande de hauteur ( 11); un sous- ensemble d'assemblage de formes d'onde ( 13) produisant un signal de parole voisée à partir de
l'entrée desdites informations de vaguelette en prove-
nance dudit sous-ensemble de décodage ( 9), lesdites informations de distorsion dans le temps provenant dudit sous-ensemble de commande de durée ( 10), lesdites informations de position d'impulsion de hauteur provenant dudit sous-ensemble de commande de hauteur ( 11) et lesdites informations de gain provenant dudit sous-ensemble de commande d'énergie
( 12).
FR9213415A 1991-11-06 1992-11-06 Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole. Expired - Fee Related FR2683367B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910019617A KR940002854B1 (ko) 1991-11-06 1991-11-06 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치

Publications (2)

Publication Number Publication Date
FR2683367A1 true FR2683367A1 (fr) 1993-05-07
FR2683367B1 FR2683367B1 (fr) 1997-04-25

Family

ID=19322321

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9213415A Expired - Fee Related FR2683367B1 (fr) 1991-11-06 1992-11-06 Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole.

Country Status (17)

Country Link
US (1) US5617507A (fr)
JP (1) JP2787179B2 (fr)
KR (1) KR940002854B1 (fr)
AT (1) AT400646B (fr)
BE (1) BE1005622A3 (fr)
CA (1) CA2081693A1 (fr)
DE (1) DE4237563C2 (fr)
DK (1) DK134192A (fr)
ES (1) ES2037623B1 (fr)
FR (1) FR2683367B1 (fr)
GB (1) GB2261350B (fr)
GR (1) GR1002157B (fr)
IT (1) IT1258235B (fr)
LU (1) LU88189A1 (fr)
NL (1) NL9201941A (fr)
PT (1) PT101037A (fr)
SE (1) SE9203230L (fr)

Families Citing this family (221)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
CA2119397C (fr) * 1993-03-19 2007-10-02 Kim E.A. Silverman Synthese vocale automatique utilisant un traitement prosodique, une epellation et un debit d'enonciation du texte ameliores
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
NZ304418A (en) * 1995-04-12 1998-02-26 British Telecomm Extension and combination of digitised speech waveforms for speech synthesis
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
CA2188369C (fr) * 1995-10-19 2005-01-11 Joachim Stegmann Methode et dispositif de classification de signaux vocaux
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
CN1135529C (zh) * 1997-02-10 2004-01-21 皇家菲利浦电子有限公司 传送语音信号的通信网络
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
EP0909443B1 (fr) * 1997-04-18 2002-11-20 Koninklijke Philips Electronics N.V. Procede et systeme de codage de la parole en vue de sa reproduction ulterieure
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
WO2000028468A1 (fr) * 1998-11-09 2000-05-18 Datascope Investment Corp. Procede ameliore pour la compression d'un train d'impulsions
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
AUPP829899A0 (en) * 1999-01-27 1999-02-18 Motorola Australia Pty Ltd Method and apparatus for time-warping a digitised waveform to have an approximately fixed period
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
JP3730435B2 (ja) * 1999-03-26 2006-01-05 株式会社東芝 波形信号解析装置
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7346488B2 (en) * 2000-07-10 2008-03-18 Fujitsu Limited Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
WO2002023523A2 (fr) * 2000-09-15 2002-03-21 Lernout & Hauspie Speech Products N.V. Synchronisation rapide de la forme d'onde pour la concatenation et la modification a echelle de temps de la parole
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
JP3973530B2 (ja) * 2002-10-10 2007-09-12 裕 力丸 補聴器、訓練装置、ゲーム装置、および音出力装置
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US9165478B2 (en) 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US8019597B2 (en) * 2004-10-28 2011-09-13 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008142836A1 (fr) * 2007-05-14 2008-11-27 Panasonic Corporation Dispositif de conversion de tonalité vocale et procédé de conversion de tonalité vocale
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (fr) 2008-12-11 2010-06-17 Novauris Technologies Limited Reconnaissance de la parole associée à un dispositif mobile
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (fr) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Appareils, procédés et systèmes pour plateforme de gestion de conversation numérique
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (fr) 2012-06-08 2013-12-12 Apple Inc. Systèmes et procédés servant à reconnaître des identificateurs textuels dans une pluralité de mots
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9308446B1 (en) 2013-03-07 2016-04-12 Posit Science Corporation Neuroplasticity games for social cognition disorders
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (fr) 2013-03-15 2014-09-18 Apple Inc. Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole
WO2014197335A1 (fr) 2013-06-08 2014-12-11 Apple Inc. Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants
EP3937002A1 (fr) 2013-06-09 2022-01-12 Apple Inc. Dispositif, procédé et interface utilisateur graphique permettant la persistance d'une conversation dans un minimum de deux instances d'un assistant numérique
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6276845B2 (ja) 2014-05-01 2018-02-07 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083682B2 (en) * 2015-10-06 2018-09-25 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN111370002B (zh) * 2020-02-14 2022-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
US11848005B2 (en) * 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0239394A1 (fr) * 1986-03-25 1987-09-30 International Business Machines Corporation Dispositif de synthèse de la parole
EP0363233A1 (fr) * 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS51104202A (en) * 1975-03-12 1976-09-14 Hitachi Ltd Onseigoseinotameno sohensakuseisochi
JPS5660499A (en) * 1979-10-22 1981-05-25 Casio Computer Co Ltd Audible sounddsource circuit for voice synthesizer
JPS5710200A (en) * 1980-06-20 1982-01-19 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS5717997A (en) * 1980-07-07 1982-01-29 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS5843498A (ja) * 1981-09-09 1983-03-14 沖電気工業株式会社 音声合成装置
JPS58196597A (ja) * 1982-05-13 1983-11-16 日本電気株式会社 音声合成装置
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
WO1986003873A1 (fr) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Procede et appareil de codage de la parole
EP0481107B1 (fr) * 1990-10-16 1995-09-06 International Business Machines Corporation Synthétiseur de parole utilisant un modèle de markov caché phonétique

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0239394A1 (fr) * 1986-03-25 1987-09-30 International Business Machines Corporation Dispositif de synthèse de la parole
EP0363233A1 (fr) * 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
1978 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, (Tulsa, Oklahoma, 10-12 avril 1978), pages 179-182, IEEE, New York, US; M. BAUMWOLSPINER: "Speech generation through waveform synthesis" *
COMPUTER MUSIC JOURNAL, vol. 8, no. 3, automne 1984, pages 9-14, Cambridge, US; X. RODET: "Time-domain formant-wave-function synthesis" *
ICASSP'79 (1979 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Washington, DC, 2-4 avril 1979), pages 891-894, IEEE, New, York, US; R. SCHWARTZ et al: "Diphone synthesis for phonetic vocoding" *
ICASSP'86 (IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Tokyo, 7-11 avril 1986), vol. 3, pages 2019-2022, IEEE, New York, US; T. YAZU et al.: "The speech synthesis system for an unlimited Japanese vocabulary" *
ICASSP'88 (1988 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, New York, 11-14 avril 1988), vol. 1, pages 351-354, IEEE, New York, US; C. D'ALESSANDRO et al.: "Decomposition of the speech signal into short-time waveforms using spectral segmentation" *
SPEECH COMMUNICATION, vol. 9, no. 5/6, décembre 1990, pages 419-431, Amsterdam, NL; C. D'ALESSANDRO: "Time-frequency speech transformation based on an elementary waveform representation" *
SPEECH COMMUNICATION, vol. 9, no. 5/6, décembre 1990, pages 453-467, Amsterdam, NL: E. MOULINES et al.: "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones" *

Also Published As

Publication number Publication date
ATA219292A (de) 1995-06-15
KR940002854B1 (ko) 1994-04-04
JP2787179B2 (ja) 1998-08-13
GB2261350B (en) 1995-08-09
BE1005622A3 (fr) 1993-11-23
CA2081693A1 (fr) 1993-05-07
PT101037A (pt) 1994-07-29
DK134192A (da) 1993-08-18
SE9203230D0 (sv) 1992-11-02
FR2683367B1 (fr) 1997-04-25
GR1002157B (en) 1996-02-22
AT400646B (de) 1996-02-26
ITMI922538A1 (it) 1994-05-05
NL9201941A (nl) 1993-06-01
GB2261350A (en) 1993-05-12
ITMI922538A0 (it) 1992-11-05
GB9222756D0 (en) 1992-12-09
LU88189A1 (fr) 1993-04-15
GR920100488A (el) 1993-07-30
DE4237563A1 (fr) 1993-05-19
DE4237563C2 (de) 1996-03-28
IT1258235B (it) 1996-02-22
ES2037623B1 (es) 1997-03-01
ES2037623R (fr) 1996-08-16
SE9203230L (sv) 1993-05-07
DK134192D0 (da) 1992-11-04
ES2037623A2 (es) 1993-06-16
US5617507A (en) 1997-04-01
JPH06110498A (ja) 1994-04-22

Similar Documents

Publication Publication Date Title
FR2683367A1 (fr) Procedes de codage de segments de paroles et de commande de hauteur pour des systemes de synthese de la parole.
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP1704558B1 (fr) Synthese de parole a partir d'un corpus, basee sur une recombinaison de segments
EP1692689B1 (fr) Procede de codage multiple optimise
EP0380572A1 (fr) Synthese vocale a partir de segments de signaux vocaux coarticules enregistres numeriquement.
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
EP1730729A1 (fr) Procede et systeme ameliores de conversion d'un signal vocal
EP1730728A1 (fr) Procede et systeme de conversion rapides d'un signal vocal
EP1606792A1 (fr) Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP1846918A1 (fr) Procede d'estimation d'une fonction de conversion de voix
Park et al. Artificial bandwidth extension of narrowband speech signals for the improvement of perceptual speech communication quality
JP2583883B2 (ja) 音声分析装置および音声合成装置
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
FR2796189A1 (fr) Procedes et dispositifs de codage et de decodage audio
FR2815160A1 (fr) Procede et dispositif de codage d'un signal audiofrequence
WO2001003117A1 (fr) Codage audio avec liftrage adaptif
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz
WO2001003120A1 (fr) Codage audio avec composants harmoniques
KR19980035867A (ko) 음성 데이터 부호화/복호화장치 및 그 방법

Legal Events

Date Code Title Description
ST Notification of lapse