BE1005622A3 - Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole. - Google Patents

Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole. Download PDF

Info

Publication number
BE1005622A3
BE1005622A3 BE9200956A BE9200956A BE1005622A3 BE 1005622 A3 BE1005622 A3 BE 1005622A3 BE 9200956 A BE9200956 A BE 9200956A BE 9200956 A BE9200956 A BE 9200956A BE 1005622 A3 BE1005622 A3 BE 1005622A3
Authority
BE
Belgium
Prior art keywords
speech
spectral envelope
period
block
time
Prior art date
Application number
BE9200956A
Other languages
English (en)
Inventor
Rak Lee Chong
Kyu Park Yong
Original Assignee
Korea Telecomm Authority
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Telecomm Authority filed Critical Korea Telecomm Authority
Application granted granted Critical
Publication of BE1005622A3 publication Critical patent/BE1005622A3/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

la présente invention concerne une technologie relative à un système de synthèse de la parole et utilise une décomposition en forme d'ondes périodiques et un procédé de réeinsertion qui concerne un procédé de codage dans lequel des signaux d'intervalles de sons sonores faisant partie d'un discours original sont décomposés en ondelettes dont chacune correspond à une forme d'ondes de parole pour une période réalisée par chaque impulsion glottale et les ondelettes sont respectivement codées et mises en mémoire, et concerne une technologie par laquelle les ondelettes les plus proches des positions dans lequelles les ondelettes doivent être inséreés sont sélectionnées à partir d'ondelettes mises en mémoire, décodées et superposées l'une à l'autre de telle sorte que la qualité du son original puisse être maintenue et que la durée et la fréquence du pas des segments de discours puissent être réglées de manière arbitraire.

Description


   <Desc/Clms Page number 1> 
 



  DESCRIPTION METHODES DE CODAGE DE SEGMENTS DU DISCOURS ET DE REGLAGE DU PAS POUR DES SYSTEMES DE SYNTHESE DE LA PAROLE Domaine de l'invention 
L'invention concerne un système de synthèse de la parole ainsi qu'une méthode de synthèse de la parole et plus particulièrement une méthode de codage de segments du discours et de réglage du pas qui améliorent significativement la qualité de la parole synthétisée. 



   Le principe de la présente invention peut s'appliquer directement, non seulement à la synthèse de la parole, mais également à la synthèse d'autres sons tels que les sons d'instruments de musique ou de chansons, chacun d'eux ayant une propriété semblable à celle de la parole ou encore à un codage de parole de très petite vitesse ou à une transformation de la vitesse de la parole. La présente invention sera décrite ci-dessous en se concentrant sur la synthèse de la parole. 



   Il existe des procédés de synthèse de la parole pour la mise en oeuvre d'un système de synthèse texte-paroles qui peut synthétiser un vocabulaire innombrable en transformant un texte, c'est-à-dire des chaînes de caractères en paroles. Toutefois, un procédé aisé à mettre en oeuvre et utilisé le plus fréquemment est un procédé de synthèse segmentaire de la parole, également appelé procédé de 

 <Desc/Clms Page number 2> 

 synthèse par concaténation, dans lequel la parole humaine est échantillonnée et analysée en unités phonétiques telles que des semi-syllabes ou des diphonèmes pour obtenir de courts segments de paroles qui sont alors codés et mis en mémoire et une fois que le texte est entré, il est transformé en transcriptions phonétiques.

   Les segments de paroles correspondant aux transcriptions phonétiques sont alors extraits séquentiellement de la mémoire et décodés pour synthétiser la parole correspondant au texte entré. 



   Dans ce type de méthode de synthèse segmentaire de la parole, un des éléments les plus importants qui commande la qualité de la parole synthétisée est la méthode de codage des segments de paroles. Dans le procédé de synthèse segmentaire de la parole de l'état de la technique du système de synthèse de la parole, un procédé de codage de la voix procurant une parole de qualité médiocre est principalement utilisé comme procédé de codage de la parole pour mettre en mémoire des segments de discours. Toutefois, ceci est une des causes les plus importantes de réduction de la qualité de la parole synthétisée. Une brève description du procédé de codage segmentaire de la parole de l'état de la technique est exposée ci-après. 



   Les procédés de codage de la parole peuvent être subdivisés approximativement en procédés de codage en forme d'ondes procurant une parole de bonne qualité et en procédés de codage de la voix procurant une parole de qualité médiocre. Etant donné que le procédé de codage en forme d'ondes est un procédé qui vise à transférer les ondes de la parole telles quelles, il est très difficile de modifier la fréquence de pas et la durée, si bien qu'il est impossible de régler l'intonation et la vitesse de la parole lorsque la synthèse de la parole est mise en oeuvre. Il est également impossible d'associer les segments de parole 

 <Desc/Clms Page number 3> 

 entre eux sans à-coups, si bien que le procédé de codage en forme d'ondes est fondamentalement inapproprié pour le codage de segments de discours. 



   En revanche, lorsque le procédé de codage de la voix (aussi appelé procédé analyse-synthèse) est utilisé, le modèle de pas et la durée du segment de discours peuvent être modifiés de manière arbitraire. En outre, étant donné que les segments de discours peuvent également être associés en souplesse par interpolation des paramètres d'estimation de l'enveloppe spectrale, si bien que le procédé de codage de la voix est approprié pour le moyen de codage destiné à la synthèse texte en paroles, des procédés de codage de la voix tels que le codage prédictif linéaire (LPC) ou le codage formant de la voix, sont adoptés dans la plupart des systèmes actuels de synthèse de la parole. 



  Toutefois, étant donné que la qualité de la parole décodée est médiocre lorsque la parole est codée en utilisant le procédé de codage de la voix, la parole synthétisée obtenue en décodant les segments de discours mis en mémoire et en les soumettant à une concaténation, ne peut avoir une qualité meilleure que celle offerte par le procédé de codage de la voix. 



   Les tentatives entreprises à ce jour pour améliorer la qualité de la parole offerte par le procédé de codage de la voix remplacent le train d'impulsions utilisé par un signal d'excitation qui possède une forme ondulaire moins artificielle. Une telle tentative a été d'utiliser une forme d'ondes ayant une hauteur de crête inférieure à celle de l'impulsion, par exemple une forme d'onde triangulaire ou une forme d'onde en demi-cercle ou encore une forme semblable à une impulsion glottale. Une autre tentative a été de sélectionner une impulsion de pas d'échantillonnage d'une ou plusieurs des périodes de pas de signaux résiduels 

 <Desc/Clms Page number 4> 

 obtenues par filtration inversée et d'utiliser, au lieu de l'impulsion, une impulsion d'échantillonnage pour la totalité du temps ou pour un laps de temps essentiellement long.

   Toutefois, de telles tentatives pour remplacer l'impulsion par une impulsion d'excitation ayant d'autres formes d'ondes n'ont pas amélioré la qualité de la parole ou seulement dans une moindre mesure, si elles l'ont fait et n'ont jamais obtenu une parole synthétisée d'une qualité proche de celle de la voix humaine. 



   L'objet de la présente invention est de synthétiser une parole de qualité supérieure ayant un caractère naturel et une intelligibilité à l'égal de ceux de la parole humaine en utilisant un nouveau procédé de codage de segments de discours permettant d'obtenir une parole de bonne qualité et un bon réglage du pas. Le procédé de la présente invention combine les avantages du procédé de codage en forme d'onde qui procure une parole de bonne qualité, mais sans l'aptitude de réglage du pas et le procédé de codage de la voix qui procure un réglage du pas, mais produit une parole de qualité médiocre. 



   La présente invention utilise un procédé de décomposition périodique en forme d'ondes constituant un procédé de codage qui décompose un signal dans un secteur de sons sonores dans le discours original en ondelettes équivalant à des formes d'ondes de paroles d'une période obtenues par des impulsions glottales pour coder et mémoriser le signal décomposé, ainsi qu'un procédé de réinsertion d'ondelettes basé sur une variation temporelle, à savoir un procédé de synthèse en forme d'ondes capable de procurer un réglage arbitraire de la durée et de la fréquence du pas des segments de discours, tout en maintenant la qualité de la parole originale en sélectionnant parmi les ondelettes mises en mémoire celles qui sont les plus proches des 

 <Desc/Clms Page number 5> 

 positions dans lesquelles les ondelettes doivent être placées,

   puis en décodant et en superposant les ondelettes sélectionnées. Pour les objets de la présente invention, les sons musicaux sont traités comme des sons sonores. 



   Les objets susmentionnés doivent être considérés comme représentant simplement quelques-unes des caractéristiques et des applications les plus pertinentes de l'invention. 



  D'autres résultats avantageux peuvent être obtenus en appliquant d'une manière différente l'invention révélée ou en modifiant l'invention dans le cadre de la publication. 



  En conséquence, d'autres objets et une compréhension plus complète de l'invention peuvent être obtenus en se référant à la fois au résumé de l'invention et à la description détaillée ci-dessous qui décrivent la forme de réalisation préférée, en plus de la portée de l'invention définie par les revendications à la lumière des figures annexées. 



  RESUME DE L'INVENTION 
Des procédés de codage de segments de discours et de réglage du pas pour des systèmes de synthèse de la parole de la présente invention sont définis par les revendications, des formes de réalisation spécifiques étant représentées dans les dessins annexés. Pour résumer l'invention, celle-ci concerne un procédé capable de synthétiser une voix d'une qualité proche à celle de la parole naturelle en réglant sa durée et sa fréquence de pas par codage d'ondelettes de chaque période en forme d'ondes, en les mémorisant et, au moment de la synthèse, en les décodant et en les insérant à des repères temporels appropriés de manière à posséder le modèle de pas désiré et ensuite en les superposant pour générer une parole naturelle, une chanson, de la musique et autres. 

 <Desc/Clms Page number 6> 

 



   La présente invention comprend un procédé de codage de segments de discours destiné à être utilisé avec un système de synthèse de la parole, dans lequel le procédé comprend la formation d'ondelettes en procurant des paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse. Cette caractéristique est réalisée en analysant un signal numérique périodique ou quasi périodique, tel qu'une parole sonore, à l'aide de la technique d'estimation du spectre. Un signal original est d'abord   déconvolué   en une réponse impulsionnelle représentée par les paramètres d'enveloppe spectrale et en un signal de train d'impulsions de pas périodiques ou quasi périodiques ayant une enveloppe spectrale pratiquement plate.

   Un signal d'excitation obtenu en ajoutant des échantillons à valeur zéro à un signal d'impulsion de pas d'une période obtenu par segmentation du signal de train d'impulsions de pas, période par période, de telle sorte qu'une impulsion de pas soit contenue dans chaque période et une réponse impulsionnelle correspondant à un jeu de paramètres d'enveloppe spectrale dans le même intervalle de temps que celui du signal d'excitation sont convolués pour former une ondelette pour cette période. 



   Les ondelettes, plutôt que d'être formées par codage en forme d'ondes et mémorisées à l'avance, peuvent être formées en appariant l'information obtenue par codage en forme d'ondes d'un signal d'impulsion de pas de chaque intervalle de période, obtenu par segmentation, avec une information obtenue en codant un jeu de paramètres d'estimation d'enveloppe spectrale ayant le même intervalle de temps que celui de l'information ci-dessus ou bien avec une réponse impulsionnelle correspondant aux paramètres et en mettant en mémoire les informations quant aux ondelettes. 



  Il existe deux procédés pour produire une parole synthétique en utilisant l'information des ondelettes mises en 

 <Desc/Clms Page number 7> 

 mémoire. Le premier procédé est de constituer chaque ondelette en convoluant un signal d'excitation obtenu en ajoutant des échantillons à valeur zéro après un signal d'impulsion de pas d'une période, obtenu par décodage de l'information et une réponse impulsionnelle correspondant aux paramètres décodés d'enveloppe spectrale dans le même intervalle de temps que celui du signal d'excitation et ensuite, d'affecter les ondelettes à des repères temporels appropriés de telle sorte qu'elles possèdent un modèle de pas et un modèle de durée désirés, de les insérer aux repères temporels et ensuite, de les superposer. 



   Le second procédé consiste à constituer un signal synthétique d'excitation en affectant les signaux d'impulsions de pas, obtenus par décodage des informations des ondelettes, à des repères temporels appropriés de telle sorte qu'ils possèdent un modèle de pas et un modèle de durée désirés et en les insérant aux repères temporels, et à constituer un jeu de paramètres synthétiques d'enveloppe spectrale, soit en comprimant soit en élargissant dans le temps le jeu de fonctions temporelles des paramètres sur une base, sous-segment par sous-segment, en fonction du fait que la durée d'un sous-segment dans un segment de discours destiné à être synthétisé est respectivement plus courte ou plus longue que celle d'un sous-segment correspondant dans le segment de discours original ;

   ou bien en insérant le jeu de fonctions temporelles des paramètres d'une période de manière synchrone avec le signal apparié d'impulsion de pas d'une période inséré pour former le signal synthétique d'excitation et pour convoluer le signal synthétique d'excitation, et une réponse impulsionnelle correspondant au jeu de paramètres synthétiques d'enveloppe spectrale en utilisant un filtre à variation temporelle ou en utilisant une technique de convolution rapide à base FFT (Fast Fourier Transform = transformation accélérée de 

 <Desc/Clms Page number 8> 

 Fourier). Dans ce dernier procédé, un intervalle blanc apparaît lorsqu'une période de pas désirée est plus longue que la période de pas originale et un intervalle de chevauchement apparaît lorsque la période de pas désirée est plus courte que la période de pas originale. 



   Dans l'intervalle de chevauchement, le signal synthétique d'excitation est obtenu en ajoutant l'un à l'autre les signaux chevauchés d'impulsions de pas ou en sélectionnant l'un d'entre eux, et le paramètre d'enveloppe spectrale est obtenu soit en sélectionnant un des paramètres chevauchés d'enveloppe spectrale, soit en utilisant une valeur moyenne des deux paramètres chevauchés. 



   Dans l'intervalle blanc, le signal synthétique d'excitation est obtenu en le remplissant avec des échantillons à valeur zéro, et le paramètre synthétique d'enveloppe spectrale est obtenu en répétant les valeurs des paramètres d'enveloppe spectrale aux points de début et de fin des périodes précédente et suivante, avant et après le centre de l'intervalle blanc, ou bien en répétant une des deux valeurs ou encore une valeur moyenne des deux valeurs, ou encore en le remplissant de valeurs et en reliant les deux valeurs en souplesse. 



   La présente invention comprend, en outre, un procédé de réglage du pas d'un système de synthèse de la parole capable de régler la durée et le pas d'un segment de discours par un procédé de réinsertion d'ondelettes basé sur une variation temporelle, qui rend possible la synthèse de voix d'une qualité proche de celle de la voix humaine en codant des repères temporels limites importants tels que le point de départ, le point final et les points d'état stationnaire dans un segment de discours, ainsi que les positions d'impulsions de pas de chaque ondelette ou chaque 

 <Desc/Clms Page number 9> 

 signal d'impulsion de pas et en les mettant en mémoire simultanément chaque segment de discours, et, au moment de la synthèse,

   en obtenant une fonction de la variation temporelle en comparant les repères temporels limites désirés et les repères temporels limites originaux mis en mémoire de manière correspondante aux repères temporels limites désirés ; en recherchant les repères temporels originaux correspondant à chaque position d'impulsion de pas désirée en utilisant la fonction de variation temporelle ; en sélectionnant les ondelettes dont les positions d'impulsions de pas sont les plus proches des repères temporels originaux et en les insérant à des positions d'impulsions de pas ; et en superposant les ondelettes. 



   Le procédé de réglage du pas peut englober, en outre, la production d'une parole synthétique en sélectionnant des signaux d'impulsions de pas d'une période et des paramètres d'enveloppe spectrale correspondant aux signaux d'impulsions de pas, au lieu des ondelettes, en les insérant, et en convoluant les signaux d'impulsions de pas insérés et la réponse impulsionnelle correspondant aux paramètres d'enveloppe spectrale pour produire des ondelettes et superposer les ondelettes produites ou bien en convoluant un signal synthétique d'excitation obtenu par superposition des signaux insérés d'impulsions de pas, et une réponse impulsionnelle à variation temporelle correspondant à des paramètres synthétiques d'enveloppe spectrale, réalisés par concaténation des paramètres insérés d'enveloppe spectrale. 



   Un dispositif pour la synthèse de la parole sonore est révélé et englobe un sous-bloc de décodage 9 produisant une information d'ondelettes par décodage de codes d'ondelettes provenant du bloc 5 de mémorisation de segments de discours. Un sous-bloc 10 de réglage de la durée produit des données de variation temporelle à partir de l'entrée de 

 <Desc/Clms Page number 10> 

 données de durée provenant d'un sous-système 2 de génération de prosodie et de repères temporels limites inclus dans une information de tête provenant du bloc 5 de mémorisation de segments de discours.

   Un sous-bloc 11 de réglage du pas produit une information quant aux positions d'impulsions de pas de telle sorte qu'elle possède un modèle d'intonation tel qu'indiqué par des données de modèle d'intonation provenant de l'entrée d'information de tête du bloc de mémorisation 5 de segments de discours, par les données de modèle d'intonation provenant du sous-système de génération de prosodie et par l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée.

   Un sous-bloc 12 de réglage de l'énergie produit une information quant au gain de telle sorte que la parole synthétisée possède le modèle d'accent indiqué par les données de modèle d'accentuation de l'entrée des données de modèle d'accentuation provenant du sous-système 2 de génération de prosodie, de l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée et de l'information quant aux positions d'impulsions de pas provenant du sous-bloc 11 de réglage du pas.

   Un sous-bloc 13 d'assemblage en forme d'ondes produit un signal de parole sonore émanant de l'entrée de l'information d'ondelettes provenant du sous-bloc de décodage 9, de l'information quant à la variation temporelle provenant du sous-bloc 10 de réglage de la durée, de l'information quant aux positions d'impulsions de pas provenant du sous-bloc 11 de réglage du pas et de l'information quant au gain provenant du sous-bloc 12 de réglage de l'énergie. 



   Ainsi, conformément à la présente invention, le texte est entré dans le sous-système 1 de prétraitement phonétique où il est transformé en symboles de transcription phonétique et en données d'analyse syntaxique. Les données d'analyse syntaxique sont envoyées à un sous-système 2 de 

 <Desc/Clms Page number 11> 

 génération de prosodie. Le sous-système 2 de génération de prosodie envoie une information prosodique au sous-système 3 de concaténation de segments de discours. La sortie de symboles de transcription phonétique provenant du sous-système de prétraitement est également entrée dans le sous-système 3 de concaténation de segments de discours. 



  Les symboles de transcription phonétique sont alors entrés dans le bloc 4 de sélection de segments de discours et les données prosodiques correspondantes sont entrées dans le bloc 6 de synthèse de sons sonores et dans le bloc de synthèse 7 de sons sourds. Dans le bloc 4 de sélection de segments de discours, chaque symbole de transcription phonétique entré est apparié à une unité de synthèse correspondante de segments de discours et une adresse de mémoire de l'unité de synthèse appariée correspondant à chaque symbole de transcription phonétique entré est recherchée dans une table de segments de discours dans le bloc de mémorisation 5 de segments de discours.

   L'adresse de l'unité de synthèse appariée est alors envoyée au bloc 5 de mémorisation de segments de discours, où le segment de discours correspondant sous forme d'ondelette codée est sélectionné pour chacune des adresses des unités de synthèse appariées. Le segment de discours sélectionné sous forme d'ondelette codée est envoyé au bloc de synthèse 6 de sons sonores destiné aux sons sonores et au bloc de synthèse 7 de sons sourds destiné aux sons sourds.

   Le bloc de synthèse 6 de sons sonores, qui utilise le procédé de réinsertion d'ondelettes basé sur la variation temporelle pour synthétiser les sons de la parole, et le bloc de synthèse 7 de sons sourds envoient des signaux numériques de paroles synthétiques au convertisseur numérique-analogique pour transformer les signaux numériques entrés en signaux analogiques qui constituent les sons de la parole synthétisée. 

 <Desc/Clms Page number 12> 

 



   Pour la mise en oeuvre de la présente invention, de la parole et/ou de la musique sont d'abord enregistrées sur une bande magnétique. Le son résultant est alors transformé en passant de signaux analogiques en signaux numériques, en soumettant à un filtrage passe-bas les signaux analogiques et en acheminant ensuite les signaux filtrés à un convertisseur analogique-numérique. Les signaux de paroles numérisés obtenus sont alors segmentés en un certain nombre de segments de discours dont les sons correspondent à des unités de synthèse telles que des phonèmes, des diphonèmes, des demi-syllabes et analogues, en utilisant des instruments d'édition de la parole. Chaque segment de discours obtenu est alors différencié en segments de discours sonores et sourds en utilisant une détection connue sonore/sourd, ainsi que des instruments d'édition de la parole. 



  Les segments de discours sourds sont encodés par des procédés connus de codage de la voix, qui utilisent des bruits blancs aléatoires comme source de parole sourde. Les procédés de codage de la voix englobent des procédés LPC, des procédés d'homomorphisme, des procédés de codage formant de la voix, et analogues. 



   Les segments de discours sonores sont utilisés pour former des ondelettes sj (n) conformément au procédé révélé ci-dessous en figure 4. Les ondelettes sj (n) sont alors encodées en utilisant un procédé de codage approprié en forme d'ondes. Des procédés de codage connus en forme d'ondes englobent la modulation par impulsions codées (PCM), la modulation codée par impulsion différentielle adaptable (ADPCM), le codage adaptable aux prévisions (APC) et analogues. Les segments de discours sonores encodés obtenus sont mémorisés dans le bloc 5 de mémorisation de segments de discours, comme représenté dans les figures 6A et 6B. Les segments de discours sourds encodés sont également mis en mémoire dans le bloc 5 de mémorisation de 

 <Desc/Clms Page number 13> 

 segments de discours. 



   Les caractéristiques les plus pertinentes et les plus importantes de la présente invention ont été décrites ci-dessus dans le but de mieux faire comprendre la description détaillée de l'invention qui suit et pour que la contribution de la présente invention à la technique soit complètement comprise. Des caractéristiques supplémentaires de l'invention décrite ci-après font l'objet des revendications de l'invention. Le spécialiste de la technique peut comprendre que la conception et la forme de réalisation spécifique révélées dans le présent document peuvent être aisément utilisées comme bases pour modifier ou pour concevoir d'autres structures pour la mise en oeuvre des objets analogues à ceux de la présente invention.

   En outre, l'homme de métier peut se rendre compte que de telles constructions équivalentes ne sortent pas du cadre et de l'esprit de l'invention telle que présentée dans les revendications. 



  BREVE DESCRIPTION DES FIGURES 
Pour obtenir une idée plus complète de la nature et des objets de l'invention, il y a lieu de faire référence à la description détaillée ci-après, prise conjointement avec les dessins annexés dans lesquels : la figure 1 illustre le système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole ; la figure 2 illustre le sous-système de concaténation de segments de discours ; les figures 3A à 3T illustrent des formes d'ondes pour expliquer le principe du procédé de décomposition en forme d'ondes périodiques, ainsi que le procédé de réinsertion d'ondelettes selon la présente invention ; 

 <Desc/Clms Page number 14> 

 la figure 4 illustre un schéma logique pour expliquer le procédé de décomposition en forme d'ondes périodiques ;

   les figures 5A à 5E illustrent des schémas logiques pour expliquer le processus du procédé de déconvolution aveugle ; les figures 6A et 6B illustrent des formats de codes pour l'information quant aux segments de discours sonores mise en mémoire dans le bloc de mémorisation de segments de discours ; la figure 7 illustre le bloc de synthèse de paroles sonores selon la présente invention ; et les figures 8A et 8B illustrent des graphiques pour expliquer le procédé de réglage de la durée et du pas selon la présente invention. 



   Les chiffres de référence similaires se réfèrent à des parties similaires tout au long des diverses vues des dessins. 



  DESCRIPTION DETAILLEE DE L'INVENTION 
La structure du système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole de la technique antérieure consiste en trois sous-systèmes : A. Un sous-système de prétraitement phonétique (1) ; B. Un sous-système de génération de prosodie (2) ; et C. Un sous-système (3) de concaténation de segments de discours, représenté en figure 1. Lorsque le texte est entré à partir d'un clavier, d'un ordinateur ou de n'importe quel autre système, dans le système de synthèse texte-paroles, le sous-système de prétraitement phonétique (1) analyse la syntaxe du texte et modifie alors le texte pour obtenir une chaîne de symboles de transcription phonétique en y appliquant des règles de recodage phonétique.

   Le système de génération de prosodie (2) génère des données de modèle d'intonation, ainsi que des données de 

 <Desc/Clms Page number 15> 

 modèle d'accentuation, en utilisant des données d'analyse syntaxique, de telle sorte qu'une intonation et une accentuation appropriées puissent s'appliquer à la chaîne de symboles de transcription phonétique et ensuite, envoie les données au sous-système (3) de concaténation de segments de discours. Le sous-système de génération de prosodie (2) procure également les données quant à la durée de chaque phonème au sous-système de concaténation de segments de discours (3). 



   Les trois données prosodiques ci-dessus,   c'est-à-dire   les données de modèle d'intonation, les données de modèle d'accentuation et les données concernant la durée de chaque phonème sont en général envoyées au sous-système de concaténation de segments de discours (3) conjointement à la chaîne de symboles de transcription phonétique générée par le sous-système de prétraitement phonétique (1), bien qu'elles puissent être transférées au système de concaténation de segments de discours (3) de manière indépendante à la chaîne de symboles de transcription phonétique. 



   Le sous-système de concaténation (3) de segments de discours génère une parole continue en allant chercher successivement des segments de discours appropriés qui sont codés et mémorisés dans sa mémoire, en fonction de la chaîne de symboles à transcription phonétique (non représentée) et en les décodant. Au moment où le sous-système de concaténation (3) de segments de discours peut générer une parole synthétique ayant l'intonation, l'accentuation et la vitesse de parole, telles que l'envisage le sous-système de génération prosodique (2) en réglant l'énergie (intensité), la durée et la période de pas de chaque segment de discours en fonction de l'information prosodique. 



   La présente invention améliore de manière remarquable 

 <Desc/Clms Page number 16> 

 la qualité de la parole, par comparaison à la parole synthétisée de la technique antérieure en améliorant le procédé de codage pour mettre en mémoire les segments de discours dans le sous-système de concaténation (3) de segments de discours. Une description quant à la mise en oeuvre du sous-système (3) de concaténation de segments de discours en se référant à la figure 2 suit. 



   Lorsque la chaîne des symboles de transcription phonétique formée par le sous-système de prétraitement phonétique (1) est entrée dans le bloc de sélection (4) de segments de discours, le bloc de sélection (4) de segments de discours sélectionne successivement les unités de synthèse telles que les diphonèmes et les demi-syllabes en inspectant en continu la chaîne des symboles entrants à transcription phonétique et recherche dans sa mémoire les adresses des segments de discours correspondant aux unités de synthèse sélectionnées, comme indiqué dans le tableau 1. 



  Le tableau 1 représente un exemple de la table de segments de discours, conservée dans le bloc de sélection (4) de segments de discours, qui sélectionne des segments de discours à base de diphonèmes. Ceci donne lieu à la formation d'une adresse du segment de discours sélectionné, qui est envoyée au bloc de mémorisation 5 de segments de discours. 



   Les segments de discours correspondant aux adresses des segments de discours sont codés conformément au procédé de la présente invention, qui sera décrit ultérieurement, et ils sont mémorisés aux adresses de la mémoire du bloc de mémorisation (5) de segments de discours. 

 <Desc/Clms Page number 17> 

 Tableau 1 
 EMI17.1 
 
<tb> 
<tb> Symboles <SEP> de <SEP> transcription <SEP> Adresses <SEP> de <SEP> mémoire
<tb> phonétique <SEP> des <SEP> segments <SEP> de <SEP> discours <SEP> (hexadécimale)
<tb> /ai/ <SEP> 0000
<tb> /au/ <SEP> 0021
<tb> /ab/ <SEP> 00A3
<tb> /ad/ <SEP> 00FF
<tb> # <SEP> #
<tb> # <SEP> #
<tb> # <SEP> #
<tb> 
 
Lorsque l'adresse du segment de discours sélectionné provenant du bloc de sélection (4) de segments de discours est entrée dans le bloc de mémorisation (5) de segments de discours, le bloc de mémorisation (5)

   de segments de discours va chercher dans la mémoire du bloc de mémorisation (5) de segments de discours les données de segments de discours correspondantes et les envoie à un bloc de synthèse (6) de sons sonores s'il s'agit d'un son sonore ou à un son sonore fricatif ou encore à un bloc de synthèse (7) de sons sourds   s'il   s'agit d'un son sourd. C'est-à-dire que le bloc de synthèse (6) de sons sonores synthétise un signal numérique de parole correspondant aux segments de discours de sons sonores ; et le bloc de synthèse (7) de sons sourds synthétise un signal numérique de parole correspondant aux segments de discours de sons sourds. Chaque signal de parole numérique synthétisé du bloc de synthèse (6) de sons sonores et du bloc de synthèse (7) de sons sourds est alors transformé en un signal analogique. 



   Ainsi, le signal numérique de parole synthétisé 

 <Desc/Clms Page number 18> 

 obtenu, qui sort du bloc de synthèse (6) de sons sonores ou du bloc de synthèse (7) de sons sourds, est alors envoyé à un bloc (8) de conversion N/A consistant en un convertisseur numérique-analogique, en un filtre analogique passe-bas et en un amplificateur analogique, et il est transformé en un signal analogique pour procurer un son de parole synthétisé. 



   Lorsque le bloc de synthèse (6) de sons sonores et le bloc de synthèse (7) de sons sourds réalisent la concaténation des segments de discours, ils procurent la prosodie telle que recherchée par le sous-système de génération de prosodie (2) à la parole synthétisée en réglant, de manière appropriée, la durée, l'intensité et la fréquence de pas du segment de discours sur base de l'information prosodique, c'est-à-dire les données de modèle d'intonation, les données de modèle d'accentuation et les données de durée. 



   La préparation du segment de discours pour la mémorisation dans le bloc de mémorisation (5) de segments de discours est la suivante. Une unité de synthèse est d'abord sélectionnée. De telles unités de synthèse englobent des phonèmes, des allophones, des diphonèmes, des syllabes, des demi-syllabes, des unités CVC, VCV, CV, VC (dans le cas   présent, "C" désigne   une   consonne,"V"désigne   un phonème de voyelle, respectivement) ou encore des combinaisons de ces derniers. Les unités de synthèse qui sont le plus largement utilisées dans le procédé de synthèse actuel de la parole sont les diphonèmes et les demi-syllabes. 



   Le segment de discours correspondant à chaque élément d'un agrégat d'unités de synthèse est segmenté à partir des échantillons de paroles qui sont effectivement prononcé par un être humain. En conséquence, le nombre d'éléments dans l'agrégat d'unités de synthèse est le même que le nombre de 

 <Desc/Clms Page number 19> 

 segments de discours. Par exemple, dans le cas où des demi-syllabes sont utilisées comme unités de synthèse en anglais, le nombre de demi-syllabes est d'environ 1.000 et, par conséquent, le nombre de segments de discours est également d'environ 1.000. En général, de tels segments de discours sont constitués par l'intervalle de son sourd et par l'intervalle de son sonore. 



   Dans la présente invention, le segment de discours sourd et le segment de discours sonore obtenus par segmentation du segment de discours de la technique antérieure en intervalle de son sourd et en intervalle de son sonore sont utilisés comme unité de synthèse de base. La portion de synthèse de la parole de sons sourds est réalisée conformément à la technique antérieure comme décrit ci-dessous. La synthèse de la parole de sons sonores est réalisée conformément à la présente invention. 



   Ainsi, les segments de discours sourds sont codés au bloc de synthèse (7) de sons sourds, représenté en figure 2. Dans le cas du décodage du son sourd, il a été noté dans la technique antérieure que l'utilisation d'un signal de bruit blanc artificiel aléatoire comme signal d'excitation pour un filtre de synthèse ne détériore, ni ne diminue la qualité de la parole décodée. En conséquence, dans le codage et le décodage de segments de discours sourds, le procédé de codage de la voix de la technique antérieure peut être appliqué tel quel, procédé dans lequel le bruit blanc est utilisé comme signal d'excitation.

   Par exemple, dans la synthèse de la technique antérieure, des sons sourds, le signal de bruit blanc peut être généré par un algorithme de génération de nombres aléatoires et il peut être utilisé, ou bien le signal de bruit blanc généré à l'avance et mémorisé peut être retiré de la mémoire lors de la synthèse ou bien un signal résiduel obtenu par filtra- 

 <Desc/Clms Page number 20> 

 tion de l'intervalle de son sourd de la parole réelle utilisant un filtre inverse à enveloppe spectrale et stocké dans la mémoire peut en être retiré lors de la synthèse.

   S'il n'est pas nécessaire de modifier la durée du segment de discours sourd, un procédé de codage extrêmement simple peut être utilisé, dans lequel la portion de son sourd est codée conformément à un procédé de codage en forme d'ondes, tel que la modulation par impulsion codée (PCM) ou la modulation codée par impulsion différentielle adaptable   (ADPCM),   et est mise en mémoire. Elle est alors décodée pour être utilisée lors de la synthèse. 



   La présente invention concerne un procédé de codage de synthèse des segments de discours sonores, qui commande la qualité de la parole synthétisée. Une description concernant un tel procédé en insistant sur le bloc de mémorisation de segments de discours et sur le bloc de synthèse de sons sonores (6) est représentée en figure 2. 



   Les segments de discours sonores parmi les segments de discours stockés dans la mémoire du bloc de mémorisation (5) des segments de discours, sont décomposés au préalable en ondelettes de composants périodiques de pas conformément au procédé de décomposition en forme d'ondes périodiques de la présente invention et y sont mis en mémoire. Le bloc de synthèse (6) de sons sonores synthétise la parole possédant le pas désiré et les modèles de durée en sélectionnant et en arrangeant de manière appropriée les ondelettes en fonction du procédé de réinsertion d'ondelettes basé sur une variation temporelle. Le principe de ces procédés est décrit ci-dessous en se référant aux dessins. 



   La parole sonore s (n) est un signal périodique obtenu lorsqu'une onde glottale périodique générée par les cordes vocales passe par le filtre acoustique du tractus vocal 

 <Desc/Clms Page number 21> 

 V (f) constitué par la cavité buccale, la cavité pharyngienne et la cavité nasale. En l'occurrence, on suppose que le filtre du tractus vocal V (f) englobe une caractéristique de fréquence due à un effet de rayonnement provenant des lèvres.

   Un spectre S (f) de la parole sonore est caractérisé par : 1. une structure fine variant rapidement par rapport à la   fréquence'If" ; et   2. une enveloppe spectrale variant lentement par rapport à cette dernière, la première citée étant due à la périodicité du signal de parole sonore et la dernière citée reflétant le spectre d'une impulsion glottale et de la caractéristique de fréquence du filtre du tractus vocal. 



   Le spectre S (f) de la parole sonore adopte la même forme que celle obtenue lorsque la structure fine d'un train d'impulsions dû à des composantes harmoniques qui existent à des multiples entiers de la fréquence de pas Fo est multipliée par une fonction d'enveloppe spectrale H (f). 



  En conséquence, la parole sonore s (n) peut être conçue comme un signal de sortie lorsqu'un signal de train d'impulsions périodiques de pas possédant une enveloppe spectrale plate et la même période que celle de la parole sonore   S (n),   est entré dans un filtre à variation temporelle ayant la même caractéristique de réponse de fréquence que celle de la fonction d'enveloppe spectrale H (f) de la parole sonore s (n). En considérant ceci dans le domaine temporel, la parole sonore s (n) constitue une convolution d'une réponse impulsionnelle h (n) du filtre H (f) et du signal e (n) de train d'impulsions périodiques de pas.

   Etant donné que H (f) correspond à la fonction d'enveloppe spectrale de la parole sonore s (n), le filtre à variation temporelle dont H (f) représente sa caractéristique de réponse de fréquence, est désigné comme étant un filtre d'enveloppe spectrale ou encore un filtre de synthèse. 

 <Desc/Clms Page number 22> 

 



   En figure 3A, un signal pour 4 périodes d'une forme d'onde glottale est illustré. Communément, les formes d'ondes des impulsions glottales composant la forme d'ondes glottales sont mutuellement semblables, mais pas complètement identiques, et, de la même manière, les temps d'intervalles entre les impulsions glottales adjacentes sont mutuellement similaires, mais pas complètement égaux. Comme décrit ci-dessus, la forme d'ondes s (n) de la parole sonore de la figure 3C est générée lorsque la forme d'onde glottale g (n) représentée en figure 3A est filtrée par le filtre V (f) du tractus vocal.

   La forme d'onde glottale g (n) est constituée par les impulsions glottales gl (n), g2 (n), g3 (n) et g4 (n) distinctes l'une de l'autre en termes de temps et lorsqu'elles sont filtrées par le filtre V (f) du tractus vocal, les ondelettes sl (n), s2 (n), s3 (n) et s4 (n) représentées en figure 3B sont générées. La forme d'ondes s (n) de la parole sonore représentée en figure 3C est générée par superposition de telles ondelettes. 



   Un concept de base de la présente invention réside dans le fait que, si l'on peut obtenir les ondelettes qui composent un signal de parole sonore en décomposant le signal de parole sonore, on peut synthétiser la parole avec un modèle arbitraire d'accent et d'intonation en modifiant l'intensité des ondelettes et les intervalles de temps entre elles. 



   Etant donné que la forme d'ondes s (n) de la parole sonore représentée en figure 3C a été générée en superposant les ondelettes qui se chevauchent l'une l'autre dans le temps, il est difficile de récupérer les ondelettes de la forme d'ondes de parole s (n). 



   Afin que les ondes de chaque période ne se chevauchent pas mutuellement dans le temps, les ondes doivent être des 

 <Desc/Clms Page number 23> 

 ondes pointues, dans lesquelles l'énergie est concentrée autour d'un point dans le temps, comme indiqué en figure 
 EMI23.1 
 3F. 



   Une forme d'ondes pointue est une forme d'ondes qui possède une enveloppe spectrale pratiquement plate dans le domaine de la fréquence. Lorsqu'une forme d'ondes s (n) de parole sonore est donnée, un signal e (n) de train d'impulsions de pas périodiques possédant une enveloppe spectrale plate, comme représenté en figure 3F, peut être obtenue comme sortie en évaluant l'enveloppe du spectre S (f) de la forme d'ondes s (n) et en l'entrant dans un filtre inverse à enveloppe spectrale   l/H   (f) ayant l'inverse de la fonction d'enveloppe (H) comme caractéristique de fréquence. Les figures 4,5A et 5B concernent cette étape. 



   Etant donné que les formes d'ondes à impulsions de pas de chaque période composant le signal e (n) de train d'impulsions de pas périodiques, comme représenté en figure 3F, ne se chevauchent pas mutuellement dans le temps, elles peuvent être séparées. Le principe de la décomposition en forme d'ondes périodiques réside dans le fait que, étant donné que les"signaux à impulsions de pas pour une pério-   de" séparés e1   (n), e2 (n),... possèdent un spectre essentiellement plat, s'ils sont entrés en retour dans le filtre d'enveloppe spectrale H (f) de telle sorte que les signaux possèdent le spectre original, alors les ondelettes sl (n), s2 (n), etc., comme représenté en figure 3B, peuvent être obtenues. 



   La figure 4 est un schéma logique du procédé de décomposition en forme d'ondes périodiques de la présente invention, dans lequel le segment de discours sonore est analysé en ondelettes. La forme d'ondes de parole sonore s (n), qui concerne un signal numérique, est obtenue en 

 <Desc/Clms Page number 24> 

 limitant par la bande le signal analogique de parole sonore ou le signal de son musical instrumental avec un filtre passe-bas, et en transformant les signaux résultants en signaux analogiques-numériques et en les mémorisant sur un disque magnétique sous la forme du format de code de modulation par pulsions codées (PCM) en groupant plusieurs bits à la fois, et elle est ensuite retirée en vue d'un traitement en cas de nécessité. 



   Le premier stade du procédé de préparation   d'onde-   lettes selon le procédé de décomposition en forme d'ondes périodiques est une déconvolution aveugle dans laquelle la forme d'ondes s (n) de parole sonore (signal périodique s (n)) est soumise à une déconvolution en une réponse impulsionnelle h (n), à savoir une fonction temporelle de la fonction d'enveloppe de spectre H (f) du signal s (n) et en un signal e (n) de train d'impulsions de pas périodiques possédant une enveloppe spectrale plate et la même période que celle du signal s (n). Voir les figures 5A et 5B et la discussion qui   s'y   rapporte. 



   Comme décrit, pour la déconvolution aveugle, la technique d'estimation du spectre avec laquelle on évalue la fonction d'enveloppe spectrale H (f) à partir du signal s (n) est essentielle. 



   Les techniques d'estimation du spectre de la technique antérieure peuvent être classifiées en trois procédés : 1. procédé d'analyse par blocs ; 2. procédé d'analyse par synchronisation de pas ; et 3. procédé d'analyse séquentielle en fonction de la longueur d'un intervalle d'analyse. 

 <Desc/Clms Page number 25> 

 



   Le procédé d'analyse par blocs concerne un procédé dans lequel le signal de parole est divisé en blocs de durée constante de l'ordre de 10 à   20 ms   (millisecondes) et ensuite, l'analyse a lieu par rapport au nombre constant d'échantillons de paroles existant dans chaque bloc, en obtenant un jeu (communément de 10 à 16 paramètres) de paramètres d'enveloppe spectrale pour chaque bloc, procédé pour lequel un procédé d'analyse par homomorphisme, ainsi qu'un procédé d'analyse par prédiction linéaire en blocs sont spécifiques. 



   Le procédé d'analyse par synchronisation de pas obtient un jeu de paramètres d'enveloppe spectrale pour chaque période en mettant en oeuvre une analyse de chaque signal périodique de parole qui a été obtenu en divisant le signal de parole par la période de pas comme unité (comme représenté en figure 3C), procédé pour lequel le procédé d'analyse par synthèse et le procédé d'analyse de prédiction linéaire par synchronisation de pas sont spécifiques. 



   Dans le procédé d'analyse séquentielle, un jeu de paramètres d'enveloppe spectrale est obtenu pour chaque échantillon de parole (comme représenté en figure 3D) en estimant le spectre pour chaque échantillon de parole, procédé pour lequel le procédé des moindres carrés et le procédé des moindres carrés récurrents, qui concernent une espèce de procédé de filtrage adaptable, sont spécifiques. 



   La figure 3D représente la variation au cours du temps des 4 premiers coefficients de réflexion parmi 14 coefficients de réflexion kl, k2,..., kl4 qui constituent un jeu de paramètres d'enveloppe spectrale obtenu par le procédé   d'analyse séquentielle. (Se référer à la figure 5A. ) Comme   indiqué dans le dessin, les valeurs des paramètres de l'enveloppe spectrale changent continuellement du fait du 

 <Desc/Clms Page number 26> 

 mouvement continu des organes articulatoires, ce qui signifie que la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale change continuellement.

   En l'occurrence, pour des commodités d'explication, en supposant que h (n) ne change pas dans un intervalle d'une période, h (n) au cours de la première, deuxième et troisième périodes est désigné respectivement par h (n) l, h (n) 2, h (n) 3, Comme représenté en figure 3E. 



   Un jeu de paramètres d'enveloppe obtenu par diverses techniques d'estimation du spectre, tel qu'un cepstrum CL (i) qui concerne un jeu de paramètres obtenu par le procédé d'analyse par homomorphisme et un jeu de coefficients de prédiction (ai) ou un jeu de coefficients de réflexion (ki) ou encore un jeu de paires de spectres à raies, etc. obtenus en appliquant le procédé des moindres carrés récurrents ou encore le procédé de prédiction linéaire, est traité de manière égale que le H (f) ou que le h (n), étant donné qu'il peut réaliser la caractéristique de fréquence H (f) ou la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale. En conséquence, ci-après, la réponse impulsionnelle est également désignée comme étant le jeu de paramètres d'enveloppe spectrale. 



   Les figures 5A et 5B représentent des procédés de la déconvolution aveugle. 



   La figure 5A représente un procédé de déconvolution aveugle mis en oeuvre en utilisant le procédé d'analyse de prédiction linéaire ou en utilisant le procédé des moindres carrés récurrents qui concernent tous deux des procédés de la technique antérieure. La forme d'ondes de parole sonore s (n) étant donnée, comme représenté en figure 3C, les coefficients de prédiction {al, a2,..., aN} ou les coefficients de réflexion   (kl,     k2,...,   kN} qui concernent les 

 <Desc/Clms Page number 27> 

 paramètres d'enveloppe spectrale représentant la caractéristique de fréquence H (f) ou la réponse impulsionnelle h (n) du filtre d'enveloppe spectrale, sont obtenus en utilisant le procédé d'analyse de prédiction linéaire ou le procédé des moindres carrés récurrents.

   Normalement, 10 à 16 coefficients de prédiction sont suffisants pour l'ordre de   prédiction "N".   En utilisant les coefficients de prédiction   {al,   a2,..., aN} et les coefficients de réflexion {kl, k2,...,   kN)   comme paramètres d'enveloppe spectrale, un filtre inverse d'enveloppe spectrale (ou simplement désigné comme étant un filtre inverse) ayant la caractéristique de fréquence de   l/H   (f) qui est l'inverse de la caractéristique de fréquence H (f) du filtre d'enveloppe spectrale, peut aisément être construit par l'homme de métier.

   Si la forme d'ondes de parole sonore constitue   l'entrée   dans le filtre inverse d'enveloppe spectrale également désigné comme étant un filtre d'erreur de prédiction linéaire dans le procédé d'analyse de prédiction linéaire ou dans le procédé des moindres carrés récurrents, le signal de train d'impulsions de pas périodiques du type de la figure 3F possédant l'enveloppe spectrale plate, désigné comme étant un signal d'erreur de prédiction ou un signal résiduel, peut être obtenu comme sortie provenant du filtre. 



   Les figures 5B et 5C représentent le procédé de déconvolution aveugle utilisant le procédé d'analyse par homomorphisme qui constitue un procédé d'analyse par blocs, tandis que la figure 5B représente le procédé mis en oeuvre par une division de fréquence (pas défini ou mentionné jusqu'à présent par rapport à cette--expliquer ou supprimer) et la figure 5C représente le procédé mis en oeuvre par filtrage inverse. 



   Une description de la figure 5B suit. Des échantillons 

 <Desc/Clms Page number 28> 

 de paroles pour l'analyse d'un bloc sont obtenus en multipliant le signal de parole sonore s (n) par une fonction à fenêtre conique telle qu'une fenêtre de Hamming ayant une durée d'environ 10 à 20 ms. Une séquence spectrale c (i) est alors obtenue en traitant les échantillons de paroles utilisant une série de procédés de traitement par homomorphisme consistant en une transformation discrète de Fourrier, un logarithme complexe et une transformation discrète de Fourrier inverse, comme représenté en figure 5D. Le cepstrum est fonction de la quéfrence qui est une unité similaire au temps. 



   Un cepstrum basse quéfrence CL (i) situé autour d'une origine représentant l'enveloppe spectrale de la parole sonore s (n) et un cepstrum haute quéfrence CH (i) représentant un signal e (n) de train d'impulsions de pas périodiques, sont capables d'être séparés l'un de l'autre dans le domaine de la quéfrence. C'est-à-dire que multiplier le cepstrum c (i) par une fonction de fenêtre basse quéfrence et une fonction de fenêtre haute quéfrence, respectivement, donne CL (i) et CH (i), respectivement. Le fait de les soumettre respectivement à un procédé de traitement homomorphique inverse, comme représenté en figure 5E, donne la réponse impulsionnelle h (n) et le signal de train d'impulsions de pas e (n).

   Dans ce cas, puisque le fait de soumettre le CH (i) au procédé de traitement homomorphique inverse ne donne pas directement le signal de train d'impulsions de pas e (n), mais donne le signal de train d'impulsions de pas d'un bloc multiplié par une fonction de fenêtre de temps w (n), e (n) peut être obtenu en multipliant à nouveau le signal de train d'impulsions de pas par une fonction inverse de fenêtre de temps l/w (n) correspondant à l'inverse de w (n). 



   Le procédé de la figure 5C est le même que celui de la 

 <Desc/Clms Page number 29> 

 figure 5B, avec cette exception que seul CL (i) est utilisé au lieu de CH (i) dans la figure 5C pour obtenir le signal de train d'impulsions de pas périodiques e (n). C'est-à-dire que dans ce procédé, en utilisant la propriété telle qu'une réponse impulsionnelle h-l (n) correspondant à   l/H   (f) qui est un inverse des caractéristiques de fréquence H (f), peut être obtenue en traitant-CL (i) que l'on obtient en prenant le négatif de CL (i), en recourant au procédé de traitement homomorphique inverse, le signal de train d'impulsions de pas périodiques e (n) peut être obtenu comme sortie en construisant un filtre à réponse impulsionnelle à durée finie (FIR) qui possède h-l (n)

   comme réponse impulsionnelle et entrant dans le filtre un signal de parole originale s (n) qui n'est pas multiplié par une fonction de fenêtre. 



  Ce procédé est un procédé de filtrage inverse qui est fondamentalement identique à celui de la figure 5A, avec cette seule exception que, tandis que dans l'analyse homomorphique de la figure 5C, le filtre inverse d'enveloppe spectrale 1/H (f) est construit en obtenant une réponse impulsionnelle h-l (n) du filtre inverse d'enveloppe spectrale, dans la figure 5A, le filtre inverse d'enveloppe 
 EMI29.1 
 spectrale l/H (f) peut être directement construit par les coefficients de prédiction {ai} ou par les coefficients de réflexion {ki} obtenus par le procédé d'analyse de prédiction linéaire. 



   Dans la déconvolution aveugle basée sur l'analyse homomorphique, la réponse impulsionnelle h (n) ou le cepstrum basse quéfrence CL (i), représentée par des lignes pointillées dans les figures 5B et 5C, peut être utilisée comme jeu de paramètres d'enveloppe spectrale. En utilisant la réponse impulsionnelle (h   (0),   h   (1),...,   h   (N-1)},   un jeu de paramètres d'enveloppe spectrale comprend normalement un bon nombre de paramètres de l'ordre de N étant égal à 90-120, tandis que le nombre de paramètres peut diminuer 

 <Desc/Clms Page number 30> 

 jusqu'à 50-60, N étant égal à 25-30 en utilisant le cepstrum (CL (-N) m, CL   (-N+1),...,     0,...,   CL (N)}. 



   Comme décrit ci-dessus, la forme d'ondes s (n) de la parole sonore subit une déconvolution en réponse impulsionnelle h (n) du filtre d'enveloppe spectrale et en signal de train d'impulsions de pas périodiques e (n) selon le procédé de la figure 5. Une fois que le signal de train d'impulsions de pas et les paramètres d'enveloppe spectrale ont été obtenus conformément au procédé de déconvolution aveugle, les positions d'impulsions de pas P1, P2, etc. sont alors obtenues à partir du signal de train d'impulsions de pas périodiques e (n) ou du signal de paroles s (n) en utilisant un algorithme de détection de positions d'impulsions de pas dans le domaine du temps, tel que l'algorithme de   détection"epoch".

   Ensuite,   les signaux d'impulsions de pas el (n), e2 (n) et e3 (n) représentés dans les figures 3H, 3K, 3N, respectivement, sont obtenus en segmentant périodiquement le signal de train d'impulsions de pas e (n) de telle sorte qu'une impulsion de pas soit incluse dans un intervalle de période, comme représenté en figure 3F. La décision peut être prise de considérer les positions de la segmentation comme étant les points centraux entre les impulsions de pas ou encore des points qui possèdent un temps constant en avant de chaque impulsion de pas.

   Toutefois, étant donné que la position de chaque impulsion de pas par rapport au temps coïncide avec la portion finale de chaque impulsion glottale, comme le fera comprendre complètement la comparaison entre les figures 3A et 3F, il est préférable de sélectionner un point à temps constant derrière chaque impulsion de pas comme étant la position de la segmentation, comme indiqué par la ligne pointillée en figure 3F. Toutefois, étant donné que l'impulsion de pas présente l'effet maximal sur l'audibilité, il n'existe pas de différences significatives dans la 

 <Desc/Clms Page number 31> 

 parole synthétisée entre les cas. 



   Si les signaux d'impulsions de pas el (n), e2 (n), e3 (n), etc. obtenus par ce procédé sont respectivement convolués une nouvelle fois avec les hl (n), h2 (n), h3 (n) de la figure 3E qui concernent des réponses impulsionnelles au cours de l'intervalle de période des signaux d'impulsions de pas el (n), e2 (n), e3 (n), etc., les ondelettes recherchées telles que représentées dans les figures   3I,   3L, 3 (0) sont obtenues. Une telle convolution peut être réalisée de manière adéquate en entrant chaque signal de train   d'impul-   sions de pas dans le filtre d'enveloppe spectrale H (f) qui utilise les paramètres d'enveloppe spectrale comme coefficients de filtre, comme représenté en figure 4.

   Par exemple, dans les cas où les coefficients de prédiction linéaire ou les coefficients de réflexion ou encore les paires de spectres à raies sont utilisés comme paramètres d'enveloppe spectrale comme dans le procédé d'analyse par prédiction linéaire, un filtre IIR (à réponse impulsionnelle à durée infinie) possédant les coefficients de prédiction linéaire ou les coefficients de réflexion ou encore les paires de spectres à raies comme coefficients de filtre est composé. Dans les cas où la réponse impulsionnelle est utilisée par les paramètres d'enveloppe spectrale comme dans le procédé d'analyse homomorphique, un filtre FIR ayant la réponse impulsionnelle comme"coefficients de prise"est composé.

   Etant donné que le filtre de synthèse ne peut être directement composé si le paramètre d'enveloppe spectrale est un rapport d'aires logarithmiques ou le cepstrum, les paramètres d'enveloppe spectrale doivent être transformés en retour en coefficient de réflexion ou en réponse impulsionnelle pour être utilisés comme les coefficients du filtre IIR ou FIR. Si le signal d'impulsion de pas pour une période constitue l'entrée dans le filtre d'enveloppe spectrale composé comme décrit ci-dessus avec 

 <Desc/Clms Page number 32> 

 les coefficients de filtres modifiés au cours du temps conformément aux paramètres d'enveloppe spectrale correspondant au même instant que celui de chaque échantillon du signal d'impulsion de pas, alors l'ondelette pour cette période est émise. 



   Pour cette raison,   les "formes d'ondes à   fonction temporelle"des paramètres d'enveloppe spectrale sont découpés au même moment que celui auquel e (n) a été découpé pour obtenir le signal d'impulsion de pas pour chaque période. Par exemple, dans le cas de l'analyse séquentielle, les paramètres d'enveloppe spectrale de la première période kl (n) l, k2 (n) l, etc., comme représenté en figure 3G, sont obtenus en découpant les paramètres d'enveloppe spectrale de manière correspondante à la même période de temps que celle du signal d'impulsion de pas el (n) de la première période représenté en figure 3H, à partir des fonctions temporelles kl (n), k2 (n), etc. des paramètres d'enveloppe spectrale tels que représentés en figure 3D. 



  Les paramètres d'enveloppe spectrale de la deuxième et de la troisième périodes, indiqués par un trait plein dans les figures 3J et 3M, peuvent également être obtenus d'une manière similaire à celle mentionnée ci-dessus. En figure 4, les coefficients de réflexion kl, k2,..., kN et la réponse impulsionnelle h   (0),   h   (l),...,   h   (N-l)   sont représentés comme étant un jeu de paramètres spécifiques d'enveloppe spectrale où ils sont désignés par kl (n), k2 (n),   ...,   kN (n) et h   (O,   n), h (1,   n),...,   h (N-1n) pour insister sur le fait qu'il s'agit de fonctions temporelles. De la même manière, dans les cas où le cepstrum CL (i) est utilisé comme jeu de paramètres d'enveloppe spectrale, il sera désigné comme étant CL (i, n). 



   Etant donné que, contrairement au procédé d'analyse séquentielle, les fonctions temporelles des paramètres 

 <Desc/Clms Page number 33> 

 d'enveloppe spectrale ne sont pas obtenues dans le cas du procédé d'analyse par synchronisation de pas ou dans le procédé d'analyse en blocs, mais les valeurs de paramètres d'enveloppe spectrale qui sont constantes sur l'intervalle d'analyse sont obtenues, il sera nécessaire de fabriquer des fonctions temporelles des paramètres d'enveloppe spectrale à partir des valeurs de paramètres d'enveloppe spectrale et ensuite, de segmenter les fonctions temporelles, période par période, pour obtenir les paramètres d'enveloppe spectrale pour une période.

   Toutefois, en réalité, il convient de procéder comme suit au lieu de composer les fonctions temporelles.   C'est-à-dire   que dans le cas du procédé d'analyse par synchronisation de pas, étant donné qu'un jeu de paramètres d'enveloppe spectrale ayant des valeurs constantes correspond à chaque intervalle de période de pas, comme représenté par une ligne pointillée en figure SB, les paramètres d'enveloppe spectrale ne présentent aucun changement, même lorsque leurs fonctions temporelles sont segmentées période par période. En conséquence, les paramètres d'enveloppe spectrale pour une période, qui doivent être mémorisés dans un tampon, ne sont pas des fonctions temporelles, mais bien des constantes indépendantes du temps. 



   Dans le cas du procédé d'analyse en blocs, étant donné qu'un jeu de paramètres constants d'enveloppe spectrale par bloc est obtenu, les valeurs d'un paramètre d'enveloppe spectrale pour une période appartenant à un bloc, par exemple kl (n) l, kl (n) 2,..., kl (n) M sont non seulement constamment indépendants du temps, mais également identiques.

   (En l'occurrence, le   k1   (n) j désigne la fonction temporelle de kl pour l'intervalle de période j-th et M représente le nombre d'intervalles de périodes de pas appartenant à un bloc.) 

 <Desc/Clms Page number 34> 

 
Dans le cas du procédé d'analyse en blocs, il convient de noter que, lorsque le signal d'impulsion de pas se trouve sur la limite de deux blocs adjacents, les valeurs de paramètres d'enveloppe spectrale du bloc précédent et du bloc suivant seront utilisées respectivement pour les portions de signaux précédentes et suivantes, divisées par rapport à la limite du bloc. 



   Comme on peut le voir en figure   3I,   la durée de l'ondelette n'est pas nécessairement égale à une période. 



  En conséquence, avant d'appliquer le signal d'impulsion de pas et les paramètres d'enveloppe spectrale de longueur d'une période obtenue par la segmentation périodique, au filtre d'enveloppe spectrale, les procédés d'ajout de la valeur zéro et d'addition d'un bord arrière aux paramètres représentés en figure 4 sont requis pour que la durée du signal d'impulsion de pas et des paramètres d'enveloppe spectrale soit au moins aussi longue que la durée effective de l'ondelette. Le procédé d'ajout de la valeur zéro consiste à faire en sorte que la durée totale du signal d'impulsion de pas soit aussi longue que requise en annexant les échantillons à valeur zéro au signal d'impulsion de pas d'une période.

   Le procédé d'addition d'un bord arrière aux paramètres consiste à faire en sorte que la durée totale des paramètres d'enveloppe spectrale soit aussi longue que requise en annexant les paramètres d'enveloppe spectrale pour les périodes suivantes après les paramètres d'enveloppe spectrale de longueur d'une période. 



  Toutefois, même dans le cas d'un simple procédé d'annexage de manière répétée la valeur finale des paramètres d'enveloppe spectrale d'une période ou la première valeur des paramètres d'enveloppe spectrale de la période suivante, la qualité de la parole synthétisée ne s'en trouve pas dégradée de manière significative. 

 <Desc/Clms Page number 35> 

 



   Le fait que la durée effective de l'ondelette à générer par le filtre d'enveloppe spectrale dépende des valeurs des paramètres d'enveloppe spectrale, rend difficile de l'estimer à l'avance. Toutefois, étant donné que des erreurs importantes n'interviennent pas dans l'utilisation pratique dans la plupart des cas si l'on considère que la durée effective de l'ondelette est de 2 périodes à partir des positions d'impulsions de pas dans le cas d'une parole prononcée par une personne de sexe masculin et de 3 périodes par rapport aux positions d'impulsions de pas dans le cas d'une parole prononcée par une personne de sexe féminin ou par un enfant,

   il convient de décider que la durée du "signal d'impulsion de pas additionné d'un bord arrière"à mettre en oeuvre par l'ajout de la valeur zéro et   des "paramètres d'enveloppe   spectrale additionnés d'un bord arrière"à mettre en oeuvre par addition d'un bord arrière aux paramètres, soit égale à des longueurs de 3 et de 4 périodes respectivement pour la parole exprimée par une personne de sexe masculin et une personne de sexe féminin, au cas où la segmentation périodique est réalisée directement après les impulsions de pas.

   En figure 3G, les paramètres d'enveloppe spectrale additionnés d'un bord arrière pour la première période de l'intervalle"ad"de 3 périodes réalisé en annexant les paramètres d'enveloppe spectrale pour l'intervalle"bd"de 2 périodes indiqué par une ligne pointillée, à côté des paramètres d'enveloppe spectrale de l'intervalle"ab"de la première période obtenus par la segmentation périodique, sont représentés à titre d'exemple.

   En figure 3H, un signal d'impulsion de pas additionné d'un bord arrière pour la première période de 
 EMI35.1 
 l'intervalle "ad" de 3 périodes mis en oeuvre en annexant les échantillons à valeur zéro à l'intervalle"bd"de 2 périodes, au signal d'impulsion de pas de l'intervalle"ab" de la première période obtenu par la segmentation périodique, est représenté à titre   d'exemple.   

 <Desc/Clms Page number 36> 

 



   Dans le cas décrit ci-dessus, étant donné que la durée après l'ajout de la valeur zéro et l'addition d'un bord arrière aux paramètres est augmentée de 3 ou 4 périodes, tandis que la durée du signal d'impulsion de pas et des paramètres d'enveloppe spectrale avant l'ajout de la valeur zéro et l'addition d'un bord arrière aux paramètres équivaut à une période, des tampons sont procurés entre la segmentation périodique et l'addition d'un bord arrière aux paramètres, comme représenté en figure 4, et le signal d'impulsion de pas, ainsi que les paramètres d'enveloppe spectrale obtenus par la segmentation périodique sont alors mémorisés dans les tampons et extraits lorsqu'ils sont requis, si bien qu'un tamponnage temporel est réalisé. 



   Si le signal d'impulsion de pas additionné d'un bord arrière et les paramètres d'enveloppe spectrale additionnés d'un bord arrière sont obtenus par l'ajout de la valeur zéro et par l'addition d'un bord arrière aux paramètres en figure 4,   le "signal d'ondelette" s1   (n) pour la première période de la longueur de l'intervalle de 3 périodes telle que   l'intervalle"ad",   comme représenté en figure   3I,   peut finalement être obtenu en entrant le signal d'impulsion de pas de la première période additionné d'un bord arrière, tel que   l'intervalle"ad"de   la figure 3H, dans le filtre d'enveloppe spectrale H (f)

   et en faisant varier de manière synchrone les coefficients de la même manière que les 
 EMI36.1 
 de paramètres d'enveloppe spectrale de la première période additionnés d'un bord arrière, tel que   l'intervalle"ad"de   la figure 3G. Les signaux d'ondelettes s2 (n) et s3 (n) pour la deuxième et la troisième périodes, respectivement, peuvent être obtenus de la même manière. 



   Comme décrit ci-dessus, la forme d'ondes de parole sonore s (n) est finalement décomposée en ondelettes composant la forme d'ondes s (n) par le procédé de la figure 4. 

 <Desc/Clms Page number 37> 

 Manifestement, le réarrangement des ondelettes de la figure 3I, de la figure 3L et de la figure 3 (0) obtenues par décomposition en retour au point original, donne la figure 3B et si les ondelettes sont superposées, la forme d'ondes de parole originale s (n), comme représenté en figure 3C, est à nouveau obtenue. Si les ondelettes de la figure   3I,   de la figure 3L et de la figure 3 (0) sont réarrangées en faisant varier les espaces intermédiaires et sont alors superposées comme représenté en figure 3B, la forme d'ondes de parole possédant un modèle de pas différent, comme représenté en figure 3G, est obtenue.

   Comme tel, le fait de faire varier de manière adéquate l'intervalle de temps entre les ondelettes obtenues par décomposition permet la synthèse de la parole ayant le modèle arbitraire de pas désiré, c'est-à-dire l'intonation. De la même manière, la fait de faire varier de manière appropriée l'énergie des ondelettes permet la synthèse de la parole ayant le modèle arbitraire d'accentuation désiré. 



   Dans le bloc de mémorisation de segments de discours représenté en figure 2, chaque segment de discours sonore décomposé en un nombre d'ondelettes correspondant au nombre d'impulsions de pas conformément au procédé représenté en figure 4, est mémorisé dans le format tel que représenté en figure 6A, qui est désigné comme étant l'information quant au segment de discours.

   Dans un champ de tête qui constitue une partie antérieure de l'information quant aux segments de discours, les repères temporels limites Bl, B2,..., BL qui constituent des repères temporels importants dans le segment de discours, ainsi que les positions d'impulsions de pas   Pi,   P2,..., PM de chaque signal d'impulsion de pas utilisé dans la synthèse de chaque ondelette sont mis en mémoire, champ dans lequel le nombre d'échantillons correspondant à chaque repère temporel est enregistré en attribuant la valeur zéro à la première position d'échantillon- 

 <Desc/Clms Page number 38> 

 nage du premier signal d'impulsion de pas el (n). Le repère temporel limite concerne la position dans le temps des points limites entre les sous-segments obtenus lorsque le segment de discours est segmenté en plusieurs sous-segments.

   Par exemple, la voyelle que des consonnes précèdent et suivent, peut être considérée comme consistant en trois sous-segments pour la parole à petite vitesse, étant donné que la voyelle peut être divisée en un intervalle d'état stationnaire de la partie centrale et en deux intervalles transitionnels présents avant et après l'intervalle à   l'état   stationnaire, et trois points terminaux des sous-segments sont mis en mémoire comme repères temporels limites dans le champ de tête du segment de discours.

   Toutefois, dans le cas où l'échantillonnage est réalisé à une vitesse de parole plus grande, étant donné que l'intervalle transitionnel se réduit à un point, de telle sorte que le segment de discours de la voyelle peut être considéré comme consistant en deux sous-segments, deux repères temporels limites sont mis en mémoire dans l'information de tête. 



   Dans le champ de codes d'ondelettes, qui constitue la dernière partie de l'information quant aux segments de discours, les codes d'ondelettes qui sont des codes obtenus en codant en forme d'ondes l'ondelette correspondant à chaque période sont mis en mémoire. Les ondelettes peuvent être codées par le simple procédé de codage en forme d'ondes tel que le PCM, mais, étant donné que les ondelettes possèdent des corrélations importantes à court terme et à long terme, la quantité de mémoire nécessaire pour la mémorisation peut être significativement réduite si les ondelettes sont effectivement codées en forme d'ondes en utilisant le ADPCM possédant une boucle de prédiction de pas, un codage prédictif adaptable ou un procédé de modulation delta numérique adaptable.

   Le procédé dans lequel les 

 <Desc/Clms Page number 39> 

 ondelettes obtenues par décomposition sont codées en forme d'ondes, les codes obtenus étant mis en mémoire et au moment de la synthèse, les codes sont décodés, réarrangés et superposés pour produire la parole synthétisée, est appelé   le "procédé   de mémorisation de codes en forme   d'ondes".   



   Le signal d'impulsion de pas et les paramètres d'enveloppe spectrale correspondants peuvent être considérés comme étant identiques à l'ondelette, étant donné qu'il s'agit des matériaux dont peuvent être constituées les ondelettes. En conséquence, est également possible le procédé dans lequel les"codes de source"obtenus en codant les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale sont mis en mémoire et les ondelettes sont réalisées en obtenant les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale par décodage des codes de source, et les ondelettes sont alors réarrangées et superposées pour produire la parole synthétisée. Ce procédé est appelé le"procédé de mémorisation de codes de source". 



  Ce procédé correspond à celui dans lequel le signal d'impulsion de pas et les paramètres d'enveloppe spectrale mémorisés dans les tampons, au lieu des ondelettes obtenues comme sortie en figure 4, sont appariés l'un à l'autre dans le même intervalle de période et ensuite, mis en mémoire dans le bloc de mémorisation de segments de discours. Par conséquent, dans le procédé de mémorisation de codes de source, les procédés après le tampon en figure 4,   c'est-à-dire   le procédé d'addition d'un bord arrière aux paramètres, le procédé d'ajout de la valeur zéro et le   procédé   de filtrage par le filtre de synthèse H (f) sont réalisés dans le sous-bloc d'assemblage en forme d'ondes en figure 7. 



   Dans le procédé de mémorisation de codes de source, le 

 <Desc/Clms Page number 40> 

 format de l'information quant aux segments de discours est tel que représenté en figure 6B qui est la même que la figure 6A, à l'exception du contenu du champ de codes d'ondelettes. C'est-à-dire que les signaux d'impulsions de pas et les paramètres d'enveloppe spectrale nécessaires pour la synthèse des ondelettes au lieu des ondelettes sont codés et mis en mémoire aux positions dans lesquelles l'ondelette, pour chaque période, doit être mise en mémoire en figure 6A. 



   Les paramètres d'enveloppe spectrale sont codés conformément au procédé de quantification de la technique antérieure des paramètres d'enveloppe spectrale et mis en mémoire dans le champ de codes d'ondelettes. A ce moment, si les paramètres d'enveloppe spectrale sont transformés de manière appropriée avant la quantification, le codage peut être réalisé de manière efficace. Par exemple, il est préférable de transformer les coefficients de prédiction en paramètres de paires de spectres à raies et les coefficients de réflexion en rapports d'espaces logarithmiques et de les quantifier.

   En outre, étant donné que la réponse impulsionnelle possède une corrélation étroite entre des échantillons adjacents et entre des réponses impulsionnelles adjacentes, si le codage en forme d'ondes a lieu conformément à un procédé de codage différentiel, la quantité des données nécessaires pour la mémorisation peut être significativement réduite. Dans le cas de paramètres de cepstrum, un procédé de codage est connu, dans lequel les paramètres de cepstrum sont transformés de telle sorte que la quantité de données peut être significativement réduite. 



   D'une part, le signal d'impulsion de pas est codé conformément à un procédé approprié de codage en forme d'ondes et le code résultant est mis en mémoire dans le 

 <Desc/Clms Page number 41> 

 champ de codes d'ondelettes. Les signaux d'impulsions de pas possèdent une petite corrélation à court terme, mais ils possèdent une corrélation importante à long terme l'un par rapport à l'autre. En conséquence, si le procédé de codage en forme d'ondes, tel que le codage PCM adaptable par prédiction de pas, qui possède la boucle de prédiction de pas, est utilisé, une parole synthétisée de qualité supérieure peut être obtenue, même lorsque la quantité de mémoire nécessaire pour la mémorisation est réduite à 3 bits par échantillon.

   Le coefficient de prédiction d'un prédicteur de pas peut être une valeur obtenue pour chaque période de pas en fonction du procédé d'auto-corrélation ou bien il peut s'agir d'une valeur constante. Au premier stade du codage, l'effet de prédiction de pas peut être augmenté par une normalisation en divisant le signal d'impulsion de pas destiné à être codé par la racine carrée de l'énergie moyenne par   échantillon"G".   Le décodage est réalisé dans le bloc de synthèse de parole sonore et le signal d'impulsion de pas est rétabli à sa grandeur originale en multipliant à nouveau   par"G"au   stade final du décodage. 



   En figure 6B, l'information quant aux segments de discours est représentée pour le cas où est adopté un procédé d'analyse prédictive linéaire qui utilise 14 coefficients de réflexion comme paramètres d'enveloppe spectrale. Si l'intervalle d'analyse pour l'analyse prédictive linéaire est la période de pas, 14 coefficients de réflexion correspondent à chaque signal d'impulsion de pas et sont mis en mémoire. Si l'intervalle d'analyse est un bloc d'une certaine longueur, les coefficients de réflexion pour plusieurs impulsions de pas dans un bloc ont les mêmes valeurs de telle sorte que la quantité de mémoire nécessaire pour la mémorisation des ondelettes est réduite.

   Dans ce cas, comme mentionné ci-dessus, étant donné que les 

 <Desc/Clms Page number 42> 

 coefficients de réflexion du bloc antérieur ou du bloc postérieur sont utilisés au moment de la synthèse pour le signal d'impulsion de pas surplombant la limite du bloc, selon que les échantillons du signal se trouvent avant ou après le point limite, la position du point limite entre les blocs doit être mise en mémoire en plus dans le champ de tête. Si le procédé d'analyse séquentielle, tel que le procédé des moindres carrés récurrents, est utilisé, les coefficients de réflexion kl, k2,..., kl4 deviennent des fonctions continues de l'indice de temps"n", comme représenté en figure 3D, et une grande capacité de mémoire est requise pour mettre les fonctions temporelles kl (n), k2 (n),   .... kl4   (n) en mémoire.

   En prenant le cas de la figure 3 comme exemple, les formes d'ondes pour l'intervalle"ab"de la figure 3G et de la figure 3H comme première période et pour l'intervalle"bc"de la figure 3J et de la figure 3K comme deuxième période et pour l'intervalle"cd"de la figure 3M et de la figure 3N comme troisième période pour le champ de codes d'ondelettes sont mises en mémoire dans le champ de codes d'ondelettes. 



   Le procédé de mémorisation de codes d'ondelettes et le procédé de mémorisation de codes de source sont essentiellement le même procédé et en fait, le code en forme d'ondes obtenues lorsque les ondelettes sont codées en fonction du procédé de codage efficace en forme d'ondes, tel que le APC (codage prédictif adaptable) dans le procédé de mémorisation de codes en forme d'ondes, devient pratiquement le même que le code de source obtenu dans le procédé de mémorisation de codes de source quant à son contenu. Le code en forme d'ondes dans le procédé de mémorisation de codes en forme d'ondes et le code de source dans le procédé de mémorisation de codes de source sont appelés globalement le code d'ondelette. 

 <Desc/Clms Page number 43> 

 



   La figure 7 illustre la configuration interne du bloc de synthèse de paroles sonores de la présente invention. Les codes d'ondelettes mis en mémoire dans le champ de codes d'ondelettes de l'information quant aux segments de discours reçue à partir du bloc de mémorisation de segments de discours sont décodés dans le procédé inverse du procédé dans lequel ils ont été codés, à l'intervention d'un sous-bloc de décodage 9.

   Les signaux d'ondelettes obtenus lorsque les codes en forme d'ondes sont décodés dans le procédé de mémorisation de codes en forme d'ondes ou bien les signaux d'impulsions de pas obtenus lorsque les codes de source sont décodés dans le procédé de mémorisation de codes de source et les paramètres d'enveloppe spectrale appariés aux signaux d'impulsions de pas sont appelés informations quant aux ondelettes et sont procurés au sous-bloc d'assemblage en forme d'ondes. D'une part, l'information de tête mise en mémoire dans le champ de tête de l'information quant aux segments de discours concerne l'entrée dans un sous-bloc de réglage de la durée 10 et dans un sous-bloc de réglage du pas 11. 



   Le sous-bloc de réglage de la durée de la figure 7 reçoit, comme entrée, les données de durée dans l'information prosodique et les repères temporels limites inclus dans l'information de tête de segments de discours et produit l'information quant à la variation temporelle en utilisant les données de durée et les repères temporels limites et procure l'information produite quant à la variation temporelle au sous-bloc 13 d'assemblage en forme d'ondes, au sous-bloc de réglage du pas et au sous-bloc de réglage de   l'énergie.   Si la durée totale du segment de discours s'allonge ou se raccourcit, la durée des sous-segments constituant le segment de discours s'allonge ou se raccourcit de manière correspondante, le rapport d'extension ou de compression dépendant de la propriété de chaque 

 <Desc/Clms Page number 44> 

 sous-segment.

   Par exemple, dans le cas où une voyelle est précédée et suivie de consonnes, la durée de l'intervalle d'état stationnaire qui se trouve au milieu possède un taux de variation essentiellement plus grand que ceux des intervalles de transition des deux côtés de la voyelle. Le sous-bloc de réglage de la durée compare la durée BL du segment de discours original qui a été mis en mémoire et la durée du segment de discours à synthétiser indiquée par les données de durée, et obtient la durée de chaque sous-segment à synthétiser correspondant à la durée de chaque sous-segment original, en utilisant leur taux de variation ou leur règle de durée pour ainsi obtenir les repères temporels limites de la parole synthétisée.

   Les repères temporels limites originaux Bl, B2, etc. et les repères temporels limites B'1, B'2, etc. de la parole synthétique appariés en correspondance avec les repères temporels limites originaux sont désignés globalement comme information quant à la variation temporelle ; après quoi, dans le cas de la figure 8, par exemple, l'information quant à la variation temporelle peut être présentée par { (Bl, B'1), (B2, b'2), (B2, B'3), (B3, B'3), (B4, B'4)}. 



   La fonction du sous-bloc de réglage du pas de la figure 7 est de produire l'information quant aux positions d'impulsions de pas de telle sorte que la parole synthétique possède la modèle d'intonation indiqué par les données de modèle d'intonation et le procure au sous-bloc d'assemblage en forme d'ondes et au sous-bloc de réglage de   l'énergie.   Le sous-bloc de réglage du pas reçoit, comme entrée, les données   de modèle d'intonation   qui concernent les valeurs de fréquence de pas cibles pour chaque phonème et produit un contour de pas représentant la variation continue de la fréquence de pas par rapport au temps en reliant en souplesse les valeurs de fréquences de pas cibles.

   Le sous-bloc de réglage du pas peut refléter un 

 <Desc/Clms Page number 45> 

 phénomène de microintonation dû à un"obstruent"au contour du pas. Toutefois, dans ce cas, le contour de pas devient une fonction discontinue dans laquelle la valeur de fréquence de pas change brutalement par rapport au temps aux points limites entre le phonème obstruant et l'autre phonème adjacent. La fréquence de pas est obtenue en réalisant l'échantillonnage du contour de pas à la première position d'impulsion de pas du segment de discours, et la période de pas est obtenue en prenant l'inverse de la fréquence de pas et ensuite, le point précédé par la période de pas est déterminé comme étant la seconde position d'impulsion de pas.

   La période de pas suivante est alors obtenue à partir de la fréquence de pas à ce point et la position ultérieure d'impulsions de pas est obtenue à son tour et la répétition d'un tel procédé pourrait donner toutes les positions d'impulsions de pas de la parole synthétisée. Il peut être décidé de faire en sorte que la première position d'impulsions de pas du segment de discours constitue le premier échantillon ou les échantillons voisins dans le cas du premier segment de discours d'une série de segments continus de paroles sonores de la parole synthétisée et la décision peut être prise de considérer la première position d'impulsions de pas pour le segment de discours suivant comme étant le point correspondant aux positions d'impulsions de pas à côté de la dernière impulsion de pas du segment de discours précédent, etc.

   Le sous-bloc de réglage du pas envoie les positions d'impulsions de pas P'1, P'2, etc. de la parole synthétique obtenues comme telles et les positions originales dtimpulsions de pas   PI,   P2, etc. incluses dans l'information de tête quant aux segments de discours, conjointement en une liaison, au sous-bloc d'assemblage en forme d'ondes et au sous-bloc de réglage de   l'énergie,   où ils sont ainsi appelés information quant aux positions d'impulsions de pas. Dans le cas de la figure 8, par exemple, l'information 

 <Desc/Clms Page number 46> 

 quant aux positions d'impulsions de pas peut être représentée par { (P1, P2,..., P9), (P'1,   P'2,..., P'8)}.   



   Le sous-bloc de réglage de l'énergie de la figure 7 produit une information quant au gain par laquelle la parole synthétisée possède le modèle d'accentuation, comme indiqué par les données de modèle d'accentuation, et l'envoie au sous-bloc d'assemblage en forme d'ondes. Le sous-bloc de réglage de l'énergie reçoit, comme entrée, les données de modèle d'accentuation qui concernent les valeurs d'amplitude cible pour chaque phonème, et produit un contour d'énergie représentant la variation continue de l'amplitude par rapport au temps en les reliant en souplesse. Il est supposé que les segments de discours sont normalisés à l'avance au moment de la mémorisation, si bien qu'ils possèdent une énergie relative en fonction de la classe du segment de discours pour refléter la différence relative d'énergie pour chaque phonème.

   Par exemple, dans le cas de voyelles, une voyelle fermée possède une plus grande énergie par unité de temps qu'une voyelle ouverte et un son nasal possède environ la moitié de l'énergie par unité de temps, comparée à celle de la voyelle. En outre, l'énergie au cours de l'intervalle de fermeture du son explosif est très faible. En conséquence, lorsque les segments de discours sont mis en mémoire, ils seront codés après réglage préalable, si bien qu'ils possèdent une telle énergie relative. Dans ce cas, le contour d'énergie produit dans le sous-bloc de réglage de l'énergie devient un gain qui doit être multiplié par la forme d'ondes pour être synthétisé.

   Le sous-bloc de réglage de l'énergie obtient les valeurs de gain   Gl,   G2, etc. à chaque position d'impulsions de pas   Pl,   P'2, etc. de la parole synthétique en utilisant les informations quant au contour d'énergie et aux positions d'impulsions de pas, et les procure au sous-bloc d'assemblage en forme d'ondes, ces informations 

 <Desc/Clms Page number 47> 

 étant appelées informations quant au gain. Dans le cas de la figure 8, par exemple, les informations quant au gain peuvent être représentées par { (P'l, Gl), (P'2, G2),...,   (P'8, G8) }.   



   Le sous-bloc d'assemblage en forme d'ondes de la figure 7 reçoit, comme entrée, l'information des ondelettes décrite ci-dessus, l'information quant à la variation temporelle, l'information quant aux positions d'impulsions de pas et l'information quant au gain, et produit finalement le signal de parole sonore. Le sous-bloc d'assemblage en forme d'ondes produit la parole possédant le modèle d'intonation, le modèle d'accentuation et la durée comme indiqué par l'information prosodique en utilisant l'information quant aux ondelettes reçue en provenance du sous-bloc de décodage. A ce moment, certaines des ondelettes sont répétées et certaines sont omises.

   Les données quant à la durée, les données quant au modèle d'intonation et les données quant au modèle d'accentuation incluses dans l'information prosodique, concernent des informations indicatrices mutuellement indépendantes, tandis qu'elles doivent être traitées en interrelation, étant donné qu'il existe une interrelation entre ces trois informations lorsque la forme d'ondes est synthétisée avec l'information des ondelettes. Un des problèmes les plus importants dans l'assemblage en forme d'ondes concerne le fait de savoir quelle ondelette sélectionnée comme ondelette destinée à être arrangée à chaque position d'impulsions de pas de la parole synthétisée. Si les ondelettes sélectionnées et arrangées ne sont pas les ondelettes adéquates, une parole synthétique de bonne qualité ne pourra être obtenue.

   Ci-dessous, est proposée une description de la mise en oeuvre du sous-bloc d'assemblage en forme d'ondes utilisant le procédé de réinsertion d'ondelettes basé sur la variation temporelle de la présente invention, qui concerne un 

 <Desc/Clms Page number 48> 

 procédé de réinsertion d'ondelettes capable de procurer une qualité supérieure quant à la synthèse de la parole synthétique en utilisant l'information quant aux segments de discours reçue du bloc de mémorisation de segments de discours. 



   Le procédé de synthèse en forme d'ondes de la parole sonore du sous-bloc d'assemblage en forme d'ondes consiste en deux étapes, c'est-à-dire l'étape de réinsertion d'ondelettes en utilisant la fonction de variation temporelle et l'étape de superposition pour superposer les ondelettes réinsérées. 



   C'est-à-dire que, dans le cas du procédé de mémorisation de codes en forme d'ondes, les signaux d'ondelettes les mieux appropriés sont sélectionnés pour les positions d'impulsions de pas de la parole synthétique parmi les signaux d'ondelettes reçus à titre d'information quant aux ondelettes et sont insérés à leurs positions d'impulsions de pas et leur gain est réglé, et par la suite, la parole synthétisée est produite par leur superposition. 



   Dans le procédé de mémorisation de codes de source, le signal d'impulsion de pas et les paramètres d'enveloppe spectrale pour chaque période correspondant au signal d'impulsion de pas sont reçus comme information des ondelettes. Dans ce cas-ci, deux procédés d'assemblage de parole synthétique sont possibles.

   Le premier procédé consiste à obtenir chaque ondelette en attribuant au filtre de synthèse les paramètres d'enveloppe spectrale et le signal d'impulsion de pas pour une longueur d'intervalle de 2 à 4 périodes obtenus en mettant en oeuvre les procédés correspondant au côté droit du tampon de la figure 4, c'est-à-dire l'addition d'un bord arrière aux paramètres et l'ajout de la valeur zéro décrits ci-dessus à propos de 

 <Desc/Clms Page number 49> 

 l'information quant aux ondelettes et ensuite, à assembler la parole synthétique avec les ondelettes conformément au procédé identique au procédé de mémorisation de codes en forme d'ondes. Ce procédé est fondamentalement le même que celui de l'assemblage de la parole synthétique dans le procédé de mémorisation de codes en forme d'ondes et, par conséquent, la description séparée sera omise.

   Le second procédé consiste à obtenir un signal synthétique de train d'impulsions de pas ou un signal synthétique d'excitation ayant une enveloppe spectrale plate, mais possédant un modèle de pas différent de celui du signal original de train d'impulsions de pas périodiques, en sélectionnant les signaux d'impulsions périodiques les mieux appropriés aux positions d'impulsions périodiques de la parole synthétique parmi les signaux d'impulsions de pas, en les insérant et en réglant leurs gains, et en les superposant par la suite, pour obtenir des paramètres synthétiques d'enveloppe spectrale réalisés par la mise en relation des paramètres d'enveloppe spectrale avec chaque signal d'impulsion de pas constituant le signal synthétique de train d'impulsions de pas ou le signal synthétique d'excitation,

   et ensuite pour produire la parole synthétisée en attribuant le signal synthétique d'excitation et les paramètres synthétiques d'enveloppe spectrale au filtre de synthèse. Ces deux procédés sont essentiellement identiques, à cette exception près que la séquence entre le filtre de synthèse et le procédé de superposition dans l'assemblage de la parole de synthèse est inversée. 



   Le procédé d'assemblage de la parole synthétique susmentionné est décrit ci-dessous en se référant à la figure 8. Le procédé de réinsertion d'ondelettes peut s'appliquer de manière fondamentalement égale à la fois au procédé de mémorisation de codes en forme d'ondes et au procédé de mémorisation de codes de source. En conséquence, 

 <Desc/Clms Page number 50> 

 les procédures d'assemblage en forme d'ondes de paroles synthétiques dans les deux procédés seront décrites simultanément en se référant à la figure 8. 



   En figure   8A,   est illustrée la corrélation entre le segment de discours original et le segment de discours à synthétiser. Les repères temporels limites originaux B1, B2, etc., indiqués par des lignes pointillées, les repères temporels limites B'1,   B'2,   etc., du son synthétisé et la corrélation entre eux indiquée par les lignes en traits sont inclus dans l'information quant à la variation temporelle reçue du sous-bloc de réglage de la durée. En outre, les positions originales d'impulsions de pas P1, P2, etc., indiquées par les traits pleins et les positions d'impulsions de pas P'1, P'2, etc., du son synthétisé sont incluses dans l'information quant aux positions d'impulsions de pas, reçue du sous-bloc de réglage du pas.

   Pour des raisons de commodité d'explication de la figure 8, il est supposé que la période de pas de la parole originale et que la période de pas du son synthétisé sont respectivement constantes, la dernière citée représentant 1,5 fois la première. 



   Le sous-bloc d'assemblage en forme d'ondes forme d'abord la fonction de variation temporelle comme représenté en figure 8B en utilisant les repères temporels limites originaux, les repères temporels limites du son synthétisé et la corrélation existant entre eux. L'abscisse de la fonction de variation temporelle représente le   temps"t"du   segment de discours original et l'ordonnée représente le   temps "t'" du   segment de discours à synthétiser. En figure 8A par exemple, étant donné que le premier sous-segment et que le dernier sous-segment du segment de discours original doivent être respectivement comprimés aux deux-tiers et étendus au double, leur corrélation apparaît sous forme des 

 <Desc/Clms Page number 51> 

 lignes de pentes 2/3 et 2 dans la fonction de variation temporelle de la figure 8B, respectivement.

   Le second sous-segment ne varie pas quant à sa durée, de telle sorte qu'il apparaît sous forme d'une ligne de pente 1 dans la fonction de variation temporelle. Le deuxième sous-segment du segment de discours à synthétiser résulte de la répétition du repère temporel limite"Bl"du segment de discours original et, en revanche, le troisième sous-segment du segment de discours original varie jusqu'à un repère temporel   limite "B'3" dans   le segment de discours à synthétiser. Les corrélations dans de tels cas apparaissent respectivement sous forme d'une ligne verticale et d'une ligne horizontale.

   Ainsi, la fonction de variation temporelle est obtenue en présentant le repère temporel limite du segment de discours original et le repère temporel limite du segment de discours à synthétiser correspondant au repère temporel limite du segment de discours original comme étant deux points et en les reliant par une ligne. Il peut être possible dans certains cas de présenter la corrélation entre les sous-segments pour qu'elle soit plus proche de la réalité en reliant les points par une courbe uniforme. 



   Dans le procédé de mémorisation de codes en forme d'ondes, le sous-bloc d'assemblage en forme d'ondes recherche le repère temporel original correspondant aux positions d'impulsions de pas du son synthétique en utilisant la fonction de variation temporelle et recherche l'ondelette possédant la position d'impulsions de pas la plus proche du repère temporel original et insère ensuite l'ondelette aux positions d'impulsions de pas du son synthétique. 



   A l'étape suivante, le sous-bloc d'assemblage en forme d'ondes multiplie chaque signal d'ondelette inséré, par le gain correspondant aux positions d'impulsions de pas du 

 <Desc/Clms Page number 52> 

 signal d'ondelette recherché à partir de l'information concernant le gain, et enfin obtient le son synthétique désiré en superposant les signaux d'ondelettes dont le gain a été réglé, simplement en les additionnant. En figure 3Q, est illustré le son synthétique produit par un tel procédé de superposition pour le cas où les ondelettes de la figure   3I,   de la figure 3L et de la figure 3 (0) sont réinsérées comme en figure 3P. 



   De la même manière, dans le procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes recherche le repère temporel original correspondant aux positions d'impulsions de pas du son synthétique en utilisant la fonction de variation temporelle et recherche le signal d'impulsion de pas dont la position d'impulsions de pas est la plus proche du repère temporel original et ensuite, insère le signal d'impulsion de pas aux positions d'impulsions de pas du son synthétique. 



   Les chiffres destinés aux signaux d'impulsions de pas ou aux ondelettes insérées de cette manière à chaque position d'impulsions de pas du segment de discours à synthétiser sont représentés dans les figures 8A et   8B.   



  Comme indiqué dans les dessins, certaines des ondelettes constituant le segment de discours original ont été omises du fait de la compression des sous-segments et certaines sont utilisées de manière répétitive du fait de l'extension des sous-segments. L'hypothèse avait été admise en figure 8 que le signal d'impulsion de pas pour chaque période a été obtenu en procédant à une segmentation directement après chaque impulsion de pas. 



   La superposition des ondelettes dans le procédé de mémorisation de codes en forme d'ondes est équivalente à la superposition des signaux d'impulsions de pas dans le 

 <Desc/Clms Page number 53> 

 procédé de mémorisation de codes de source. En conséquence, dans le cas du procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes multiplie chaque signal d'impulsion de pas réinséré, par le gain correspondant aux positions d'impulsions de pas du signal d'impulsion de pas réinséré, recherché à partir de l'information quant au gain, et enfin obtient le signal synthétique d'excitation désiré en superposant les signaux d'impulsions de pas réglés quant au gain.

   Toutefois, dans ce cas-ci, étant donné que la majeure partie de l'énergie est concentrée sur l'impulsion de pas, il peut être possible de réaliser le signal synthétique d'excitation en obtenant d'abord un signal synthétique d'excitation sans réglage du gain en superposant les signaux d'impulsions de pas insérés et ensuite, en multipliant le signal synthétique d'excitation sans réglage du gain par le contour d'énergie généré au sous-bloc de réglage de l'énergie au lieu de superposer les signaux d'impulsions de pas réglés quant au gain de manière constante. La figure 3R représente le signal synthétique d'excitation obtenu lorsque les signaux d'impulsions de pas de la figure 3H, de la figure 3K, de la figure 3N sont réinsérés conformément à un tel procédé, si bien que le modèle de pas devient le même que celui pour le cas de la figure 3P. 



   Dans le procédé de mémorisation de codes de source, le sous-bloc d'assemblage en forme d'ondes doit réaliser les paramètres synthétiques d'enveloppe spectrale, et deux voies sont possibles, c'est-à-dire le procédé de compression et d'extension dans le temps représenté en figure 8A et le procédé de correspondance synchrone représenté en figure 8B. Si les paramètres d'enveloppe spectrale sont des fonctions continues par rapport au temps et représentent complètement l'enveloppe du spectre de parole, les paramètres synthétiques d'enveloppe spectrale peuvent être 

 <Desc/Clms Page number 54> 

 obtenus simplement en comprimant ou en étendant dans le temps les paramètres originaux d'enveloppe spectrale sur une base sous-segment par sous-segment.

   En figure 8A, les paramètres d'enveloppe spectrale obtenus par le procédé d'analyse séquentielle sont représentés sous forme d'une courbe en pointillé et les paramètres d'enveloppe spectrale codés par approximation de la courbe en reliant divers points tels que A, B, C, etc. par des segments linéaires, sont représentés en trait plein. Etant donné que seule la position temporelle de chaque point varie pour donner les points A', B', C', etc. comme résultat de la compression et de l'extension dans le temps, un tel procédé de codage par segments de droite est particulièrement approprié pour le cas de la compression et de l'extension dans le temps. 



  Toutefois, dans le cas   où l'on   utilise le procédé d'analyse en blocs ou le procédé d'analyse par synchronisation de pas, étant donné que l'appariement spectral n'est pas précis et que la variation dans le temps des paramètres de l'enveloppe spectrale est discontinu, le procédé de compression et d'extension dans le temps ne peut donner la qualité synthétique sonore désirée et il est préférable d'utiliser le procédé de correspondance synchrone dans lequel les paramètres synthétiques d'enveloppe spectrale sont assemblés en corrélant les paramètres d'enveloppe spectrale pour chaque intervalle de période de pas avec chaque signal d'impulsion de pas correspondant, comme représenté en figure 8B.

     C'est-à-dire   qu'étant donné que l'ondelette dans le procédé de mémorisation de codes en forme d'ondes, est équivalent au signal d'impulsion de pas et aux paramètres correspondants d'enveloppe spectrale pour le même intervalle de période de pas, les paramètres synthétiques d'enveloppe spectrale peuvent être réalisés en insérant de manière synchrone les paramètres d'enveloppe spectrale pour un intervalle d'une période au même intervalle de période de chaque signal inséré d'impulsions de 

 <Desc/Clms Page number 55> 

 pas.

   En   figure SB, k1 qui   représente un des paramètres d'enveloppe spectrale et k'l qui représente les paramètres synthétiques d'enveloppe spectrale correspondant à kl, assemblés par de tels procédés pour le procédé d'analyse en blocs et pour le procédé d'analyse par synchronisation de pas, sont représentés par des traits pleins et par une ligne pointillée, respectivement.

   Bien entendu, comme mentionné ci-dessus, lorsque les paramètres d'enveloppe spectrale obtenus par le procédé d'analyse séquentielle, les paramètres synthétiques d'enveloppe spectrale peuvent être assemblés conformément au procédé de la figure   8A.   Par exemple, si le signal d'impulsion de pas pour chaque période a été réinséré, comme représenté en figure 3R, les paramètres d'enveloppe spectrale pour chaque période sont insérés, comme représenté en figure 3S, en fonction des signaux d'impulsions de pas. 



   Au moment de l'assemblage du signal synthétique d'excitation et des paramètres synthétiques d'enveloppe spectrale dans le procédé de mémorisation de codes de source, si la période de pas du son synthétisé est plus longue que la période de pas originale, il s'ensuit alors un intervalle blanc entre deux intervalles adjacents de période de pas, comme représenté par des lignes obliques en figure 8. Si la période de pas du son synthétisé est plus courte que la période originale de pas, des intervalles de chevauchement se produisent, dans lesquels deux intervalles adjacents de période de pas se chevauchent mutuellement. 



  L'intervalle de   chevauchement "fb" et l'intervalle   blanc   "gh"sont représentés   en figure 3R et en figure 3S à titre d'exemple. Comme décrit précédemment, les signaux d'impulsions de pas réinsérés seront superposés au moment du chevauchement. Toutefois, il est raisonnable de faire la moyenne des paramètres d'enveloppe spectrale réinsérés conformément aux signaux d'impulsions de pas au lieu de les 

 <Desc/Clms Page number 56> 

 superposer au moment du chevauchement. Par conséquent, le procédé d'assemblage du signal synthétique d'excitation et des paramètres synthétiques d'enveloppe spectrale avec les intervalles blancs et les intervalles de chevauchement pris en considération se présente comme suit. 



   Les échantillons à valeur zéro sont insérés dans l'intervalle blanc au moment de l'assemblage du signal synthétique d'excitation. Dans le cas d'un son sonore fricatif, un son plus naturel peut être synthétisé si le signal de bruit filtré par un filtre passe-haut au lieu des échantillons à valeur zéro, est inséré dans l'intervalle blanc. Les signaux réinsérés d'impulsions de pas doivent être ajoutés dans l'intervalle de chevauchement. Etant donné qu'un tel procédé d'addition est fastidieux, il est commode d'utiliser un procédé de troncature dans lequel seulement un signal est sélectionné parmi deux signaux d'impulsions de pas qui se chevauchent dans l'intervalle de chevauchement. La qualité du son synthétisé utilisant le procédé de troncature n'est pas dégradée de manière significative.

   En figure 3R, l'intervalle blanc gh a été rempli à l'aide d'échantillons zéro et le signal d'impulsion de pas de l'intervalle antérieur a été sélectionné dans l'intervalle de chevauchement fb. C'est-à-dire que, dans le cas de l'apparition du chevauchement, l'intervalle antérieur faisant partie des intervalles de chevauchement de chaque signal d'impulsion de pas a été tronqué, et ce procédé est physiquement plus significatif que le procédé dans lequel les signaux d'impulsions de pas sont réalisés par segmentation juste devant l'impulsion de pas et dans lequel, au moment de la synthèse, le dernier parmi les intervalles de chevauchement du signal d'impulsion de pas est tronqué en cas de chevauchement, comme décrit précédemment.

   Toutefois, en réalité, aucun des deux procédés ne donne lieu à une différence significative quant à la 

 <Desc/Clms Page number 57> 

 qualité sonore du son synthétisé. 



   Au moment de l'assemblage des paramètres synthétiques d'enveloppe spectrale, il est idéal que l'intervalle blanc soit rempli à l'aide des valeurs qui varient linéairement entre une valeur des paramètres d'enveloppe spectrale au point final de l'intervalle de période précédent et une valeur des paramètres d'enveloppe spectrale au point de départ de la période suivante, et que, dans l'intervalle de chevauchement, les paramètres d'enveloppe spectrale varient progressivement entre les paramètres d'enveloppe spectrale de la période précédente et ceux de la période suivante en utilisant le procédé d'interpolation dans lequel on obtient la moyenne de deux paramètres chevauchés d'enveloppe spectrale avec des valeurs pondérales qui varient linéairement par rapport au temps.

   Toutefois, étant donné que ces procédés sont fastidieux, le procédé ci-après peut être utilisé, dans la mesure où il est plus commode et ne dégrade pas significativement la qualité du son. 



  C'est-à-dire que, pour les paramètres d'enveloppe spectrale dans l'intervalle blanc, la valeur des paramètres d'enveloppe spectrale au point final de l'intervalle de la période précédente peut être utilisée de manière répétitive comme en figure 8b, ou bien la valeur des paramètres d'enveloppe spectrale au point de départ de l'intervalle de période suivant peut être utilisée de manière répétitive, la valeur de la moyenne arithmétique des deux paramètres d'enveloppe spectrale peut être utilisée ou bien les valeurs des paramètres d'enveloppe spectrale aux points de fin et de départ des intervalles de période précédent et suivant peuvent être utilisées respectivement avant et après le centre de l'intervalle blanc considéré comme une limite.

   Pour les paramètres d'enveloppe spectrale dans l'intervalle de chevauchement, simplement n'importe quelle partie correspondant à l'impulsion de pas sélectionnée peut 

 <Desc/Clms Page number 58> 

 être sélectionnée. En figure 3S, par exemple, étant donné que le signal d'impulsion de pas pour l'intervalle de période précédent a été sélectionné comme signal synthétique d'excitation dans l'intervalle de chevauchement"fb", les valeurs de paramètres pour l'intervalle de période précédent ont été sélectionnées de la même manière comme paramètres synthétiques d'enveloppe spectrale. Dans l'intervalle blanc"gh"de la   figure 8b   et de la figure 3S, les valeurs des paramètres d'enveloppe spectrale à la fin de l'intervalle de période précédent ont été utilisées de manière répétitive.

   Bien entendu, dans le cas de la figure 3S dans laquelle les paramètres d'enveloppe spectrale sont une fonction continue par rapport au temps, le procédé dans lequel la dernière valeur de l'intervalle de période précédent ou la première valeur de l'intervalle de période suivant est utilisée de manière répétitive au cours de l'intervalle blanc, et le procédé dans lequel les deux valeurs varient linéairement pendant l'intervalle blanc, donnent le même résultat. 



   Une fois que tous les signaux synthétiques d'excitation et que tous les paramètres synthétiques d'enveloppe spectrale pour un segment ont été assemblés, le sous-bloc d'assemblage en forme d'ondes lisse normalement les deux extrémités des paramètres synthétiques assemblés d'enveloppe spectrale en utilisant le procédé d'interpolation, si bien que la variation quant aux paramètres d'enveloppe spectrale se fait en souplesse entre des segments de discours adjacents. Si le signal synthétique d'excitation et les paramètres synthétiques d'enveloppe spectrale assemblés comme ci-dessus sont entrés comme signal d'excitation et comme coefficients de filtre, respectivement, dans le filtre de synthèse dans le sous-bloc d'assemblage en forme d'ondes, le son synthétique désiré est finalement émis par le filtre de synthèse.

   Les signaux synthétiques 

 <Desc/Clms Page number 59> 

 d'excitation obtenus lorsque les signaux d'impulsions de pas des figures 3H, 3K et 3N sont réinsérés de telle sorte que le modèle de pas soit le même que celui de la figure 3P, sont représentés en figure 3R, et les paramètres synthétiques d'enveloppe spectrale obtenus en faisant correspondre les paramètres d'enveloppe spectrale pour une période des figures 3G, 3J et 3M aux signaux d'impulsions de pas dans le signal synthétique d'excitation de la figure 3R, sont représentés en figure 3S.

   Le fait de constituer un filtre de synthèse à variation temporelle possédant, comme coefficients de filtre, les coefficients de réflexion qui varient comme représenté en figure 3S, et le fait d'entrer le signal synthétique d'excitation, comme représenté en figure 3R, dans le filtre de synthèse à variation temporelle, donnent le son synthétisé de la figure 3T qui est pratiquement le même que le son synthétisé de la figure 3P. 



   En comparant maintenant le procédé de mémorisation de codes en forme d'ondes et le procédé de mémorisation de codes de source, les deux procédés peuvent être considérés comme étant identiques en principe. Toutefois, lors de la concaténation de segments de discours manifestant une mauvaise aptitude à la connexion mutuelle, il existe une différence en ce sens qu'il est possible de synthétiser le son relié en souplesse en lissant les paramètres d'enveloppe spectrale par l'utilisation du procédé d'interpolation dans le cas du procédé de mémorisation de codes de source, cela étant impossible dans le cas du procédé de mémorisation de codes en forme d'ondes.

   En outre, le procédé de mémorisation de codes de source requiert une mémoire inférieure à celle du procédé de mémorisation de codes en forme d'ondes, étant donné que la forme d'ondes de longueur de seulement une période par ondelette doit être mise en mémoire dans le procédé de mémorisation de codes de source, et il présente l'avantage de pouvoir intégrer 

 <Desc/Clms Page number 60> 

 aisément la fonction du bloc de synthèse de sons sonores et la fonction du bloc de synthèse de sons sourds décrits ci-dessus.

   Lorsqu'on utilise le procédé d'analyse par homomorphisme, le cepstrum ou la réponse impulsionnelle peut être utilisé comme jeu de paramètres d'enveloppe spectrale dans le procédé de mémorisation de codes en forme d'ondes, tandis qu'il est pratiquement impossible, dans le procédé de mémorisation de codes de source, d'utiliser le cepstrum nécessitant le calcul à base de blocs, étant donné que la durée du bloc de synthèse possédant les valeurs des paramètres synthétiques constants d'enveloppe spectrale varie de bloc à bloc, comme indiqué dans les paramètres synthétiques d'enveloppe spectrale de la figure 8B représentés par un trait plein. Le procédé de mémorisation de codes de source selon la présente invention utilise l'impulsion de pas d'une période comme impulsion d'excitation.

   Toutefois, il est différent du procédé d'excitation par impulsions de pas régulières de la technique antérieure, qui tente de substituer l'impulsion par une impulsion de pas d'échantillonnage, en ce que, dans la présente invention, l'impulsion de pas de chaque période et les paramètres d'enveloppe spectrale de chaque période correspondant à l'impulsion de pas sont joints pour procurer l'ondelette de chaque période. 



   Comme l'illustre la description précédente, la présente invention est appropriée pour le codage et le décodage des segments de discours du système de synthèse texte-paroles du procédé de synthèse segmentaire de la parole. En outre, étant donné que la présente invention concerne un procédé dans lequel la durée totale et partielle, ainsi que le modèle de pas des unités phonétiques arbitraires telles que les phonèmes, les demi-syllabes et les sous-segments, etc.

   constituant la parole, peuvent être modifiés librement et de manière indépendante, il peut être 

 <Desc/Clms Page number 61> 

 utilisé dans un système de transformation de vitesse de la parole ou dans un système de modification de l'échelle temporelle qui change la vitesse vocale à un rapport constant pour qu'elle soit plus rapide ou plus lente que la vitesse originale sans modifier le modèle d'intonation de la parole et il peut également être utilisé dans le système de synthèse de la voix chantante ou dans un système de codage de parole à très petite vitesse, tel qu'un vocodeur phonétique ou un vocodeur segmentaire qui transfère la parole en modifiant la durée et le pas de segments de discours faisant office de gabarits mémorisés à l'avance. 



   Un autre domaine d'application de la présente invention concerne le système de synthèse de sons musicaux, tel que l'instrument musical électronique du procédé   d'échan-   tillonnage. Etant donné que pratiquement tous les sons au sein de l'étendue du son des instruments de musique électroniques sont codés en forme d'ondes numériques, mis en mémoire et reproduits en cas de nécessité à partir du clavier, etc., dans la technique antérieure, pour les procédés d'échantillonnage destinés à des instruments de musique électronique, un inconvénient résidait dans le fait qu'une quantité importante de mémoire était requise pour mémoriser le son musical.

   Toutefois, si la décomposition en forme d'ondes périodiques et si le procédé de réinsertion d'ondelettes de la présente invention est utilisé, la quantité requise de mémoire peut être significativement réduite, étant donné que les sons de pas divers peuvent être synthétisés en prélevant les sons de seulement quelques espèces de pas. Le son musical consiste principalement en 3 parties, c'est-à-dire une attaque, un soutien et un évanouissement. Etant donné que l'enveloppe spectrale varie progressivement non seulement entre les 3 parties, mais également au sein du soutien, le timbre varie également de manière correspondante.

   En conséquence, si les segments de 

 <Desc/Clms Page number 62> 

 sons musicaux sont codés en fonction du procédé de décomposition en forme d'ondes périodiques décrit ci-dessus et mis en mémoire en prenant les repères temporels appropriés auxquels le spectre varie essentiellement, comme repères temporels limites, et si le son est synthétisé en fonction du procédé décrit ci-dessus de réinsertion d'ondelettes basé sur la variation temporelle, en cas de nécessité à partir du clavier, etc., alors le son musical ayant un pas désiré arbitraire peut être synthétisé.

   Toutefois, dans des cas où le signal de son musical est déconvolué en fonction du procédé d'analyse prédictive linéaire, étant donné qu'il existe une tendance d'obtenir une enveloppe spectrale imprécise et une impulsion de pas qui n'est pas nette, il est recommandé de réduire le nombre de paramètres d'enveloppe spectrale utilisés pour l'analyse et de différencier le signal avant l'analyse. 



   Bien que la présente invention ait été décrite dans sa forme préférée avec un certain degré de particularité, l'homme de métier spécialisé dans la technique comprendra que la présente publication de la forme d'exécution recommandée a été réalisée à titre purement exemplatif et que bon nombre de changements quant aux détails de la construction, de la combinaison et de l'arrangement des parties peuvent être envisagés sans se départir de l'esprit et de la portée de l'invention.

Claims (7)

  1. REVENDICATIONS 1. Procédé de codage de segments de discours destiné à être utilisé dans un système de synthèse de la parole, consistant à : former des ondelettes en obtenant des paramètres qui représentent une enveloppe spectrale dans chaque intervalle de temps d'analyse en analysant un signal numérique pério- dique ou quasi périodique en utilisant une technique d'estimation de spectre, en déconvoluant le signal original en une réponse impulsionnelle représentée par les paramè- tres d'enveloppe spectrale et en un signal de train d'im- pulsions de pas périodiques ou quasi périodiques ayant une enveloppe spectrale pratiquement plate,
    et en convoluant un signal d'excitation obtenu en annexant des échantillons à valeur zéro à un signal d'impulsion de pas d'une période obtenue par segmentation dudit signal de train d'impulsions de pas pour chaque période de telle sorte qu'une impulsion de pas soit contenue dans chaque période, ainsi qu'une réponse impulsionnelle correspondant aux paramètres d'en- veloppe spectrale dans le même intervalle de temps que celui dudit signal d'excitation ; et coder des ondelettes de chaque période en forme d'ondes, les mettre en mémoire et, au moment de la synthèse de la parole, décoder les ondelettes, régler la durée et la fréquence du pas en affectant les ondelettes à des repères temporels appropriés de telle sorte qu'elles possèdent un modèle de pas désiré, les insérer auxdits repères temporels et les superposer en synthétisant ainsi la parole.
  2. 2. Procédé de codage de segments de discours selon la revendication 1, dans lequel les ondelettes sont formées en appariant des informations obtenues par codage en forme d'ondes d'un signal d'impulsion de pas de chaque période obtenu par segmentation à l'aide de l'information obtenue <Desc/Clms Page number 64> en codant un jeu de paramètres d'estimation d'enveloppe spectrale d'une période au cours du même intervalle de temps et en mettant ladite information en mémoire dans lesdites mémoires, et, au moment de la synthèse, les ondelettes sont réalisées en convoluant un signal d'excitation obtenu en annexant des échantillons à valeur zéro à un signal d'impulsion de pas d'une période obtenu en décodant ladite information,
    ainsi qu'une réponse impulsionnelle correspondant aux paramètres décodés d'enveloppe spectrale dans le même intervalle de temps que celui dudit signal d'excitation.
  3. 3. Procédé de codage de segments de discours selon la revendication 2, dans lequel le son de parole synthétique est produit au moment de la synthèse en convoluant un signal synthétique d'excitation formé en affectant des signaux d'impulsions de pas, obtenus en décodant ladite information, à des moments appropriés de telle sorte qu'ils possèdent le modèle de pas désiré et en les insérant auxdits repères temporels, dans lequel un intervalle blanc apparaissant lorsqu'une période de pas désirée est plus longue qu'une période de pas originale, est rempli avec des échantillons à valeur zéro et, dans un intervalle de chevauchement apparaissant lorsque ladite période de pas désirée est plus courte que ladite période de pas originale, les signaux d'impulsions de pas chevauchés sont ajoutés l'un à l'autre, ou bien l'un ou l'autre de ces signaux est sélectionné,
    ainsi qu'une réponse impulsionnelle à variation temporelle correspondant à un jeu de paramètres synthétiques d'enveloppe spectrale, qui est formé, soit en comprimant ou en étendant dans le temps le jeu de fonctions temporelles desdits paramètres sur une base sous-segment par sous-segment selon que la durée d'un sous-segment dans un segment de discours à synthétiser est plus courte ou plus longue que celle d'un sous-segment correspondant dans <Desc/Clms Page number 65> le segment de discours original, respectivement, ou bien en insérant le jeu de fonctions temporelles desdits paramètres d'une période de manière synchrone avec ledit signal apparié d'impulsions de pas d'une période inséré pour former ledit signal synthétique d'excitation, dans lequel, dans ces dernier cas,
    un paramètre synthétique d'enveloppe spectrale dans ledit intervalle blanc est obtenu en répétant la valeur du paramètre d'enveloppe spectrale au point final de la période précédente ou la valeur du paramètre d'enveloppe spectrale au premier point de la période suivante ou encore une valeur moyenne desdites deux valeurs, ou bien en remplissant avec des valeurs reliant en souplesse lesdites deux valeurs, ou en répétant les valeurs des paramètres d'enveloppe spectrale aux dernier et premier points des périodes précédente et suivante avant et après le centre de l'intervalle blanc, et ledit paramètre synthétique d'enveloppe spectrale dans ledit intervalle de chevauchement est obtenu en sélectionnant l'un ou l'autre des paramètres chevauchés d'enveloppe spectrale ou en utilisant une valeur moyenne desdits deux paramètres chevauchés.
  4. 4. Procédé de réglage du pas d'un système de synthèse de la parole, consistant à : régler la durée et le pas d'un segment de discours de manière simultanée à l'intervention d'un procédé de réinsertion d'ondelettes basé sur une variation temporelle en codant des repères temporels limites englobant un point de début, un point final et un point d'état stationnaire dans le segment de discours, ainsi que des positions d'impulsions de pas de chaque ondelette ou de signal d'impulsion de pas d'une période, et les mettre dans des mémoires simultanément au moment de la mise en mémoire de chaque élément de parole, et au moment de la synthèse,
    obtenir une fonction de variation temporelle en comparant les repères <Desc/Clms Page number 66> temporels limites désirés et les repères temporels limites originaux mis en mémoire de manière correspondante auxdits repères temporels limites désirés, rechercher les repères temporels originaux correspondant à chaque position désirée d'impulsions de pas en utilisant ladite fonction de variation temporelle, sélectionner les ondelettes possédant des positions d'impulsions de pas les plus proches desdits repères temporels originaux et les insérer aux positions désirées d'impulsions de pas, et superposer lesdites ondelettes.
  5. 5. Procédé de réglage du pas d'un système de synthèse de la parole selon la revendication 4, englobant, en outre, le fait de produire une parole synthétique en sélectionnant des signaux d'impulsions de pas d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsions de pas et en les insérant, et de convoluer ledit signal d'impulsion de pas et ladite réponse impulsionnelle insérés correspondant auxdits paramètres d'enveloppe spectrale pour produire des ondelettes, et de superposer lesdites ondelettes produites.
  6. 6. Procédé de réglage du pas d'un système de synthèse de parole selon la revendication 4, englobant, en outre, le fait de produire une parole synthétique en sélectionnant des signaux d'impulsions de pas d'une période et des paramètres d'enveloppe spectrale correspondant auxdits signaux d'impulsions de pas et en les insérant et de convoluer un signal synthétique d'excitation obtenu en superposant lesdits signaux insérés d'impulsions de pas conformément au procédé tel que revendiqué à la revendication 3, ainsi qu'une réponse impulsionnelle à variation temporelle correspondant à un paramètre synthétique d'enveloppe spectrale réalisé par concaténation desdits paramètres d'enveloppe spectrale insérés, conformément au procédé <Desc/Clms Page number 67> selon la revendication 3.
  7. 7. Dispositif de synthèse de paroles sonores destiné à être utilisé dans un système de synthèse de la parole comprenant : un sous-bloc de décodage (9) produisant des informations quant aux ondelettes en décodant des codes d'ondelettes provenant du bloc (5) de mémorisation de segments de discours ; un sous-bloc (LO) de réglage de la durée produisant l'information quant à la variation temporelle provenant de l'entrée des données de durée à partir d'un sous-système (2) de génération de prosodie, ainsi que les repères temporels limites inclus dans une information de tête provenant dudit bloc ) de mémorisation de segments de discours ;
    un sous-bloc de réglage du pas produisant l'information quant aux positions d'impulsions de pas de telle sorte qu'elle possède un modèle d'intonation tel qu'indiqué par des données de modèle d'intonation provenant de l'entrée de ladite information de tête issue dudit bloc de mémorisation de segments de discourus &commat;3, desdites données de modèle d'intonation provenant dudit sous-système de génération de prosodie et de ladite information quant à la variation temporelle provenant dudit sous-bloc (lu) de réglage de la durée ;
    un sous-bloc (12) de réglage de l'énergie produisant l'information quant au gain de telle que la parole synthétique possède un modèle d'accentuation tel qu'indiqué par les données de modèle d'accentuation provenant de l'entrée desdites données de modèle d'accentuation à partir dudit sous-système (2) de génération de prosodie, de ladite infor- <Desc/Clms Page number 68> mation quant à la variation temporelle à partir dudit sous-bloc (ld) de réglage de la durée et de l'information quant aux positions d'impulsions de pas provenant dudit sous-bloc (11) de réglage du pas ;
    et un sous-bloc t13) d'assemblage en forme d'ondes produisant un signal de parole sonore provenant de l'entrée de ladite information quant aux ondelettes issue dudit sous-bloc de décodage (9), de ladite information quant à la variation temporelle provenant dudit sous-bloc (ld) de réglage de la durée, de ladite information quant aux positions d'impulsions de pas provenant dudit sous-bloc (il) de réglage du pas et de ladite information quant au gain provenant dudit sous-bloc (12) de réglage de l'énergie.
BE9200956A 1991-11-06 1992-11-04 Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole. BE1005622A3 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910019617A KR940002854B1 (ko) 1991-11-06 1991-11-06 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치

Publications (1)

Publication Number Publication Date
BE1005622A3 true BE1005622A3 (fr) 1993-11-23

Family

ID=19322321

Family Applications (1)

Application Number Title Priority Date Filing Date
BE9200956A BE1005622A3 (fr) 1991-11-06 1992-11-04 Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole.

Country Status (17)

Country Link
US (1) US5617507A (fr)
JP (1) JP2787179B2 (fr)
KR (1) KR940002854B1 (fr)
AT (1) AT400646B (fr)
BE (1) BE1005622A3 (fr)
CA (1) CA2081693A1 (fr)
DE (1) DE4237563C2 (fr)
DK (1) DK134192A (fr)
ES (1) ES2037623B1 (fr)
FR (1) FR2683367B1 (fr)
GB (1) GB2261350B (fr)
GR (1) GR1002157B (fr)
IT (1) IT1258235B (fr)
LU (1) LU88189A1 (fr)
NL (1) NL9201941A (fr)
PT (1) PT101037A (fr)
SE (1) SE9203230L (fr)

Families Citing this family (221)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
CA2119397C (fr) * 1993-03-19 2007-10-02 Kim E.A. Silverman Synthese vocale automatique utilisant un traitement prosodique, une epellation et un debit d'enonciation du texte ameliores
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
NZ304418A (en) * 1995-04-12 1998-02-26 British Telecomm Extension and combination of digitised speech waveforms for speech synthesis
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
CA2188369C (fr) * 1995-10-19 2005-01-11 Joachim Stegmann Methode et dispositif de classification de signaux vocaux
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
CN1135529C (zh) * 1997-02-10 2004-01-21 皇家菲利浦电子有限公司 传送语音信号的通信网络
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
EP0909443B1 (fr) * 1997-04-18 2002-11-20 Koninklijke Philips Electronics N.V. Procede et systeme de codage de la parole en vue de sa reproduction ulterieure
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
WO2000028468A1 (fr) * 1998-11-09 2000-05-18 Datascope Investment Corp. Procede ameliore pour la compression d'un train d'impulsions
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
AUPP829899A0 (en) * 1999-01-27 1999-02-18 Motorola Australia Pty Ltd Method and apparatus for time-warping a digitised waveform to have an approximately fixed period
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
JP3730435B2 (ja) * 1999-03-26 2006-01-05 株式会社東芝 波形信号解析装置
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7346488B2 (en) * 2000-07-10 2008-03-18 Fujitsu Limited Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
WO2002023523A2 (fr) * 2000-09-15 2002-03-21 Lernout & Hauspie Speech Products N.V. Synchronisation rapide de la forme d'onde pour la concatenation et la modification a echelle de temps de la parole
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
JP3973530B2 (ja) * 2002-10-10 2007-09-12 裕 力丸 補聴器、訓練装置、ゲーム装置、および音出力装置
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US9165478B2 (en) 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US8019597B2 (en) * 2004-10-28 2011-09-13 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008142836A1 (fr) * 2007-05-14 2008-11-27 Panasonic Corporation Dispositif de conversion de tonalité vocale et procédé de conversion de tonalité vocale
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (fr) 2008-12-11 2010-06-17 Novauris Technologies Limited Reconnaissance de la parole associée à un dispositif mobile
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (fr) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Appareils, procédés et systèmes pour plateforme de gestion de conversation numérique
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (fr) 2012-06-08 2013-12-12 Apple Inc. Systèmes et procédés servant à reconnaître des identificateurs textuels dans une pluralité de mots
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9308446B1 (en) 2013-03-07 2016-04-12 Posit Science Corporation Neuroplasticity games for social cognition disorders
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (fr) 2013-03-15 2014-09-18 Apple Inc. Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole
WO2014197335A1 (fr) 2013-06-08 2014-12-11 Apple Inc. Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants
EP3937002A1 (fr) 2013-06-09 2022-01-12 Apple Inc. Dispositif, procédé et interface utilisateur graphique permettant la persistance d'une conversation dans un minimum de deux instances d'un assistant numérique
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6276845B2 (ja) 2014-05-01 2018-02-07 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083682B2 (en) * 2015-10-06 2018-09-25 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN111370002B (zh) * 2020-02-14 2022-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
US11848005B2 (en) * 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0239394A1 (fr) * 1986-03-25 1987-09-30 International Business Machines Corporation Dispositif de synthèse de la parole
EP0363233A1 (fr) * 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS51104202A (en) * 1975-03-12 1976-09-14 Hitachi Ltd Onseigoseinotameno sohensakuseisochi
JPS5660499A (en) * 1979-10-22 1981-05-25 Casio Computer Co Ltd Audible sounddsource circuit for voice synthesizer
JPS5710200A (en) * 1980-06-20 1982-01-19 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS5717997A (en) * 1980-07-07 1982-01-29 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS5843498A (ja) * 1981-09-09 1983-03-14 沖電気工業株式会社 音声合成装置
JPS58196597A (ja) * 1982-05-13 1983-11-16 日本電気株式会社 音声合成装置
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
WO1986003873A1 (fr) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Procede et appareil de codage de la parole
EP0481107B1 (fr) * 1990-10-16 1995-09-06 International Business Machines Corporation Synthétiseur de parole utilisant un modèle de markov caché phonétique

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0239394A1 (fr) * 1986-03-25 1987-09-30 International Business Machines Corporation Dispositif de synthèse de la parole
EP0363233A1 (fr) * 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
1978 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, (Tulsa, Oklahoma, 10-12 avril 1978), pages 179-182, IEEE, New York, US; M. BAUMWOLSPINER: "Speech generation through waveform synthesis" *
COMPUTER MUSIC JOURNAL, vol. 8, no. 3, automne 1984, pages 9-14, Cambridge, US; X. RODET: "Time-domain formant-wave-function synthesis" *
ICASSP'79 (1979 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Washington, DC, 2-4 avril 1979), pages 891-894, IEEE, New York, US; R. SCHWARTZ et al.: "Diphone synthesis for phonetic vocoding" *
ICASSP'86 (IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Tokyo, 7-11 avril 1986), vol. 3, pages 2019-2022, IEEE, New York, US; T. YAZU et al.: "The speech synthesis system for an unlimited Japanese vocabulary" *
ICASSP'88 (1988 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, New York, 11-14 avril 1988), vol. 1, pages 351-354, IEEE, New York, US; C. D'ALESSANDRO et al.: "Decomposition of the speech signal into short-time waveforms using spectral segmentation" *
SPEECH COMMUNICATION, vol. 9, no. 5/6, décembre 1990, pages 419-431, Amsterdam, NL; C. D'ALESSANDRO: "Time-frequency speech transformation based on an elementary waveform representation" *
SPEECH COMMUNICATION, vol. 9, no. 5/6, décembre 1990, pages 453-467, Amsterdam, NL; E. MOULINES et al.: "Pitch-synchronous waveform processing technique for text-to-speech synthesis using diphones" *

Also Published As

Publication number Publication date
ATA219292A (de) 1995-06-15
KR940002854B1 (ko) 1994-04-04
JP2787179B2 (ja) 1998-08-13
GB2261350B (en) 1995-08-09
CA2081693A1 (fr) 1993-05-07
PT101037A (pt) 1994-07-29
DK134192A (da) 1993-08-18
SE9203230D0 (sv) 1992-11-02
FR2683367B1 (fr) 1997-04-25
GR1002157B (en) 1996-02-22
AT400646B (de) 1996-02-26
FR2683367A1 (fr) 1993-05-07
ITMI922538A1 (it) 1994-05-05
NL9201941A (nl) 1993-06-01
GB2261350A (en) 1993-05-12
ITMI922538A0 (it) 1992-11-05
GB9222756D0 (en) 1992-12-09
LU88189A1 (fr) 1993-04-15
GR920100488A (el) 1993-07-30
DE4237563A1 (fr) 1993-05-19
DE4237563C2 (de) 1996-03-28
IT1258235B (it) 1996-02-22
ES2037623B1 (es) 1997-03-01
ES2037623R (fr) 1996-08-16
SE9203230L (sv) 1993-05-07
DK134192D0 (da) 1992-11-04
ES2037623A2 (es) 1993-06-16
US5617507A (en) 1997-04-01
JPH06110498A (ja) 1994-04-22

Similar Documents

Publication Publication Date Title
BE1005622A3 (fr) Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole.
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP1692689B1 (fr) Procede de codage multiple optimise
EP0380572A1 (fr) Synthese vocale a partir de segments de signaux vocaux coarticules enregistres numeriquement.
WO2005106853A1 (fr) Procede et systeme de conversion rapides d&#39;un signal vocal
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
WO2009033288A1 (fr) Procédé et dispositif de recherche dans un livre de codes algébriques lors d&#39;un codage vocal ou audio
FR2929466A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
Moorer The use of linear prediction of speech in computer music applications
FR2784218A1 (fr) Procede de codage de la parole a bas debit
WO2004088633A1 (fr) Procede d&#39;analyse d&#39;informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d&#39;analyse
FR2880724A1 (fr) Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
EP1846918B1 (fr) Procede d&#39;estimation d&#39;une fonction de conversion de voix
Park et al. Artificial bandwidth extension of narrowband speech signals for the improvement of perceptual speech communication quality
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1192621B1 (fr) Codage audio avec composants harmoniques
Baudoin et al. Speech coding at low and very low bit rates
Eindhoven DEA ATIAM 2002–2003
FR2815160A1 (fr) Procede et dispositif de codage d&#39;un signal audiofrequence
Kang et al. A Low Bit-Rate Speech Coder using the Perceptual Properties
FR2739482A1 (fr) Procede et dispositif pour l&#39;evaluation du voisement du signal de parole par sous bandes dans des vocodeurs
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes
WO2001003119A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal

Legal Events

Date Code Title Description
RE Patent lapsed

Owner name: KOREA TELECOMMUNICATION AUTHORITY

Effective date: 19961130