FR2713006A1 - Appareil et procédé de synthèse de la parole. - Google Patents

Appareil et procédé de synthèse de la parole. Download PDF

Info

Publication number
FR2713006A1
FR2713006A1 FR9413979A FR9413979A FR2713006A1 FR 2713006 A1 FR2713006 A1 FR 2713006A1 FR 9413979 A FR9413979 A FR 9413979A FR 9413979 A FR9413979 A FR 9413979A FR 2713006 A1 FR2713006 A1 FR 2713006A1
Authority
FR
France
Prior art keywords
phoneme
points
information
time
parts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9413979A
Other languages
English (en)
Other versions
FR2713006B1 (fr
Inventor
Svensson Tomas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of FR2713006A1 publication Critical patent/FR2713006A1/fr
Application granted granted Critical
Publication of FR2713006B1 publication Critical patent/FR2713006B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electric Clocks (AREA)

Abstract

Procédé et dispositif pour la transformation de phonèmes à une durée plus courte ou plus longue que celle d'un phonème existant. La transformation est asymétrique en ce qu'on divise un phonème de base en une pluralité de points, lesdits points étant identifiés par rapport aux éléments porteurs d'information dans le phonème. Cela procure une pondération dans le phonème, ente les éléments porteurs d'information et les éléments portant moins d'information. Les parties du phonème dont les éléments portent moins d'information sont transformées sur un intervalle de temps plus long ou, respectivement, plus court. Les éléments du phonème qui représentent des parties porteuses d'information sont transférés sans changement de temps. Cela produit une transformation du phonème qui conserve son caractère original dans toutes ses parties essentielles. Par identification des parties du phonème portant moins d'information, on obtient également une indication des endroits où les différents phonèmes peuvent être mutuellement assemblés dans la création de parole artificielle.

Description

APPAREIL ET PROCEDE DE SYNTHESE DE LA PAROLE
La présente invention concerne la synthèse de la parole. Dans la synthèse de la parole, on identifie des mots qu'on décompose en une pluralité de sons carac- téristiques appelés phonèmes. Dans l'identification de séquences parlées, il est essentiel que lesdits phonèmes
soient identifiés correctement. Les phonèmes sont égale-
ment utilisés dans la génération,par des moyens artifi-
ciels, de séquences parlées.
Pour la génération artificielle de la parole,
on utilise normalement une bibliothèque de phonèmes fon-
damentaux. Lorsqu'on assemble ces phonèmes en mots, il faut dans beaucoup de cas les transformer pour qu'ils aient des durées plus longues ou plus courtes que celles qui sont représentées par les phonèmes de base. A ce
sujet, il est connu d'identifier le phonème en une plura-
lité de points. Lorsqu'on transforme le phonème original à une échelle de temps différente, qui peut représenter un allongement ou un raccourcissement de l'échelle de temps, il est connu d'effectuer la transformation à une pluralité de points choisis. Lorsqu'on allonge l'échelle de temps, il en résulte que certains points du phonème original représentent plusieurs points dans le nouveau phonème. Lorsqu'on raccourcit l'échelle de temps, on combine plusieurs points choisis dans le phonème original
pour former un seul point dans le nouveau phonème. Lors-
qu'on transfère le phonème original à une échelle de temps qui estpar exemple plus longue de 25% que le phonème en bibliothèque, on choisit un certain nombre de points du phonème en bibliothèque. Dans le nouveau phonème, qui est formé par la transformation, on insère 25% de points
de plus que dans le phonème en bibliothèque. Par consé-
quent, lors de la transformation, le nouveau phonème con-
tiendra un certain nombre de points qui ne sont pas défi-
nis dans le phonème en bibliothèque. Lors de la transfor-
mation, on choisit chaque quatrième point du phonème en bibliothèque. On reproduit ces parties du phonème et on
les transfère à deux points du phonème allongé. Les au-
tres points sont transférés du phonème en bibliothèque
au phonème allongé, point par point. Cela produit un al-
longement dans le temps du phonème original, par allon-
gement de temps uniforme sur toute l'étendue du phonème.
Dans les cas o le phonème en bibliothèque est plus long
que le phonème qu'on veut former, on choisit chaque qua-
trième point de la même manière que ci-dessus, si on sup-
pose que le raccourcissement de temps est de 25%. Lors-
que le phonème raccourci en temps est formé, ces points sont supprimés dans la transformation. Dans le brevet
EP-252 544, on décrit la modification d'échelle de pa-
role d'un nouveau point de signal. Cette modification est basée, notamment, sur la découverte que la compression d'échelle de temps réduit le contenu d'information et que l'allongement d'échelle de temps accroît le contenu d'information. Ainsi, des "périodes de hauteur" peuvent
être supprimées ou insérées, respectivement, sur un seg-
ment. L'invention procure un procédé pour l'amélioration
du procédé SOLA par superposition de blocs en chevauche-
ment partiel.
Le brevet US-4 435 832 décrit une synthèse de la parole avec allongement et compression de l'échelle de temps sans modification de la hauteur ou du timbre de
la parole synthétisée.Des paramètres LPC sont échantillon-
nés à partir de formes d'onde segmentées extraites de la parole naturelle,à un intervalle de temps déterminé, à partir d'informations relatives aux phonèmes vocaux/ non vocaux, d'informations de hauteur et de volume. On interpole les paramètres LPC et on améliore l'intervalle
d'échelle de temps pour interpolation.
Dans le brevet US-4 864 620, on décrit un procédé 3 pour la modification d'échelle de temps d'informations
vocales ou de signaux vocaux, afin de reproduire une pa- role enregistrée, à une vitesse différente, sans change- ments de hauteur. Des échantillons dans le domaine du5 temps sont pris en tranches de sorte que le nombre d'é-
chantillons par tranche soit fonction du facteur de chan-
gement de parole désiré. On forme des blocs à partir des tranches. On obtient des transitions relativement douces
par pondération progressive.
Une modification de l'échelle de temps de si-
gnaux de parole est également décrite dans le brevet US-5 216 744. On détermine le nombre d'échantillons qui constituent une "période de hauteur". En outre, on forme un groupe d'échantillons combinés constitué d'un premier
groupe d'échantillons et d'un deuxième groupe d'échantil-
lons. Le nombre d'échantillons dans chaque groupe est égal au nombre d'échantillons qui constituent une période
de hauteur.
Dans la synthèse de la parole, il est essentiel
que les mots et phrases qui sont engendrés artificielle-
ment soient reproduits de façon naturelle. Il est égale-
ment essentiel que la parole produite par une certaine
personne soit identifiée d'une manière correcte. A ce su-
jet, on peut identifier un certain nombre de sons carac-
téristiques, ou phonèmes, pour différentes langues. Ces
phonèmes sont rangés dans différents types de bibliothè-
ques. Lesdits phonèmes constituent un noyau de base. Les phonèmes peuvent s'étendre sur un temps plus long ou plus court que les intervalles de temps qui sont représentés par le phonème de base, en fonction du contexte et des mots dans lesquels ils sont inclus. Il en résulte que les phonèmes qui sont représentés dans la bibliothèque doivent être transformés en durées plus longues ou plus courtes. Dans le présent contexte, il est essentiel que les caractéristiques du phonème ne changent pas du fait
de ces transformations. Cela implique que les parties por-
teuses d'information du phonème ne doivent pas être modi-
fiées. Il est donc souhaitable que les changements de temps aient lieu dans les parties du phonème qui portent moins d' information. Dans l'assemblage d'une pluralité de phonèmes en mots et phrases, il est également essentiel que les transitions entre phonèmes s'effectuent d'une manière telle que les parties porteuses d' information
d'un phénomène respectif ne soient pas modifiées.
Dans la parole naturelle, le ton fondamental varie à l'intérieur d'un même phonème, au cours de la parole. Les solutions qui ont été présentées jusqu'a présent n'ont pas pris ce phénomène en compte. Il est donc
désirable que le changement du ton fondamental, à une fré-
quence plus grande ouplus petite, soit pris en considéra-
tion lorsqu'on transforme des phonèmes.
La présente invention a pour objet d'apporter
une solution au problème défini ci-dessus.
La présente invention procure un procédé de
synthèse de la parole. Un phonème est identifié à une plu-
ralité de points dans l'excitation de corde vocale cor-
respondante du locuteur. Il faut transformer le phonème
à une autre échelle de temps que celle qui est représen-
tée par le phonème original. Après sélection des points,
on identifie les points du phonème qui sont porteurs d'in-
formation. Dans le présent contexte, l'expression "porteurs
d'information" désigne les parties du phonème qui sont né-
cessaires pour que le phonème soit correctement compris.
On identifie également les parties du phonème qui portent
moins d' information.On peut modifier les parties qui por-
tent moins d'information, sans que la caractéristique du
phonème soit modifiée dans sa partie essentielle. Lors-
qu'on utilise des phonèmes, par exemple dans la génération de parole artificielle, il est désirable qu'on puisse
utiliser une pluralité de phonèmes de base qui sont trans-
formés à des valeurs désirées, à différentes occasions.
L'invention tient compte de cette situation et déplace les transitions entre différents phonèmes vers les parties qui portent le moins d' information. Lors de la transformation à une nouvelle échelle de temps, une compression ou, res- pectivement, un allongement est effectué essentiellement
dans les parties du phonème qui portent le moins d'informa-
tion. De cette manière, les parties porteuses d'informa-
tion du phonème restent sensiblement intactes.
Le dispositif comprend un élément qui sélectionne un phonème à partir d'une séquence parlée ou à partir d'un élément de mémoire. L'élément identifie un certain nombre de points dans le phonème. Ensuite, on identifie
les parties porteuses d'information du phonème ou, respec-
tivement, les parties du phonème portant moins d' informa-
tion. L'élément veille ensuite à ce que la transformation du phonème sur un temps plus long/plus court ait lieu par
compression ou, respectivement, allongement dans les par-
ties du phonème portant moins d' information. De cette
manière, le caractère du phonème est sensiblement conservé.
En outre, il devient possible d'obtenir des transitions, entre les différents phonèmes, qui donnent une impression naturelle. L'invention permet le stockage d'un ensemble de phonèmes en bibliothèque, représentant une pluralité de sons normaux qu'on trouve dans le langage. Ces phonèmes en bibliothèque peuvent ensuite être utilisés pour une transformation sur un temps plus long ou plus court que
celui qui est représenté par le phonème en bibliothèque.
Avec la solution spécifiée, le phonème transformé est dé-
gradé de façon minimale par rapport au phonème en biblio-
thèque. Cela résulte du fait que les parties du phonème qui sont essentielles pour l'interprétation du phonème
sont inchangées ou changées à un degré moindre. L'inven-
tion permet également de tenir compte des variations du ton fondamental dans le phonème. Ainsi, on peut introduire
des variations du ton fondamental dans le phonème trans-
formé, par rapport au phonème en bibliothèque. L'intérêt en est qu'on peut donner aux séquences de paroles créées un caractère qui est en accord avec la parole naturelle. Cela est essentiel, en partie pour la compréhension de la
parole et en partie pour l'obtention d'une intonation na-
turelle dans le son engendré.
On décrit maintenant l'invention de façon plus
détaillée, avec référence aux dessins annexés dans les-
quels:
la figure 1 représente des exemples de corres-
pondance d'échelle de temps linéaire; la figure 2 illustre un changement d'échelle de temps conforme à l'invention;
la figure 3 est un schéma de principe du dispo-
sitif conforme à l'invention; et la figure 4 représente un phonème dans lequel
une fenêtre A découpe une impulsion de façon asymétrique.
Lorsqu'on crée une parole artificielle, un tex-
te arrive en 1 sur la figure 3. Le texte est analysé par
l'élément 1 et décomposé en ses composants fondamentaux.
Ensuite, on choisit les phonèmes dans la bibliothèque.
Le phonème en bibliothèque représente une valeur stan-
dard. Cela signifie qu'on a donné au phonème une valeur standard en ce qui concerne la durée, la hauteur, etc. Lorsqu'on insère ensuite le phonème dans le texte qui a été reçu, il faut en règle générale apporter un certain
type de modification au phonème. Cela veut dire que l'é-
tendue du phonème dans le temps doit être modifiée.Cela
est représenté, par exemple, par des durées longues, cour-
tes ou moyennes pendant lesquelles, par exemple, une voyelle doit être émise. Afin de transformer le phonème en bibliothèque, on l'identifie à une pluralité de
points. Le phonème est ensuite analysé par l'élément 1.
7 Dans l'analyse, on détermine les parties porteuses d'in-
formation et les parties portant moins d'information. On choisit ensuite, pour la transformation,les parties por- tant moins d'information. On a observé que les transitions5 entre les différents phonèmes ont une plus grande signi-
fication que les parties plus stables à l'intérieur des pho-
nèmes. La procédure de construction, qui contient des informations décisives relatives à l'interprétation du phonème, présente une importance particulière dans le présent contexte. Les points portant moins d'information sont ensuite reproduits à un certain nombre de points équivalents dans la nouvelle échelle de temps, lorsqu'on augmente le temps. Cela est illustré sur la figure 2, sur
laquelle certainspoints de l'échelle de temps plus cour-
te sont transférés à plusieurs points dans l'échelle de temps plus longue. De cette manière, les parties porteuses
d'information du phonème sont conservées, dans l'allonge-
ment de l'échelle de temps, sans changement de la caracté-
ristique du phonème.
On raccourcit l'échelle de temps d'une manière correspondante. Dans ce cas, on combine deux points ou
plus dans la partie du phonème ne portant pas d' informa-
tion, pour former un seul point. De cette manière, les par-
ties porteuses d'information restent également sensible-
ment intactes lorsqu'on raccourcit l'échelle de temps
pour le phonème.
Afin de réduire l'effet d'une excitation de corde vocale précédente, on a choisi une fenêtre qui a été découpée de façon asymétrique. Cela est illustré sur la figure 4. La fenêtre est ainsi découpée brusquement au début, de sorte qu'on enregistre la période initiale de
l'impulsion et une partie minimale de la région d'extré-
mité de l'impulsion précédente. Il est également avanta-
geux qu'une grande partie de l'impulsion soit découpée de façon à obtenir sa valeur maximale et une proportion de l'impulsion amortie. Cette solution donne la possibilité
de déplacer les transitions entre les impulsions d'exci-
tation de corde vocale vers les régions o les impulsions
sont amorties et ne contiennent pas d'information signi-
ficative. Une découpe de fenêtre de ce type donne égale- ment la possibilité d'identifier l'importance des impul-
sions individuelles pour la compréhension des phonèmes. L'invention permet également de pondérer dif-
férents points dans le phonème en bibliothèque, en ce
qui concerne les éléments porteurs d'information. On uti-
lise la pondération dans la transformation du phonème
d'une manière telle que les points qui ont reçu une pondé-
ration inférieure sont transformés sur une durée plus
longue que les points qui ont reçu une pondération supé-
rieure. Ainsi, les points de faible pondération sont af-
fectés par exemple à trois points dans une échelle de temps plus longue, tandis que les points qui représentent une pondération moyenne sont transformés, par exemple, en deux points dans la nouvelle échelle de temps, et les points ayant la pondération la plus élevée sont transférés
sans modification dans la nouvelle échelle.
Lors de la transformation à une échelle de temps plus courte que celle qui est représentée dans le phonème
de base, trois points par exemple, qui représentent la pon-
dération la plus faible, sont combinés en un seul point, d' une manière similaire, et deux points qui représentent la pondération moyenne sont combinés en un seul point dans le phonème raccourci dans le temps. Les points ayant
la pondération la plus élevée sont transférés sans chan-
gement dans la nouvelle échelle de temps.
De cette manière, l'invention permet la trans-
formation d'échelle de temps de phonèmes sans modification
sensible des parties porteuses d'information du phonème.
Le procédé permet également de lier différents phonèmes les
uns aux autres d'une manière telle que les informations im-
portantes dans les phonèmes ne sont pas détruites aux transitions de phonèmes. Cela est obtenu en ce que la transition entre les phonèmes a lieu dans des parties qui
ne portent pas d'information. De cette manière, l'inven-
tion permet aux mots et expressions qui sont créés par syn-
thèse de la parole de devenir presque naturels.
Du fait que les points choisis dans le phonème
représentent des excitations de corde vocale dans la pa-
role, il est possible de modifier le ton fondamental. Cela
est nécessaire,par exemple, pour donner le caractère cor-
rect au phonème qui est créé. Le changement du ton fonda-
mental est obtenu par reproduction des excitations de corde vocale, dans le phonème créé, à des points qui sont changés par rapport au phonème original. On suppose, par exemple, que le phonème de base représente un son ayant un ton fondamental constant. Cela implique que les excitations de corde vocale se produisent avec le même espacement entre
elles. Toutefois, dans un phonème transformé, le ton fonda-
mental varie pendant la durée du phonème. Connaissant le changement de la caractéristique du ton fondamental, il
faut en tenir compte dans la transformation. Dans le nou-
veau phonème, qui peut être dans ce cas un phonème qui est constant en temps ou qui est transformé à un temps plus long ou plus court, on détermine les intervalles de
temps entre chaque excitation de corde vocale qui doit ap-
paraitre dans le phonème. Ainsi, par exemple, l'inter-
valle de temps entre les première et deuxième excitations de corde vocale est T1 et l'intervalle entre les dernière et avant-dernière excitations de corde vocale est T2. Si,
dans ce cas, il apparaît que le changement du ton fondamen-
tal se produit uniformément dans le temps, les excitations
de corde vocale intermédiaires doivent être réparties, tan-
dis qu'on prend cela en considération. Ladite répartition
est effectuée de façon appropriée au moyen de modèles ma-
thématiques connus. Les excitations de corde vocale respec-
tives dans le phonème de base sont ensuite transférées à des points respectifs dans le phonème transformé. Cela produit une variation du ton fondamental qui correspond à la parole naturelle.5 Il est entendu que l'invention n'est pas limitée au mode de mise en oeuvre décrit ci-dessus et qu'on peut
y apporter des modifications dans le cadre des revendica- tions annexées.

Claims (10)

REVENDICATIONS
1.- Procédé de synthèse de la parole pour trans-
former un phonème donné d'une première échelle de temps à une deuxième échelle de temps, caractérisé en ce qu'on
détermine des points,avec un intervalle de temps de sé-
paration, représentant une partie de la courbe du phonème; en ce qu'on identifie les parties du phonème portant plus d' information et, respectivement, moins d'information;
en ce que les parties du phonème portant moins d'informa-
tion sont transformées à la deuxième échelle de temps sur
une durée plus longue/plus courte dans la deuxième échel-
le de temps; et également en ce que les parties du pho-
nème portant plus d'information sont transformées à la deu-
xième échelle de temps sensiblement sans changement de temps, de sorte que le caractère original du phonème est
sensiblement conserve.
2.- Procédé suivant la revendication 1, carac-
térisé en ce que les différents points du phonème sont identifiés et reçoivent une pondération différente en
fonction du degré d'information qu'ils représentent.
3.- Procédé suivant la revendication 1 ou 2,
caractérisé en ce que les points de plus faible pondé-
ration sont transformés sur une durée plus longue/plus courte que les points de plus forte pondération, et en
ce que la transformation a lieu par duplication ou sup-
pression de points ayant la plus faible pondération.
4.- Procédé suivant la revendication 1, ca-
ractérisé en ce que les transitions entre phonèmes ont lieu
dans les parties des phonèmes qui ne portent pas d'infor-
mation.
5.- Procédé suivant la revendication 1, carac- térisé en ce que les points choisis dans la deuxième échel-
le de temps sont choisis avec le même intervalle de temps ou un autre intervalle de temps que dans la première échelle5 de temps, de sorte que le ton fondamental est conservé ou est modifié en ce qui concerne le phonème considéré, lors
de la transformation du phonème.
6.- Dispositif de synthèse de la parole, com-
prenant un élément de sélection qui sélectionne, à partir
d'une séquence parlée ou d'un élément de mémoire, un pho-
nème pour transformation du phonème d'une première échel-
le de temps à une deuxième échelle de temps, caractérisé
en ce que l'élément de sélection (1) identifie une plu-
ralité de points avec un intervalle de temps de séparation, représentant une partie de la courbe du phonème, de sorte que les parties du phonème qui portent des informations et, respectivement, qui portent moins d'informations sont identifiées; en ce que l'élément transforme les parties du phonème portant moins d' information sur une durée
plus longue/plus courte lors de la transformation du pho-
nème à une échelle de temps autre que l'échelle de temps
initiale représentée par le phonème; et en ce que le ca-
ractère initial du phonème est sensiblement conservé.
7.- Dispositif suivant la revendication 6, ca-
ractérisé en ce que l'élément de sélection (1) identifie
et pondère différents points en fonction du contenu d'in-
formation desdits points, en relation à l'identifiabilité
du phonème.
8.- Dispositif suivant la revendication 6 ou 7,
caractérisé en ce que l'élément de sélection (1) transfor-
me les points de plus faible pondération sur une échelle de
235 temps plus longue que les points qui représentent une pondé-
13 ration moyenne; et en ce que les points qui ont reçu une
pondération élevée sont transformés sans changement.
9.- Dispositif suivant la revendication 6 ou 7, caractérisé en ce qu'on combine trois points ou plus ayant une faible pondération; en ce qu'on combine les
points de pondération moyenne, en un plus petit nombre de points que les points de faible pondération; et en ce que les points de forte pondération sont transformés sans10 changement.
10.- Dispositif suivant la revendication 6, caractérisé en ce que l'élément de sélection (1) change
le ton fondamental du phonème lors du transfert à la deu-
xième échelle de temps; et en ce que les points choisis
dans le phonème représentent des excitations de corde vo-
cale dans la parole.
FR9413979A 1993-11-25 1994-11-22 Appareil et procédé de synthèse de la parole. Expired - Fee Related FR2713006B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9303902A SE516521C2 (sv) 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes

Publications (2)

Publication Number Publication Date
FR2713006A1 true FR2713006A1 (fr) 1995-06-02
FR2713006B1 FR2713006B1 (fr) 1998-03-20

Family

ID=20391875

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9413979A Expired - Fee Related FR2713006B1 (fr) 1993-11-25 1994-11-22 Appareil et procédé de synthèse de la parole.

Country Status (10)

Country Link
US (1) US5729657A (fr)
AU (1) AU676389B2 (fr)
CH (1) CH689883A5 (fr)
DE (1) DE4441906C2 (fr)
ES (1) ES2106669B1 (fr)
FR (1) FR2713006B1 (fr)
GB (1) GB2284328B (fr)
IT (1) IT1276336B1 (fr)
NL (1) NL194481C (fr)
SE (1) SE516521C2 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0712529T3 (da) * 1993-08-04 1999-04-06 British Telecomm Syntetisering af tale ved at konvertere fonemer til digitale bølgeformer
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
JP5175422B2 (ja) * 2002-09-17 2013-04-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成における時間幅を制御する方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3158685A (en) * 1961-05-04 1964-11-24 Bell Telephone Labor Inc Synthesis of speech from code signals
FR1602936A (fr) * 1968-12-31 1971-02-22
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
US4406001A (en) * 1980-08-18 1983-09-20 The Variable Speech Control Company ("Vsc") Time compression/expansion with synchronized individual pitch correction of separate components
US4435831A (en) * 1981-12-28 1984-03-06 Mozer Forrest Shrago Method and apparatus for time domain compression and synthesis of unvoiced audible signals
US4700301A (en) * 1983-11-02 1987-10-13 Dyke Howard L Method of automatically steering agricultural type vehicles
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4701937A (en) * 1985-05-13 1987-10-20 Industrial Technology Research Institute Republic Of China Signal storage and replay system
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE58906713D1 (de) * 1989-04-12 1994-02-24 Siemens Ag Verfahren zur Dehnung oder Raffung eines Zeitsignals.
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOULINES E ET AL: "PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHNIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES", SPEECH COMMUNICATION, vol. 9, no. 5 / 06, 1 December 1990 (1990-12-01), pages 453 - 467, XP000202900 *
SCHWARTZ R ET AL: "Diphone synthesis for phonetic vocoding", ICASSP 79. 1979 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, WASHINGTON, DC, USA, 2-4 APRIL 1979, 1979, NEW YORK, NY, USA, IEEE, USA, pages 891 - 894, XP002029429 *

Also Published As

Publication number Publication date
US5729657A (en) 1998-03-17
GB2284328A (en) 1995-05-31
NL194481C (nl) 2002-05-03
AU7885694A (en) 1995-06-01
ES2106669B1 (es) 1998-06-01
SE9303902L (sv) 1995-05-26
GB9423236D0 (en) 1995-01-04
FR2713006B1 (fr) 1998-03-20
ITRM940763A0 (it) 1994-11-23
NL9401964A (nl) 1995-06-16
DE4441906C2 (de) 2003-02-13
DE4441906A1 (de) 1995-06-01
IT1276336B1 (it) 1997-10-28
CH689883A5 (de) 1999-12-31
AU676389B2 (en) 1997-03-06
SE9303902D0 (sv) 1993-11-25
ITRM940763A1 (it) 1996-05-23
NL194481B (nl) 2002-01-02
ES2106669A1 (es) 1997-11-01
GB2284328B (en) 1998-01-28
SE516521C2 (sv) 2002-01-22

Similar Documents

Publication Publication Date Title
EP0680653B1 (fr) Procede d'apprentissage pour un systeme tts, appareil resultant et son procede d'utilisation
US6970820B2 (en) Voice personalization of speech synthesizer
JP2885372B2 (ja) 音声符号化方法
Donovan et al. A hidden Markov-model-based trainable speech synthesizer
US20050144002A1 (en) Text-to-speech conversion with associated mood tag
LU88189A1 (fr) Procédés de codage de segments de parole et de controlôle de hauteur de son pour des synthèse de la parole
CN1758330A (zh) 用于通过交互式话音响应系统防止语音理解的方法和设备
BE1010336A3 (fr) Procede de synthese de son.
Hamza et al. The IBM expressive speech synthesis system.
Cooper Text-to-speech synthesis using found data for low-resource languages
FR2713006A1 (fr) Appareil et procédé de synthèse de la parole.
Swerts et al. Congruent and incongruent audiovisual cues to prominence
Toivanen et al. Automatic discrimination of emotion from spoken Finnish
Warner et al. Phonological and statistical effects on timing of speech perception: Insights from a database of Dutch diphone perception
Rolland et al. Characteristics of the accentual phrase in French: An acoustic, articulatory and perceptual study
Németh et al. Increasing prosodic variability of text-to-speech synthesizers.
Guennec Study of unit selection text-to-speech synthesis algorithms
Bunnell Speech synthesis: Toward a “Voice” for all
WO2004027753A1 (fr) Procede de synthese d'un signal de bruit continu
Patterson et al. Auditory preprocessing and recognition of speech
Meyer Whistled Turkish: statistical analysis of vowel distribution and consonant modulations
Dhiaulhaq et al. Indonesia Expressive Text to Speech System based on Global Style Token and Tacotron 2
Pols Acquiring and implementing phonetic knowledge.
Hinterleitner et al. Perceptual Quality Dimensions
Perquin Toward universal speech synthesis: harnessing linguistic and stylistic embeddings for expertise-free and flexible systems

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20100730