FR2713006A1 - Appareil et procédé de synthèse de la parole. - Google Patents
Appareil et procédé de synthèse de la parole. Download PDFInfo
- Publication number
- FR2713006A1 FR2713006A1 FR9413979A FR9413979A FR2713006A1 FR 2713006 A1 FR2713006 A1 FR 2713006A1 FR 9413979 A FR9413979 A FR 9413979A FR 9413979 A FR9413979 A FR 9413979A FR 2713006 A1 FR2713006 A1 FR 2713006A1
- Authority
- FR
- France
- Prior art keywords
- phoneme
- points
- information
- time
- parts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 title claims description 10
- 238000003786 synthesis reaction Methods 0.000 title claims description 8
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000001131 transforming effect Effects 0.000 claims abstract description 7
- 230000005284 excitation Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 210000001260 vocal cord Anatomy 0.000 description 9
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 239000000969 carrier Substances 0.000 description 3
- 230000003340 mental effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002964 excitative effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
- Electrophonic Musical Instruments (AREA)
- Electric Clocks (AREA)
Abstract
Procédé et dispositif pour la transformation de phonèmes à une durée plus courte ou plus longue que celle d'un phonème existant. La transformation est asymétrique en ce qu'on divise un phonème de base en une pluralité de points, lesdits points étant identifiés par rapport aux éléments porteurs d'information dans le phonème. Cela procure une pondération dans le phonème, ente les éléments porteurs d'information et les éléments portant moins d'information. Les parties du phonème dont les éléments portent moins d'information sont transformées sur un intervalle de temps plus long ou, respectivement, plus court. Les éléments du phonème qui représentent des parties porteuses d'information sont transférés sans changement de temps. Cela produit une transformation du phonème qui conserve son caractère original dans toutes ses parties essentielles. Par identification des parties du phonème portant moins d'information, on obtient également une indication des endroits où les différents phonèmes peuvent être mutuellement assemblés dans la création de parole artificielle.
Description
APPAREIL ET PROCEDE DE SYNTHESE DE LA PAROLE
La présente invention concerne la synthèse de la parole. Dans la synthèse de la parole, on identifie des mots qu'on décompose en une pluralité de sons carac- téristiques appelés phonèmes. Dans l'identification de séquences parlées, il est essentiel que lesdits phonèmes
soient identifiés correctement. Les phonèmes sont égale-
ment utilisés dans la génération,par des moyens artifi-
ciels, de séquences parlées.
Pour la génération artificielle de la parole,
on utilise normalement une bibliothèque de phonèmes fon-
damentaux. Lorsqu'on assemble ces phonèmes en mots, il faut dans beaucoup de cas les transformer pour qu'ils aient des durées plus longues ou plus courtes que celles qui sont représentées par les phonèmes de base. A ce
sujet, il est connu d'identifier le phonème en une plura-
lité de points. Lorsqu'on transforme le phonème original à une échelle de temps différente, qui peut représenter un allongement ou un raccourcissement de l'échelle de temps, il est connu d'effectuer la transformation à une pluralité de points choisis. Lorsqu'on allonge l'échelle de temps, il en résulte que certains points du phonème original représentent plusieurs points dans le nouveau phonème. Lorsqu'on raccourcit l'échelle de temps, on combine plusieurs points choisis dans le phonème original
pour former un seul point dans le nouveau phonème. Lors-
qu'on transfère le phonème original à une échelle de temps qui estpar exemple plus longue de 25% que le phonème en bibliothèque, on choisit un certain nombre de points du phonème en bibliothèque. Dans le nouveau phonème, qui est formé par la transformation, on insère 25% de points
de plus que dans le phonème en bibliothèque. Par consé-
quent, lors de la transformation, le nouveau phonème con-
tiendra un certain nombre de points qui ne sont pas défi-
nis dans le phonème en bibliothèque. Lors de la transfor-
mation, on choisit chaque quatrième point du phonème en bibliothèque. On reproduit ces parties du phonème et on
les transfère à deux points du phonème allongé. Les au-
tres points sont transférés du phonème en bibliothèque
au phonème allongé, point par point. Cela produit un al-
longement dans le temps du phonème original, par allon-
gement de temps uniforme sur toute l'étendue du phonème.
Dans les cas o le phonème en bibliothèque est plus long
que le phonème qu'on veut former, on choisit chaque qua-
trième point de la même manière que ci-dessus, si on sup-
pose que le raccourcissement de temps est de 25%. Lors-
que le phonème raccourci en temps est formé, ces points sont supprimés dans la transformation. Dans le brevet
EP-252 544, on décrit la modification d'échelle de pa-
role d'un nouveau point de signal. Cette modification est basée, notamment, sur la découverte que la compression d'échelle de temps réduit le contenu d'information et que l'allongement d'échelle de temps accroît le contenu d'information. Ainsi, des "périodes de hauteur" peuvent
être supprimées ou insérées, respectivement, sur un seg-
ment. L'invention procure un procédé pour l'amélioration
du procédé SOLA par superposition de blocs en chevauche-
ment partiel.
Le brevet US-4 435 832 décrit une synthèse de la parole avec allongement et compression de l'échelle de temps sans modification de la hauteur ou du timbre de
la parole synthétisée.Des paramètres LPC sont échantillon-
nés à partir de formes d'onde segmentées extraites de la parole naturelle,à un intervalle de temps déterminé, à partir d'informations relatives aux phonèmes vocaux/ non vocaux, d'informations de hauteur et de volume. On interpole les paramètres LPC et on améliore l'intervalle
d'échelle de temps pour interpolation.
Dans le brevet US-4 864 620, on décrit un procédé 3 pour la modification d'échelle de temps d'informations
vocales ou de signaux vocaux, afin de reproduire une pa- role enregistrée, à une vitesse différente, sans change- ments de hauteur. Des échantillons dans le domaine du5 temps sont pris en tranches de sorte que le nombre d'é-
chantillons par tranche soit fonction du facteur de chan-
gement de parole désiré. On forme des blocs à partir des tranches. On obtient des transitions relativement douces
par pondération progressive.
Une modification de l'échelle de temps de si-
gnaux de parole est également décrite dans le brevet US-5 216 744. On détermine le nombre d'échantillons qui constituent une "période de hauteur". En outre, on forme un groupe d'échantillons combinés constitué d'un premier
groupe d'échantillons et d'un deuxième groupe d'échantil-
lons. Le nombre d'échantillons dans chaque groupe est égal au nombre d'échantillons qui constituent une période
de hauteur.
Dans la synthèse de la parole, il est essentiel
que les mots et phrases qui sont engendrés artificielle-
ment soient reproduits de façon naturelle. Il est égale-
ment essentiel que la parole produite par une certaine
personne soit identifiée d'une manière correcte. A ce su-
jet, on peut identifier un certain nombre de sons carac-
téristiques, ou phonèmes, pour différentes langues. Ces
phonèmes sont rangés dans différents types de bibliothè-
ques. Lesdits phonèmes constituent un noyau de base. Les phonèmes peuvent s'étendre sur un temps plus long ou plus court que les intervalles de temps qui sont représentés par le phonème de base, en fonction du contexte et des mots dans lesquels ils sont inclus. Il en résulte que les phonèmes qui sont représentés dans la bibliothèque doivent être transformés en durées plus longues ou plus courtes. Dans le présent contexte, il est essentiel que les caractéristiques du phonème ne changent pas du fait
de ces transformations. Cela implique que les parties por-
teuses d'information du phonème ne doivent pas être modi-
fiées. Il est donc souhaitable que les changements de temps aient lieu dans les parties du phonème qui portent moins d' information. Dans l'assemblage d'une pluralité de phonèmes en mots et phrases, il est également essentiel que les transitions entre phonèmes s'effectuent d'une manière telle que les parties porteuses d' information
d'un phénomène respectif ne soient pas modifiées.
Dans la parole naturelle, le ton fondamental varie à l'intérieur d'un même phonème, au cours de la parole. Les solutions qui ont été présentées jusqu'a présent n'ont pas pris ce phénomène en compte. Il est donc
désirable que le changement du ton fondamental, à une fré-
quence plus grande ouplus petite, soit pris en considéra-
tion lorsqu'on transforme des phonèmes.
La présente invention a pour objet d'apporter
une solution au problème défini ci-dessus.
La présente invention procure un procédé de
synthèse de la parole. Un phonème est identifié à une plu-
ralité de points dans l'excitation de corde vocale cor-
respondante du locuteur. Il faut transformer le phonème
à une autre échelle de temps que celle qui est représen-
tée par le phonème original. Après sélection des points,
on identifie les points du phonème qui sont porteurs d'in-
formation. Dans le présent contexte, l'expression "porteurs
d'information" désigne les parties du phonème qui sont né-
cessaires pour que le phonème soit correctement compris.
On identifie également les parties du phonème qui portent
moins d' information.On peut modifier les parties qui por-
tent moins d'information, sans que la caractéristique du
phonème soit modifiée dans sa partie essentielle. Lors-
qu'on utilise des phonèmes, par exemple dans la génération de parole artificielle, il est désirable qu'on puisse
utiliser une pluralité de phonèmes de base qui sont trans-
formés à des valeurs désirées, à différentes occasions.
L'invention tient compte de cette situation et déplace les transitions entre différents phonèmes vers les parties qui portent le moins d' information. Lors de la transformation à une nouvelle échelle de temps, une compression ou, res- pectivement, un allongement est effectué essentiellement
dans les parties du phonème qui portent le moins d'informa-
tion. De cette manière, les parties porteuses d'informa-
tion du phonème restent sensiblement intactes.
Le dispositif comprend un élément qui sélectionne un phonème à partir d'une séquence parlée ou à partir d'un élément de mémoire. L'élément identifie un certain nombre de points dans le phonème. Ensuite, on identifie
les parties porteuses d'information du phonème ou, respec-
tivement, les parties du phonème portant moins d' informa-
tion. L'élément veille ensuite à ce que la transformation du phonème sur un temps plus long/plus court ait lieu par
compression ou, respectivement, allongement dans les par-
ties du phonème portant moins d' information. De cette
manière, le caractère du phonème est sensiblement conservé.
En outre, il devient possible d'obtenir des transitions, entre les différents phonèmes, qui donnent une impression naturelle. L'invention permet le stockage d'un ensemble de phonèmes en bibliothèque, représentant une pluralité de sons normaux qu'on trouve dans le langage. Ces phonèmes en bibliothèque peuvent ensuite être utilisés pour une transformation sur un temps plus long ou plus court que
celui qui est représenté par le phonème en bibliothèque.
Avec la solution spécifiée, le phonème transformé est dé-
gradé de façon minimale par rapport au phonème en biblio-
thèque. Cela résulte du fait que les parties du phonème qui sont essentielles pour l'interprétation du phonème
sont inchangées ou changées à un degré moindre. L'inven-
tion permet également de tenir compte des variations du ton fondamental dans le phonème. Ainsi, on peut introduire
des variations du ton fondamental dans le phonème trans-
formé, par rapport au phonème en bibliothèque. L'intérêt en est qu'on peut donner aux séquences de paroles créées un caractère qui est en accord avec la parole naturelle. Cela est essentiel, en partie pour la compréhension de la
parole et en partie pour l'obtention d'une intonation na-
turelle dans le son engendré.
On décrit maintenant l'invention de façon plus
détaillée, avec référence aux dessins annexés dans les-
quels:
la figure 1 représente des exemples de corres-
pondance d'échelle de temps linéaire; la figure 2 illustre un changement d'échelle de temps conforme à l'invention;
la figure 3 est un schéma de principe du dispo-
sitif conforme à l'invention; et la figure 4 représente un phonème dans lequel
une fenêtre A découpe une impulsion de façon asymétrique.
Lorsqu'on crée une parole artificielle, un tex-
te arrive en 1 sur la figure 3. Le texte est analysé par
l'élément 1 et décomposé en ses composants fondamentaux.
Ensuite, on choisit les phonèmes dans la bibliothèque.
Le phonème en bibliothèque représente une valeur stan-
dard. Cela signifie qu'on a donné au phonème une valeur standard en ce qui concerne la durée, la hauteur, etc. Lorsqu'on insère ensuite le phonème dans le texte qui a été reçu, il faut en règle générale apporter un certain
type de modification au phonème. Cela veut dire que l'é-
tendue du phonème dans le temps doit être modifiée.Cela
est représenté, par exemple, par des durées longues, cour-
tes ou moyennes pendant lesquelles, par exemple, une voyelle doit être émise. Afin de transformer le phonème en bibliothèque, on l'identifie à une pluralité de
points. Le phonème est ensuite analysé par l'élément 1.
7 Dans l'analyse, on détermine les parties porteuses d'in-
formation et les parties portant moins d'information. On choisit ensuite, pour la transformation,les parties por- tant moins d'information. On a observé que les transitions5 entre les différents phonèmes ont une plus grande signi-
fication que les parties plus stables à l'intérieur des pho-
nèmes. La procédure de construction, qui contient des informations décisives relatives à l'interprétation du phonème, présente une importance particulière dans le présent contexte. Les points portant moins d'information sont ensuite reproduits à un certain nombre de points équivalents dans la nouvelle échelle de temps, lorsqu'on augmente le temps. Cela est illustré sur la figure 2, sur
laquelle certainspoints de l'échelle de temps plus cour-
te sont transférés à plusieurs points dans l'échelle de temps plus longue. De cette manière, les parties porteuses
d'information du phonème sont conservées, dans l'allonge-
ment de l'échelle de temps, sans changement de la caracté-
ristique du phonème.
On raccourcit l'échelle de temps d'une manière correspondante. Dans ce cas, on combine deux points ou
plus dans la partie du phonème ne portant pas d' informa-
tion, pour former un seul point. De cette manière, les par-
ties porteuses d'information restent également sensible-
ment intactes lorsqu'on raccourcit l'échelle de temps
pour le phonème.
Afin de réduire l'effet d'une excitation de corde vocale précédente, on a choisi une fenêtre qui a été découpée de façon asymétrique. Cela est illustré sur la figure 4. La fenêtre est ainsi découpée brusquement au début, de sorte qu'on enregistre la période initiale de
l'impulsion et une partie minimale de la région d'extré-
mité de l'impulsion précédente. Il est également avanta-
geux qu'une grande partie de l'impulsion soit découpée de façon à obtenir sa valeur maximale et une proportion de l'impulsion amortie. Cette solution donne la possibilité
de déplacer les transitions entre les impulsions d'exci-
tation de corde vocale vers les régions o les impulsions
sont amorties et ne contiennent pas d'information signi-
ficative. Une découpe de fenêtre de ce type donne égale- ment la possibilité d'identifier l'importance des impul-
sions individuelles pour la compréhension des phonèmes. L'invention permet également de pondérer dif-
férents points dans le phonème en bibliothèque, en ce
qui concerne les éléments porteurs d'information. On uti-
lise la pondération dans la transformation du phonème
d'une manière telle que les points qui ont reçu une pondé-
ration inférieure sont transformés sur une durée plus
longue que les points qui ont reçu une pondération supé-
rieure. Ainsi, les points de faible pondération sont af-
fectés par exemple à trois points dans une échelle de temps plus longue, tandis que les points qui représentent une pondération moyenne sont transformés, par exemple, en deux points dans la nouvelle échelle de temps, et les points ayant la pondération la plus élevée sont transférés
sans modification dans la nouvelle échelle.
Lors de la transformation à une échelle de temps plus courte que celle qui est représentée dans le phonème
de base, trois points par exemple, qui représentent la pon-
dération la plus faible, sont combinés en un seul point, d' une manière similaire, et deux points qui représentent la pondération moyenne sont combinés en un seul point dans le phonème raccourci dans le temps. Les points ayant
la pondération la plus élevée sont transférés sans chan-
gement dans la nouvelle échelle de temps.
De cette manière, l'invention permet la trans-
formation d'échelle de temps de phonèmes sans modification
sensible des parties porteuses d'information du phonème.
Le procédé permet également de lier différents phonèmes les
uns aux autres d'une manière telle que les informations im-
portantes dans les phonèmes ne sont pas détruites aux transitions de phonèmes. Cela est obtenu en ce que la transition entre les phonèmes a lieu dans des parties qui
ne portent pas d'information. De cette manière, l'inven-
tion permet aux mots et expressions qui sont créés par syn-
thèse de la parole de devenir presque naturels.
Du fait que les points choisis dans le phonème
représentent des excitations de corde vocale dans la pa-
role, il est possible de modifier le ton fondamental. Cela
est nécessaire,par exemple, pour donner le caractère cor-
rect au phonème qui est créé. Le changement du ton fonda-
mental est obtenu par reproduction des excitations de corde vocale, dans le phonème créé, à des points qui sont changés par rapport au phonème original. On suppose, par exemple, que le phonème de base représente un son ayant un ton fondamental constant. Cela implique que les excitations de corde vocale se produisent avec le même espacement entre
elles. Toutefois, dans un phonème transformé, le ton fonda-
mental varie pendant la durée du phonème. Connaissant le changement de la caractéristique du ton fondamental, il
faut en tenir compte dans la transformation. Dans le nou-
veau phonème, qui peut être dans ce cas un phonème qui est constant en temps ou qui est transformé à un temps plus long ou plus court, on détermine les intervalles de
temps entre chaque excitation de corde vocale qui doit ap-
paraitre dans le phonème. Ainsi, par exemple, l'inter-
valle de temps entre les première et deuxième excitations de corde vocale est T1 et l'intervalle entre les dernière et avant-dernière excitations de corde vocale est T2. Si,
dans ce cas, il apparaît que le changement du ton fondamen-
tal se produit uniformément dans le temps, les excitations
de corde vocale intermédiaires doivent être réparties, tan-
dis qu'on prend cela en considération. Ladite répartition
est effectuée de façon appropriée au moyen de modèles ma-
thématiques connus. Les excitations de corde vocale respec-
tives dans le phonème de base sont ensuite transférées à des points respectifs dans le phonème transformé. Cela produit une variation du ton fondamental qui correspond à la parole naturelle.5 Il est entendu que l'invention n'est pas limitée au mode de mise en oeuvre décrit ci-dessus et qu'on peut
y apporter des modifications dans le cadre des revendica- tions annexées.
Claims (10)
1.- Procédé de synthèse de la parole pour trans-
former un phonème donné d'une première échelle de temps à une deuxième échelle de temps, caractérisé en ce qu'on
détermine des points,avec un intervalle de temps de sé-
paration, représentant une partie de la courbe du phonème; en ce qu'on identifie les parties du phonème portant plus d' information et, respectivement, moins d'information;
en ce que les parties du phonème portant moins d'informa-
tion sont transformées à la deuxième échelle de temps sur
une durée plus longue/plus courte dans la deuxième échel-
le de temps; et également en ce que les parties du pho-
nème portant plus d'information sont transformées à la deu-
xième échelle de temps sensiblement sans changement de temps, de sorte que le caractère original du phonème est
sensiblement conserve.
2.- Procédé suivant la revendication 1, carac-
térisé en ce que les différents points du phonème sont identifiés et reçoivent une pondération différente en
fonction du degré d'information qu'ils représentent.
3.- Procédé suivant la revendication 1 ou 2,
caractérisé en ce que les points de plus faible pondé-
ration sont transformés sur une durée plus longue/plus courte que les points de plus forte pondération, et en
ce que la transformation a lieu par duplication ou sup-
pression de points ayant la plus faible pondération.
4.- Procédé suivant la revendication 1, ca-
ractérisé en ce que les transitions entre phonèmes ont lieu
dans les parties des phonèmes qui ne portent pas d'infor-
mation.
5.- Procédé suivant la revendication 1, carac- térisé en ce que les points choisis dans la deuxième échel-
le de temps sont choisis avec le même intervalle de temps ou un autre intervalle de temps que dans la première échelle5 de temps, de sorte que le ton fondamental est conservé ou est modifié en ce qui concerne le phonème considéré, lors
de la transformation du phonème.
6.- Dispositif de synthèse de la parole, com-
prenant un élément de sélection qui sélectionne, à partir
d'une séquence parlée ou d'un élément de mémoire, un pho-
nème pour transformation du phonème d'une première échel-
le de temps à une deuxième échelle de temps, caractérisé
en ce que l'élément de sélection (1) identifie une plu-
ralité de points avec un intervalle de temps de séparation, représentant une partie de la courbe du phonème, de sorte que les parties du phonème qui portent des informations et, respectivement, qui portent moins d'informations sont identifiées; en ce que l'élément transforme les parties du phonème portant moins d' information sur une durée
plus longue/plus courte lors de la transformation du pho-
nème à une échelle de temps autre que l'échelle de temps
initiale représentée par le phonème; et en ce que le ca-
ractère initial du phonème est sensiblement conservé.
7.- Dispositif suivant la revendication 6, ca-
ractérisé en ce que l'élément de sélection (1) identifie
et pondère différents points en fonction du contenu d'in-
formation desdits points, en relation à l'identifiabilité
du phonème.
8.- Dispositif suivant la revendication 6 ou 7,
caractérisé en ce que l'élément de sélection (1) transfor-
me les points de plus faible pondération sur une échelle de
235 temps plus longue que les points qui représentent une pondé-
13 ration moyenne; et en ce que les points qui ont reçu une
pondération élevée sont transformés sans changement.
9.- Dispositif suivant la revendication 6 ou 7, caractérisé en ce qu'on combine trois points ou plus ayant une faible pondération; en ce qu'on combine les
points de pondération moyenne, en un plus petit nombre de points que les points de faible pondération; et en ce que les points de forte pondération sont transformés sans10 changement.
10.- Dispositif suivant la revendication 6, caractérisé en ce que l'élément de sélection (1) change
le ton fondamental du phonème lors du transfert à la deu-
xième échelle de temps; et en ce que les points choisis
dans le phonème représentent des excitations de corde vo-
cale dans la parole.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9303902A SE516521C2 (sv) | 1993-11-25 | 1993-11-25 | Anordning och förfarande vid talsyntes |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2713006A1 true FR2713006A1 (fr) | 1995-06-02 |
FR2713006B1 FR2713006B1 (fr) | 1998-03-20 |
Family
ID=20391875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9413979A Expired - Fee Related FR2713006B1 (fr) | 1993-11-25 | 1994-11-22 | Appareil et procédé de synthèse de la parole. |
Country Status (10)
Country | Link |
---|---|
US (1) | US5729657A (fr) |
AU (1) | AU676389B2 (fr) |
CH (1) | CH689883A5 (fr) |
DE (1) | DE4441906C2 (fr) |
ES (1) | ES2106669B1 (fr) |
FR (1) | FR2713006B1 (fr) |
GB (1) | GB2284328B (fr) |
IT (1) | IT1276336B1 (fr) |
NL (1) | NL194481C (fr) |
SE (1) | SE516521C2 (fr) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2166883C (fr) * | 1993-08-04 | 1999-09-21 | Andrew Paul Breen | Synthese de paroles par conversion de phonemes en formes d'onde numeriques |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
AU2003249443A1 (en) * | 2002-09-17 | 2004-04-08 | Koninklijke Philips Electronics N.V. | Method for controlling duration in speech synthesis |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP6047922B2 (ja) | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5189702A (en) * | 1987-02-16 | 1993-02-23 | Canon Kabushiki Kaisha | Voice processing apparatus for varying the speed with which a voice signal is reproduced |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
FR1602936A (fr) * | 1968-12-31 | 1971-02-22 | ||
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
JPS55147697A (en) * | 1979-05-07 | 1980-11-17 | Sharp Kk | Sound synthesizer |
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
US4406001A (en) * | 1980-08-18 | 1983-09-20 | The Variable Speech Control Company ("Vsc") | Time compression/expansion with synchronized individual pitch correction of separate components |
US4435831A (en) * | 1981-12-28 | 1984-03-06 | Mozer Forrest Shrago | Method and apparatus for time domain compression and synthesis of unvoiced audible signals |
US4700301A (en) * | 1983-11-02 | 1987-10-13 | Dyke Howard L | Method of automatically steering agricultural type vehicles |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4701937A (en) * | 1985-05-13 | 1987-10-20 | Industrial Technology Research Institute Republic Of China | Signal storage and replay system |
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
JPS63285598A (ja) * | 1987-05-18 | 1988-11-22 | ケイディディ株式会社 | 音素接続形パラメ−タ規則合成方式 |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
DE58906713D1 (de) * | 1989-04-12 | 1994-02-24 | Siemens Ag | Verfahren zur Dehnung oder Raffung eines Zeitsignals. |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
JP3278863B2 (ja) * | 1991-06-05 | 2002-04-30 | 株式会社日立製作所 | 音声合成装置 |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
-
1993
- 1993-11-25 SE SE9303902A patent/SE516521C2/sv not_active IP Right Cessation
-
1994
- 1994-11-15 AU AU78856/94A patent/AU676389B2/en not_active Ceased
- 1994-11-17 GB GB9423236A patent/GB2284328B/en not_active Expired - Fee Related
- 1994-11-22 FR FR9413979A patent/FR2713006B1/fr not_active Expired - Fee Related
- 1994-11-23 IT IT94RM000763A patent/IT1276336B1/it active IP Right Grant
- 1994-11-24 DE DE4441906A patent/DE4441906C2/de not_active Expired - Fee Related
- 1994-11-24 CH CH03548/94A patent/CH689883A5/de not_active IP Right Cessation
- 1994-11-24 NL NL9401964A patent/NL194481C/nl not_active IP Right Cessation
- 1994-11-25 ES ES09402427A patent/ES2106669B1/es not_active Expired - Lifetime
-
1997
- 1997-04-16 US US08/834,391 patent/US5729657A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5189702A (en) * | 1987-02-16 | 1993-02-23 | Canon Kabushiki Kaisha | Voice processing apparatus for varying the speed with which a voice signal is reproduced |
Non-Patent Citations (2)
Title |
---|
MOULINES E ET AL: "PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHNIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES", SPEECH COMMUNICATION, vol. 9, no. 5 / 06, 1 December 1990 (1990-12-01), pages 453 - 467, XP000202900 * |
SCHWARTZ R ET AL: "Diphone synthesis for phonetic vocoding", ICASSP 79. 1979 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, WASHINGTON, DC, USA, 2-4 APRIL 1979, 1979, NEW YORK, NY, USA, IEEE, USA, pages 891 - 894, XP002029429 * |
Also Published As
Publication number | Publication date |
---|---|
DE4441906A1 (de) | 1995-06-01 |
SE9303902D0 (sv) | 1993-11-25 |
US5729657A (en) | 1998-03-17 |
FR2713006B1 (fr) | 1998-03-20 |
AU676389B2 (en) | 1997-03-06 |
ITRM940763A0 (it) | 1994-11-23 |
NL9401964A (nl) | 1995-06-16 |
SE9303902L (sv) | 1995-05-26 |
GB2284328A (en) | 1995-05-31 |
NL194481B (nl) | 2002-01-02 |
GB2284328B (en) | 1998-01-28 |
ES2106669A1 (es) | 1997-11-01 |
SE516521C2 (sv) | 2002-01-22 |
ES2106669B1 (es) | 1998-06-01 |
CH689883A5 (de) | 1999-12-31 |
IT1276336B1 (it) | 1997-10-28 |
GB9423236D0 (en) | 1995-01-04 |
NL194481C (nl) | 2002-05-03 |
AU7885694A (en) | 1995-06-01 |
DE4441906C2 (de) | 2003-02-13 |
ITRM940763A1 (it) | 1996-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0680653B1 (fr) | Procede d'apprentissage pour un systeme tts, appareil resultant et son procede d'utilisation | |
Pitrelli et al. | The IBM expressive text-to-speech synthesis system for American English | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
US6970820B2 (en) | Voice personalization of speech synthesizer | |
JP2885372B2 (ja) | 音声符号化方法 | |
Donovan et al. | A hidden Markov-model-based trainable speech synthesizer | |
US20050144002A1 (en) | Text-to-speech conversion with associated mood tag | |
CN1758330A (zh) | 用于通过交互式话音响应系统防止语音理解的方法和设备 | |
BE1010336A3 (fr) | Procede de synthese de son. | |
FR2713006A1 (fr) | Appareil et procédé de synthèse de la parole. | |
Swerts et al. | Congruent and incongruent audiovisual cues to prominence | |
Toivanen et al. | Automatic discrimination of emotion from spoken Finnish | |
Warner et al. | Phonological and statistical effects on timing of speech perception: Insights from a database of Dutch diphone perception | |
Rolland et al. | Characteristics of the accentual phrase in French: An acoustic, articulatory and perceptual study | |
Németh et al. | Increasing prosodic variability of text-to-speech synthesizers. | |
Guennec | Study of unit selection text-to-speech synthesis algorithms | |
Bunnell | Speech synthesis: Toward a “Voice” for all | |
WO2004027753A1 (fr) | Procede de synthese d'un signal de bruit continu | |
Patterson et al. | Auditory preprocessing and recognition of speech | |
Meyer | Whistled Turkish: statistical analysis of vowel distribution and consonant modulations | |
Dhiaulhaq et al. | Indonesia Expressive Text to Speech System based on Global Style Token and Tacotron 2 | |
Pols | Acquiring and implementing phonetic knowledge. | |
Hinterleitner et al. | Perceptual Quality Dimensions | |
Perquin | Toward universal speech synthesis: harnessing linguistic and stylistic embeddings for expertise-free and flexible systems | |
Kucharski et al. | Lossy coding and bitrate effects on changes in formant frequencies in Japanese and English speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20100730 |