FR2713006A1

FR2713006A1 - Appareil et procédé de synthèse de la parole.

Info

Publication number: FR2713006A1
Application number: FR9413979A
Authority: FR
Inventors: Svensson Tomas
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1993-11-25
Filing date: 1994-11-22
Publication date: 1995-06-02
Anticipated expiration: 2014-11-22
Also published as: DE4441906A1; SE9303902D0; US5729657A; FR2713006B1; AU676389B2; ITRM940763A0; NL9401964A; SE9303902L; GB2284328A; NL194481B; GB2284328B; ES2106669A1; SE516521C2; ES2106669B1; CH689883A5; IT1276336B1; GB9423236D0; NL194481C; AU7885694A; DE4441906C2

Abstract

Procédé et dispositif pour la transformation de phonèmes à une durée plus courte ou plus longue que celle d'un phonème existant. La transformation est asymétrique en ce qu'on divise un phonème de base en une pluralité de points, lesdits points étant identifiés par rapport aux éléments porteurs d'information dans le phonème. Cela procure une pondération dans le phonème, ente les éléments porteurs d'information et les éléments portant moins d'information. Les parties du phonème dont les éléments portent moins d'information sont transformées sur un intervalle de temps plus long ou, respectivement, plus court. Les éléments du phonème qui représentent des parties porteuses d'information sont transférés sans changement de temps. Cela produit une transformation du phonème qui conserve son caractère original dans toutes ses parties essentielles. Par identification des parties du phonème portant moins d'information, on obtient également une indication des endroits où les différents phonèmes peuvent être mutuellement assemblés dans la création de parole artificielle.

Description

APPAREIL ET PROCEDE DE SYNTHESE DE LA PAROLE

La présente invention concerne la synthèse de la parole. Dans la synthèse de la parole, on identifie des mots qu'on décompose en une pluralité de sons carac- téristiques appelés phonèmes. Dans l'identification de séquences parlées, il est essentiel que lesdits phonèmes

soient identifiés correctement. Les phonèmes sont égale-

ment utilisés dans la génération,par des moyens artifi-

ciels, de séquences parlées.

Pour la génération artificielle de la parole,

on utilise normalement une bibliothèque de phonèmes fon-

damentaux. Lorsqu'on assemble ces phonèmes en mots, il faut dans beaucoup de cas les transformer pour qu'ils aient des durées plus longues ou plus courtes que celles qui sont représentées par les phonèmes de base. A ce

sujet, il est connu d'identifier le phonème en une plura-

lité de points. Lorsqu'on transforme le phonème original à une échelle de temps différente, qui peut représenter un allongement ou un raccourcissement de l'échelle de temps, il est connu d'effectuer la transformation à une pluralité de points choisis. Lorsqu'on allonge l'échelle de temps, il en résulte que certains points du phonème original représentent plusieurs points dans le nouveau phonème. Lorsqu'on raccourcit l'échelle de temps, on combine plusieurs points choisis dans le phonème original

pour former un seul point dans le nouveau phonème. Lors-

qu'on transfère le phonème original à une échelle de temps qui estpar exemple plus longue de 25% que le phonème en bibliothèque, on choisit un certain nombre de points du phonème en bibliothèque. Dans le nouveau phonème, qui est formé par la transformation, on insère 25% de points

de plus que dans le phonème en bibliothèque. Par consé-

quent, lors de la transformation, le nouveau phonème con-

tiendra un certain nombre de points qui ne sont pas défi-

nis dans le phonème en bibliothèque. Lors de la transfor-

mation, on choisit chaque quatrième point du phonème en bibliothèque. On reproduit ces parties du phonème et on

les transfère à deux points du phonème allongé. Les au-

tres points sont transférés du phonème en bibliothèque

au phonème allongé, point par point. Cela produit un al-

longement dans le temps du phonème original, par allon-

gement de temps uniforme sur toute l'étendue du phonème.

Dans les cas o le phonème en bibliothèque est plus long

que le phonème qu'on veut former, on choisit chaque qua-

trième point de la même manière que ci-dessus, si on sup-

pose que le raccourcissement de temps est de 25%. Lors-

que le phonème raccourci en temps est formé, ces points sont supprimés dans la transformation. Dans le brevet

EP-252 544, on décrit la modification d'échelle de pa-

role d'un nouveau point de signal. Cette modification est basée, notamment, sur la découverte que la compression d'échelle de temps réduit le contenu d'information et que l'allongement d'échelle de temps accroît le contenu d'information. Ainsi, des "périodes de hauteur" peuvent

être supprimées ou insérées, respectivement, sur un seg-

ment. L'invention procure un procédé pour l'amélioration

du procédé SOLA par superposition de blocs en chevauche-

ment partiel.

Le brevet US-4 435 832 décrit une synthèse de la parole avec allongement et compression de l'échelle de temps sans modification de la hauteur ou du timbre de

la parole synthétisée.Des paramètres LPC sont échantillon-

nés à partir de formes d'onde segmentées extraites de la parole naturelle,à un intervalle de temps déterminé, à partir d'informations relatives aux phonèmes vocaux/ non vocaux, d'informations de hauteur et de volume. On interpole les paramètres LPC et on améliore l'intervalle

d'échelle de temps pour interpolation.

Dans le brevet US-4 864 620, on décrit un procédé 3 pour la modification d'échelle de temps d'informations

vocales ou de signaux vocaux, afin de reproduire une pa- role enregistrée, à une vitesse différente, sans change- ments de hauteur. Des échantillons dans le domaine du5 temps sont pris en tranches de sorte que le nombre d'é-

chantillons par tranche soit fonction du facteur de chan-

gement de parole désiré. On forme des blocs à partir des tranches. On obtient des transitions relativement douces

par pondération progressive.

Une modification de l'échelle de temps de si-

gnaux de parole est également décrite dans le brevet US-5 216 744. On détermine le nombre d'échantillons qui constituent une "période de hauteur". En outre, on forme un groupe d'échantillons combinés constitué d'un premier

groupe d'échantillons et d'un deuxième groupe d'échantil-

lons. Le nombre d'échantillons dans chaque groupe est égal au nombre d'échantillons qui constituent une période

de hauteur.

Dans la synthèse de la parole, il est essentiel

que les mots et phrases qui sont engendrés artificielle-

ment soient reproduits de façon naturelle. Il est égale-

ment essentiel que la parole produite par une certaine

personne soit identifiée d'une manière correcte. A ce su-

jet, on peut identifier un certain nombre de sons carac-

téristiques, ou phonèmes, pour différentes langues. Ces

phonèmes sont rangés dans différents types de bibliothè-

ques. Lesdits phonèmes constituent un noyau de base. Les phonèmes peuvent s'étendre sur un temps plus long ou plus court que les intervalles de temps qui sont représentés par le phonème de base, en fonction du contexte et des mots dans lesquels ils sont inclus. Il en résulte que les phonèmes qui sont représentés dans la bibliothèque doivent être transformés en durées plus longues ou plus courtes. Dans le présent contexte, il est essentiel que les caractéristiques du phonème ne changent pas du fait

de ces transformations. Cela implique que les parties por-

teuses d'information du phonème ne doivent pas être modi-

fiées. Il est donc souhaitable que les changements de temps aient lieu dans les parties du phonème qui portent moins d' information. Dans l'assemblage d'une pluralité de phonèmes en mots et phrases, il est également essentiel que les transitions entre phonèmes s'effectuent d'une manière telle que les parties porteuses d' information

d'un phénomène respectif ne soient pas modifiées.

Dans la parole naturelle, le ton fondamental varie à l'intérieur d'un même phonème, au cours de la parole. Les solutions qui ont été présentées jusqu'a présent n'ont pas pris ce phénomène en compte. Il est donc

désirable que le changement du ton fondamental, à une fré-

quence plus grande ouplus petite, soit pris en considéra-

tion lorsqu'on transforme des phonèmes.

La présente invention a pour objet d'apporter

une solution au problème défini ci-dessus.

La présente invention procure un procédé de

synthèse de la parole. Un phonème est identifié à une plu-

ralité de points dans l'excitation de corde vocale cor-

respondante du locuteur. Il faut transformer le phonème

à une autre échelle de temps que celle qui est représen-

tée par le phonème original. Après sélection des points,

on identifie les points du phonème qui sont porteurs d'in-

formation. Dans le présent contexte, l'expression "porteurs

d'information" désigne les parties du phonème qui sont né-

cessaires pour que le phonème soit correctement compris.

On identifie également les parties du phonème qui portent

moins d' information.On peut modifier les parties qui por-

tent moins d'information, sans que la caractéristique du

phonème soit modifiée dans sa partie essentielle. Lors-

qu'on utilise des phonèmes, par exemple dans la génération de parole artificielle, il est désirable qu'on puisse

utiliser une pluralité de phonèmes de base qui sont trans-

formés à des valeurs désirées, à différentes occasions.

L'invention tient compte de cette situation et déplace les transitions entre différents phonèmes vers les parties qui portent le moins d' information. Lors de la transformation à une nouvelle échelle de temps, une compression ou, res- pectivement, un allongement est effectué essentiellement

dans les parties du phonème qui portent le moins d'informa-

tion. De cette manière, les parties porteuses d'informa-

tion du phonème restent sensiblement intactes.

Le dispositif comprend un élément qui sélectionne un phonème à partir d'une séquence parlée ou à partir d'un élément de mémoire. L'élément identifie un certain nombre de points dans le phonème. Ensuite, on identifie

les parties porteuses d'information du phonème ou, respec-

tivement, les parties du phonème portant moins d' informa-

tion. L'élément veille ensuite à ce que la transformation du phonème sur un temps plus long/plus court ait lieu par

compression ou, respectivement, allongement dans les par-

ties du phonème portant moins d' information. De cette

manière, le caractère du phonème est sensiblement conservé.

En outre, il devient possible d'obtenir des transitions, entre les différents phonèmes, qui donnent une impression naturelle. L'invention permet le stockage d'un ensemble de phonèmes en bibliothèque, représentant une pluralité de sons normaux qu'on trouve dans le langage. Ces phonèmes en bibliothèque peuvent ensuite être utilisés pour une transformation sur un temps plus long ou plus court que

celui qui est représenté par le phonème en bibliothèque.

Avec la solution spécifiée, le phonème transformé est dé-

gradé de façon minimale par rapport au phonème en biblio-

thèque. Cela résulte du fait que les parties du phonème qui sont essentielles pour l'interprétation du phonème

sont inchangées ou changées à un degré moindre. L'inven-

tion permet également de tenir compte des variations du ton fondamental dans le phonème. Ainsi, on peut introduire

des variations du ton fondamental dans le phonème trans-

formé, par rapport au phonème en bibliothèque. L'intérêt en est qu'on peut donner aux séquences de paroles créées un caractère qui est en accord avec la parole naturelle. Cela est essentiel, en partie pour la compréhension de la

parole et en partie pour l'obtention d'une intonation na-

turelle dans le son engendré.

On décrit maintenant l'invention de façon plus

détaillée, avec référence aux dessins annexés dans les-

quels:

la figure 1 représente des exemples de corres-

pondance d'échelle de temps linéaire; la figure 2 illustre un changement d'échelle de temps conforme à l'invention;

la figure 3 est un schéma de principe du dispo-

sitif conforme à l'invention; et la figure 4 représente un phonème dans lequel

une fenêtre A découpe une impulsion de façon asymétrique.

Lorsqu'on crée une parole artificielle, un tex-

te arrive en 1 sur la figure 3. Le texte est analysé par

l'élément 1 et décomposé en ses composants fondamentaux.

Ensuite, on choisit les phonèmes dans la bibliothèque.

Le phonème en bibliothèque représente une valeur stan-

dard. Cela signifie qu'on a donné au phonème une valeur standard en ce qui concerne la durée, la hauteur, etc. Lorsqu'on insère ensuite le phonème dans le texte qui a été reçu, il faut en règle générale apporter un certain

type de modification au phonème. Cela veut dire que l'é-

tendue du phonème dans le temps doit être modifiée.Cela

est représenté, par exemple, par des durées longues, cour-

tes ou moyennes pendant lesquelles, par exemple, une voyelle doit être émise. Afin de transformer le phonème en bibliothèque, on l'identifie à une pluralité de

points. Le phonème est ensuite analysé par l'élément 1.

7 Dans l'analyse, on détermine les parties porteuses d'in-

formation et les parties portant moins d'information. On choisit ensuite, pour la transformation,les parties por- tant moins d'information. On a observé que les transitions5 entre les différents phonèmes ont une plus grande signi-

fication que les parties plus stables à l'intérieur des pho-

nèmes. La procédure de construction, qui contient des informations décisives relatives à l'interprétation du phonème, présente une importance particulière dans le présent contexte. Les points portant moins d'information sont ensuite reproduits à un certain nombre de points équivalents dans la nouvelle échelle de temps, lorsqu'on augmente le temps. Cela est illustré sur la figure 2, sur

laquelle certainspoints de l'échelle de temps plus cour-

te sont transférés à plusieurs points dans l'échelle de temps plus longue. De cette manière, les parties porteuses

d'information du phonème sont conservées, dans l'allonge-

ment de l'échelle de temps, sans changement de la caracté-

ristique du phonème.

On raccourcit l'échelle de temps d'une manière correspondante. Dans ce cas, on combine deux points ou

plus dans la partie du phonème ne portant pas d' informa-

tion, pour former un seul point. De cette manière, les par-

ties porteuses d'information restent également sensible-

ment intactes lorsqu'on raccourcit l'échelle de temps

pour le phonème.

Afin de réduire l'effet d'une excitation de corde vocale précédente, on a choisi une fenêtre qui a été découpée de façon asymétrique. Cela est illustré sur la figure 4. La fenêtre est ainsi découpée brusquement au début, de sorte qu'on enregistre la période initiale de

l'impulsion et une partie minimale de la région d'extré-

mité de l'impulsion précédente. Il est également avanta-

geux qu'une grande partie de l'impulsion soit découpée de façon à obtenir sa valeur maximale et une proportion de l'impulsion amortie. Cette solution donne la possibilité

de déplacer les transitions entre les impulsions d'exci-

tation de corde vocale vers les régions o les impulsions

sont amorties et ne contiennent pas d'information signi-

ficative. Une découpe de fenêtre de ce type donne égale- ment la possibilité d'identifier l'importance des impul-

sions individuelles pour la compréhension des phonèmes. L'invention permet également de pondérer dif-

férents points dans le phonème en bibliothèque, en ce

qui concerne les éléments porteurs d'information. On uti-

lise la pondération dans la transformation du phonème

d'une manière telle que les points qui ont reçu une pondé-

ration inférieure sont transformés sur une durée plus

longue que les points qui ont reçu une pondération supé-

rieure. Ainsi, les points de faible pondération sont af-

fectés par exemple à trois points dans une échelle de temps plus longue, tandis que les points qui représentent une pondération moyenne sont transformés, par exemple, en deux points dans la nouvelle échelle de temps, et les points ayant la pondération la plus élevée sont transférés

sans modification dans la nouvelle échelle.

Lors de la transformation à une échelle de temps plus courte que celle qui est représentée dans le phonème

de base, trois points par exemple, qui représentent la pon-

dération la plus faible, sont combinés en un seul point, d' une manière similaire, et deux points qui représentent la pondération moyenne sont combinés en un seul point dans le phonème raccourci dans le temps. Les points ayant

la pondération la plus élevée sont transférés sans chan-

gement dans la nouvelle échelle de temps.

De cette manière, l'invention permet la trans-

formation d'échelle de temps de phonèmes sans modification

sensible des parties porteuses d'information du phonème.

Le procédé permet également de lier différents phonèmes les

uns aux autres d'une manière telle que les informations im-

portantes dans les phonèmes ne sont pas détruites aux transitions de phonèmes. Cela est obtenu en ce que la transition entre les phonèmes a lieu dans des parties qui

ne portent pas d'information. De cette manière, l'inven-

tion permet aux mots et expressions qui sont créés par syn-

thèse de la parole de devenir presque naturels.

Du fait que les points choisis dans le phonème

représentent des excitations de corde vocale dans la pa-

role, il est possible de modifier le ton fondamental. Cela

est nécessaire,par exemple, pour donner le caractère cor-

rect au phonème qui est créé. Le changement du ton fonda-

mental est obtenu par reproduction des excitations de corde vocale, dans le phonème créé, à des points qui sont changés par rapport au phonème original. On suppose, par exemple, que le phonème de base représente un son ayant un ton fondamental constant. Cela implique que les excitations de corde vocale se produisent avec le même espacement entre

elles. Toutefois, dans un phonème transformé, le ton fonda-

mental varie pendant la durée du phonème. Connaissant le changement de la caractéristique du ton fondamental, il

faut en tenir compte dans la transformation. Dans le nou-

veau phonème, qui peut être dans ce cas un phonème qui est constant en temps ou qui est transformé à un temps plus long ou plus court, on détermine les intervalles de

temps entre chaque excitation de corde vocale qui doit ap-

paraitre dans le phonème. Ainsi, par exemple, l'inter-

valle de temps entre les première et deuxième excitations de corde vocale est T1 et l'intervalle entre les dernière et avant-dernière excitations de corde vocale est T2. Si,

dans ce cas, il apparaît que le changement du ton fondamen-

tal se produit uniformément dans le temps, les excitations

de corde vocale intermédiaires doivent être réparties, tan-

dis qu'on prend cela en considération. Ladite répartition

est effectuée de façon appropriée au moyen de modèles ma-

thématiques connus. Les excitations de corde vocale respec-

tives dans le phonème de base sont ensuite transférées à des points respectifs dans le phonème transformé. Cela produit une variation du ton fondamental qui correspond à la parole naturelle.5 Il est entendu que l'invention n'est pas limitée au mode de mise en oeuvre décrit ci-dessus et qu'on peut

y apporter des modifications dans le cadre des revendica- tions annexées.

Claims

REVENDICATIONS

1.- Procédé de synthèse de la parole pour trans-

former un phonème donné d'une première échelle de temps à une deuxième échelle de temps, caractérisé en ce qu'on

détermine des points,avec un intervalle de temps de sé-

paration, représentant une partie de la courbe du phonème; en ce qu'on identifie les parties du phonème portant plus d' information et, respectivement, moins d'information;

en ce que les parties du phonème portant moins d'informa-

tion sont transformées à la deuxième échelle de temps sur

une durée plus longue/plus courte dans la deuxième échel-

le de temps; et également en ce que les parties du pho-

nème portant plus d'information sont transformées à la deu-

xième échelle de temps sensiblement sans changement de temps, de sorte que le caractère original du phonème est

sensiblement conserve.

2.- Procédé suivant la revendication 1, carac-

térisé en ce que les différents points du phonème sont identifiés et reçoivent une pondération différente en

fonction du degré d'information qu'ils représentent.

3.- Procédé suivant la revendication 1 ou 2,

caractérisé en ce que les points de plus faible pondé-

ration sont transformés sur une durée plus longue/plus courte que les points de plus forte pondération, et en

ce que la transformation a lieu par duplication ou sup-

pression de points ayant la plus faible pondération.

4.- Procédé suivant la revendication 1, ca-

ractérisé en ce que les transitions entre phonèmes ont lieu

dans les parties des phonèmes qui ne portent pas d'infor-

mation.

5.- Procédé suivant la revendication 1, carac- térisé en ce que les points choisis dans la deuxième échel-

le de temps sont choisis avec le même intervalle de temps ou un autre intervalle de temps que dans la première échelle5 de temps, de sorte que le ton fondamental est conservé ou est modifié en ce qui concerne le phonème considéré, lors

de la transformation du phonème.

6.- Dispositif de synthèse de la parole, com-

prenant un élément de sélection qui sélectionne, à partir

d'une séquence parlée ou d'un élément de mémoire, un pho-

nème pour transformation du phonème d'une première échel-

le de temps à une deuxième échelle de temps, caractérisé

en ce que l'élément de sélection (1) identifie une plu-

ralité de points avec un intervalle de temps de séparation, représentant une partie de la courbe du phonème, de sorte que les parties du phonème qui portent des informations et, respectivement, qui portent moins d'informations sont identifiées; en ce que l'élément transforme les parties du phonème portant moins d' information sur une durée

plus longue/plus courte lors de la transformation du pho-

nème à une échelle de temps autre que l'échelle de temps

initiale représentée par le phonème; et en ce que le ca-

ractère initial du phonème est sensiblement conservé.

7.- Dispositif suivant la revendication 6, ca-

ractérisé en ce que l'élément de sélection (1) identifie

et pondère différents points en fonction du contenu d'in-

formation desdits points, en relation à l'identifiabilité

du phonème.

8.- Dispositif suivant la revendication 6 ou 7,

caractérisé en ce que l'élément de sélection (1) transfor-

me les points de plus faible pondération sur une échelle de

235 temps plus longue que les points qui représentent une pondé-

13 ration moyenne; et en ce que les points qui ont reçu une

pondération élevée sont transformés sans changement.

9.- Dispositif suivant la revendication 6 ou 7, caractérisé en ce qu'on combine trois points ou plus ayant une faible pondération; en ce qu'on combine les

points de pondération moyenne, en un plus petit nombre de points que les points de faible pondération; et en ce que les points de forte pondération sont transformés sans10 changement.

10.- Dispositif suivant la revendication 6, caractérisé en ce que l'élément de sélection (1) change

le ton fondamental du phonème lors du transfert à la deu-

xième échelle de temps; et en ce que les points choisis

dans le phonème représentent des excitations de corde vo-

cale dans la parole.