FR2884031A1 - Concatenation de signaux - Google Patents

Concatenation de signaux Download PDF

Info

Publication number
FR2884031A1
FR2884031A1 FR0550810A FR0550810A FR2884031A1 FR 2884031 A1 FR2884031 A1 FR 2884031A1 FR 0550810 A FR0550810 A FR 0550810A FR 0550810 A FR0550810 A FR 0550810A FR 2884031 A1 FR2884031 A1 FR 2884031A1
Authority
FR
France
Prior art keywords
concatenation
instant
segment
signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0550810A
Other languages
English (en)
Inventor
Edouard Hinard
Laurent Roussarie
Thierry Moudenc
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0550810A priority Critical patent/FR2884031A1/fr
Priority to PCT/FR2006/050236 priority patent/WO2006103363A1/fr
Publication of FR2884031A1 publication Critical patent/FR2884031A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Des premier et deuxième signaux (S1, S2) sont fenêtrés (W1, W2) en des premier et deuxième segments (SG1, SG2) entre un premier instant (T1) et un instant de concaténation (TC), et entre celui-ci et un deuxième instant (T2), sans mémorisation des premier et deuxième signaux au-delà et en deçà de l'instant de concaténation. Les premier et deuxième signaux sont fenêtrés (W3, W4) en des troisième et quatrième segments (SG3, SG4) entre un troisième instant (T3) compris entre le premier instant et l'instant de concaténation et l'instant de concaténation, et entre celui-ci et un quatrième instant (T4) compris entre l'instant de concaténation et le deuxième instant. Un segment de concaténation (Sc) sensiblement centré sur l'instant de concaténation est déterminé en fonction des troisième et quatrième segments (SG3, SG4). Les premier et deuxième segments et le segment de concaténation sont mélangés en un signal final (Sf).

Description

1 Concaténation de signaux
La présente invention est relative à la concaténation de signaux pour former un signal final dit synthétique. L'invention concerne le domaine du traitement du signal et plus particulièrement, elle a trait au domaine du traitement de la parole, son application principale étant la synthèse de la parole.
De multiples opérations relatives au traitement du signal font fréquemment appel à la concaténation d'au moins deux signaux élémentaires pour former un unique signal final. Pour concaténer deux signaux élémentaires S1(t) et S2(t) en un signal final S(t), celui-ci peut être construit en accolant simplement les signaux élémentaires à un instant de concaténation Tc de la manière suivante: S(t) = S1 (t) si t < Tc (ou si t <_ Tc) et, S(t) = S2(t) si t >_ Tc (ou si t > Tc).
Dans un intervalle de temps inférieur à l'instant Tc, le signal final S(t) est identique au signal élémentaire S1(t), et dans un intervalle de temps supérieur ou égal à l'instant Tc, le signal S(t) est identique au signal élémentaire S2(t).
Ce type de concaténation est notamment utilisée en synthèse de la parole pour concaténer n signaux élémentaires de parole naturelle S1(t) à Sn(t), afin de produire un signal de parole synthétique S(t). Par exemple, le signal S(t) résulte des concaténations suivantes: S (t) = S1 (t) pour Tc' t < Tc2, S (t) = S2(t) pour Tc2 t < Tc3, ... et S (t) = Sn (t) pour Tcn 5 t < Tcn+l Les instants Tc2 à Tcn sont des instants de concaténation. L'instant Tc' est l'instant de début du signal final S(t) et l'instant Tcn+1 est l'instant de fin du signal final S(t). Le signal de parole synthétique S(t) est constitué par n-1 concaténations successives des signaux élémentaires suivants deux à deux: S1(t) pour Tc' t < T2, S2(t) pour Tc2 t < Tc3, ... et Sn(t) pour Tcn t < Tcn+l.
L'application stricte des n-1 concaténations précédentes introduit des discontinuités dans le signal S(t) aux instants de concaténation.
Pour pallier cet inconvénient, deux méthodes connues concatènent deux signaux élémentaires S1(t) et S2(t) avec une transition graduelle entre eux de part et d'autre de l'instant de concaténation.
La première méthode est la méthode OLA (OverLap and Add) introduit deux signaux de fenêtrage w1(t) et w2(t) variant entre "0" et "1" dans des intervalles de temps respectifs [tlg, tld[ et [t2g, t2d[ incluant sensiblement centralement l'instant de concaténation pris comme origine des signaux: w1 (t) = 1 si t < tlg, wi(t) décroît linéairement de 1 à 0 si tlg t < tid, et w1 (t) = 0 si tic' t; w2 (t) = 0 Si t < t2g, w2(t) croît linéairement de 0 à 1 si t2g t < t2d, et w2 (t) = 1 Si t2d t.
Le signal final S(t) résulte de la superposition de deux produits de signaux: S(t) = w1 (t) S1 (t) + w2 (t) S2 (t) . La construction du signal S(t) dépend alors d'un segment du signal S1(t) pour 0 < t < tjd et d'un segment du signal S2(t) pour t2g t < O. Des segments des signaux élémentaires S1(t) et S2(t) respectivement au delà et en deçà de l'instant de concaténation sont nécessaires à la construction du signal S(t).
La deuxième méthode est une interpolation des signaux élémentaires S1(t) et S2(t) se basant sur une représentation paramétrique de chaque signal élémentaire S1(t), S2(t) en une suite de segments de signal centrés sur des instants successifs à intervalles réguliers. La concaténation des signaux S1(t) et S2(t) consiste à superposer le dernier segment du signal S1(t) et le premier segment du signal S2(t) en les centrant sur l'instant de concaténation. Egalement dans cette deuxième méthode, la construction du signal final S(t) dépend alors d'un demi-segment du signal S1(t) pour 0 < t et d'un demi-segment du signal S2(t) pour t < O. Ces deux méthodes de concaténation doivent recourir ainsi à un dernier segment du premier signal élémentaire au delà de l'instant de concaténation et à un premier segment du deuxième signal élémentaire en deçà de l'instant de concaténation. Ces deux segments imposent alors une mémorisation de ceuxci inutiles par ailleurs.
L'invention a pour objectif de diminuer l'espace mémoire utile à la concaténation de deux signaux et ainsi de concaténer les deux signaux sans recourir à un segment du premier signal au-delà de l'instant de concaténation et à un premier segment du deuxième signal en deçà de l'instant de concaténation, tout en assurant une continuité des deux signaux concaténés de qualité comparable aux concaténations selon la technique antérieure.
Pour atteindre cet objectif, un procédé pour concaténer un premier segment de signal avec un deuxième segment de signal à un instant de concaténation, est caractérisé en ce qu'il comprend les étapes suivantes: déduction du premier segment par fenêtrage d'un premier signal entre un premier instant antérieur à l'instant de concaténation et l'instant de concaténation, et du deuxième segment par fenêtrage d'un deuxième signal entre l'instant de concaténation et un deuxième instant postérieur à l'instant de concaténation, déduction d'un troisième segment de signal par fenêtrage du premier signal entre d'une part un troisième instant compris entre le premier instant et l'instant de concaténation et d'autre part l'instant de concaténation, et d'un quatrième segment de signal par fenêtrage du deuxième signal entre l'instant de concaténation et un quatrième instant compris entre l'instant de concaténation et le deuxième instant, détermination d'un segment de concaténation sensiblement centré sur l'instant de concaténation, en fonction des troisième et quatrième segments, et mélange du premier segment, du segment de concaténation et du deuxième segment pour obtenir un signal final.
L'invention réduit avantageusement l'encombrement de l'espace mémoire par une construction des premier et troisième segments sans inclure une portion du premier signal au delà de l'instant de concaténation et par une construction des deuxième et quatrième segments sans inclure une portion du deuxième signal en deçà de l'instant de concaténation. La continuité du signal final est préservée par la détermination du segment de concaténation en fonction de décalages temporels des troisième et quatrième segments pour sensiblement centrer le segment de concaténation sur l'instant de concaténation.
L'invention concerne également un système informatique pour concaténer un premier segment de signal avec un deuxième segment de signal à un instant de concaténation. Le système est caractérisé en ce qu'il comprend: un premier moyen pour déduire un premier segment par fenêtrage d'un premier signal entre un premier instant antérieur à l'instant de concaténation et l'instant de concaténation, et un deuxième segment par fenêtrage d'un deuxième signal entre l'instant de concaténation et un deuxième instant postérieur à l'instant de concaténation, un deuxième moyen pour déduire un troisième segment de signal par fenêtrage du premier signal entre d'une part un troisième instant compris entre le premier instant et l'instant de concaténation et d'autre part l'instant de concaténation, et un quatrième segment de signal par fenêtrage du deuxième signal entre l'instant de concaténation et un quatrième instant compris entre l'instant de concaténation et le deuxième instant, un moyen pour déterminer un segment de concaténation sensiblement centré sur l'instant de concaténation, en fonction des troisième et quatrième segments, et un moyen pour mélanger le premier segment, le segment de concaténation et le deuxième segment pour obtenir un signal final.
Enfin, l'invention se rapporte à un programme d'ordinateur apte à être mis en oeuvre dans le système informatique pour concaténer un premier segment de signal avec un deuxième segment de signal à un instant de concaténation, ledit programme comprenant des instructions qui, lorsque le programme est chargé et exécuté sur ledit système informatique, exécutent les étapes selon le procédé de l'invention.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, données à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique d'un système informatique de concaténation de signaux selon l'invention; - la figure 2 est un algorithme du procédé de concaténation selon une première réalisation de l'invention; - les figures 3A et 3B sont des graphiques montrant des fenêtrages de signaux élémentaires à concaténer selon une première réalisation de l'invention; - les figures 4A et 4B sont des graphiques montrant des fenêtrages des signaux élémentaires produisant des segments de concaténation; - les figures 5A et 5B sont des graphiques montrant les segments de concaténation ayant subi des décalages temporels vers un instant de concaténation; - la figure 6 est un graphique représentatif d'un signal final résultant d'une concaténation de segments des deux signaux élémentaires selon l'invention; - les figures 7A et 7B sont des graphiques montrant des segments de concaténation ayant subi des décalages temporels supplémentaires vers un instant de concaténation.
- les figures 8A et 8B sont des graphiques montrant des fenêtrages de deux signaux élémentaires à concaténer par interpolation, selon une deuxième réalisation de l'invention; et - la figure 9 est un graphique représentatif d'un signal final résultant d'une concaténation de segments des deux signaux élémentaires Le système de concaténation de signaux SC représenté à la figure 1 est un système informatique tel qu'un ordinateur et comprend une unité centrale UC reliée à des mémoires M1, M2 et M3 par un bus bidirectionnel B1.
L'unité centrale UC inclut quatre modules logiciels: un premier module de segmentation MS1 pour déduire un premier segment de signal SG1 et un deuxième segment de signal SG2, un deuxième module de segmentation MS2 pour déduire un troisième segment de signal SG3 et un quatrième segment de signal SG4, un module de concaténation MC pour déterminer un segment de concaténation Sc et un module de mélange MM pour mélanger les segments SG1 et SG2 et le segment de concaténation Sc afin d'obtenir un signal final Sf. Le rôle des modules MS1, MS2, MC et MM est détaillé lors de la description de la figure 2 relative au procédé de concaténation selon l'invention.
La mémoire M1 est une mémoire non réinscriptible du type ROM et comporte principalement le système d'exploitation du système de concaténation SC et un programme d'exécution du procédé de concaténation de l'invention. La mémoire M2 est une mémoire de travail non volatile du type EEPROM. La mémoire M3 est une mémoire tampon du type RAM mémorisant le signal final Sf une fois obtenu.
En pratique, par exemple, la mémoire tampon M3 est reliée par un bus B2 à un convertisseur numérique-analogique CNA pour transmettre le signal final Sf vers un dispositif de reproduction et diffusion sonores schématisé par un haut-parleur HP dans la figure 1.
Une base de données BD, telle qu'un serveur de gestion de base de données, est connectée via un moyen de connexion (non représenté), comme un réseau intranet ou l'internet, au système de concaténation SC, ou bien est incorporée à celui-ci. Cette base de données BD a enregistré sous forme numérique des signaux élémentaires S1 à Sn dont certains sont sélectionnés et transmis au système de concaténation pour former un signal final Sf.
L'exemple présenté dans la suite de la description se réfère à la synthèse de la parole. Les signaux élémentaires mémorisés dans la base de données sont des signaux de parole naturelle composés de divers sons, par exemple des syllabes, des phonèmes, des diphones ou des polyphones.
La suite de la description se réfère à la concaténation de deux signaux élémentaires S1 et S2 montrées respectivement aux figures 3A et 3B, t étant la variable temps. Chaque signal élémentaire S1, S2 est produit par les vibrations de cordes vocales d'un locuteur qui vibrent pseudopériodiquement. Les signaux S1 et S2 sont découpés respectivement en pseudopériodes PS11 à PSlp et PS21 à PS2q qui sont bornées par des marques dites marques de "pitch", ou marques de voisement, TM11 à TM1p+1 et TM21 à TM2q+i correspondant chacune à un instant de fermeture de la glotte du locuteur. Le caractère pseudopériodique des signaux élémentaires S1 et S2 se traduit par des pseudopériodes successives dans chaque signal a priori différentes, et par des largeurs de pseudopériodes des signaux S1 et S2 incluant un instant donné a priori différentes et donc des marques de pitch différentes dans les signaux S1 et S2. Chaque pseudopériode d'un signal élémentaire S1, S2 a été échantillonné à une période d'échantillonnage prédéterminée en des échantillons numérisés qui sont mémorisés dans une table du signal élémentaire S1, S2 incluse dans la base de données BD selon une indexation connue. Chacune des deux marques de pitch aux extrémités de chaque pseudopériode est également mémorisée dans ladite table selon l'indexation de la pseudopériode.
La figure 6 montre un signal final Sf formé de segments de signaux élémentaires SG1 et SG2 déduits d'une segmentation des signaux élémentaires S1 et S2 et concaténés l'un avec l'autre à un instant de concaténation Tc correspondant à un instant de fermeture de glotte et donc à deux marques de pitch "fusionnées" des signaux élémentaires S1 et S2. Un instant de début Ti désigne le début du signal Sf et un instant de fin T2 désigne la fin du signal Sf. Selon l'exemple montré aux figures 3A et 3B, l'instant de concaténation Tc correspond à la deuxième marque de pitch TM14 de la dernière pseudopériode PS13 d'un premier segment SG1 à trois pseudopériodes du signal élémentaire S1 et à la première marque de pitch TM21 de la première pseudopériode PS21 d'un deuxième segment SG2 à trois pseudopériodes du signal élémentaire S2.
Une trame de restitution du signal Sf comporte des adresses relatives au premier signal élémentaire S1 et au deuxième signal élémentaire S2 qui contribuent à former le signal Sf et qui sont mémorisés dans la base de données BD. La trame comprend également la valeur de la marque de pitch TM11 du signal S1 correspondant à l'instant de début Tl du signal Sf, la valeur de la marque de pitch TM24 du signal S2 correspondant à l'instant de fin T2 du signal Sf et la valeur des marques de Pitch TM14 et TM21 respectivement des signaux S1 et S2 correspondant à l'instant de concaténation Tc du signal Sf. La trame est mémorisée dans la base de données BD du système de concaténation SC.
Le procédé de concaténation représenté à la figure 2 comprend des étapes principales E1 à E5 qui sont décrites en détail ci-après selon une première réalisation de l'invention.
Cette première réalisation recourt à des fenêtres de segmentation W1 et W2 et des fenêtres de concaténation W3 et W4 respectivement pour sélectionner et extraire des segments dans les signaux élémentaires S1 et S2 servant à la construction de segments SG1 à SG4. Les fenêtres de sélection sont des fonctions dont les graphiques sont de formes trapézoïdale rectangle et triangulaire isocèle, comme montré aux figures 3A, 3B, 4A et 4B, ou de forme rectangulaire ou en cosinus surélevé, par exemple.
Chaque signal élémentaire Sl, S2 est numériquement mémorisé dans la base de données BD et est constitué alors d'une pluralité d'échantillons numériques successifs dont les amplitudes constituent les "coordonnées" d'un "vecteur" dans la suite de la description, enregistrées dans la table respective précitée du signal élémentaire.
Préalablement aux étapes principales, l'unité centrale UC requiert auprès de la base de données BD le contenu de la trame de restitution caractérisant un signal final Sf pour la transférer dans la mémoire de travail M2 du système de concaténation SC et la lire.
A la lecture des adresses des signaux élémentaires S1 et S2 désignées dans la trame dans la mémoire M2, l'unité centrale UC recherche dans la base de données BD, à l'étape El, les deux vecteurs formant les signaux élémentaires S1 et S2 désignés par les adresses lues, et mémorise les deux vecteurs dans la mémoire de travail M2. Chaque pseudopériode PS11 à PS1p, PS21 à PS2q de chaque signal élémentaire et chaque marque de pitch TM11 à TM1p+l, TM21 à TM2q+1 bornant chaque pseudopériode sont lues par l'intermédiaire de l'incrémentation d'un pointeur d'indexation dans la table incluant le vecteur du signal élémentaire S1, S2 et sont mémorisées dans la mémoire M2.
L'étape E2 comprend des étapes E20 et E21 relatives à la construction d'un premier segment SG1 par fenêtrage du signal élémentaire S1. Aux étapes E20 et E21, le premier module de segmentation MS1 de l'unité centrale UC déduit le premier segment de signal SG1 en dépendance d'un segment sélectionné et extrait dans le signal élémentaire S1 entre des valeurs de marques de pitch désignées dans la trame de sorte que le segment de signal SG1 soit borné entre la marque de pitch TM11 du signal S1 correspondant à l'instant Ti antérieur à l'instant de concaténation Tc et la marque de pitch TM14 du signal S1 correspondant à l'instant de concaténation Tc.
A l'étape E20, le module de segmentation MS1 détermine la fenêtre de segmentation Wl du segment SG1 dans le signal élémentaire S1 et définit les instants bornant la fenêtre en fonction de la segmentation désirée du signal S1.
Pour déterminer la largeur de la fenêtre W1, le module MS1 détermine préalablement la longueur du segment SG1 en fonction de la différence entre les marques de pitch TM11 et TM14 devant borner le segment SG1 et lues dans la trame.
Selon une première variante de détermination de la fenêtre W1, celle-ci est sélectionnée dans la base de données BD parmi une pluralité d'autres fenêtres de formes et de largeurs différentes, mémorisées préalablement dans la base de données. Comme pour les signaux élémentaires, le vecteur formant chaque fenêtre est mémorisé dans la base de données BD. La fenêtre Wl est choisie par le module MS1 en fonction de la longueur précédemment déterminée du segment SG1 à déduire.
Selon une deuxième variante de détermination de la fenêtre W1, celle-ci est directement déterminée à l'étape E20 par un algorithme spécifique qui est commandé par le module MS1 et auquel est appliqué notamment la longueur du segment SG1 précédemment déterminée.
Une fois la fenêtre Wl déterminée, le module MS1 définit les instants bornant la fenêtre Wl en fonction des marques de pitch TM11 et TM14 du signal S1 lues dans la trame et définissant respectivement l'instant Ti et l'instant de concaténation Tc du signal final Sf.
En se référant à la figure 3A, la fenêtre trapézoïdale rectangle W1 est définie par les relations suivantes.
Wl(t) = 1 pour t < TM13, par exemple pour TM11 < t < TM13, W1 (t) = (t - Tc)/(TM13 - Tc) pour TM13 t Tc, et W1(t) = 0 pour t > Tc.
L'instant TM13 correspond à la marque de pitch précédant l'instant de concaténation Tc.
A l'étape E21, le module MS1 déduit le segment SG1 par multiplication du vecteur composant la fenêtre W1 et du vecteur composant le signal élémentaire S1. Le vecteur produit résultant formant le segment SG1 est mémorisé dans la mémoire M2.
De même, parallèlement aux étapes E20 et E21, l'étape E2 comprend des étapes E22 et E23 relatives à la construction d'un deuxième segment SG2 par fenêtrage du signal élémentaire S2. Aux étapes E22 et E23, le module MS1 déduit le deuxième segment de signal SG2 en dépendance d'un segment sélectionné et extrait dans le signal élémentaire S2 entre des valeurs de marques de pitch désignées dans la trame de sorte que le segment de signal SG2 soit borné entre la marque de pitch TM21 du signal S2 correspondant à l'instant de concaténation Tc et la marque de pitch TM24 du signal S2 correspondant à l'instant T2 postérieur à l'instant de concaténation.
A l'étape E22, le module de segmentation MS1 détermine la fenêtre de segmentation W2 du segment SG2 dans le signal élémentaire S2 et définit les instants bornant la fenêtre en fonction de la segmentation désirée du signal S2.
Pour déterminer la largeur de la fenêtre W2, le module MS1 détermine préalablement la longueur du segment SG2 en fonction de la différence entre les marques de pitch TM21 et TM24 bornant le signal SG2 et lues dans la trame.
Une fois la fenêtre W2 déterminée d'une manière analogue à la fenêtre W1, le module MS1 définit les instants bornant la fenêtre W2 en fonction des marques de pitch TM21 et TM24 du signal S2 lues dans la trame et définissant respectivement l'instant de concaténation Tc du signal Sf et l'instant de fin T2 du signal Sf.
En se référant à la figure 3B, la fenêtre trapézoïdale rectangle W2 est définie par les relations suivantes.
W2(t) = 0 pour t < Tc, W2(t) = (t - Tc)/(TM22 - T0) pour Tc t TM22, et W2(t) = 1 pour t > TM22, par exemple pour Tc < t < TM22.
L'instant TM22 correspond à la marque de pitch suivant l'instant de concaténation Tc.
A l'étape E23, le module MS1 déduit le segment SG2 par multiplication du vecteur composant la fenêtre W2 et du vecteur composant le signal élémentaire S2. Le vecteur produit résultant formant le segment SG2 est mémorisé dans la mémoire M2.
L'étape E3 comprend des étapes E30 et E31 exécutées par le module de segmentation MS2 pour déduire le troisième segment SG3 par fenêtrage du signal élémentaire S1 et des étapes E32 et E33 exécutées par le module de segmentation MS2 pour déduire le quatrième segment SG4 par fenêtrage du signal élémentaire S2. Comme montré à la figure 4A, le segment SG3 dépend des deux pseudopériodes PS12 et PS13 du signal S1 précédant l'instant de concaténation Tc, et est borné entre d'une part la marque de pitch TM12 correspondant à un troisième instant T3 compris entre le premier instant Ti et l'instant de concaténation Tc et d'autre part la marque de pitch TM14 correspondant à l'instant de concaténation du signal final Sf. De même comme montré à la figure 4B, le segment SG4 dépend des deux pseudopériodes PS21 et PS22 du signal S2 suivant l'instant de concaténation Tc, et est borné entre la marque de pitch TM21 correspondant à l'instant de concaténation du signal pitch TM23 correspondant compris entre l'instant deuxième instant T2.
A l'étape E30, 20 détermine la fenêtre SG3 dans le signalfinal Sf et la marque de à un quatrième instant T4 de concaténation Tc et le le de élémentaire module de segmentation MS2 concaténation W3 du segment S1 et définit les instants bornant cette fenêtre.
Le module MS2 sélectionne dans la base de données BD, ou détermine directement, la fenêtre W3 en fonction de la longueur du segment SG3. Cette longueur correspond aux deux pseudopériodes PS12 et PS13 précédant l'instant de concaténation Tc et comprises entre les marques de pitch TM12 = T3 et TM14 = Tc du signal S1.
Une fois la fenêtre W3 déterminée d'une manière analogue aux fenêtres W1 et W2, le module MS2 définit les instants bornant la fenêtre W3 en la centrant sensiblement par décalage temporel sur la marque de pitch TM13 du signal S1 précédant l'instant de concaténation Tc.
En se référant à la figure 4A, la fenêtre triangulaire W3 est définie par les relations suivantes.
W3(t) = 0 pour t < TM12 = T3 et t > TM14 = Tc, W3(t) = (t -TM12) /(TM13 - TM12) pour TM12 t TM13, et W3(t) = (t - Tc)/(TM13 - Tc) pour TM13 5 t 5 Tc.
A l'étape E31, le module MS2 déduit le segment SG3 par multiplication du vecteur composant la fenêtre W3 et du vecteur composant le signal élémentaire S1. Le vecteur produit résultant formant le segment SG3 est mémorisé dans la mémoire M2. Le segment SG3 dépend des deux pseudopériodes du signal S1 précédant l'instant de concaténation.
Parallèlement aux étapes E30 et E31, le module MS2 exécute les étapes E32 et E33 relatives à la construction du quatrième segment SG4 par fenêtrage du signal élémentaire S2.
A l'étape E32, le module de segmentation MS2 détermine la fenêtre de concaténation W4 du segment SG4 dans le signal élémentaire S2 et définit les instants bornant cette fenêtre.
Le module MS2 sélectionne dans la base de données BD, ou détermine directement, la fenêtre W4 en fonction de la longueur du segment SG4. Cette longueur correspond aux deux pseudopériodes suivant l'instant de concaténation Tc et comprises PS21 et PS22 entre les marques de pitch TM21 et TM23 du signal S2.
Une fois la fenêtre W4 déterminée d'une manière analogue aux fenêtres W1, W2 et W3, le module MS2 définit les instants bornant la fenêtre W4 en la centrant sensiblement par décalage temporel sur la marque de pitch TM22 suivant l'instant de concaténation Tc.
En se référant à la figure 4B, la fenêtre triangulaire W4 est définie par les relations suivantes: W4(t) = 0 pour t < Tc et t > TM23 = T4 W4(t) = (t - Tc)/(TM22 - Tc) pour Tc t TM22, et W4(t) = (t -TM23)/(TM22 TM23) pour TM22 t TM23.
A l'étape E33, le module MS2 déduit le segment SG4 par multiplication du vecteur composant la fenêtre W4 et du vecteur composant le signal élémentaire S2. Le vecteur produit résultant formant le segment SG4 est mémorisé dans la mémoire M2. Le segment SG4 dépend des deux pseudopériodes du signal S2 suivant l'instant de concaténation.
Selon une variante de réalisation, les modules de segmentation MS1 et MS2 sont réunis dans un unique module de segmentation. Les étapes de segmentation E2 et E3 sont alors exécutées concomitamment.
A l'étape E4, le module de concaténation MC de l'unité centrale UC détermine un segment de concaténation Sc sensiblement centré sur l'instant de concaténation Tc par un algorithme Al en fonction du troisième segment de signal SG3 et du quatrième segment de signal SG4, soit Sc = A1(SG3, SG4). L'algorithme Al est par exemple fondé sur une superposition et un moyennage des segments SG3 et SG4 dans une fenêtre de concaténation sensiblement centrée sur l'instant de concaténation Tc.
Pour cela, le module de concaténation MC décale temporellement en opposition les segments SG3(t) et SG4(t) vers l'instant de concaténation Tc afin de produire des segments décalés SG3D(t) et SG4D(t) sensiblement centrés sur l'instant de concaténation Tc, comme montré aux figures 5A et 5B. Par exemple, le segment SG3(t) est décalé d'un décalage temporel D3 = (Tc - TM12)/2, ou en variante d'un décalage temporel D3 = (Tc - TM13), vers la droite dans la figure 4A, et le segment SG4(t) est décalé d'un décalage temporel D4 = (TM23 - Tc)/2, ou en variante D4 = (TM22 - Tc), vers la gauche dans la figure 4B, soit: SG3D(t) SG3(t - D3), et SG4D(t) = SG4(t + D4).
Puis le module MC moyenne les segments décalés temporellement SG3D et SG4D en le segment de concaténation Sc = (SG3D + SG4D)/2 et le mémorise dans la mémoire de travail M2.
A l'étape E5, le module de mélange MM recherche dans la mémoire M2 le premier segment de signal SG1 défini entre le premier instant Ti et l'instant de concaténation T0, le segment de concaténation Sc défini autour de l'instant de concaténation Tc et le deuxième segment de signal SG2 défini entre l'instant de concaténation Tc et le deuxième instant T2 afin de les mélanger par un algorithme A2. Le signal final Sf peut varier en fonction du temps comme suit: Sf(t) = SG1(t) pour Ti t < TM13 Sf(t)= A2(SG1, SG2, Sc) pour TM13 5 t TM22, et Sf(t) = SG2(t) pour TM22 < t T2.
Par exemple l'algorithme A2 est une addition des segments SG1, Sc et SG2 pour produire le signal final montré à la figure 6: Sf(t) = SG1(t) + Sc (t) + SG2 (t) . Le segment de concaténation Sc est indépendant de toute portion du signal élémentaire S1 au delà de l'instant de concaténation et de toute portion du signal élémentaire S2 en deçà de l'instant de concaténation et contribue à lisser la transition du signal S1 vers le du signal S2 dans le signal final.
Une fois déterminé, le signal numérique Sf est mémorisé dans la mémoire tampon M3, puis par exemple convertit analogiquement dans le convertisseur numérique-analogique CNA et reproduit dans le dispositif de reproduction et diffusion sonores HP.
Le segment de concaténation Sc est choisi pour éviter une discontinuité du signal Sf à l'instant de concaténation Tc. En effet, le procédé de concaténation selon l'invention ne comprend pas une superposition des signaux élémentaires S1 et S2 afin d'éviter la mémorisation de pseudopériodes telles que PS14 du signal S1 situées après l'instant de concaténation et de pseudopériodes telles que PS20 du signal S2 situées avant l'instant de concaténation, ces pseudopériodes n'étant pas comprises dans le signal final Sf. En l'occurrence, la pseudopériode PS13 du signal S1 n'est pas superposée à la pseudopériode PS20 du signal S2 précédant l'instant de concaténation Tc, et la pseudopériode PS21 du signal S2 n'est pas superposée à la pseudopériode PS14 du signal S1 suivant l'instant de concaténation Tc.
Les valeurs des marques de pitch de chaque signal élémentaire S1, S2 prédéterminées et mémorisées dans la base de données BD peuvent être erronées et engendrer une continuité inappropriée du signal final Sf. Pour pallier cet inconvénient et ainsi atténuer la dépendance de la concaténation des signaux élémentaires S1, S2 par rapport à la qualité du placement temporel des marques de pitch, un décalage temporel supplémentaire DS est ajouté après la détermination des fenêtres de concaténation des segments SG3 et SG4, avant leur superposition, comme montré aux figures 7A et 7B. L'étape E4 est remplacée par une étape E4S indiquée en traits pointillés dans la figure 3 pour décaler temporellement les segments SG3(t) et SG4(t) d'abord de décalages temporels supplémentaires DS respectivement vers la gauche et vers la droite, à l'opposé de l'instant de concaténation Tc, puis vers l'instant de concaténation Tc respectivement selon les décalages temporels D3 et D4, comme pour les segments SG3(t) et SG4(t), afin de produire et mémoriser des segments décalés SG3S(t) et SG4S(t) à moyenner sensiblement décentrés de DS par rapport à l'instant de concaténation. Les segments SG3(t) et SG4(t) s'exprime par les relations suivantes: SG3S(t) = SG3(t - D3 + DS), et SG4S(t) a SG4 (t + D4 -DS).
Le signal final Sf devient alors: Sf = SG1 + SG2 + (SG3S + SG4S)/2.
Le décalage supplémentaire DS est déterminé par exemple comme la valeur qui maximise l'intercorrélation des segments SG3S et SG4S, ou qui minimise une distance acoustique prédéfinie entre les signaux élémentaires S1 et S2.
Selon une autre variante, les marques de pitch matérialisant les pseudopériodes composant chacun des signaux S1, S2 sont considérées comme inconnues.
Après mémorisation des signaux S1 et S2 dans la mémoire M2, l'unité centrale UC détermine directement les marques de pitch par un algorithme prédéterminé. Cette détermination directe des marques de pitch remédie par exemple à certaines erreurs de mémorisation des marques de pitch dans la base de données BD.
Selon une deuxième réalisation de l'invention, la concaténation est effectuée par interpolation de deux signaux élémentaires Sli et S2i. Comme déjà dit, un signal élémentaire Sli, S2i est modélisé par une représentation paramétrique mémorisée dans la base de données et comportant une suite de segments de signal centrés sur des instants successifs tmll à tmlp+1 et tm2i à tm2q+1 à intervalles sensiblement réguliers dans le temps et s'étendant chacun sur une largeur de deux intervalles successifs. Les segments des signaux élémentaires Sli et S2i sont repérés sous la forme de fenêtres triangulaires aux figures 8A et 8B.
Le procédé de concaténation selon cette réalisation comprend également des étapes pour déduire des segments SGli et SG3i par fenêtrages Wli et W3i du signal élémentaire Sli et des segments SG2i et SG4i par fenêtrages W2i et W4i du signal élémentaire S2i, pour déterminer un segment de concaténation Sci défini autour d'un instant de concaténation Tc par un algorithme Al en fonction du troisième segment de signal SG3i et du quatrième segment de signal SG4i, et pour mélanger le premier segment de signal SGli, le segment de concaténation Sci et le deuxième segment de signal SG2i afin de les mélanger par un algorithme A2 pour produire la représentation paramétrique d'un signal final Sfi, comme montré à la figure 9.
L'invention décrite ici concerne un procédé et un système informatique de concaténation de signaux élémentaires SC. Selon une implémentation préférée, les étapes du procédé de l'invention sont déterminées par les instructions d'un programme d'ordinateur incorporé dans la mémoire Ml du système informatique de concaténation. Le programme comporte des instructions de programme qui, lorsque ledit programme est chargé et exécuté dans le système informatique de concaténation, exécutent les étapes El à E5 du procédé selon l'invention.
En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en oeuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implémenter le procédé selon l'invention.
Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage ou support d'enregistrement, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou une clé USB, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type internet.
Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé selon l'invention.

Claims (1)

  1. 24 REVENDICATIONS
    1 - Procédé de traitement de signal de parole pour concaténer un premier segment (SG1) d'un premier signal de parole avec un deuxième segment (SG2) d'un deuxième signal de parole à un instant de concaténation (T0), caractérisé en ce qu'il comprend les étapes suivantes: déduction (E2) du premier segment (SG1) par fenêtrage du premier signal (S1) entre un premier instant (Ti) antérieur à l'instant de concaténation et l'instant de concaténation (Tc), et du deuxième segment (SG2) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (T0) et un deuxième instant (T2) postérieur à l'instant de concaténation, déduction (E3) d'un troisième segment de signal (SG3) par fenêtrage du premier signal (Si) entre d'une part un troisième instant (T3) compris entre le premier instant (Tl) et l'instant de concaténation et d'autre part l'instant de concaténation, et d'un quatrième segment de signal (SG4) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (T0) et un quatrième instant (T4) compris entre l'instant de concaténation et le deuxième instant (T2), détermination (E4) d'un segment de concaténation (Sc) sensiblement centré sur l'instant de concaténation (Tc), en fonction des troisième et quatrième segments (SG3, SG4), et mélange (E5) du premier segment (SGl), du segment de concaténation (Sc) et du deuxième segment (SG2) pour obtenir un signal final (Sf).
    2 - Procédé conforme à la revendication 1, selon lequel 2884031 25 le premier segment (SG1) est déduit (E21) du produit du premier signal (Sl) et d'une fenêtre (W1) qui est égale à 1 antérieurement au premier instant (Ti), varie de 1 à 0 entre le premier instant et l'instant de concaténation (Te), et est égale à 0 postérieurement à l'instant de concaténation, et le deuxième segment (SG2) est déduit (E23) du produit du deuxième signal (S2) et d'une fenêtre (W2) qui est égale à 0 antérieurement à l'instant de concaténation (Te), varie de 0 à 1 entre l'instant de concaténation (Te) et le deuxième instant (T2), et est égale à 1 postérieurement au deuxième instant.
    3 - Procédé conforme à la revendication 1 ou 2, selon lequel le troisième segment de signal (SG3) est déduit (E31) du produit du premier signal (Si) et d'une fenêtre (W3) qui est égale à 0 antérieurement au troisième instant (T3), varie de 0 à 1 puis de 1 à 0 entre le troisième instant et l'instant de concaténation (Tc) et est égale à 0 postérieurement à l'instant de concaténation, et le quatrième segment de signal (SG4) est déduit (E33) du produit du deuxième signal (S2) et d'une fenêtre (W4) qui est égale à 0 antérieurement à l'instant de concaténation (Tc), varie de 0 à 1 puis de 1 à 0 entre l'instant de concaténation et le quatrième instant (T4) et est égale à 0 postérieurement au quatrième instant.
    4 - Procédé conforme à l'une quelconque des revendications 1 à 3, selon lequel la détermination (E4) du segment de concaténation (Sc) comprend des décalages temporels opposés des troisième et quatrième segments (SG3, SG4) vers l'instant de concaténation (Te) afin de produire des segments décalés (SG3D, SG4D) est centrés sur l'instant de concaténation, et un moyennage des segments décalés en le segment de concaténation (Sc).
    - Procédé conforme à la revendication 4, selon lequel la détermination (E4S) du segment de concaténation (Sc) comprend, en outre, des décalages temporels supplémentaires (DS) des troisième et quatrième segments (SG3, SG4) respectivement à l'opposé de l'instant de concaténation, afin de produire des segments décalés (SG3S, SG4S) sensiblement décentrés par rapport à l'instant de concaténation (Tc).
    6 - Procédé conforme à l'une quelconque des revendications 1 à 5, selon lequel le mélange (E5) comprend une addition du premier segment (SG1), du segment de concaténation (Sc) et du deuxième segment (SG2) pour obtenir le signal final (Sf).
    7 - Système informatique de traitement de signal de parole pour concaténer un premier segment (SG1) d'un premier signal de parole avec un deuxième segment (SG2) d'un deuxième signal de parole à un instant de concaténation (Te), caractérisé en ce qu'il comprend: un premier moyen (MS1) pour déduire un premier segment (SG1) par fenêtrage du premier signal (Si) entre un premier instant (Ti) antérieur à l'instant de concaténation et l'instant de concaténation (T0), et un deuxième segment (SG2) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (Tc) et un deuxième instant (T2) postérieur à l'instant de concaténation, 2884031 27 un deuxième moyen (MS2) pour déduire (E3) un troisième segment de signal (SG3) par fenêtrage du premier signal (Si) entre d'une part un troisième instant (T3) compris entre le premier instant (Tl) et l'instant de concaténation et d'autre part l'instant de concaténation, et un quatrième segment de signal (SG4) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (Tc) et un quatrième instant (T4) compris entre l'instant de concaténation et le deuxième instant (T2), un moyen (MC) pour déterminer un segment de concaténation (Sc) sensiblement centré sur l'instant de concaténation (Te) , en fonction des troisième et quatrième segments (SG3, SG4), et un moyen (MM) pour mélanger le premier segment (SG1), le segment de concaténation (Sc) et le deuxième segment (SG2) pour obtenir un signal final (Sf).
    8 - Programme d'ordinateur mis en oeuvre dans un système informatique de traitement de signal de parole pour concaténer un premier segment (SG1) d'un premier signal de parole avec un deuxième segment (SG2) d'un deuxième signal de parole à un instant de concaténation (Tc), ledit programme comprenant des instructions qui, lorsque le programme est chargé et exécuté dans ledit système informatique, exécutent les étapes suivantes: déduction (E2) du premier segment (SG1) par fenêtrage du premier signal (Si) entre un premier instant (Tl) antérieur à l'instant de concaténation et l'instant de concaténation (Te), et du deuxième segment (SG2) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (Te) et un deuxième instant (T2) postérieur à l'instant de concaténation, déduction (E3) d'un troisième segment de signal (SG3) par fenêtrage du premier signal (Si) entre d'une part un troisième instant (T3) compris entre le premier instant (Ti) et l'instant de concaténation et d'autre part l'instant de concaténation, et d'un quatrième segment de signal (SG4) par fenêtrage du deuxième signal (S2) entre l'instant de concaténation (T0) et un quatrième instant (T4) compris entre l'instant de concaténation et le deuxième instant (T2), détermination (E4) d'un segment de concaténation (Sc) sensiblement centré sur l'instant de concaténation (Te), en fonction des troisième et quatrième segments (SG3, SG4), et mélange (E5) du premier segment (SG1), du segment de concaténation (Sc) et du deuxième segment (SG2) pour obtenir un signal final (Sf).
FR0550810A 2005-03-30 2005-03-30 Concatenation de signaux Withdrawn FR2884031A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0550810A FR2884031A1 (fr) 2005-03-30 2005-03-30 Concatenation de signaux
PCT/FR2006/050236 WO2006103363A1 (fr) 2005-03-30 2006-03-17 Concatenation de signaux

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0550810A FR2884031A1 (fr) 2005-03-30 2005-03-30 Concatenation de signaux

Publications (1)

Publication Number Publication Date
FR2884031A1 true FR2884031A1 (fr) 2006-10-06

Family

ID=35240983

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0550810A Withdrawn FR2884031A1 (fr) 2005-03-30 2005-03-30 Concatenation de signaux

Country Status (2)

Country Link
FR (1) FR2884031A1 (fr)
WO (1) WO2006103363A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067519A (en) * 1995-04-12 2000-05-23 British Telecommunications Public Limited Company Waveform speech synthesis
US6175821B1 (en) * 1997-07-31 2001-01-16 British Telecommunications Public Limited Company Generation of voice messages
EP1453036A1 (fr) * 2003-02-25 2004-09-01 Samsung Electronics Co., Ltd. Méthode et dispositif pour synthetiser de la parole a partir d'un texte

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067519A (en) * 1995-04-12 2000-05-23 British Telecommunications Public Limited Company Waveform speech synthesis
US6175821B1 (en) * 1997-07-31 2001-01-16 British Telecommunications Public Limited Company Generation of voice messages
EP1453036A1 (fr) * 2003-02-25 2004-09-01 Samsung Electronics Co., Ltd. Méthode et dispositif pour synthetiser de la parole a partir d'un texte

Also Published As

Publication number Publication date
WO2006103363A1 (fr) 2006-10-05

Similar Documents

Publication Publication Date Title
KR100962803B1 (ko) 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치
CN101859583B (zh) 噪声减小设备和噪声减小方法
EP3155608A1 (fr) Procede de suivi d&#39;une partition musicale et procede de modelisation associe
US20110060599A1 (en) Method and apparatus for processing audio signals
EP3079074A1 (fr) Procédé de traitement de données pour l&#39;estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d&#39;ordinateurs associés
US9058384B2 (en) System and method for identification of highly-variable vocalizations
Zhang et al. FMFCC-a: a challenging Mandarin dataset for synthetic speech detection
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
US6654317B2 (en) Method and apparatus for reproducing information
FR2884031A1 (fr) Concatenation de signaux
JP2004334160A (ja) 特徴量抽出装置
JP2008304610A (ja) 信号特徴抽出方法、信号探索方法、信号特徴抽出装置、コンピュータプログラム、及び、記録媒体
CN110858492A (zh) 音频剪辑方法、装置、设备和系统及数据处理方法
FR3131059A1 (fr) Dispositif de modification d’échelle temporelle d’un signal audio
EP3934282A1 (fr) Procédé de conversion d&#39;un premier ensemble de signaux représentatifs d&#39;un champ sonore en un second ensemble de signaux et dispositif électronique associé
JP5560218B2 (ja) 音生成装置、音生成方法、及び音生成プログラム
FR2558630A1 (fr) Procede et dispositif d&#39;enregistrement de donnees sur un support d&#39;enregistrement tel qu&#39;un disque numerique
CN111210833A (zh) 音频处理方法、电子设备和介质
JP4512008B2 (ja) 楽音情報生成装置、方法及びプログラム
JP4570425B2 (ja) 情報再生装置および記憶装置の空き容量増加方法
CN114020958A (zh) 一种音乐分享方法、设备及存储介质
WO2007028871A1 (fr) Systeme de synthese vocale ayant des parametres prosodiques modifiables par un operateur
JP2017021212A (ja) 音声生成方法、音声生成装置、プログラム、及び記録媒体
JP2006139158A (ja) 音響信号の合成装置および合成再生装置
JP2004287311A (ja) 音源選択装置および方法

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20061130