EP1105867B1

EP1105867B1 - Procede et dispositif permettant de concatener des segments audio en tenant compte de la coarticulation

Info

Publication number: EP1105867B1
Application number: EP99942891A
Authority: EP
Inventors: Christoph Buskies
Original assignee: Individual
Current assignee: BUSKIES, CHRISTOPH
Priority date: 1998-08-19
Filing date: 1999-08-19
Publication date: 2003-06-25
Anticipated expiration: 2019-08-19
Also published as: AU5623199A; WO2000011647A1; CA2340073A1; ATE243876T1; US7047194B1; DE19861167A1; EP1105867A1; DE59906115D1

Claims

Procédé de concaténation, conforme au principe de coarticulation, de segments audio afin de produire des données acoustiques synthétisées reproduisant une suite de sons concaténés, selon les étapes suivantes:

détermination d'au moins deux segments audio possédant des parties qui chacune reproduit une partie d'un son ou de la suite de sons, caractérisé par les étapes:

établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,

établissement d'une zone à exploiter dans un segment audio mémorisé postérieurement qui débute immédiatement avant la zone à exploiter dans le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée dans le segment audio mémorisé postérieurement,

où la durée et l'état de la zone à exploiter sont déterminés en fonction des segments audio mémorisés antérieurement et postérieurement, et

concaténation de la zone établie dans le segment audio mémorisé antérieurement avec la zone établie dans le segment audio mémorisé postérieurement en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé postérieurement, dans sa zone, qui commence immédiatement avant la zone à exploiter dans 1c segment audio mémorisé postérieurement et se termine avec cela.
Procédé selon la revendication 1, caractérisé par le fait que:

le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Procédé selon la revendication 1, caractérisé par le fait que:

le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Procédé selon l'une des revendications 1 à 3, caractérisé par le fait que:

pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée au commencement de la suite de sons concaténés de manière à ce que le commencement de cette zone reproduise les caractéristiques du commencement de la suite de sons concaténés.
Procédé selon l'une des revendications 1 à 4, caractérisé par le fait que:

pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée à la fin de la suite de sons concaténés de manière à ce que la fin de cette zone reproduise les caractéristiques de la fin de la suite de sons concaténés.
Procédé selon l'une des revendications 1 à 5, caractérisé par le fait que:

que les données de langage à synthétiser sont résumées en groupes qui chacun sont décrits par un segment audio.
Procédé selon l'une des revendications 1 à 6, caractérisé par le fait que:

pour un segment audio mémorisé postérieurement, une zone d'un segment audio est déterminée, qui reproduit le plus grand nombre de parties de sons de la suite de sons se succédant l'une après l'autre afin d'utiliser pour la production des données acoustiques synthétisées le plus petit nombre de zones de segments audio possible.
Procédé selon l'une des revendications 1 à 7, caractérisé par le fait que:

un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées est réalisé en fonction de caractéristiques de la suite de sons concaténés. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Procédé selon l'une des revendications 1 à 8, caractérisé par le fait que:

un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées est réalisé dans une zone où se situe le moment de la concaténation. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Procédé selon l'une des revendications 1 à 9, caractérisé par le fait que:

le moment de la concaténation se situe à des endroits, dans les zones à exploiter dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
Procédé selon l'une des revendications 1 à 10 caractérisé par le fait que:

la détermination des zones à exploiter dans les segments audio, leur traitement, leur variation de même que leur concaténation est réalisée en plus avec l'utilisation de connaissances heuristiques qui sont acquises au travers d'un procédé heuristique réalisé supplémentairement.
Procédé selon l'une des revendications 1 à 11, caractérisé par le fait que:

les données acoustiques à synthétiser sont des données de langage et les sons sont des phones.
Procédé selon l'une des revendications 2 à 12, caractérisé par le fait que:

les sons statiques comprennent voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
Procédé selon l'une des revendications 3 à 13, caractérisé par le fait que:

les sons dynamiques comprennent occlusives, affricatives, coups de glotte et sons frappés.
Procédé selon l'une des revendications 1 à 14, caractérisé par le fait que:

une transformation des données acoustiques synthétisées en signaux acoustique et/ou signaux de langage se produit.
Dispositif de concaténation, conforme au principe de coarticulation, de segments audio pour la production de données acoustiques synthétisées qui reproduissent une suite de sons avec:

une banque de données (107), dans laquelle sont mémorisés des segments audio qui reproduissent pour chacun d'eux des zones d'un son ou d'une suite de sons

et/ou un dispositif de synthèse (108) quelconque connecté en amont et qui livre des segments audio,

un dispositif (105) permettant de détenniner au moins deux segments audio dans la banque de données (107) et/ou le dispositif de synthèse (108) connecté en amont, et

un dispositif de concaténation (111) des segments audio, caractérisé par le fait que ce dispositif de concaténation (111) est destiné pour,

définir une zone à exploiter dans un segment audio mémorisé antérieurement,

définir une zone à exploiter dans un segment audio mémorisé postérieurement, dans une zone qui commence avec le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation dans le segment audio mémorisé postérieurement qui suit la zone d'articulation solo premièrement exploitée,

déterminer la durée et le statut des zones à exploiter en fonction des segments audio mémorisés antérieurement et postérieurement, et

concaténer la zone á exploiter dans le segment mémorisé postérieurement avec la zone á exploiter dans le segment mémorisé antérieurement par détermination du moment de la concaténation en fonction de caractéristiques de la zone à exploiter dans le segment mémorisé postérieurement dans une zone qui commence immédiatement avant la zone exploitée dans le segment audio mémorisé postérieurement et se termine avec cela.
Dispositif selon la revendication 16 caractérisé par le fait que le dispositif de concaténation (111) comprend:

des dispositifs pour la concaténation de la zone exploitée dans le segment audio mémorisé antérieurement avec la zone exploitée dans le segment audio mémorisé postérieurement, dont la zone exploitée reproduit au début un son statique, aux abords des limites de la zone d'articulation solo premièrement apparue dans la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées,

des dispositifs pour le traitement d'une zone postérieure de la zone exploitée dans le segment audio mémorisé antérieurement et d'une zone antérieure de la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées, et

des dispositifs pour l'addition par recouvrement des deux zones en une zone de transition (cross fade) en fonction des segments audio à concaténer, et où les fonctions de transition et la durée d'une zone de transition des deux zones sont déterminées en fonction des données acoustiques à synthétiser.
Dispositif selon la revendication 16 ou 17 caractérisé par le fait que
le dispositif de concaténation (111) comprend:

des dispositifs pour la concaténation de la zone exploitée dans le segment audio mémorisé antérieurement avec la zone exploitée dans le segment audio mémorisé postérieurement dont la zone exploitée reproduit au début un son dynamique immédiatement avant la zone exploitée dans le segment audio mémorisé postérieurement,

des dispositifs pour le traitement d'une zone postérieure de la zone exploitée dans le segment audio mémorisé antérieurement et d'une zone antérieure de la zone exploitée dans le segment audio mémorisé postérieurement avec des fonctions de transition appropriées, et où les fonctions de transition sont déterminées en fonction des données acoustiques à synthétiser, et

des dispositifs pour une liaison sans recouvrement des segments audio.
Dispositif selon l'une des revendications 16 à 18 caractérisé par le fait que
la banque de données (107) comprend des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont le début reproduit un son ou une partie de la suite de sons concaténés au début de la suite de sons concaténés.
Dispositif selon l'une des revendications 16 à 19 caractérisé par le fait que
la banque de données (107) comprend des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont la fin reproduit un son ou une partie de la suite de sons concaténés à la fin de la suite de sons concaténés.
Dispositif selon l'une des revendications 16 à 19 caractérisé par le fait que
la banque de données (107) comprend une groupe des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui possédent des zones, dont les commencements ne reproduisent, pour chacun d'eux, qu'un son statique.
Dispositif selon l'une des revendications 16 à 21 caractérisé par le fait que
le dispositif de concaténation (111) comprend:

des dispositifs pour la production d'autres segments audio au travers de la concaténation de zones dans les segments audio où les commencements des zones, pour chacun d'eux, reproduisent un son statique avec chaque fois une zone dans un segment audio mémorisé postérieurement dont la zone exploitée reproduit au commencement un son dynamique, et

un dispositif qui introduit les autres segments audio dans la banque de données (107) ou bien le dispositif de détermination (105).
Dispositif selon l'une des revendications 16 à 22 caractérisé par le fait que
le dispositif de détermination (105) est approprié à déterminer, au cours de la détermination des zones dans les segments audio dans la banque de données (107) ou bien dans le dispositif de synthèse (108), les zones dans les segments audio qui, pour chacune d'elles, reproduisent le plus de parties juxtaposées du son concaténé de la suite de sons concaténés.
Dispositif selon l'une des revendications 16 à 23 caractérisé par le fait que

le dispositif de concaténation (111) présente des dispositifs pour le traitement des zones exploitées dans les segments audio à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons concaténés. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Dispositif selon l'une des revendications 16 à 24 caractérisé par le fait que

le dispositif de concaténation (111) présente des dispositifs pour le traitement des zones exploitées dans les segments audio à l'aide de fonctions appropriées dans une zone comprenant le moment de la concaténation. Cela peut être une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Dispositif selon l'une des revendications 16 à 25 caractérisé par le fait que:

le dispositif de concaténation (111) présente des dispositifs pour la détermination du moment de la concaténation à un endroit dans la zone exploitée dans le segment audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
Dispositif selon l'une des revendications 16 à 26 caractérisé par le fait que:

le dispositif de détermination (105) comprend des dispositifs pour l'implémentation de connaissances heuristiques qui concernent la détermination des zones exploitées dans les segments audio, leur traitement, leur variation, de même que leur concaténation.
Dispositif selon l'une des revendications 16 à 27 caractérisé par le fait que:

la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio qui contiennent des zones qui, pour chacune d'elles, reproduissent au moins une partie d'un son, ou respectivement d'un phone, un son, ou respectivement un phone, des parties de suites de sons, ou respectivement de polyphones, ou bien de suites de sons, ou respectivement de polyphones.
Dispositif selon l'une des revendications 17 à 28 caractérisé par le fait que:

la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio, où un son statique comprend un phone statique et comprend voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
Dispositif selon l'une des revendications 18 à 29 caractérisé par le fait que:

la banque de données (107) contient des segments audio ou bien le dispositif de synthèse (108) connecté en amont livre des segments audio, où un son dynamique comprend un phone dynamique et comprend occlusives, affricatives, coups de glotte et sons frappés.
Dispositif selon l'une des revendications 16 à 30 caractérisé par le fait que:

le dispositif de concaténation (111) est approprié à produire des données de langage synthétisées au travers de la concaténation de segments audio.
Dispositif selon l'une des revendications 16 à 31 caractérisé par le fait que:

des dispositifs (117) pour la transformation des données acoustiques synthétisées en signaux acoustiques et/ou signaux de langage sont disponibles.
Support de stockage de données qui contient un programme informatique pour la concaténation, de manière conforme au principe de coarticulation, de segments audio, afin de produire des données acoustiques synthétisées reproduisant une suite de sons concaténés, selon les étapes suivantes:

détermination d'au moins deux segments audio possédant des parties qui chacune reproduit une partie d'un son ou de la suite de sons, caractérisé par les étapes:

établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,

établissement d'une zone à exploiter dans un segment audio mémorisé antérieurement,

établissement d'une zone à exploiter dans un segment audio mémorisé postérieurement qui débute immédiatement avant le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée dans le segment audio mémorisé postérieurement,

où la durée et l'état de la zone à exploiter sont déterminés en fonction des segments audio mémorisés antérieurement et postérieurement, et

concaténation de la zone établie dans le segment audio mémorisé antérieurement avec la zone établie dans le segment audio mémorisé postérieurement en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé postérieurement, dans sa zone, qui commence immédiatement avant la zone à exploiter dans le segment audio mémorisé postérieurement et se termine avec cela.
Support de stockage de données selon la revendication 33, caractérisé par le fait que:
le programme informatique choisit le moment de la concaténation de la zone exploitée dans le deuxième segment audio avec la zone exploitée dans le premier segment audio de manière à ce que:

le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Support de stockage de données selon la revendication 33 ou 34, caractérisé par le fait que:

le programme informatique choisit le moment de la concaténation de la zone exploitée dans le deuxième segment audio avec la zone exploitée dans le premier segment audio de manière à ce que:

le moment de la concaténation est établi dans une zone qui, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Support de stockage de données selon l'une des revendications 33 à 35, caractérisé par le fait que:

le programme informatique pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée au commencement de la suite de sons concaténés de manière à ce que le commencement de cette zone reproduise les caractéristiques du commencement de la suite de sons concaténés.
Support de stockage de données selon l'une des revendications 33 à 36, caractérisé par le fait que:

le programme informatique pour un son ou une suite de sons concaténés, une zone d'un segment audio est déterminée à la fin de la suite de sons concaténés de manière à ce que la fin de cette zone reproduise les caractéristiques de la fin de la suite de sons concaténés.
Support de stockage de données selon l'une des revendications 33 à 37, caractérisé par le fait que:

le programme informatique réalise un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons concaténés. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Support de stockage de données selon l'une des revendications 33 à 38, caractérisé par le fait que:

le programme informatique détermine pour un segment audio mémorisé postérieurement, une zone d'un segment audio, qui reproduit le plus grand nombre de parties de sons de la suite de sons se succédant l'une après l'autre afin d'utiliser pour la production des données acoustiques synthétisées le plus petit nombre de zones de segments audio possible.
Support de stockage de données selon l'une des revendications 33 à 39, caractérisé par le fait que:

le programme informatique réalise un traitement des zones à exploiter des segments audio à l'aide de fonctions appropriées dans une zone où se situe le moment de la concaténation. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Support de stockage de données selon l'une des revendications 33 à 40, caractérisé par le fait que:

le programme informatique situe le moment de la concaténation à des endroits, dans les zones à exploiter dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent, entre autres, être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons
Support de stockage de données selon l'une des revendications 33 à 41, caractérisé par le fait que:

le programme informatique réalise une implémentation de connaissances heuristiques qui concernent la détermination des zones exploitées dans les segments audio, leur traitement, leur variation, de même que leur concaténation.
Support de stockage de données selon l'une des revendications 33 à 42, caractérisé par le fait que:

le programme informatique est approprié pour la production de données de langage synthétisées, où les sons sont des phones.
Support de stockage de données selon l'une des revendications 34 à 42, caractérisé par le fait que:

le programme informatique est approprié pour la production de sons statiques, où les sons statiques comprennent voyelles, diphtongues, liquides, vibrantes, fricatives et nasales.
Support de stockage de données selon l'une des revendications 35 à 44, caractérisé par le fait que:

le programme informatique est approprié pour la production de sons dynamiques, et les sons dynamiques comprennent occlusives, affricatives, coups de glotte et sons frappés.
Support de stockage de données selon l'une des revendications 33 à 45, caractérisé par le fait que:

le programme informatique transforme les données acoustiques synthétisées en données acoustiquement et/ou les signaux de langage synthétisés transformables.
Des signaux de langage synthétisés, qui se composent d'une suite de sons, ou respectivement de phones, et où les signaux de langage sont produits par le fait que:

au moins deux des sons, ou respectivement des phones, reproduisant les segments audio sont déterminés, et

les segments audio sont enchaínés au travers d'une concaténation conforme au principe de coarticulation, et où

une zone à exploiter dans un segment audio mémorisé antérieurement est déterminée,

une zone à exploiter dans un segment audio mémorisé postérieurement est déterminée, qui commence immédiatement avant le segment audio mémorisé postérieurement et se termine avec la zone de coarticulation qui suit la zone d'articulation solo premièrement exploitée, est établie,

où la durée et le statut des zones à exploiter sont déterminés en fonction des segments audio, et

les zones exploitées dans les segments audio sont concaténées de manière conforme au principe de coarticulation, en ce que le moment de la concaténation se situe, en fonction de caractéristiques de la zone exploitée dans le segment audio mémorisé antérieurement, hdans sa zone, qui commence immédiatement avant la zone à exploiter dans le segment audio mémorise postérieurement et se termine avec cela.
Signaux de langage synthétisés selon la revendication 47, caractérisés par le fait que les signaux de langage sont produits en ce que,

les segments audio sont concaténés à un moment qui se situe de manière appropriée, qui, d'un point de vue du temps, se situe aux abords des limites de la zone d'articulation solo à exploiter premièrement dans le segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son statique ou un phone statique, où un phone statique comprend une voyelle, une diphtongue, une liquide, une vibrante, une fricative ou une nasale, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Crossfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Signaux de langage synthétisés selon la revendication 47 ou 48, caractérisés par le fait que les signaux de langage sont produits en ce que,

les segments audio sont concaténés à un moment qui se situe de manière appropriée, d'un point de vue du temps, se situe immédiatement avant la zone à exploiter du segment audio mémorisé postérieurement lorsque sa zone à exploiter reproduit au début un son dynamique respectivement un phone statique, où un phone dynamique comprend une occlusive, une affricative, un coup de glotte ou un son frappé, et

une zone postérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé antérieurement et une zone antérieure, d'un point de vue temporel, de la zone à exploiter dans le segment audio mémorisé postérieurement sont traitées avec des fonctions de transition appropriées et additionnées par recouvrement (Hardfade), alors que les fonctions de transition et la longueur d'une zone de recouvrement des deux zones sont déterminées en fonction des segments audio à concaténer.
Signaux de langage synthétisés selon l'une des revendications 47 à 49 caractérisé par le fait que:

le premier son, ou respectivement le premier phone, ou une partie de la première suite de sons, ou respectivement du premier polyphone, dans la suite est produit au travers d'un segment audio, dont la zone exploitée reproduit au commencement les caractéristiques du commencement de la suite.
Signaux de langage synthétisés selon l'une des revendications 47 à 50 caractérisé par le fait que:

le dernier son, ou respectivement le dernier phone, ou une partie de la dernière suite de sons,

ou respectivcment du dernier polyphone, dans la suite est produit au travers d'un segment audio, dont la zone exploitée reproduit au commencement les caractéristiques du fin de la suite.
Signaux de langage synthétisés selon l'une des revendications 47 à 51 caractérisé par le fait que:

les zones de segments audio mémorisées postérieurement et commençant avec la reproduction d'un son, ou respectivement d'un phone, dynamique sont concaténées avec des zones dans les segments audio mémorisées antérieurement et commençant avec la reproduction d'un son, ou respectivement d'un phone, statique.
Signaux de langage synthétisés selon l'une des revendications 47 à 52 caractérisé par le fait que:

les zones de segments audio déterminées sont celles qui reproduisent lc plus possible de sons, ou respectivement de phones, de la suite afin d'exploiter, au cours de la production des signaux de langage, le plus petit nombre de zones de segments audio possible.
Signaux de langage synthétisés selon l'une des revendications 47 à 53 caractérisé par le fait que:

les signaux de langage sont produits par la concaténation des zones de segments audio exploitées, qui sont traitées, à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons, ou respectivement de la suite de phones. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Signaux de langage synthétisés selon l'une des revendications 47 à 54 caractérisé par le fait que:

les signaux de langage sont produits par la concaténation des zones de segments audio exploitées, qui sont traitées, à l'aide de fonctions appropriées en fonction de caractéristiques de la suite de sons, ou respectivement de la suite de phones, dans une zone dans laquelle se situe le moment de la concaténation. Cela peut être, entre autres, une modification de la fréquence, de la durée, de l'amplitude ou du spectre.
Signaux de langage synthétisés selon l'une des revendications 47 à 55 caractérisé par le fait que:

le moment de la concaténation se situe dans un endroit approprié dans les zones exploitées dans les segments audio mémorisés antérieurement et/ou postérieurement, où les deux zones correspondent l'une à l'autre du point de vue d'une ou de plusieurs caractéristiques appropriées. Ces caractéristiques peuvent, entre autres, être: le point zéro, valeur d'amplitude, rapport d'inclinaison, dérivation d'un degré quelconque, spectre, hauteur, valeur d'amplitude dans une zone de fréquences, puissance sonore, style de langage, émotion ou tout autre caractéristique considérée d'un point de vue d'un schéma de classification des sons.
Signaux de langage synthétisés selon l'une des revendications 47 à 56 caractérisé par le fait que:

les signaux de langage sont appropriés à être transformés en signaux acoustiques.
Support audio qui contient des données qui sont, tout au moins en partie, des données acoustiques synthétisées et
qui furent produites,

avec un procédé selon revendication 1, ou

avec un dispositif selon revendication 16, ou

avec l'utilisation d'un support de données selon revendication 33,

ou bien qui sont

des signaux de langage selon revendication 47.
Support audio selon revendication 58, caractérisé par le fait que:

les données acoustiques synthétisées sont des signaux de langage.