EP1505570B1

EP1505570B1 - Méthode de synthèse de voix chantée

Info

Publication number: EP1505570B1
Application number: EP03017548.3A
Authority: EP
Inventors: Hideki Kenmochi; Jordi Bonada; Alex Loscos
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-08-06
Filing date: 2003-08-06
Publication date: 2017-10-11
Anticipated expiration: 2023-08-06
Also published as: EP1505570A1

Claims

Procédé de synthèse de voix de chant, comprenant les étapes suivantes :
(a) détecter un spectre de fréquence en analysant une fréquence d'une forme d'onde vocale correspondant à une unité de synthèse vocale d'une voix à synthétiser ;

(b) détecter une pluralité de crêtes locales d'une intensité de spectre sur lespectre de fréquence ;

(c) désigner, pour chacune de la pluralité de crêtes locales, une région de distribution de spectre comprenant la crête locale et des spectres avant et après sur le spectre de fréquence, et générer des données de spectre d'amplitude représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaquerégion de distribution de spectre ;

(d) générer des données de spectre de phase représentant une distribution de spectre de phase selon l'axe des fréquences pour chaquerégion de distribution de spectre ;

(e) désigner une hauteur de note pour la voix à synthétiser ;

(f) ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquencesconformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV du spectre de fréquence ;

(g) ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

(h) convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal vocal synthétisé d'une région temporelle.
Procédé de synthèse de voix de chant selon la revendication 1, dans lequel l'étape (e) de désignation de hauteur de note désigne la hauteur de note conformément à des données de pulsation de hauteur de note représentant une variation de la hauteur de note dans une séquence temporelle.
Procédé de synthèse de voix de chant selon la revendication 1, dans lequel l'étape (f) d'ajustement de données de spectre d'amplitude règle l'enveloppe de spectre qui varie dans une séquence temporelle conformément à des données de pulsation d'enveloppe de spectre représentant une variation de l'enveloppe de spectre EV du spectre de fréquence pour une séquence temporelle pour des trames séquentielles dans le temps.
Procédé de synthèse de voix de chant selon la revendication 3, dans lequel les données de pulsation d'enveloppe de spectre correspondent à un paramètre de commande pour contrôler une expression musicale de la voix à synthétiser.
Procédé de synthèse de voix de chant, comprenant les étapes suivantes :
(a) obtenir des données de spectre d'amplitude et des données de spectre de phase correspondant à une unité de synthèse vocale d'une voix à synthétiser, les données de spectre d'amplitude étant des données représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre pour chacune d'une pluralité de crêtes locales d'une intensité de spectre comprenant la crête locale et des spectres avant et après dans un spectre de fréquence obtenu par une analyse de fréquence d'une forme d'onde vocale de l'unité de synthèse vocale, et les données de spectre de phase sont des données représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

(b) désigner une hauteur de note pour la voix à synthétiser ;

(c) ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV des données de spectre d'amplitude obtenues ;

(d) ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

(e) convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal vocal synthétisé d'une région temporelle.
Procédé de synthèse de voix de chant selon la revendication 3, dans lequel les données de pulsation de hauteur de note correspondent à un paramètre de commande pour contrôler une expression musicale de la voix à synthétiser.
Dispositif de synthèse de voix de chant, comprenant :
un dispositif de désignation qui est adapté à désigner une unité de synthèse vocale et une hauteur de note pour une voix à synthétiser ;

un dispositif de lecture qui est adapté à lire des données de forme d'onde vocale représentant une forme d'onde correspondant à l'unité de synthèse vocale comme données d'unité de synthèse vocale, à partir d'une base de données d'unités de synthèse vocale ;

un premier dispositif de détection qui est adapté à détecter un spectre de fréquence en analysant une fréquence de la forme d'onde vocale représentée par les données de forme d'onde vocale ;

un deuxième dispositif de détection qui est adapté à détecter une pluralité de crêtes locales d'une intensité de spectre sur le spectre de fréquence ;

un premier dispositif de génération qui est adapté à désigner, pour chacune de la pluralité de crêtes locales, une région de distribution de spectre comprenant la crête locale et des spectres avant et après sur le spectre de fréquence et à générer des données de spectre d'amplitude représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre ;

un deuxième dispositif de génération qui est adapté à générer des données de spectre de phase représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

un premier dispositif d'ajustement qui est adapté à ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV du spectre de fréquence ;

un deuxième dispositif d'ajustement qui est adapté à ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

un dispositif de conversion qui est adapté à convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal vocal synthétisé d'une région temporelle.
Dispositif de synthèse de voix de chant selon la revendication 7, dans lequel
le dispositif de désignation est adapté à désigner un paramètre de commande pour contrôler une expression musicale de la voix à synthétiser, et
le dispositif de lecture est adapté à lire des données d'unité de synthèse vocale correspondant à l'unité de synthèse vocale et au paramètre de commande.
Dispositif de synthèse de voix de chant selon la revendication 7, dans lequel
le dispositif de désignation est adapté à désigner une longueur de note et/ou un tempo pour la voix à synthétiser, et
le dispositif de lecture est adapté à continuer à lire les données d'unité de synthèse vocale pendant un temps correspondant à la longueur de note et/au tempo en omettant une partie ou en répétant une partie ou la totalité des données d'unité de synthèse vocale.
Dispositif de synthèse de voix de chant, comprenant :
un dispositif de désignation qui est adapté à désigner une unité de synthèse vocale et une hauteur de note pour une voix à synthétiser ;

un dispositif de lecture qui est adapté à lire des données de spectre d'amplitude et des données de spectre de phase correspondant à l'unité de synthèse vocale comme données d'unité de synthèse vocale à partir d'une base de données d'unités de synthèse vocale, dans lequel les données de spectre d'amplitude sont des données représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre pour chacune d'une pluralité de crêtes locales d'une intensité de spectre comprenant la crête locale et des spectres avant et après dans un spectre de fréquence obtenu par une analyse de fréquences d'une forme d'onde vocale de l'unité de synthèse vocale, et les données de spectre de phase sont des données représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

un premier dispositif d'ajustement qui est adapté à ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV des données de spectre d'amplitude lues ;

un deuxième dispositif d'ajustement qui est adapté à ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

un dispositif de conversion qui est adapté à convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal de voix synthétisée d'une région temporelle.
Dispositif de synthèse de voix de chant, comprenant :
désigner un dispositif qui est adapté à désigner une unité de synthèse vocale et une hauteur de note pour chacune deplusieurs voix à synthétiser séquentiellement ;

un dispositif de lecture qui est adapté à lire des données de forme d'onde vocale correspondant à chaque unité de synthèse de voix désignée par le dispositif de désignation à partir d'une base de données de synthèse vocale ;

un premier dispositif de détection qui est adapté à détecter un spectre de fréquence en analysant une fréquence de la forme d'onde vocale correspondant à chaque forme d'onde vocale ;

un deuxième dispositif de détection qui est adapté à détecter une pluralité de crêtes locales d'une intensité de spectre sur le spectre de fréquence correspondant à chaque forme d'onde vocale ;

un premier dispositif de génération qui est adapté à désigner, pour chacune de la pluralité des crêtes locales pour chaque unité de synthèse vocale, une région de distribution de spectre comprenant la crête locale et des spectres avant et après sur le spectre de fréquence et à générer des données de spectre d'amplitude représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre ;

un deuxième dispositif de génération qui est adapté à générer des données de spectre de phase représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre de chaque unité de synthèse vocale ;

un premier dispositif d'ajustement qui est adapté à ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre de chaque unité de synthèse vocale, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquencesconformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV du spectre de fréquence ;

un deuxième dispositif d'ajustement qui est adapté à ajuster, pour la région de distribution de spectre de chaque unité de synthèse vocale, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ;

un premier dispositif de connexion qui est adapté à connecter les données de spectre d'amplitude ajustées pour connecter des unités de synthèse vocale séquentielles correspondant respectivement aux voix à synthétiser séquentiellement dans un certain ordre de prononciation, dans lequel les intensités de spectre sont ajustées de façon à concorder ou concorder approximativement entre elles au niveau de points de connexion des unités de synthèse vocale séquentielles ;

un deuxième dispositif de connexion qui est adapté à connecter les données de spectre de phase ajustées pour connecter des unités de synthèse vocale séquentielles correspondant respectivement aux voix à synthétiser séquentiellement dans un certain ordre de prononciation, dans lequel les phases sont ajustées de façon à concorder ou concorder approximativement entre elles au niveau de points de connexion des unités de synthèse vocale séquentielles ;

un dispositif de conversion qui est adapté à convertir les données de spectre d'amplitude connectées et les données de spectre de phase connectées en un signal vocal synthétisé d'une région temporelle.
Dispositif de synthèse de voix de chant, comprenant :
un dispositif de désignation qui est adapté à désigner une unité de synthèse vocale et une hauteur de note pour chacune deplusieurs voixà synthétiser séquentiellement ;

un dispositif de lecture qui est adapté à lire des données de forme d'onde vocale correspondant à chaque unité de synthèse vocale désignée par le dispositif de désignation à partir d'une base de données d'unités de synthèse vocale, dans lequel les données de spectre d'amplitude sont des données représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre pour chacune d'une pluralité de crêtes locales d'une intensité de spectre comprenant la crête locale et des spectres avant et après dans un spectre de fréquence obtenu par une analyse de fréquences d'une forme d'onde vocale de l'unité de synthèse vocale, et les données de spectre de phase sont des données représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

un premier dispositif d'ajustement qui est adapté à ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre de chaque unité de synthèse vocale, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV des données de spectre d'amplitude lues ;

un deuxième dispositif d'ajustement qui est adapté à ajuster, pour chaque région de distribution de spectre de chaque unité de synthèse vocale, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ;

un premier dispositif de connexion qui est adapté à connecter les données de spectre d'amplitude ajustées pour connecter des unités de synthèse vocale séquentielles correspondant respectivement aux voix à synthétiser séquentiellement dans un certain ordre de prononciation, dans lequel les intensités de spectre sont ajustées de façon à concorder ou concorder approximativement entre elles au niveau de points de connexion des unités de synthèse vocale séquentielles ;

un deuxième dispositif de connexion qui est adapté à connecter les données de spectre de phase ajustées pour connecter des unités de synthèse vocale séquentielles correspondant respectivement aux voix à synthétiser séquentiellement dans un certain ordre de prononciation, dans lequel les phases sont ajustées pour concorder ou concorder approximativement entre elles au niveau de points de connexion des unités de synthèse vocale séquentielles ; et

un dispositif de conversion qui est adapté à convertir les données de spectre d'amplitude connectées et les données de spectre de phase connectées en un signal vocal synthétisé d'une région temporelle.
Support de stockage mémorisant un programme pour un procédé de synthèse de voix de chant, le programme comprenant les instructions pour :
(a) détecter un spectre de fréquence en analysant une fréquence d'une forme d'onde vocale correspondant à une unité de synthèse vocale d'une voix à synthétiser ;

(b) détecter une pluralité de crêtes locales d'une intensité de spectre sur le spectre de fréquence ;

(c) désigner, pour chacune de la pluralité de crêtes locales, une région de distribution de spectre comprenant la crête locale et des spectres avant et après sur le spectre de fréquence, et générer des données de spectre d'amplitude représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre ;

(d) générer des données de spectre de phase représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

(e) désigner une hauteur de note pour la voix à synthétiser ;

(f) ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV du spectre de fréquence ;

(g) ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

(h) convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal vocal synthétisé d'une région temporelle.
Support de stockage mémorisant un programme pour un procédé de synthèse de voix de chant, le programme comprenant les instructions pour :
(a) obtenir des données de spectre d'amplitude et des données de spectre de phase correspondant à une unité de synthèse vocale d'une voix à synthétiser, les données de spectre d'amplitude étant des données représentant une distribution de spectre d'amplitude selon un axe des fréquences pour chaque région de distribution de spectre pour chacune d'une pluralité de crêtes locales d'une intensité de spectre comprenant la crête locale et des spectres avant et après dans un spectre de fréquence obtenu par une analyse de fréquences d'une forme d'onde vocale de l'unité de synthèse vocale, et les données de spectre de phase sont des données représentant une distribution de spectre de phase selon l'axe des fréquences pour chaque région de distribution de spectre ;

(b) désigner une hauteur de note pour la voix à synthétiser ;

(c) ajuster les données de spectre d'amplitude en déplaçant, pour chaque région de distribution de spectre, la distribution de spectre d'amplitude représentée par les données de spectre d'amplitude le long de l'axe des fréquences conformément à la hauteur de note, tout en ajustant l'intensité de spectre de la crête locale conformément à une enveloppe de spectre EV des données de spectre d'amplitude obtenues ;

(d) ajuster, pour chaque région de distribution de spectre, les données de spectre de phase conformément aux données de spectre d'amplitude ajustées ; et

(e) convertir les données de spectre d'amplitude ajustées et les données de spectre de phase ajustées en un signal vocal synthétisé d'une région temporelle.