EP1606792B1

EP1606792B1 - Verfahren zur analyse der grundfrequenz, verfahren und vorrichtung zur sprachkonversion unter dessen verwendung

Info

Publication number: EP1606792B1
Application number: EP04716265A
Authority: EP
Inventors: Taoufik En-Najjary; Olivier Rosec
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-03-27
Filing date: 2004-03-02
Publication date: 2008-05-14
Anticipated expiration: 2024-03-02
Also published as: CN1795491A; JP2006521576A; JP4382808B2; WO2004088633A1; US7643988B2; DE602004013747D1; ATE395684T1; FR2853125A1; EP1606792A1; CN100583235C; US20060178874A1

Claims

Verfahren der Analyse von Informationen der Grundfrequenz, die in Sprachproben enthalten sind, dadurch gekennzeichnet, dass es mindestens Folgendes umfasst:
- einen Schritt (2) der Analyse der in Rahmen gruppierten Sprachproben, um für jeden Probenrahmen eine Spektralhüllendarstellung, die dazu geeignet ist, im Zuge der Stimmumwandlung zwischen zwei Sprechern transformiert zu werden, und die Grundfrequenz zu erhalten;

- einen Schritt (20) der Bestimmung eines Modells der gemeinsame Dichtefunktion der Spektralhüllendarstellung und der Grundfrequenz aller Proben; und

- einen Schritt (30) der Bestimmung auf der Grundlage des Modells und der Sprachproben einer Funktion der Vorhersage der Grundfrequenz ausschließlich als Funktion der Spektralhüllendarstellung.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Spektralhüllendarstellung in Form von Cepstralkoeffizienten ausgedrückt ist.
Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass der Schritt der Analyse (2) Folgendes umfasst:
- einen Unterschritt (4) der Modellierung der Sprachproben gemäß einer Summe eines harmonischen Signals und eines Rauschsignals;

- einen Unterschritt (5) der Schätzung von Parametern der Frequenz und mindestens der Grundfrequenz der Sprachproben;

- einen Unterschritt (6) der synchronisierten Analyse eines jeden Probenrahmens auf seiner Grundfrequenz; und

- einen Unterschritt (7) der Schätzung der Parameter der Spektralhüllendarstellung eines jeden Probenrahmens.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass es ferner einen Schritt (10) der Normalisierung der Grundfrequenz eines jeden Probenrahmens in Bezug auf den Mittelwert der Grundfrequenzen der analysierten Proben umfasst.
Verfahren nach einem der vorangegangenen Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Schritt (20) der Bestimmung eines Modells der Bestimmung eines Modells durch Mischen Gaußscher Dichten entspricht.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass der Schritt der Bestimmung (20) eines Modells Folgendes umfasst:
- einen Unterschritt (22) der Bestimmung eines Modells, das einer Mischung Gaußscher Dichten entspricht; und

- einen Unterschritt (24) der Schätzung der Parameter der Mischung Gaußscher Dichten auf der Grundlage der Maximum-Likelihood-Schätzung zwischen den Spektral- und den Grundfrequenzinformationen der Proben und des Modells.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Schritt (30) der Bestimmung einer Funktion der Vorhersage auf der Grundlage eines Schätzers der Realisation der Grundfrequenz unter Kenntnis der Spektralinformationen der Proben durchgeführt wird.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass der Schritt (30) der Bestimmung der Funktion der Vorhersage der Grundfrequenz einen Unterschritt (32) der Bestimmung der bedingten Erwartung der Realisation der Grundfrequenz unter Kenntnis der Spektralinformationen auf der Grundlage der aposteriorischen Wahrscheinlichkeit, dass die Spektralinformationen auf der Grundlage des Modells erhalten werden, umfasst, wobei die bedingte Erwartung den Schätzer bildet.
Verfahren der Umwandlung eines Sprachsignals, das von einem Ausgangssprecher ausgegeben wird, in ein umgewandeltes Sprachsignal, dessen Eigenschaften jenen eines Zielsprechers ähneln, das mindestens Folgendes umfasst:
- einen Schritt (50) der Bestimmung einer Funktion der Transformation einer Spektralhüllendarstellung des Ausgangssprechers in eine Spektralhüllendarstellung des Zielsprechers, durchgeführt auf der Grundlage von Sprachproben des Ausgangssprechers und des Zielsprechers; und

- einen Schritt (70) der Transformation der Spektralinformationen des umzuwandelnden Stimmsignals des Ausgangssprechers mithilfe der Funktion der Transformation,
dadurch gekennzeichnet, dass es ferner Folgendes umfasst:
- einen Schritt (60) der Bestimmung einer Funktion der Vorhersage der Grundfrequenz ausschließlich als Funktion einer Spektralhüllendarstellung für den Zielsprecher, wobei die Funktion der Vorhersage mithilfe eines Verfahrens der Analyse nach einem der Ansprüche 1 bis 8 erhalten wird; und

- einen Schritt (80) der Vorhersage der Grundfrequenz des umzuwandelnden Stimmsignals durch Anwenden der Funktion der Vorhersage der Grundfrequenz auf die transformierte Spektralhüllendarstellung des Stimmsignals des Ausgangssprechers.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Schritt (50) der Bestimmung einer Funktion der Transformation auf der Grundlage eines Schätzers der Realisation der Zielspektraleigenschaften unter Kenntnis der Ausgangsspektraleigenschaften durchgeführt wird.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der Schritt (50) der Bestimmung einer Funktion der Transformation Folgendes umfasst:
- einen Unterschritt (52) der Modellierung der Ausgangs- und Zielsprachproben gemäß einem Summenmodell eines harmonischen Signals und eines Rauschsignals;

- einen Unterschritt (54) des Abgleichs zwischen den Ausgangs- und den Zielproben; und

- einen Unterschritt (56) der Bestimmung der Funktion der Transformation auf der Grundlage der Berechnung der bedingten Erwartung der Realisation der Zielspektraleigenschaften unter Kenntnis der Ausgangsspektraleigenschaften, wobei die bedingte Erwartung den Schätzer bildet.
Verfahren nach einem der Ansprüche 9 bis 11, dadurch gekennzeichnet, dass die Funktion der Transformation eine Funktion der Transformation einer Spektralhüllendarstellung ist.
Verfahren nach einem der Ansprüche 9 bis 12, dadurch gekennzeichnet, dass es ferner einen Schritt (65) der Analyse des umzuwandelnden Stimmsignals umfasst, der dazu geeignet ist, die Informationen bezüglich des Spektrums und der Grundfrequenz bereitzustellen.
Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass es ferner einen Schritt (90) der Synthese umfasst, der mindestens auf der Grundlage der transformierten Spektralinformationen und der vorhergesagten Informationen der Grundfrequenz die Bildung eines umgewandelten Stimmsignals ermöglicht.
System zur Umwandlung eines Sprachsignals (110), das von einem Ausgangssprecher ausgegeben wird, in ein umgewandeltes Sprachsignal (120), dessen Eigenschaften jenen eines Zielsprechers ähneln, wobei das System mindestens Folgendes aufweist:
- Mittel (104) der Bestimmung einer Funktion der Transformation von Spektraleigenschaften des Ausgangssprechers in Spektraleigenschaften des Zielsprechers, die am Eingang Sprachproben des Ausgangssprechers (100) und des Zielsprechers (102) empfangen; und

- Mittel (114) der Transformation der Spektralinformationen des umzuwandelnden Stimmsignals (110) des Ausgangssprechers durch Anwenden der Funktion der Transformation, die von den Mitteln (104) bereitgestellt wurde,
dadurch gekennzeichnet, dass es ferner Folgendes umfasst:
- Mittel (106) der Bestimmung einer Funktion der Vorhersage der Grundfrequenz ausschließlich als Funktion von Informationen bezüglich des Spektrums für den Zielsprecher, die dazu geeignet sind, ein Verfahren der Analyse nach einem der Ansprüche 1 bis 8 durchzuführen, auf der Grundlage von Sprachproben (102) des Zielsprechers; und

- Mittel (116) der Vorhersage der Grundfrequenz des umzuwandelnden Stimmsignals (110) durch Anwenden der Funktion der Vorhersage, die von den Mitteln (106) der Bestimmung einer Funktion der Vorhersage bestimmt wurde, auf die Informationen des transformierten Spektrums, die von den Mitteln der Transformation (114) bereitgestellt wurden.
System nach Anspruch 15, dadurch gekennzeichnet, dass es ferner Folgendes umfasst:
- Mittel (112) der Analyse des umzuwandelnden Stimmsignals (110), die dazu geeignet sind, Informationen bezüglich des Spektrums und der Grundfrequenz des umzuwandelnden Stimmsignals am Ausgang bereitzustellen; und

- Mittel (118) der Synthese, die mindestens auf der Grundlage der Informationen des transformierten Spektrums, die von den Mitteln (114) bereitgestellt wurden, und der vorhergesagten Informationen der Grundfrequenz, die von den Mitteln (116) bereitgestellt wurden, die Bildung eines umgewandelten Stimmsignals ermöglichen.
System nach einem der Ansprüche 15 oder 16, dadurch gekennzeichnet, dass die Mittel (104) der Bestimmung einer Funktion der Transformation dazu geeignet sind, eine Funktion der Transformation der Spektralhülle bereitzustellen.
System nach einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, dass es dazu geeignet ist, ein Verfahren der Stimmumwandlung nach einem der Ansprüche 9 bis 12 durchzuführen.