EP1777697B1

EP1777697B1 - Verfahren zur Sprachsynthese ohne Änderung der Prosodie

Info

Publication number: EP1777697B1
Application number: EP07002565A
Authority: EP
Inventors: Min Chu; Hu Peng
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-12-04
Filing date: 2001-12-03
Publication date: 2013-03-20
Anticipated expiration: 2021-12-03
Also published as: EP1777697A2; EP1777697A3

Claims

Verfahren zum Synthetisieren von Sprache, wobei das Verfahren umfasst:
Erzeugen eines Trainings-Kontextvektors für jede eines Satzes von Trainings-Spracheinheiten in einem Trainings-Sprachkorpus, wobei jeder Trainings-Kontextvektor den prosodischen Kontext einer Trainings-Spracheinheit in dem Trainings-Sprachkorpus kennzeichnet und jeder Kontext-Vektor eine linke tonale Koordinate umfasst, die eine Kategorie für den Ton einer Spracheinheit auf der linken Seite der Trainings-Spracheinheit kennzeichnet;

Indizieren eines Satzes von Sprachsegmenten, die mit einem Satz von Trainings-Spracheinheiten assoziiert sind, auf der Basis der Kontextvektoren für die Trainings-Spracheinheiten;

Erzeugen eines Eingabe-Kontextvektors für jede eines Satzes von Eingabe-Spracheinheiten in einem Eingabetext (304), wobei jeder Eingabe-Kontextvektor den prosodischen Kontext einer Eingangs-Spracheinheit in dem Eingabetext kennzeichnet;

Verwenden der Eingabe-Kontextvektoren, um ein Sprachsegment für jede Eingabe-Spracheinheit zu finden, und

Verknüpfen der gefundenen Sprachsegmente, um ein synthetisiertes Sprachsignal auszubilden.
Verfahren nach Anspruch 1, bei dem jeder Kontextvektor eine Phrasenpositions-Koordinate umfasst, die die Position der Spracheinheit in einer Phrase kennzeichnet.
Verfahren nach Anspruch 1, bei dem jeder Kontextvektor eine Wortpositions-Koordinate umfasst, die die Position der Spracheinheit in einem Wort kennzeichnet.
Verfahren nach Anspruch 1, bei dem jeder Kontextvektor eine linke phonetische Koordinate umfasst, die eine Kategorie für das Phonem auf der linken Seite der Spracheinheit kennzeichnet.
Verfahren nach Anspruch 1, bei dem jeder Kontextvektor eine rechte phonetische Koordinate umfasst, die eine Kategorie für das Phonem auf der rechten Seite der Spracheinheit kennzeichnet.
Verfahren nach Anspruch 1, bei dem jeder Kontextvektor eine rechte tonale Koordinate umfasst, die eine Kategorie für den Ton der Spracheinheit auf der rechten Seite der Spracheinheit kennzeichnet.
Verfahren nach Anspruch 1, bei dem das Indizieren eines Satzes von Sprachsegmenten das Erzeugen eines Entscheidungsbaumes (320) auf der Basis der Trainings-Kontextvektoren umfasst.
Verfahren nach Anspruch 7, bei dem das Verwenden der Eingangs-Kontextvektoren, um ein Sprachsegment zu finden, das Durchsuchen des Entscheidungsbaumes unter Verwendung des Eingangs-Kontextvektors umfasst.
Verfahren nach Anspruch 8, bei dem das Durchsuchen des Entscheidungsbaumes umfasst:
Identifizieren eines Blattes in dem Baum für jeden Eingangs-Kontextvektor, wobei jedes Blatt wenigstens ein in Frage kommendes Sprachsegment umfasst; und

Wählen eines in Frage kommenden Sprachsegmentes in jedem Blattknoten, wobei, sofern es mehr als ein in Frage kommendes Sprachsegment an dem Knoten gibt, die Auswahl auf einer Aufwandsfunktion basiert.
Verfahren nach Anspruch 9, bei dem die Aufwandsfunktion einen Abstand zwischen dem Eingangs-Kontextvektor und einem Trainings-Kontextvektor umfasst, der mit einem Sprachsegment assoziiert ist.
Verfahren nach Anspruch 10, bei dem die Aufwandsfunktion weiterhin einen Glättungsaufwand umfasst, der auf einem in Frage kommenden Sprachsegment wenigstens einer benachbarten Spracheinheit basiert.
Verfahren nach Anspruch 11, bei dem der Glättungsaufwand das Wählen einer Abfolge von Sprachsegmenten für eine Abfolge von Eingangs-Kontextvektoren bevorzugt, sofern die Abfolge von Sprachsegmenten in dem Trainings-Sprachkorpus in einer Abfolge aufgetreten ist.
Verfahren nach Anspruch 1, bei dem das Wählen der Sprachsegmente für verknüpfte Sprachsynthese umfasst:
Umwandeln eines Eingabetextes in Spracheinheiten;

Identifizieren von Kontextinformation für jede Spracheinheit auf der Basis ihres Ortes in dem Eingabetext und wenigstens einer benachbarten Spracheinheit;

Identifizieren eines Satzes von in Frage kommenden Sprachsegmenten für jede Spracheinheit auf der Basis der Kontextinformation; und

Identifizieren einer Sequenz von Sprachsegmenten aus den in Frage kommenden Sprachsegmenten, teilweise basierend auf einem Glättungsaufwand zwischen den Sprachsegmenten.
Computerlesbares Medium, das über von einem Computer ausführbare Anweisungen verfügt, die dazu eingerichtet sind, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen, wenn sie auf einem Computer (110) ablaufen.