DE69917960T2 - Phonembasierte Sprachsynthese - Google Patents

Phonembasierte Sprachsynthese Download PDF

Info

Publication number
DE69917960T2
DE69917960T2 DE69917960T DE69917960T DE69917960T2 DE 69917960 T2 DE69917960 T2 DE 69917960T2 DE 69917960 T DE69917960 T DE 69917960T DE 69917960 T DE69917960 T DE 69917960T DE 69917960 T2 DE69917960 T2 DE 69917960T2
Authority
DE
Germany
Prior art keywords
phoneme
phonemic
piece data
context
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69917960T
Other languages
English (en)
Other versions
DE69917960D1 (de
Inventor
Masayuki Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69917960D1 publication Critical patent/DE69917960D1/de
Application granted granted Critical
Publication of DE69917960T2 publication Critical patent/DE69917960T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Die vorliegende Erfindung bezieht sich auf ein Sprachsynthesegerät, das über eine Datenbank zum Verwalten phonemischer Stückdaten verfügt und eine Sprachsynthese unter Verwendung der phonemischen Stückdaten ausführt, die die Datenbank verwaltet, auf ein Steuerverfahren für das Gerät und auf einen computerlesbaren Speicher.
  • Als herkömmliches Sprachsyntheseverfahren ist eines bekannt, das auf der Grundlage eines Wellenformverbindungsschemas arbeitet. Im Wellenformverbindungssyntheseverfahren wird die Prosodie durch das Überlappungshinzufügungsverfahren des Anheftens von Wellenformelementstücken gemäß einem Verbindungssyntheseverfahren geändert, das für eine natürlichere synthetische Sprache als ein auf einem parametrischen Schema basierenden Syntheseverfahren verwendet, das jedoch an dem Problem eines engen zulässigen Bereichs in Hinsicht auf die Änderung der Prosodie leidet.
  • Unter diesen Umständen sind Versuche unternommen worden, die Sprachqualität durch Aufbereiten verschiedener Sprachdaten und durch sauberes Auswählen dieser zu verbessern. Als Kriterium für die Auswahl von Sprachdaten werden Informationen, wie ein phonemischer Kontext (ein zu synthetisierendes Phonem oder einige wenige Phoneme auf beiden Seiten des Zielphonems), oder es wird eine Grundfrequenz F0 verwendet.
  • Jedoch stellen sich beim herkömmlichen Sprachsyntheseverfahren die folgenden Probleme.
  • Wenn es beispielsweise keine Daten gibt, die einen phonemischen Kontext als Syntheseziel haben, wird eine Suche nach erforderlichen Sprachdaten erneut durchgeführt durch Freigeben der Bedingung, die dem phonemischen Kontext zugehörig ist. Das Ausführen dieser Neusuche bei der Sprachsynthese kompliziert die Verarbeitung und führt zu einer Verlängerung der Verarbeitungszeit. Wenn darüber hinaus die Grundfrequenz F0, die als Kriterium zu verwenden ist für die Auswahl der Sprachdaten, müssen alle Sprachdaten in Verbindung mit der Grundfrequenz F0 bewertet werden, um Sprachdaten zu erhalten, die überwiegend zu der Grundfrequenz der zu synthetisierenden Sprachdaten passen.
  • Aus dem Dokument WO 95/04988 ist es bekannt, ein Sprachsynthesesystem anzuwenden, das eine verkettete Datenbank verwendet, um Ketten von Phonemen in Wellenformen umzusetzen, unter Berücksichtigung des Kontextes der Phonemketten durch Berücksichtigung benachbarter Phoneme. Beim Suchen nach einer Kette von drei Phonemen wird bei Abwesenheit einer Anpassung der Suche diese wiederholt unter Verwendung zweier Phoneme, einschließlich des linksseitigen oder rechtsseitigen Kontextphonems, oder unter Verwendung eines einzigen Phonems.
  • Das Dokument US-A-4 979 216 offenbart eine Synthese unter Verwendung eines Parametergenerators, der Phoneme in Formatparameter umsetzt. Ein Kontextindex wird verwendet zur Auswahl korrekter Vokalallophone gemäß dem Kontext der Phoneme in Hinsicht auf vorangehende und nachfolgende Phoneme in einer Kette.
  • Aus dem Dokument von Hirokawa T et al.: "High Quality Speech Synthesis System based on Waveform Concatenation of Phoneme Segment" IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, JP, Institute of Electronics Information and Comm. Eng. Tokyo, Band 76A, Nr. 11, Seiten 1964-1970, XP000420615 ISSN: 0916-8508 zur Bereitstellung von Sprachsynthese durch Verbinden von Wellenformen, die aus einem Wörterbuch ausgewählt werden. Wellenformen werden nach der Eingabe einer Phonemkette ausgewählt durch Anpassen von Eigenschaften vorgegebener phonetischer und prosodischer Informationen.
  • Aspekte der vorliegenden Erfindung sind in den anliegenden Patentansprüchen angegeben.
  • Ein Sprachsynthesegerät nach einem Ausführungsbeispiel der vorliegenden Erfindung hat die nachstehende Anordnung.
  • Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit der beiliegenden Zeichnung deutlich, in der gleiche Bezugszeichen dieselben oder ähnliche Teile in allen Figuren bedeuten.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • 1 ist ein Blockdiagramm, das die Anordnung eines Sprachsynthesegerätes nach dem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 2 ist ein Ablaufdiagramm, das die Suchverarbeitung zeigt, die im ersten Ausführungsbeispiel nach der vorliegenden Erfindung ausgeführt wird;
  • 3 ist eine Ansicht, die einen im ersten Ausführungsbeispiel nach der vorliegenden Erfindung verwalteten Index zeigt;
  • 4 ist ein Ablaufdiagramm, das die im ersten Ausführungsbeispiel nach der vorliegenden Erfindung ausgeführte Sprachsynthese zeigt;
  • 5 ist eine Ansicht, die eine aus dem Index gewonnene Tabelle zeigt, der im ersten Ausführungsbeispiel nach der vorliegenden Erfindung verwaltet wird;
  • 6 ist ein Ablaufdiagramm, das die im zweiten Ausführungsbeispiel nach der vorliegenden Erfindung ausgeführte Suchverarbeitung zeigt;
  • 7 ist eine Ansicht, die einen im zweiten Ausführungsbeispiel nach der vorliegenden Erfindung verwalteten Index zeigt;
  • 8 ist ein Ablaufdiagramm, das die Suchverarbeitung zeigt, die im dritten Ausführungsbeispiel nach der vorliegenden Erfindung durchgeführt wird; und
  • 9 ist eine Ansicht, die ein im dritten Ausführungsbeispiel nach der vorliegenden Erfindung verwalteten Index zeigt.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • 1 ist ein Blockdiagramm, das die Anordnung eines Sprachsynthesegerätes nach dem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt.
  • Bezugszeichen 103 bedeutet eine CPU, die die numerische Operation/Steuerung, Steuerung bezüglich jeweiliger Komponenten des Gerätes und dergleichen ausführt, die die vorliegende Erfindung bilden; Bezugszeichen 102 bedeutet einen RAM, der als Arbeitsbereich zum Verarbeiten verwendet wird, die in der vorliegenden Erfindung ausgeführt wird, und einen Zwischenspeicherbereich für verschiedene Daten; Bezugszeichen 101 bedeutet einen ROM, der verschiedene Steuerprogramme speichert, wie Programme, die nach der vorliegenden Erfindung ausgeführt werden, und der einen Bereich zum Speichern einer Datenbank 101a für phonemische Stückdaten hat, die zur Sprachsynthese Verwendung finden; Bezugszeichen 109 bedeutet eine externe Speichereinheit, die als Bereich dient zum Speichern verarbeiteter Daten; und Bezugszeichen 105 bedeutet einen D/A-Umsetzer, der die digitalen Daten umsetzt, die das Sprachsynthesegerät synthetisiert hat, in analoge Sprachdaten und diese aus einem Lautsprecher 110 abgibt.
  • Bezugszeichen 106 bedeutet eine Anzeigesteuereinheit, die eine Anzeige 111 steuert, wenn der Verarbeitungszustand und die Verarbeitungsergebnisse des Sprachsynthesegerätes und eine Anwenderschnittstelle darzustellen sind; Bezugszeichen 107 bedeutet eine Eingabesteuereinheit zum Erkennen einer Tastaturinformationseingabe aus einer Tastatur 112 und zum Ausführen der bestimmten Verarbeitung; Bezugszeichen 108 bedeutet eine Übertragungssteuereinheit, die das Senden/Empfangen von Daten durch ein Übertragungsnetz 113 steuert; und Bezugszeichen 104 bedeutet einen Bus, der die jeweiligen Komponenten des Sprachsynthesegerätes miteinander verbindet.
  • Die Suchverarbeitung des Suchens nach einem Zielphonem für die im ersten Ausführungsbeispiel ausgeführte Verarbeitung ist nachstehend anhand 2 beschrieben.
  • 2 ist ein Ablaufdiagramm, das die Suchverarbeitung zeigt, die im ersten Ausführungsbeispiel nach der vorliegenden Erfindung ausgeführt wird.
  • Als phonemische Kontexte im ersten Ausführungsbeispiel werden zwei Phoneme auf jeder Seite der Phoneme verwendet, das heißt, Phoneme als rechten und linken Phonemkontext, die man Triphone nennt.
  • Zuallererst wird in Schritt S1 ein Phonem p als Suchziel aus der Datenbank 101a als Triphon ptr. In Schritt S2 erfolgt eine Suche nach dem Phonem p aus der Datenbank 101a. Genauer gesagt, eine Suche erfolgt nach den phonemischen Stückdaten mit einem Aufdruck p, daß das Phonem p aufzeigt. Es wird dann in Schritt S4 überprüft, ob es das Phonem p in der Datenbank 101a gibt. Wenn bestimmt ist, daß das Phonem p nicht vorhanden ist (NO in Schritt S4), schreitet der Ablauf fort zu Schritt S3, um das Suchziel zu ändern und das Phonem mit einem niedrigeren Phonemtext zu substituieren, das dann abhängig ist vom Phonem p. Wenn das Phonem p mit dem Triphon ptr gegenübergestellt ist, das nicht in der Datenbank 101a vorhanden ist, wird das Phonem p ausgetauscht nach rechts zum Phonemtext, der vom Phonem abhängig ist. Im rechten Phonemtext abhängigen Phonem paßt dieses nicht zum Triphon ptr, das Phonem p wird geändert auf das linke phonemkontextabhängige Phonem. Wenn das linke phonemtextabhängige Phonem nicht zum Triphon ptr paßt, wird das Phonem p geändert in ein anderes, das unabhängig ist vom Phonemkontext. Alternativ kann einem linken Phonemkontextphonem für einen Vokal eine Priorität gegeben werden, und eine hohe Priorität kann dem rechten Phonemkontextphonem gegeben werden für einen Konsonanten. Wenn darüber hinaus es kein Phonem p gibt, das zum Triphon ptr paßt, oder eines beider, der linke oder der rechte phonemische Kontext, können diese ersetzt werden durch ähnliche Phonemkontexte. Beispielsweise kann das "k" (Konsonant von "ka", Spalte im japanischen Syllabarium) als Substitut verwendet werden, wenn der rechte phonemische Kontext "p" ist (Konsonant für "pa"-Spalte, die modifiziert wird in "ha"-Spalte im japanischen Syllabarium). Angemerkt sei, das japanische Syllabarium wird im japanischen grundlegenden phonetischen Zeichensatz gebildet. Der Zeichensatz läßt sich anordnen in einer Matrix, bei der es fünf (5) Zeilen und zehn (10) Spalten gibt. Die fünf Zeilen sind repräsentativ für fünf Vokale der englischen Sprache und für zehn Zeilen, die aus fünf Konsonanten bestehen, und die Spalte der fünf Vokale. Ein phonetisches Zeichen (Klangzeichen) wird dargestellt durch den Klang, der sich aus der Kombination eines Spaltenzeichens mit einem Zeilenzeichen ergibt, beispielsweise Spalte (t) und Zeile (e) wird ausgesprochen mit "te"; Spalte "s" und Zeile "o" wird ausgesprochen "so". Nachdem das Phonem p als Suchbedingung auf diese Weise geändert worden ist, kehrt der Ablauf zu Schritt S2 zurück.
  • Wenn bestimmt ist, daß das Phonem p gegenwärtig ist (JA in Schritt S4), schreitet der Ablauf fort zu Schritt S5, um einen Mittelwert F0 zu berechnen (das Mittel der Grundfrequenzen aus dem Start von phonemischen Stückdaten bis zum Ende). Angemerkt sei, daß diese Berechnung erfolgen kann in Hinsicht auf einen Logarithmus F0 (Zeitfunktion) oder linear F0. Des weiteren kann das Mittel F0 stimmlos sein und auf 0 gesetzt sein oder geschätzt werden vom Mittel F0 phonemischer Stückdaten von Phonemen auf beiden Seiten der Phoneme p durch irgendein Verfahren.
  • In Schritt S6 werden die jeweiligen gesuchten phonemischen Stückdaten ausgerichtet (sortiert) auf der Grundlage des berechneten Mittels F0. In Schritt S7 werden die sortierten phonemischen Stückdaten entsprechend Triphon ptr registriert. Als Ergebnis der Registrierung wird ein Index, wie der in 3 gezeigte, gewonnen, der die Entsprechung zwischen erzeugten phonemischen Stückdaten und Triphonen darstellt. Wie in 3 gezeigt, werden die Zeiger entsprechend den Triphonen "phonemic piece position" verwaltet, die den Ort aller phonemischen Stückdaten in der Datenbank 101a aufzeigen und "mean F0" werden in der Form einer Tabelle verwaltet.
  • Schritte S1 bis 7 werden wiederholt für alle denkbaren Triphone. In Schritt S8 wird dann überprüft, ob die Verarbeitung für alle Triphone abgeschlossen ist. Wenn bestimmt ist, daß die Verarbeitung nicht fertig ist (NEIN in Schritt S8), kehrt der Ablauf zu Schritt S1 zurück. Wenn bestimmt ist, daß die Verarbeitung beendet ist (JA in Schritt S8), dann wird die Verarbeitung abgeschlossen.
  • Die Sprachsyntheseverarbeitung des Ausführens der Sprachsynthese durch Suchen nach phonemischen Stückdaten eines Phonems als ein Syntheseziel unter Verwendung des Index', erzeugt durch die anhand 2 beschriebenen Verarbeitung, ist nachstehend anhand 4 beschrieben.
  • 4 ist ein Ablaufdiagramm, das die im ersten Ausführungsbeispiel der vorliegenden Erfindung ausgeführte Syntheseverarbeitung zeigt.
  • Wenn Sprachsyntheseverarbeitung auszuführen ist, werden der Triphonkontext ptr vom Phonem p als Syntheseziel und F0-Bahnkurve gegeben. Die Sprachsynthese erfolgt dann durch Suchen von phonemischen Stückdaten von Phonemen auf der Grundlage vom Mittel F0 und vom Triphonkontext ptr und unter Verwendung des Wellenformüberlappungshinzufügungsverfahrens.
  • Zuerst wird in Schritt S9 das Mittel F0' berechnet, welches ein Mittel der gegebenen F0-Bahnkurve eines Syntheseziels ist.
  • In Schritt S10 wird eine Tabelle zum Verwalten der phonemischen Stückposition von phonemischen Stückdaten entsprechend dem Triphon ptr vom Phonem p aus dem in 3 gezeigten Index gesucht. Wenn beispielsweise der Triphon ptr "a. A. b" ist, wird die in 5 gezeigte Tabelle aus dem in 3 gezeigten Index gewonnen. Da genaue Substitutphoneme durch die obige Suchverarbeitung gewonnen werden, ist das Ergebnis dieses Schrittes niemals gleich Null.
  • In Schritt S11 wird die phonemische Stückposition der phonemischen Stückdaten mit dem Mittel F0 nahe am Mittel F0' auf der Grundlage der Tabelle in Schritt S10 gewonnen. Da in diesem Falle die phonemischen Stückdaten von der obigen Suchverarbeitung auf der Grundlage des Mittels F0 sortiert sind, kann eine Suche erfolgen unter Verwendung eines binären Suchverfahrens oder dergleichen. In Schritt S12 werden phonemische Stückdaten aus der Datenbank 101a gemäß der in Schritt S11 gewonnenen phonemischen Stückposition wiederaufgefunden. In Schritt S13 wird die Prosodie der in Schritt S12 gewonnenen phonemischen Stückdaten unter Verwendung des Wellenformhinzufügungsverfahrens geändert.
  • Wie zuvor nach dem ersten Ausführungsbeispiel beschrieben, wenn die Abwesenheit von Phonemstückdaten bestimmt ist, nachdem die An-/Abwesenheit phonemischer Stückdaten überprüft worden ist in Hinsicht auf alle denkbaren phonemischen Kontexte, dann wird die Verarbeitung vereinfacht und die Verarbeitungsgeschwindigkeit im voraus durch Aufbereiten von Substitutphonemen erhöht. Da darüber hinaus Informationen, die im Mittel F0 der phonemischen Stückdaten in jedem phonemischen Kontext vorhanden sind, im voraus ausgelesen werden, erfolgt die Verwaltung der phonemischen Stückdaten auf der Grundlage der ausgelesenen Information, und damit lassen sich die Verarbeitungsgeschwindigkeit und die Sprachsyntheseverarbeitung beschleunigen.
  • [Zweites Ausführungsbeispiel]
  • Das Quantisieren des Mittels F0 phonemischer Stückdaten kann das Berechnen des Mittels F0 von fortgesetzten phonemischen Stückdaten in Schritt S5 in 2 im ersten Ausführungsbeispiel ersetzen. Diese Verarbeitung wird anhand 6 beschrieben.
  • 6 ist ein Ablaufdiagramm, das die Suchverarbeitung zeigt, die das zweite Ausführungsbeispiel nach der vorliegenden Erfindung ausführt.
  • Angemerkt sei, daß dieselben Schrittzahlen in 6 dieselben Verarbeitungen wie jene in 2 im ersten Ausführungsbeispiel bedeuten, und deren erneute Beschreibung ist hier fortgelassen.
  • In Schritt S14 wird ein Mittel F0 der phonemischen Stückdaten von gesuchten Phonemen p quantisiert, um ein quantisiertes Mittel F0 zu erhalten (gewonnen durch Quantisieren des Mittels F0 als zu gewissen Intervallen fortgesetzter Wert). Diese Berechnung kann für den Logarithmus F0 oder linear F0 erfolgen. Das Mittel F0 stimmloser Sprache kann darüber hinaus auf Null gesetzt werden oder stimmlose Sprache kann aus dem Mittel F0 von phonemischen Stückdaten auf beiden Seiten der stimmlosen Sprache durch einige Verfahren abgeschätzt werden.
  • In Schritt S6a werden die gesuchten phonemischen Stückdaten ausgerichtet (sortiert) auf der Grundlage des quantisierten Mittels F0. In Schritt S7a werden die sortieren phonemischen Stückdaten entsprechend den Triphonen ptr registriert. Im Ergebnis der Registrierung wird ein Index gebildet, wie in
  • 7 gezeigt, der die Entsprechung zwischen den erzeugten phonemischen Stückdaten und den Triphonen aufzeigt. Wie in 7 gezeigt, werden darüber hinaus in den Zeigern, die entsprechend der Triphone verarbeitet werden, "phonemische Stückposition", die den Ort aller phonemischen Stückdaten in der Datenbank 101a aufzeigen, und "Mittel F0" in der Form einer Tabelle verwaltet.
  • Die Schritte S1 bis S7a werden für alle möglichen Triphone wiederholt. Dann wird in Schritt S8a überprüft, ob die Verarbeitung für alle Triphone abgeschlossen ist. Ist bestimmt, daß die Verarbeitung nicht fertig ist (NEIN in Schritt S8a), kehrt der Ablauf zu Schritt S1 zurück. Ist bestimmt, daß die Verarbeitung abgeschlossen ist (JA in Schritt S8a), dann wird die Verarbeitung beendet.
  • Wie zuvor gemäß dem zweiten Ausführungsbeispiel beschrieben, können zusätzlich zu den Wirkungen, die das erste Ausführungsbeispiel erzielt, die Anzahl phonemischer Stück und der Berechnungsumfang für die Suchverarbeitung verringert werden, wenn das quantisierte Mittel F0 phonemischer Stückdaten verwendet wird.
  • [Drittes Ausführungsbeispiel]
  • Nachdem die Abschnitte zwischen den sortierten phonemischen Stückdaten im zweiten Ausführungsbeispiel interpoliert worden sind, können die jeweiligen phonemischen Stückdaten entsprechend den Triphonen ptr registriert werden. Das heißt, eine Anordnung kann so aussehen, daß phonemische Stückdaten entsprechend den quantisierten Mittel F0 aller quantisierten phonemischen Stückdaten aus den Tabellen im Index gesucht werden. Diese Verarbeitung ist nachstehend anhand 8 beschrieben.
  • 8 ist ein Ablaufdiagramm, das die im dritten Ausführungsbeispiel nach der vorliegenden Erfindung ausgeführte Verarbeitung zeigt.
  • Angemerkt sei, daß dieselben Schrittzahlen in 8 dieselben Prozesse wie jene in 6 vom zweiten Ausführungsbeispiel bedeuten, und eine detaillierte Beschreibung dieser ist hier fortgelassen.
  • In Schritt S15 werden die Abschnitte zwischen sortierten phonemischen Stückdaten interpoliert. In Schritt S7b werden die interpolierten phonemischen Stückdaten gemäß den Triphonen ptr registriert. Im Ergebnis der Registrierung wird ein Index, der die Entsprechung zwischen den erzeugten phonemischen Stückdaten und den Triphonen aufzeigt, in der in 9 gezeigten Weise gebildet. Wie darüber hinaus in 9 gezeigt ist, werden in den Zeigern, die entsprechend den Triphonen verarbeitet werden, "phonemische Stückposition", die den Ort aller phonemischen Stückdaten in der Datenbank 101a aufzeigen, und "Mittel F0" in Form einer Tabelle verwaltet.
  • Die Schritte S1 bis S7b werden für alle möglichen Triphone wiederholt. Dann wird in Schritt S8b überprüft, ob die Verarbeitung aller Triphone abgeschlossen ist. Wenn bestimmt ist, daß die Verarbeitung nicht abgeschlossen ist (NEIN in Schritt S8b), kehrt der Ablauf zu Schritt S1 zurück. Wenn jedoch bestimmt ist, daß die Verarbeitung abgeschlossen ist (JA in Schritt S8b), dann wird die Verarbeitung beendet.
  • Wie zuvor gemäß dem dritten Ausführungsbeispiel beschrieben, kann zusätzlich zu den im zweiten Ausführungsbeispiel erzielten Wirkungen die Verarbeitung in Schritt S11 in 4 einfach als Schritt unter Bezug auf eine Tabelle implementiert werden, da die phonemischen Stückpositionen aller phonemischen Stückdaten verwaltet werden. Dies kann die Verarbeitung weiter vereinfachen.
  • Angemerkt sei, daß sich die vorliegende Erfindung auf ein System anwenden läßt, daß aus einer Vielzahl von Einrichtungen besteht (beispielsweise ein Hauptcomputer, eine Schnittstelleneinrichtung, eine Leseeinrichtung, ein Drucker und dergleichen), oder bei einem Gerät, daß aus einer einzigen Einrichtung besteht (beispielsweise ein Kopierer, ein Faxgerät oder dergleichen).
  • Die Aufgaben der vorliegenden Erfindung werden auch gelöst durch Beliefern eines Speichermediums, welches einen Programmcode eines Softwareprogramms aufzeichnet, das die Funktionen der oben beschriebenen Ausführungsbeispiele für das System oder das Gerät realisiert, und Auslesen und Ausführen des Programmcodes, der im Speichermedium gespeichert ist, von einem Computer (oder einer CPU oder MPU) vom System oder vom Gerät.
  • In diesem Falle realisiert der Programmcode selbst, der aus dem Speichermedium gelesen ist, die Funktionen der oben beschriebenen Ausführungsbeispiele, und das Speichermedium, das den Programmcode speichert, konstituiert die vorliegende Erfindung.
  • Als Speichermedium zum Anliefern des Programmcodes können beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, CD-ROM, CD-R, Magnetband, nichtflüchtige Speicherkarte, ROM und dergleichen verwendet werden.
  • Die Funktionen der oben beschriebenen Ausführungsbeispiele lassen sich nicht nur durch Ausführen des ausgelesenen Programmcodes vom Computer realisieren, sondern ebenfalls durch einige oder alle aktuellen Verarbeitungsoperationen, die ein Betriebssystem durchführt, das auf dem Computer auf der Grundlage eines Befehls des Programmcodes läuft.
  • Die Funktionen der oben beschriebenen Ausführungsbeispiele können des weiteren realisiert werden durch einige oder alle aktuellen Verarbeitungsoperationen, die eine CPU oder dergleichen ausführt, die in einer Funktionserweiterungskarte oder einer Funktionserweiterungseinheit vorgesehen ist, die in den Computer eingeführt oder mit diesem verbunden wird, nachdem der aus dem Speichermedium ausgelesene Programmcode in einen Speicher der Erweiterungskarte oder -einheit eingeschrieben ist.
  • Da viele weitestgehend unterschiedliche Ausführungsbeispiele der vorliegenden Erfindung ohne Abweichen von deren Umfang möglich sind, versteht es sich, daß die Erfindung nicht auf die speziellen Ausführungsbeispiele beschränkt ist, mit Ausnahme der Festlegung in den anliegenden Patentansprüchen.
  • 48 Der Programmcode kann des weiteren in elektronischer Form gewonnen werden, beispielsweise durch Herunterladen des Codes über ein Netzwerk, wie das Internet. Entsprechend einem anderen Aspekt der vorliegenden Erfindung ist somit ein elektrischer signalführender Prozessor vorgesehen, der Befehle zum Steuern eines Prozessors implementiert, um das Verfahren auszuführen.

Claims (24)

  1. Sprachsynthesegerät (101 bis 112) mit einer Datenbank (101a) zum Verwalten von Phonemstückdaten, die der Sprachsynthese dienen, mit: einem Erzeugungsmittel (103), das ein zweites Phonem erzeugt, das ein erstes Phonem und dessen phonemische Kontextphoneme enthält; einem ersten Suchmittel (103), das die Datenbank nach Phonemstückdaten absucht, die der Sprachsynthese entsprechend dem zweiten Phonem dienen; einem zweiten Suchmittel (103) zum Erzeugen eines dritten Phonems, das sich vom zweiten Phonem auf der Grundlage des Suchergebnisses unterscheidet, das das erste Suchmittel erzielt hat, und zur erneuten Suche nach Phonemstückdaten gemäß dem dritten Phonem in der Datenbank; und mit einem Registriermittel (103), das das vom ersten oder zweiten Suchmittel erzielte Suchergebnis in einer Tabelle entsprechend dem zweiten Phonem registriert, wobei die Tabelle eine Nachschlagetabelle von Substitutphonemen zur Verwendung bei nachfolgender Sprachsyntheseverarbeitung bildet.
  2. Vorrichtung nach Anspruch 1, deren Registriermittel ausgestattet ist mit einem Rechenmittel zum Errechnen einer durchschnittlichen Grundfrequenz von vom ersten oder zweiten Suchmittel ausgesuchten phonemischen Stückdaten, und mit einem Sortiermittel, das die gesuchte Phonemstückdatengruppe auf der Grundlage der vom Rechenmittel berechneten durchschnittlichen Grundfrequenz sortiert, und wobei das Registriermittel betriebsbereit ist, die Phonemstückdatengruppe und die zweite entsprechend einer jeden anderen gemäß einer Reihenfolge zu registrieren, in der die Phonemstückdatengruppe vom Sortiermittel sortiert ist.
  3. Vorrichtung nach Anspruch 1, bei der die zweite Phonemgruppe ein Dreilaut ist, der zu seiner Rechten und Linken phonemische Kontextphoneme hat.
  4. Vorrichtung nach Anspruch 1, bei der das dritte Phonem ein solches ist, das über das erste Phonem und phonemische Kontextphoneme verfügt, die sich von den phonemischen Kontextphonemen im zweiten Phonem unterscheiden.
  5. Vorrichtung nach Anspruch 1, bei der das dritte Phonem ein solches ist, das vom linken phonemischen Kontext im ersten Phonem abhängt, wenn das erste Phonem ein Vokal ist; und vom rechten phonemischen Kontext im ersten Phonem, wenn das erste Phonem ein Konsonant ist.
  6. Vorrichtung nach Anspruch 2, deren Registriermittel des weiteren über ein Quantisierungsmittel verfügt, um eine durchschnittliche Grundfrequenz der gesuchten phonemischen Stückdaten zu quantisieren.
  7. Vorrichtung nach Anspruch 6, bei der das Rechenmittel eine Frequenz von durchschnittlichen Grundfrequenzen von phonemischen Stückdatengruppen interpoliert, die das Quantisiermittel quantisiert hat, und für die keine entsprechenden phonemischen Daten unter Verwendung einer durchschnittlichen Grundfrequenz vorhanden sind, die der Frequenz benachbart ist und für die die zugehörigen phonemischen Stückdaten vorhanden sind.
  8. Sprachsynthesevorrichtung (101 bis 112) zum Ausführen einer Sprachsynthese unter Verwendung phonemischer Stückdaten, die eine Datenbank (101a) verwaltet, mit: einem Speichermittel (101a), das eine Tabelle zum Verwalten von Positionsinformationen speichert, die eine Position der phonemischen Stückdaten und deren durchschnittliche Grundfrequenz in der Datenbank gemäß einem Phonem aufzeigen, das phonemische Kontextdaten enthält, um den phonemischen Stückdaten zu entsprechen; einem Rechenmittel (103) zum Heranziehen grundlegender Frequenzen von Synthesezielphonemen und Berechnen eines Durchschnitts herangezogener grundlegender Frequenzen; einem Suchmittel (103), das eine Phonemgruppe entsprechend den Suchzielphonemen aus der Tabelle sucht; einem Erfassungsmittel (103), das aus der Tabelle Positionsinformationen phonemischer Stückdaten entsprechend einem vorbestimmten Phonem der Phonemgruppe erfaßt, die das Suchmittel auf der Grundlage des Durchschnitts von vom Rechenmittel berechneten Grundfrequenzen ausgesucht hat; und mit einem Änderungsmittel (103) zum Erfassen phonemischer Stückdaten, aufgezeigt durch die Positionsinformation, die das Erfassungsmittel aus der Datenbank erfaßt hat, und zum Ändern einer Prosodie erfaßter Phonemstückdaten.
  9. Vorrichtung nach Anspruch 8, bei der das Änderungsmittel die Prosodie unter Verwendung eines Addierverfahrens der Tonhöhensynchronwellenformüberlappung ändert.
  10. Vorrichtung nach Anspruch 8, bei der das Speichermittel die quantisierte Grundfrequenz in der Tabelle entsprechend der Positionsinformation verwaltet, die eine Position in der Datenbank aufzeigt, bei der phonemische Stückdaten gemäß dem Phonem vorhanden sind, wenn eine Grundfrequenz eines Phonems, das die phonemischen Kontextphoneme enthält, quantisiert wird.
  11. Vorrichtung nach Anspruch 8, bei der beim Quantisieren einer Grundfrequenz eines Phonems, das die phonemischen Kontextphoneme enthält, das Rechenmittel betriebsbereit ist, quantisierte Grundfrequenzsynthesezielphoneme zu erfassen und einen Durchschnitt der quantisierten Grundfrequenzen des phonemischen Kontextes abhängig von der Phonemgruppe zu berechnen.
  12. Steuerverfahren für eine Sprachsynthesevorrichtung (101 bis 112) mit einer Datenbank (101a) zum Verwalten von phonemischen Stückdaten, die der Sprachsynthese dienen, mit den Verfahrensschritten: Erzeugen (S1) eines zweiten Phonems mit einem ersten Phonem und dessen phonemischen Kontextphonemen; Absuchen (S2) der Datenbank nach Phonemstückdaten gemäß dem zweiten Phonem; Erzeugen (S3) eines dritten Phonems, das sich vom zweiten Phonem unterscheidet, auf der Grundlage des Suchergebnisses, das der erste Suchschritt erzielt hat, und erneutes Absuchen der Datenbank nach phonemischen Stückdaten gemäß dem dritten Phonem; und Registrieren (S7) des Suchergebnisses, das der erste oder zweite Suchschritt erzielt hat, in einer Tabelle gemäß dem zweiten Phonem, wodurch die Tabelle eine Nachschlagetabelle von Substitutphonemen zur Verwendung in einer nachfolgenden Sprachsyntheseverarbeitung aufbaut.
  13. Verfahren nach Anspruch 12, dessen Verfahrensschritt des Registrierens folgende Schritte umfaßt: Errechnen einer durchschnittlichen Grundfrequenz von im ersten oder zweiten Verfahrensschritt ausgesuchten phonemischen Stückdaten, und Sortieren der gesuchten Phonemstückdatengruppe auf der Grundlage der im Rechenschritt berechneten durchschnittlichen Grundfrequenz, und Registrieren der Phonemstückdatengruppe und des zweiten Phonems in Übereinstimmung miteinander gemäß einer Reihenfolge, in der die phonemische Stückdatengruppe im Verfahrensschritt des Sortierens sortiert ist.
  14. Verfahren nach Anspruch 12, bei dem das zweite Phonem ein Dreilaut ist, der über ein erstes Phonem und dessen rechte und linke phonemische Kontextphoneme verfügt.
  15. Verfahren nach Anspruch 12, bei dem das dritte Phonem ein Phonem ist, das das erste Phonem und phonemische Kontextphoneme enthält, die sich von den phonemischen Kontextphonemen des zweiten Phonems unterscheiden.
  16. Verfahren nach Anspruch 12, bei dem das dritte Phonem ein solches ist, das von einem linken phonemischen Kontext des ersten Phonems abhängt, wenn das erste Phonem ein Vokal ist, und von einem rechten phonemischen Kontext des ersten Phonems, wenn das erste Phonem ein Konsonant ist.
  17. Verfahren nach Anspruch 13, bei dem der Verfahrensschritt des Registrierens des weiteren über einen Quantisierungsschritt verfügt, der eine durchschnittliche Grundfrequenz der gesuchten phonemischen Stückdaten quantisiert.
  18. Verfahren nach Anspruch 17, bei dem der Verfahrensschritt des Berechnens das Interpolieren einer Frequenz aus durchschnittlichen Grundfrequenzen von im Quantisierungsschritt quantisierten Phonemstückdatengruppen umfaßt, für die keine entsprechenden phonemischen Daten vorhanden sind, unter Verwendung einer durchschnittlichen Grundfrequenz, die der Frequenz benachbart ist und für die zugehörige phonemische Stückdaten vorhanden sind.
  19. Steuerverfahren für eine Sprachsynthesevorrichtung (101 bis 112) zum Ausführen einer Sprachsynthese unter Verwendung von phonemischen Stückdaten, die der Sprachsynthese dienen, die die Datenbank (101a) verwaltet, mit den Verfahrensschritten: Speichern (S7) einer Tabelle zum Verwalten von Positionsinformationen, die eine Position von phonemischen Stückdaten aufzeigen, die der Sprachsynthese und deren durchschnittlicher Grundfrequenz in der Datenbank in Übereinstimmung mit einem Phonem dienen, das über eine erstes Phonem und dessen phonemischen Kontext verfügt, um mit den phonemischen Stückdaten übereinzustimmen; Erfassen (S9) von Grundfrequenzen von Synthesezielphonemen und Berechnen eines Durchschnitts erfaßter Grundfrequenzen; Suchen (S10) nach einer Phonemgruppe entsprechend der Phonemkontextinformation aus der Tabelle; Erfassen (S12) von Positionsinformationen von phonemischen Stückdaten aus der Tabelle, die der Sprachsynthese dienen, entsprechend einem vorbestimmten Phonem der im Verfahrensschritt des Suchens ausgesuchten Phonemgruppe auf der Grundlage der durchschnittlichen Grundfrequenzen, die der Rechenschritt berechnet hat; und Ändern (S13) von durch die Positionsinformation aufgezeigten und im Erfassungsschritt aus der Datenbank erfaßten Phonemstückdaten, und Ändern einer Prosodie der erfaßten phonemischen Stückdaten.
  20. Verfahren nach Anspruch 19, bei dem der Änderungsschritt das Ändern der Prosodie unter Verwendung eines Addierverfahrens von Tonhöhensynchronwellenformüberlappungen anwendet.
  21. Verfahren nach Anspruch 19, das die Grundfrequenz eines Phonems quantisiert, wobei der Speicherschritt das Verwalten der quantisierten Grundfrequenz in der Tabelle gemäß der Positionsinformation umfaßt, die eine Position in der Datenbank aufzeigt, bei der Phonemstückdaten gemäß dem Phonem vorhanden sind.
  22. Verfahren nach Anspruch 19, das die Grundfrequenz eines Phonems quantisiert, das den Rechenschritt erfaßter Phonemkontextinformationen eines Phonems als Syntheseziel enthält und das einen Durchschnitt quantisierter Grundfrequenzen des Phonems errechnet.
  23. Computerlesbarer Speicher, der Programmcodes zum Anweisen eines Prozessors speichert, um eine Sprachsynthesevorrichtung zu steuern, die alle Schritte eines Verfahrens nach einem der Ansprüche 12 bis 22 ausführt.
  24. Elektrisches Signal, das prozessorrealisierbare Befehle trägt, um einen Prozessor zu steuern, der das Verfahren nach einem der Ansprüche 12 bis 22 ausführt.
DE69917960T 1998-03-09 1999-03-05 Phonembasierte Sprachsynthese Expired - Lifetime DE69917960T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP05724998A JP3884856B2 (ja) 1998-03-09 1998-03-09 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
JP05724998 1998-03-09

Publications (2)

Publication Number Publication Date
DE69917960D1 DE69917960D1 (de) 2004-07-22
DE69917960T2 true DE69917960T2 (de) 2005-06-30

Family

ID=13050264

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69917960T Expired - Lifetime DE69917960T2 (de) 1998-03-09 1999-03-05 Phonembasierte Sprachsynthese

Country Status (4)

Country Link
US (1) US7139712B1 (de)
EP (1) EP0942409B1 (de)
JP (1) JP3884856B2 (de)
DE (1) DE69917960T2 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
WO2002029615A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP2005018036A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
CN1813285B (zh) * 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
JP6024191B2 (ja) 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
JP6000326B2 (ja) * 2014-12-15 2016-09-28 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN109378004B (zh) * 2018-12-17 2022-05-27 广州势必可赢网络科技有限公司 一种音素比对的方法、装置、设备及计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis
CN111968619A (zh) * 2020-08-26 2020-11-20 四川长虹电器股份有限公司 控制语音合成发音的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979216A (en) 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
SE469576B (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
ES2118424T3 (es) * 1993-08-04 1998-09-16 British Telecomm Sintesis de voz mediante la conversion de fonemas en formas de onda digitales.
JPH07319497A (ja) 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units

Also Published As

Publication number Publication date
EP0942409A2 (de) 1999-09-15
US7139712B1 (en) 2006-11-21
JPH11259093A (ja) 1999-09-24
EP0942409A3 (de) 2000-01-19
DE69917960D1 (de) 2004-07-22
JP3884856B2 (ja) 2007-02-21
EP0942409B1 (de) 2004-06-16

Similar Documents

Publication Publication Date Title
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE69620399T2 (de) Sprachsynthese
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69617581T2 (de) System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69413052T2 (de) Sprachsynthese
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE60201262T2 (de) Hierarchische sprachmodelle
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69519887T2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation
DE69713452T2 (de) Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69506037T2 (de) Audioausgabeeinheit und Methode

Legal Events

Date Code Title Description
8364 No opposition during term of opposition