DE60120585T2 - Anordnung und Verfahren zur Sprachsynthese - Google Patents

Anordnung und Verfahren zur Sprachsynthese Download PDF

Info

Publication number
DE60120585T2
DE60120585T2 DE60120585T DE60120585T DE60120585T2 DE 60120585 T2 DE60120585 T2 DE 60120585T2 DE 60120585 T DE60120585 T DE 60120585T DE 60120585 T DE60120585 T DE 60120585T DE 60120585 T2 DE60120585 T2 DE 60120585T2
Authority
DE
Germany
Prior art keywords
pitch
speech
pitch waveforms
waveforms
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60120585T
Other languages
English (en)
Other versions
DE60120585D1 (de
Inventor
Ryo Yokohama-shi Mochizuki
Toshiyuki Yokohama-shi Isono
Hirofumi Yokohama-shi Nishimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60120585D1 publication Critical patent/DE60120585D1/de
Publication of DE60120585T2 publication Critical patent/DE60120585T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Sprachsynthesevorrichtung und ein Sprachsyntheseverfahren zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem besteht, und insbesondere eine Sprachsynthesevorrichtung und ein Sprachsyntheseverfahren, die eine natürliche Sprache unter Verwendung einer relativ kleinen Datenbank-Kapazität synthetisieren können.
  • 2. Beschreibung des Standes der Technik
  • Bei einer herkömmlichen Sprachsynthesevorrichtung und einem herkömmlichen Sprachsyntheseverfahren wird Sprache in einer bestimmten Sprache in der Regel in eine Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem in der Sprache unterteilt. Außerdem wird jedes der Sprachsegmente in der Regel in eine Vielzahl von Tonhöhen-Wellenformen disassembliert. Die Tonhöhen-Wellenformen, die durch Disassemblieren der einzelnen Sprachsegmente erhalten werden, werden mit den einzelnen Sprachsegmenten verknüpft und in einer Datenbank registriert. Die Tonhöhen-Wellenformen in der Datenbank werden bei der Sprachsynthese verwendet.
  • Eines dieser herkömmlichen Sprachsyntheseverfahren ist in der japanischen offenlegungsschrift Nr. 171484/1998 beschrieben. Bei diesem herkömmlichen Sprachsyntheseverfahren werden die Tonhöhen-Wellenformen, die als redundant angesehen werden, entfernt, um Datenbank-Kapazität zu sparen, und die anderen Tonhöhen-Wellenformen als Repräsentanten werden zum Synthetisieren der Sprache verwendet.
  • Bei dem vorgenannten herkömmlichen Sprachsyntheseverfahren kommt es jedoch zu dem Problem, dass die Datenbank die Tonhöhen-Wellenformen nicht mit signifikant verringerten Daten speichern kann, da sich vor der Synthese einer natürlichen Sprache die Gestalt der Tonhöhen-Wellenformen aufgrund von Unterschieden in ihren Phasengängen ändert. Ein weiteres Problem ist Folgendes: Je geringer die Anzahl der Tonhöhen-Wellenformen, die zur Einsparung von Datenbank-Kapazität in der Datenbank registriert werden sollen, umso niedriger ist die Tonqualität der synthetisierten Sprache.
  • Verwiesen sei auf Y. Ishikawa et al., „Speech Synthesis Software for a 32-Bit Micropocessor" („Sprachsynthese-Software für einen 32-Bit-Mikroprozessor"), IEEE Transactions on Consumer Electronics, IEEE Inc., New York, USA, Jg. 44, Nr. 3, August 1998, S. 1173–1181, deren Inhalt hiermit im Rahmen dieser Anmeldung vollumfänglich als geoffenbart gilt. Verwiesen sei auch auf EP-A-0848372.
  • KURZE DARSTELLUNG DER ERFINDUNG
  • Es wäre zweckmäßig, eine Sprachsynthesevorrichtung und ein Sprachsyntheseverfahren, die eine natürliche Sprache unter Verwendung einer relativ kleinen Datenbank-Kapazität synthetisieren können, zur Verfügung zu stellen.
  • Die vorliegende Erfindung ist in den Ansprüchen definiert.
  • Bei einer bevorzugten Ausführungsform weist eine Sprachsynthesevorrichtung zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem besteht, Folgendes auf: eine Datenbank zum Speichern von Daten zu den Sprachsegmenten; Sprachsegment-Disassembliermittel zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; Phasengang-Umwandlungsmittel zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in einen einheitlichen Phasengang für jede der Tonhöhen-Wellenformen; Tonhöhen-Wellenformen-Klassifizierungsmittel zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen; Tonhöhen-Wellenformen-Registriermittel zum Registrieren der Tonhöhen-Wellenformen in der Datenbank durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen; und Synthetisiermittel zum Synthetisieren der Sprache mit den in der Datenbank registrierten Tonhöhen-Wellenformen. Die Vorrichtung weist weiterhin Phasengang-Erzeugungsmittel zum Erzeugen eines einheitlichen Phasengangs aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen auf. Die Phasengang-Erzeugungsmittel sind so betreibbar, dass sie den einheitlichen Phasengang durch Ermitteln des Mittelwerts der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen erzeugen.
  • Die so gestaltete vorstehende Sprachsynthesevorrichtung führt dazu, dass die Unterschiede in der Gestalt der Tonhöhen-Wellenformen beseitigt werden, wodurch es möglich wird, die Datenmenge in der Datenbank auf ein gewünschtes Niveau zu verringern. Die Umwandlung der Phasengänge der Tonhöhen-Wellenformen beeinträchtigt außerdem die Tonqualität der synthetisierten Sprache kaum, sodass die Sprachsynthese mit nur geringer Verschlechterung der Tonqualität realisiert wird. Außerdem wird das Auftreten einer ungewöhnlichen Wellenform mit einer Energiekonzentration, wie etwa eine Nullphase, vermieden, wodurch die Sprachsynthese mit stabiler Tonqualität realisiert wird. Änderungen in der Gestalt der Tonhöhen-Wellenformen können klein gehalten werden, wodurch die Sprachsynthese mit einer stabileren und natürlicheren Tonqualität realisiert wird.
  • Bei einer bevorzugten Ausführungsform sind die Tonhöhen-Wellenformen-Klassifizierungsmittel so betreibbar, dass sie die Tonhöhen-Wellenformen aufgrund von entsprechenden Phonem-Arten klassifizieren.
  • Die so gestaltete vorstehende Sprachsynthesevorrichtung führt dazu, dass der Rechenaufwand zum Klassifizieren der Tonhöhen-Wellenformen wesentlich verringert werden kann.
  • Bei einer bevorzugten Ausführungsform sind die Tonhöhen-Wellenformen-Klassifizierungsmittel so betreibbar, dass sie die Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, deren Amplitudengänge auf entsprechenden Frequenzen nur zum Vergleichen gewichtet werden, klassifizieren.
  • Die so gestaltete vorstehende Sprachsynthesevorrichtung führt dazu, dass es möglich ist, eine geringere Datenkapazität, die einer hohen Tonqualität entspricht, zu erreichen. Insbesondere können zum Erreichen einer geringeren Datenkapazität und einer hohen Tonqualität nicht nur die Unterschiede in der Gestalt der Tonhöhen-Wellenformen in unwichtigen Frequenzbändern vernachlässigt werden, sondern es kann auch die Identität der Tonhöhen-Wellenformen in wichtigen Frequenzbändern aufrechterhalten werden.
  • Bei einer bevorzugten Ausführungsform weist die Vorrichtung weiterhin Tonhöhen-Wellenform-Wählmittel zum Wählen der in der Datenbank zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, die beim Assemblieren der Sprache aneinandergrenzen sollen, auf.
  • Die so gestaltete vorstehende Sprachsynthesevorrichtung führt dazu, dass die Sprache unter Aufrechterhaltung der Kontinuität zwischen den angrenzenden Tonhöhen-Wellenformen reassembliert werden kann, wodurch die Verschlechterung der Tonqualität weiter verringert wird.
  • Bei einer bevorzugten Ausführungsform weist ein Sprachsyntheseverfahren zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem besteht, folgende Schritte auf: einen Sprachsegment-Disassemblierschritt zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; einen Phasengang-Umwandlungsschritt zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in einen einheitlichen Phasengang für jede der Tonhöhen-Wellenformen; einen Tonhöhen-Wellenformen-Klassifizierungsschritt zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen; einen Tonhöhen-Wellenformen-Registrierschritt zum Registrieren der Tonhöhen-Wellenformen in einer Datenbank durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen; und einen Synthetisierungsschritt zum Synthetisieren der Sprache mit den in der Datenbank registrierten Tonhöhen-Wellenformen. Das Verfahren umfasst weiterhin einen Phasengang-Erzeugungsschritt zum Erzeugen eines einheitlichen Phasengangs aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen. Der Phasengang-Erzeugungsschritt erzeugt den einheitlichen Phasengang durch Ermitteln des Mittelwerts der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen.
  • Das so gestaltete vorstehende Sprachsyntheseverfahren führt dazu, dass die Unterschiede in der Gestalt der Tonhöhen-Wellenformen beseitigt werden, wodurch es möglich wird, die Datenmenge in der Datenbank auf ein gewünschtes Niveau zu verringern. Die Umwandlung der Phasengänge der Tonhöhen-Wellenformen beeinträchtigt außerdem die Tonqualität der synthetisierten Sprache kaum, sodass die Sprachsynthese mit nur geringer Verschlechterung der Tonqualität realisiert wird. Außerdem wird das Auftreten einer ungewöhnlichen Wellenform mit einer Energiekonzentration, wie etwa eine Nullphase, vermieden, wodurch die Sprachsynthese mit stabiler Tonqualität realisiert wird. Und Änderungen in der Gestalt der Tonhöhen-Wellenformen können klein gehalten werden, wodurch die Sprachsynthese mit einer stabileren und natürlicheren Tonqualität realisiert wird.
  • Bei einer bevorzugten Ausführungsform weist das Sprachsyntheseverfahren weiterhin einen Tonhöhen-Wellenformen-Vorklassifizierungsschritt zum Vorklassifizieren der Tonhöhen-Wellenformen aufgrund der einzelnen Phonem-Arten auf.
  • Das so gestaltete vorstehende Sprachsyntheseverfahren führt dazu, dass der Rechenaufwand zum Klassifizieren der Tonhöhen-Wellenformen wesentlich verringert werden kann.
  • Bei einer bevorzugten Ausführungsform klassifiziert der Tonhöhen-Wellenformen-Klassifizierungsschritt die Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, deren Amplitudengang auf entsprechenden Frequenzen nur zum Vergleichen gewichtet wird.
  • Das so gestaltete vorstehende Sprachsyntheseverfahren führt dazu, dass es möglich ist, eine geringere Datenkapazität, die einer hohen Tonqualität entspricht, zu erreichen. Insbesondere können zum Erreichen einer geringeren Datenkapazität und einer hohen Tonqualität nicht nur die Unterschiede in der Gestalt der Tonhöhen-Wellenformen in unwichtigen Frequenzbändern vernachlässigt werden, sondern es kann auch die Identität der Tonhöhen-Wellenformen in wichtigen Frequenzbändern aufrechterhalten werden.
  • Bei einer bevorzugten Ausführungsform weist das Sprachsyntheseverfahren weiterhin einen Tonhöhen-Wellenform-Wählschritt zum Wählen der in der Datenbank zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, die beim Assemblieren der Sprache aneinandergrenzen sollen, auf.
  • Das so gestaltete vorstehende Sprachsyntheseverfahren führt dazu, dass die Sprache unter Aufrechterhaltung der Kontinuität zwischen den angrenzenden Tonhöhen-Wellenformen reassembliert werden kann, wodurch die Verschlechterung der Tonqualität weiter verringert wird.
  • Bei einer bevorzugten Ausführungsform weist eine Tonhöhen-Wellenformen-Registriervorrichtung zum Registrieren einer Vielzahl von Tonhöhen-Wellenformen, die eine Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem bilden, in einer Datenbank zum Speichern von Daten zu den Sprachsegmenten, wobei die für die Sprachsynthese zu verwendenden Tonhöhen-Wellenformen aus den Sprachsegmenten bestehen, Folgendes auf: Sprachsegment-Disassembliermittel zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; Phasengang-Umwandlungsmittel zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in einen einheitlichen Phasengang für jede der Tonhöhen-Wellenformen; Tonhöhen-Wellenformen-Klassifizierungsmittel zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen; und Tonhöhen-Wellenformen-Registriermittel zum Registrieren der Tonhöhen-Wellenformen in der Datenbank durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen. Die Vorrichtung weist weiterhin Phasengang-Erzeugungsmittel zum Erzeugen eines einheitlichen Phasengangs aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen auf. Die Phasengang-Erzeugungsmittel sind so betreibbar, dass sie den einheitlichen Phasengang durch Ermitteln des Mittelwerts der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen erzeugen.
  • Die so gestaltete vorstehende Tonhöhen-Wellenformen-Registriervorrichtung führt dazu, dass die Unterschiede in der Gestalt der Tonhöhen-Wellenformen beseitigt werden, wodurch es möglich wird, die Datenmenge in der Datenbank auf ein gewünschtes Niveau zu verringern. Die Umwandlung der Phasengänge der Tonhöhen-Wellenformen beeinträchtigt außerdem die Tonqualität der synthetisierten Sprache kaum, sodass die Sprachsynthese mit nur geringer Verschlechterung der Tonqualität realisiert wird.
  • Bei einer bevorzugten Ausführungsform weist ein Tonhöhen-Wellenformen-Registrierverfahren zum Registrieren einer Vielzahl von Tonhöhen-Wellenformen, die eine Vielzahl von Sprachsegmenten mit jeweils mindestens einem Phonem bilden, in einer Datenbank zum Speichern von Daten zu den Sprachsegmenten, wobei die für die Sprachsynthese zu verwendenden Tonhöhen-Wellenformen aus Sprachsegmenten bestehen, folgende Schritte auf: einen Sprachsegment-Disassemblierschritt zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; einen Phasengang-Umwandlungsschritt zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in einen einheitlichen Phasengang für jede der Tonhöhen-Wellenformen; einen Tonhöhen-Wellenformen-Klassifizierungsschritt zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen; und einen Tonhöhen-Wellenformen-Registrierschritt zum Registrieren der Tonhöhen-Wellenformen in einer Datenbank durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen. Das Verfahren weist weiterhin einen Phasengang-Erzeugungsschritt zum Erzeugen eines einheitlichen Phasengangs aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen auf. Der Phasengang-Erzeugungsschritt erzeugt den einheitlichen Phasengang durch Ermitteln des Mittelwerts der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen.
  • Das so gestaltete vorstehende Tonhöhen-Wellenformen-Registrierverfahren führt dazu, dass die Unterschiede in der Gestalt der Tonhöhen-Wellenformen beseitigt werden, wodurch es möglich wird, die Datenmenge in der Datenbank auf ein gewünschtes Niveau zu verringern. Die Umwandlung der Phasengänge der Tonhöhen-Wellenformen beeinträchtigt außerdem die Tonqualität der synthetisierten Sprache kaum, sodass die Sprachsynthese mit nur geringer Verschlechterung der Tonqualität realisiert wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Merkmale und Vorzüge der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens der vorliegenden Erfindung dürften aus der nachstehenden Beschreibung in Verbindung mit den beigefügten Zeichnungen besser verständlich werden. Hierbei sind:
  • 1 ein Blockdiagramm der Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung;
  • 2 ein Ablaufdiagramm der Ausführungsform des erfindungsgemäßen Sprachsyntheseverfahrens;
  • 3 eine erläuternde Darstellung, die ein Beispiel für die Tonhöhen-Wellenformen zeigt;
  • 4 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Disassemblierens von Sprachsegmenten in Tonhöhen-Wellenformen bei der Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 5 eine erläuternde Darstellung, die ein Beispiel für den Prozess der Umwandlung des Phasengangs der Tonhöhen-Wellenform in einen einheitlichen Phasengang bei der ersten Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 6 eine erläuternde Darstellung, die ein Beispiel für den Phasengang der Tonhöhen-Wellenform zeigt;
  • 7 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Reassemblierens der Sprachsegmente aus den Tonhöhen-Wellenformen bei der Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 8 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Erzeugens des einheitlichen Phasengangs bei der zweiten Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 9 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Umwandelns des Phasengangs der Tonhöhen-Wellenform bei der zweiten Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 10 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Klassifizierens der Tonhöhen-Wellenformen aufgrund der einzelnen Phonem-Arten bei der dritten Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 11 eine erläuternde Darstellung, die ein Beispiel für den Prozess des Gewichtens der Tonhöhen-Wellenformen auf den Frequenzen in der vierten Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt;
  • 12 ein Ablaufdiagramm, das ein Beispiel für den Prozess des Wählens der Repräsentanten der Tonhöhen-Wellenformen bei der fünften Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt; und
  • 13 eine erläuternde Darstellung, die ein Beispiel für das Vergleichen der Tonhöhen-Wellenformen, die aneinandergrenzen sollen, bei der fünften Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • In den Zeichnungen, insbesondere in den 1 bis 7, ist eine erste Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung und des erfindungsgemäßen Sprachsyntheseverfahrens gezeigt.
  • 1 ist ein Blockdiagramm der Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung. Eine Sprachsynthesevorrichtung 10 weist Folgendes auf: ein Steuergerät 100, z. B. eine CPU (Central Processing Unit; Zentraleinheit), zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten, wie etwa Konsonant/Vokal-Einheiten (KV-Einheiten) oder Vokal/Konsonant/Vokal-Einheiten (VKV-Einheiten), jeweils mit mindestens einem Phonem besteht; Programmspeichermittel 110, z. B. ein Speicher, zum Speichern eines Programms mit den später genannten Schritten, das im Allgemeinen von dem Steuergerät 100 ausgeführt wird; eine Datenbank 111, z. B. eine Festplatte, zum Speichern von Daten zu den Sprachsegmenten; Dateneingabemittel 121, z. B. ein Mikrofon, zum Eingeben einer Vielzahl von Sprachen mit den in der Datenbank 111 zu speichernden Daten; Bedienungsmittel 122, z. B. eine Tastatur, zum Übernehmen von manuellen operationen durch einen Nutzer, um das Disassemblieren der Sprachsegmente zum Registrieren der Daten zu den Sprachsegmenten in der Datenbank 111 zu starten; und Sprachausgabemittel (123), z. B. eine mit einem Netzwerk wie Internet verbundene Netzwerkkarte, zum Ausgeben der von dem Steuergerät 100 synthetisierten Sprache.
  • Das Steuergerät 100, ein wesentlicher Teil der Sprachsynthesevorrichtung 10, weist Folgendes auf: Sprachsegment-Disassembliermittel 101; Phasengang-Erzeugungsmittel 102; Phasengang-Umwandlungsmittel 103; Tonhöhen-Wellenformen-Klassifizierungsmittel 104; Tonhöhen-Wellenform-Wählmittel 105; Tonhöhen-Wellenformen-Registriermittel 106; und Synthetisiermittel 107.
  • Die Sprachsegment-Disassembliermittel 101 sind so betreibbar, dass sie jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang und einen Amplitudengang haben, disassemblieren. Die Phasengang-Erzeugungsmittel 102 sind so betreibbar, dass sie aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen einen einheitlichen Phasengang erzeugen. Die Phasengang-Umwandlungsmittel 103 sind so betreibbar, dass sie die Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang für jede der Tonhöhen-Wellenformen umwandeln. Die Tonhöhen-Wellenformen-Klassifizierungsmittel 104 sind so betreibbar, dass sie die Tonhöhen-Wellenformen in eine Vielzahl von Gruppen klassifizieren, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen. Die Tonhöhen-Wellenform-Wählmittel 105 sind so betreibbar, dass sie die in der Datenbank 111 zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Gestalten der Tonhöhen-Wellenformen miteinander in jeder der Gruppen wählen. Die Tonhöhen-Wellenformen-Registriermittel 106 sind so betreibbar, dass sie die Tonhöhen-Wellenformen in der Datenbank 111 durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen registrieren. Die Synthetisiermittel 107 sind so betreibbar, dass sie die Sprache mit den in der Datenbank 111 registrierten Tonhöhen-Wellenformen synthetisieren.
  • 2 zeigt ein Ablaufdiagramm der Ausführungsform eines Sprachsyntheseverfahrens mit Schritten, die jeweils von dem Steuergerät 100 entsprechend dem in den Programmspeichermitteln 110 gespeicherten Programm ausgeführt werden. Im Schritt 201 wird jedes der Sprachsegmente, die jeweils Sprache darstellen, die mit den Dateneingabemitteln 121 eingegeben wird, in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang und einen Amplitudengang haben, disassembliert. Im Schritt 202 wird ein einheitlicher Phasengang aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen erzeugt. Wenn der einheitliche Phasengang erzeugt ist, kann der Schritt 202 umgangen werden, wie durch den Pfeil 212 angegeben. Im Schritt 203 werden die Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang für jede der Tonhöhen-Wellenformen umgewandelt. Im Schritt 204 werden die Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen, klassifiziert. Im Schritt 205 werden die in der Datenbank 111 zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Gestalten der Tonhöhen-Wellenformen miteinander in jeder der Gruppen gewählt. Im Schritt 206 werden die Tonhöhen-Wellenformen durch Extrahieren einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen in der Datenbank 111 registriert. Im Schritt 207 wird die Sprache mit den in der Datenbank 111 registrierten Tonhöhen-Wellenformen synthetisiert.
  • 3 ist eine erläuternde Darstellung, die ein Beispiel für die Tonhöhen-Wellenformen zeigt. Die Tonhöhen-Wellenformen werden aus einer Vielzahl von Sprachsegmenten 301, 302, 303 und 304 als VKV-Einheiten mit jeweils mindestens einem Phonem extrahiert, und die Tonhöhen-Wellenformen werden dann in einer temporären Datenbank 311 gespeichert. Die Tonhöhen-Wellenformen werden im Zeitbereich dargestellt, wo die horizontale Achse eine Zeit-Achse ist. In der temporären Datenbank 311 werden die Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang umgewandelt, und die Tonhöhen-Wellenformen werden dann durch Vergleichen der Gestalten der Tonhöhen-Wellenformen miteinander mittels des Korrelationskoeffizienten in Gruppen, wie etwa eine erste Gruppe 322 und eine zweite Gruppe 323, klassifiziert. Dann werden die Tonhöhen-Wellenformen, die in einer Repräsentative-Tonhöhen-Wellenform-Datenbank 331 als repräsentative Tonhöhen-Wellenformen registriert werden sollen, einzeln aus den Tonhöhen-Wellenformen in jeder der Gruppen gewählt. Es wird beispielsweise eine erste repräsentative Tonhöhen-Wellenform 332 als Repräsentant der ersten Gruppe 322 gewählt, und eine zweite repräsentative Tonhöhen-Wellenform 333 wird als Repräsentant der zweiten Gruppe 323 gewählt, und die erste repräsentative Tonhöhen-Wellenform 332 und die zweite repräsentative Tonhöhen-Wellenform 333 werden dann in der Repräsentative-Tonhöhen-Welienform-Datenbank 331 gewählt. Dann werden die Tonhöhen-Wellenformen in der temporären Datenbank 311 gelöscht.
  • 4 ist eine erläuternde Darstellung, die ein Beispiel für einen Prozess des Disassemblierens der Sprachsegmente der Tonhöhen-Wellenformen zeigt. Die Tonhöhen-Wellenformen 411, 412, 413, 414, 415, 416 und 417 sind jeweils im Zeitbereich dargestellt, wo die horizontale Achse die Zeit-Achse ist. Mehrere Tonhöhenmarken-Positionen 421, 422, 423, 424, 425, 426 und 427 geben Bezugspositionen zum Extrahieren der Tonhöhen-Wellenformen 411, 412, 413, 414, 415, 416 und 417 aus dem Sprachsegment 401 an. Die Tonhöhenmarken-Positionen 421 bis 427 werden vorher manuell oder automatisch an der Wellenform des Sprachsegments 401 markiert. Die einzelnen Tonhöhen-Wellenformen 411 bis 417 werden aufgrund der entsprechenden Tonhöhenmarken-Positionen 421 bis 427 mit einer Fensterfunktion, wie etwa einem Hanning-Fenster, das eine vorgegebene Zeitlänge hat, aus dem stimmhaften Lautteil des Sprachsegments 401 extrahiert. Die anderen Sprachsegmente, die die Sprache bilden, werden ebenfalls in eine Vielzahl von Tonhöhen-Wellenformen disassembliert, wie vorstehend dargelegt.
  • 5 ist eine erläuternde Darstellung, die ein Beispiel für einen Prozess des Umwandelns des Phasengangs der Tonhöhen-Wellenform in den einheitlichen Phasengang, der als Standard-Phasengang bezeichnet wird, zeigt. Ein Fourier-Transformationsteil 502 zum Durchführen der Fourier-Transformation und ein Inverse-Fourier-Transformations-Teil 506 zum Durchführen der inversen Fourier-Transformation bilden die in 1 dargestellten Phasengang-Umwandlungsmittel 103. Die Tonhöhen-Wellenform 501 wird zunächst mit dem Fourier-Transformationsteil 502 aus dem Zeitbereich in den Frequenzbereich transformiert, um einen Phasengang 503 und einen Amplitudengang 504, die jeweils eine Frequenz-Achse haben, zu erhalten. Der Phasengang 503 der Tonhöhen-Wellenform wird dann in den Standard- Phasengang 505 umgewandelt, der vorher aufgrund einer Vielzahl von Phasengängen der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen erzeugt wird. 6 zeigt ein Beispiel für den Phasengang der Tonhöhen-Wellenform mit Phasen, die bei den einzelnen Frequenzen voneinander verschieden sind. Der Amplitudengang 504 der Tonhöhen-Wellenform bleibt der Amplitudengang, der mit dem Fourier-Transformationsteil 502 erhalten wird. Der Standard-Phasengang 505 und der Amplitudengang 504 bilden die Tonhöhen-Wellenform des Frequenzbereichs. Die Tonhöhen-Wellenform im Frequenzbereich wird dann mit dem Inverse-Fourier-Transformations-Teil 506 vom Frequenzbereich in den Zeitbereich transformiert, um die Tonhöhen-Wellenform 507 im Zeitbereich zu erhalten. Die Phasengänge der anderen Tonhöhen-Wellenformen, die aus dem Sprachsegment extrahiert werden, werden ebenfalls in den Standard-Phasengang umgewandelt, wie vorstehend dargelegt, wodurch die Ähnlichkeit zwischen den Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt erhöht wird.
  • Die Tonhöhen-Wellenformen werden dann durch Vergleichen von Korrelationskoeffizienten, die jeweils die Korrelation zwischen den beiden Tonhöhen-Wellenformen angeben, in eine Vielzahl von Gruppen klassifiziert. Der Korrelationskoeffizient Mmn für zwei gegebene Tonhöhen-Wellenformen Sm und Sn wird nach der folgenden Gleichung 1 ermittelt:
    Figure 00110001
    worin l die Länge der Tonhöhen-Wellenform ist und auf die kürzere der Längen der beiden Tonhöhen-Wellenformen Sm und Sn eingestellt ist. Der Korrelationskoeffizient zwischen den Tonhöhen-Wellenformen kann durch einen Abstand, wie etwa den euklidischen Abstand, die Wahrscheinlichkeit und andere Indices, die die Korrelation zwischen den Tonhöhen-Wellenformen zum Klassifizieren der Tonhöhen-Wellenformen angeben, ersetzt werden.
  • Die Tonhöhen-Wellenformen, die in der Datenbank zum Synthetisieren der Sprache registriert werden sollen, d. h. die repräsentativen Tonhöhen-Wellenformen, werden einzeln aus den Tonhöhen-Wellenformen in den einzelnen Gruppen gewählt. Das Wählen der repräsentativen Tonhöhen-Wellenformen in den einzelnen Gruppen erfolgt so, dass zunächst ein Schwerpunkt der Tonhöhen-Wellenformen in der Gruppe in der gleichen Weise wie bei der Erzeugung des Codebuchs mit der Vektorquantisierung ermittelt wird und dann die Tonhöhen-Wellenform, die dem Schwerpunkt am nächsten ist, aus den Tonhöhen-Wellenformen in der Gruppe gesucht wird.
  • Die wie vorstehend gewählten repräsentativen Tonhöhen-Wellenformen werden in der Repräsentative-Tonhöhen-Wellenform-Datenbank 331 registriert. Außerdem werden die repräsentativen Tonhöhen-Wellenformen in der Repräsentative-Tonhöhen-Wellenform-Datenbank 331 mit den Sprachsegmenten verknüpft, um die Sprachsegmente zum Synthetisieren der Sprache zu reassemblieren.
  • 7 ist eine erläuternde Darstellung, die ein Beispiel für den Prozess des Reassemblierens des Sprachsegments aus den Tonhöhen-Wellenformen zeigt. Die repräsentativen Tonhöhen-Wellenformen 711, 712 und 713 werden als Ersatz für die original-Tonhöhen-Wellenformen verwendet, die aus dem original-Sprachsegment 401 extrahiert werden. Ein neues Sprachsegment 721 wird aus den repräsentativen Tonhöhen-Wellenformen 711, 712 und 713 reassembliert, und die anderen Sprachsegmente, die die Sprache bilden, werden genauso wie das Sprachsegment 721 reassembliert, und dann werden die einzelnen Sprachsegmente durch phonetische Transformation, wie etwa im Rhythmus, umgewandelt, wodurch die Sprache mit den repräsentativen Tonhöhen-Wellenformen synthetisiert wird.
  • Wie vorstehend dargelegt, wird bei der ersten Ausführungsform der Sprachsynthesevorrichtung jedes der Sprachsegmente zunächst in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang und einen Amplitudengang haben, disassembliert, wie in 4 gezeigt. Außerdem wird aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen der Standard-Phasengang erzeugt. Die Phasengänge der Tonhöhen-Wellenformen werden dann in den Standard-Phasengang für jede der Tonhöhen-Wellenformen umgewandelt, wie in 5 gezeigt. Die Tonhöhen-Wellenformen werden dann in eine Vielzahl von Gruppen, die jeweils eine Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt haben, klassifiziert, wie in 3 gezeigt. Die Tonhöhen-Wellenformen werden dann durch Extrahieren einer Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in den einzelnen Gruppen in der Repräsentative-Tonhöhen-Wellenform-Datenbank registriert, wie ein 3 gezeigt. Die Sprache wird dann mit den in der Repräsentative-Tonhöhen-Wellenform-Datenbank registrierten Tonhöhen-Wellenformen durch Reassemblieren der einzelnen Sprachsegmente mit den repräsentativen Tonhöhen-Wellenformen synthetisiert, wie in 7 gezeigt.
  • Die erste Ausführungsform der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens, die wie vorstehend gestaltet sind, führt dazu, dass die Unterschiede in der Gestalt der Tonhöhen-Wellenformen beseitigt werden, wodurch es möglich wird, die Datenmenge in der Datenbank auf ein gewünschtes Niveau zu verringern. Die Umwandlung der Phasengänge der Tonhöhen-Wellenformen beeinträchtigt außerdem die Tonqualität der synthetisierten Sprache kaum, sodass die Sprachsynthese mit nur geringer Verschlechterung der Tonqualität realisiert wird.
  • In den Zeichnungen, und zwar zusätzlich zu den 1 bis 7 insbesondere in den 8 und 9, ist eine zweite Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung und des erfindungsgemäßen Sprachsyntheseverfahrens gezeigt.
  • Die zweite Ausführungsform der Sprachsynthesevorrichtung unterscheidet sich von der ersten Ausführungsform der Sprachsynthesevorrichtung darin, dass die Phasengang-Erzeugungsmittel so betreibbar sind, dass sie den einheitlichen Phasengang mit einem statistischen Verfahren erzeugen. Die anderen Komponenten sind die Gleichen wie die bei der ersten Ausführungsform der Sprachsynthesevorrichtung, und daher entfällt ihre detaillierte Beschreibung.
  • 8 ist eine erläuternde Darstellung eines Beispiels für den Prozess der Erzeugung des einheitlichen Phasengangs, der als Standard-Phasengang bezeichnet wird. Die temporäre Datenbank 311, die Gleiche wie die von 3, ist so betreibbar, dass sie die Tonhöhen-Wellenformen speichert, die durch Disassemblieren der Sprachsegmente erhalten werden, die die Sprache bilden. Ein Fourier-Transformationsteil 802 zum Durchführen der Fourier-Transformation und ein Standard-Phasengang-Erzeugungsteil 804 zum Erzeugen des Standard-Phasengangs bilden die in 1 dargestellten Phasengang-Erzeugungsmittel 102. Die Tonhöhen-Wellenformen 801 werden zunächst mit dem Fourier-Transformationsteil 802 aus dem Zeitbereich in den Frequenzbereich transformiert, um Phasengänge 803, die jeweils eine Frequenz-Achse haben, zu erhalten. Der Standard-Phasengang-Erzeugungsteil 804 erzeugt dann mit einem geeigneten statistischen Verfahren den Standard-Phasengang. Der Standard-Phasengang wird dann in einer Phasengang-Datenbank 805 registriert.
  • Nachstehend wird der Standard-Phasengang-Erzeugungsteil 804 näher beschrieben. Der Amplitudengang A(w) und der Phasengang P(w) der Tonhöhen-Wellenformen 801 im Frequenzbereich werden mit dem Realteil R(w) und dem Imaginärteil I(w) durch die folgenden Gleichungen 2 und 3 dargestellt: A(w) = (R(w)2 + I(w)2)1/2 (Gleichung 2), P(w) = tan–1(I(w)/R(w)) (Gleichung 3),worin w die Frequenz als diskreter Wert ist und die Einheit der Frequenz Hz ist. Der Standard-Phasengang-Erzeugungsteil 804 ist so betreibbar, dass er den Mittelwert der Phasengänge Ps(w) auf jeder Frequenz w für die aus den Sprachsegmenten extrahierten Tonhöhen-Wellenformen nach der folgenden Gleichung 4 berechnet:
    Figure 00130001
    worin N die Anzahl der Tonhöhen-Wellenformen ist. Die Gruppe der Mittelwerte der Phasengänge Ps(w) bei jeder Frequenz wird in der Phasengang-Datenbank 805 als Kandidat für den Standard-Phasengang registriert.
  • 9 ist eine erläuternde Darstellung, die ein Beispiel für den Prozess des Umwandelns des Phasengangs der Tonhöhen-Wellenform in den einheitlichen Phasengang, der als Standard-Phasengang bezeichnet wird, zeigt. Ein Fourier-Transformationsteil 902 zum Durchführen der Fourier-Transformation, ein Standard-Phasengang-Wählteil 908 zum Wählen des Standard-Phasengangs von den Phasengängen in der Phasengang-Datenbank 805 und ein Inverse-Fourier-Transformations-Teil 906 zum Durchführen der inversen Fourier-Transformation bilden die in 1 dargestellten Phasengang-Umwandlungsmittel 103. Die Tonhöhen-Wellenform 901 wird zunächst mit dem Fourier-Transformationsteil 902 aus dem Zeitbereich in den Frequenzbereich transformiert, um einen Phasengang 904 und einen Amplitudengang 903, die jeweils eine Frequenz-Achse haben, zu erhalten. Der Standard-Phasengang-Wählteil 908 ist so betreibbar, dass er einen Phasengang aus den Phasengängen in der Phasengang-Datenbank 805 wählt. Der Amplitudengang 903 der Tonhöhen-Wellenform bleibt der Amplitudengang, der mit dem Fourier-Transformationsteil 902 erhalten wird. Der Standard-Phasengang 905 und der Amplitudengang 903 bilden die Tonhöhen-Wellenform im Frequenzbereich. Die Tonhöhen-Wellenform im Frequenzbereich wird dann von dem Inverse-Fourier-Transformations-Teil 906 aus dem Frequenzbereich in den Zeitbereich transformiert, um die Tonhöhen-Wellenform 907 im Zeitbereich zu erhalten. Die Phasengänge der anderen aus dem Sprachsegment extrahierten Tonhöhen-Wellenformen werden ebenfalls in den Standard-Phasengang umgewandelt, wie vorstehend beschrieben.
  • Wie vorstehend dargelegt, wird bei der zweiten Ausführungsform der Sprachsynthesevorrichtung jedes der Sprachsegmente zunächst in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang und einen Amplitudengang haben, disassembliert, wie in 4 gezeigt. Außerdem werden die einzelnen Standard-Phasengänge durch Ermitteln des Mittelwerts der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen erzeugt, wie in 8 gezeigt. Die Phasengänge der Tonhöhen-Wellenformen werden dann in den Standard-Phasengang für jede der Tonhöhen-Wellenformen umgewandelt, wie in 9 gezeigt. Die Tonhöhen-Wellenformen werden dann in eine Vielzahl von Gruppen, die jeweils eine Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt haben, klassifiziert, wie in 3 gezeigt. Die Tonhöhen-Wellenformen werden dann durch Extrahieren einer Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in den einzelnen Gruppen in der Repräsentative-Tonhöhen-Wellenform-Datenbank registriert. Die Sprache wird dann mit den in der Repräsentative-Tonhöhen-Wellenform-Datenbank registrierten Tonhöhen-Wellenformen synthetisiert.
  • Eine Vielzahl von Standard-Phasengängen kann in den einzelnen Gruppen erzeugt werden, die jeweils aus einer Vielzahl von Phasengängen mit ähnlichen Eigenschaften bestehen.
  • In dem Fall, dass mehrere Standard-Phasengänge in der Phasengang-Datenbank 805 registriert werden, wird der Standard-Phasengang, der den einzelnen Phasengängen 904 am nächsten ist, von dem Standard-Phasengang-Wählteil 908 gewählt.
  • Die zweite Ausführungsform der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens, die wie vorstehend gestaltet sind, führt dazu, dass das Auftreten einer ungewöhnlichen Wellenform mit einer Energiekonzentration, wie etwa eine Nullphase, vermieden wird, und dass Änderungen in der Gestalt der Tonhöhen-Wellenformen klein gehalten werden können, wodurch die Sprachsynthese mit einer stabileren und natürlicheren Tonqualität als bei der ersten Ausführungsform der Vorrichtung und des Verfahrens realisiert wird.
  • Der Standard-Phasengang wird in der vorstehenden Beschreibung durch Ermitteln des Mittelwerts der Phasengänge der aus den Sprachsegmenten extrahierten Tonhöhen-Wellenformen erzeugt, aber mit der Sprachsynthesevorrichtung und dem Sprachsyntheseverfahren kann der Standard-Phasengang auch durch Wählen der Tonhöhen-Wellenform, die dem Schwerpunkt am nächsten ist, aus den klassifizierten Phasengängen erzeugt werden.
  • In den Zeichnungen, und zwar zusätzlich zu den 1 bis 9 insbesondere in 10, ist eine dritte Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung und des erfindungsgemäßen Sprachsyntheseverfahrens gezeigt.
  • Die dritte Ausführungsform der Sprachsynthesevorrichtung unterscheidet sich von der zweiten Ausführungsform der Sprachsynthesevorrichtung darin, dass die Tonhöhen-Wellenformen-Klassifizierungsmittel so betreibbar sind, dass sie die Tonhöhen-Wellenformen aufgrund der einzelnen Phonem-Arten vorher klassifizieren. Die anderen Komponenten sind die Gleichen wie die bei der zweiten Ausführungsform der Sprachsynthesevorrichtung, und daher entfällt ihre detaillierte Beschreibung.
  • 10 ist eine erläuternde Darstellung, die ein Beispiel für den Prozess des Klassifizierens der Tonhöhen-Wellenformen zeigt. Die Sprachsegmente 1001, 1002, 1003 und 1004, deren VKV-Einheiten „ura", „a i", „u a" bzw. „ami" darstellen, werden in eine Vielzahl von Tonhöhen-Wellenformen disassembliert. Die Tonhöhen-Wellenformen werden aufgrund der einzelnen Phonem-Arten klassifiziert, die in den entsprechenden temporären Datenbanken, und zwar einer Datenbank für /a/ 1011, einer Datenbank für /i/ 1012, einer Datenbank für /u/ 1013 und den anderen Datenbanken, die nicht in 10 gezeigt sind, gespeichert werden sollen.
  • Wenn sich eine sehr hohe Anzahl von aus den Sprachsegmenten extrahierten Tonhöhen-Wellenformen in einer einzigen Gruppe befindet, um die Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt zu klassifizieren, besteht aufgrund der niedrigen Arbeitsleistung die Gefahr der Zeitvergeudung. Daher werden die aus den Sprachsegmenten extrahierten Tonhöhen-Wellenformen einzeln in mehreren temporären Datenbanken, die für die einzelnen Phonem-Arten erstellt werden, vorher gespeichert. Die Sprachsegmente 1001, 1002, 1003 und 1004 werden einzeln mit Phonemgrenzen markiert, um die einzelnen Phonem-Arten der Tonhöhen-Wellenformen vorher anzugeben, und die Tonhöhen-Wellenformen werden dann aufgrund der einzelnen Phonem-Arten, zu denen die einzelnen Tonhöhen-Wellenformen gehören, klassifiziert. Dadurch werden die Tonhöhen-Wellenformen in den temporären Datenbanken 1011, 1012 und 1013, die mit den einzelnen Phonem-Arten verknüpft sind, als Vokale /a/, /i/, /u/, /e/ und /o/, Nasallaut /n/, Halbvokale /w/ und /y/ und stimmhafte Konsonanten /m/, /n/, /r/, /z/, /j/, /b/, /d/, /g/ und /v/ zwischengespeichert. Die Phasengänge der Tonhöhen-Wellenformen werden dann in die entsprechenden einheitlichen Phasengänge für die einzelnen Phonem-Arten umgewandelt, und die Tonhöhen-Wellenformen werden in Gruppen klassifiziert. Anschließend werden die einzelnen Tonhöhen-Wellenformen aus den Tonhöhen-Wellenformen in den einzelnen Gruppen gewählt, und diese repräsentativen Tonhöhen-Wellenformen werden dann in das Sprachsegment assembliert.
  • Die Standard-Phasengänge werden aus den Phasengängen der Tonhöhen-Wellenformen in den einzelnen temporären Datenbanken 1011, 1012 und 1013 ermittelt.
  • Die dritte Ausführungsform der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens, die wie vorstehend gestaltet sind, führt dazu, dass der Rechenaufwand zum Klassifizieren der Tonhöhen-Wellenformen wesentlich verringert werden kann.
  • In den Zeichnungen, und zwar zusätzlich zu den 1 bis 10 insbesondere in 11, ist eine vierte Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung und des erfindungsgemäßen Sprachsyntheseverfahrens gezeigt.
  • Die vierte Ausführungsform der Sprachsynthesevorrichtung unterscheidet sich von der dritten Ausführungsform der Sprachsynthesevorrichtung darin, dass die Tonhöhen-Wellenformen-Klassifizierungsmittel so betreibbar sind, dass sie die Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen mit gewichteten Amplitudengängen auf den einzelnen Frequenzen nur zum Vergleichen klassifizieren. Die anderen Komponenten sind die Gleichen wie die bei der dritten Ausführungsform der Sprachsynthesevorrichtung, und daher entfällt ihre detaillierte Beschreibung.
  • 11 ist eine erläuternde Darstellung, die ein Beispiel für den Prozess des Gewichtens der Tonhöhen-Wellenform im Amplitudengang zeigt. Die Tonhöhen-Wellenform 1101 ist eine der Tonhöhen-Wellenformen, die aus dem Sprachsegment extrahiert wird und in den Phasengang umgewandelt wird. Der Amplitudengang 1111 der Tonhöhen-Wellenform 1101 wird durch Fourier-Transformation erhalten, wenn die Tonhöhen-Wellenform 1101 aus dem Zeitbereich in den Frequenzbereich transformiert wird. Das Gewicht 1121, eine Amplitudenverstärkung, die mit dem Amplitudengang 1111 zu multiplizieren ist, wird auf den einzelnen Frequenzen entsprechend der Signifikanz auf den einzelnen Frequenzen ermittelt. Das Filter 1102, ein Gewichtungsmittel zum Gewichten der Tonhöhen-Wellenformen auf den einzelnen Frequenzen, ist so betreibbar, dass es den Amplitudengang 1111 mit dem Gewicht 1121 auf den einzelnen Frequenzen multipliziert. Die im Frequenzbereich gewichtete Tonhöhen-Wellenform, d. h. die Tonhöhen-Wellenform mit dem auf den einzelnen Frequenzen gewichteten Amplitudengang, wird durch inverse Fourier-Transformation mit dem Filter 1102 aus dem Frequenzbereich in den Zeitbereich transformiert, wodurch die gewichtete Tonhöhen-Wellenform 1103 nur zum Vergleichen erhalten wird.
  • Die Gestalten der im Amplitudengang gewichteten Tonhöhen-Wellenformen werden durch Beurteilen der Korrelationskoeffizienten, die die Ähnlichkeit zwischen den Tonhöhen-Wellenformen angeben, verglichen. Je näher der Korrelationskoeffizient an 1 ist, umso höher ist die Ähnlichkeit zwischen den Tonhöhen-Wellenformen. Die Tonhöhen-Wellenformen mit einer höheren Ähnlichkeit zwischen ihnen als der vorgegebenen Ähnlichkeit können beim Reassemblieren des Sprachsegments mit nur geringer Verringerung der Natürlichkeit, d. h. ohne dass es zu einer Verschlechterung der Tonqualität kommt, ausgetauscht werden.
  • Nachstehend wird das Verfahren des Gewichtens beschrieben. In dem Fall, dass eine hohe Ähnlichkeit zum Klassifizieren der Tonhöhen-Wellenformen benötigt wird, um die Kontinuität eines Tons nicht auf hohen Frequenzen, sondern auf niedrigen Frequenzen aufrechtzuerhalten, werden die Gewichte auf den niedrigen Frequenzen angegeben. In 11 wird der Amplitudengang 1111 mit dem Amplitudengang 1121 multipliziert, um eine Gewichtung auf niedrigen Frequenzen nur zum Vergleichen der Tonhöhen-Wellenformen vorzunehmen. Wie erwähnt, ist die Signifikanz des Amplitudengangs in jedem Frequenzband unterschiedlich, weshalb die Tonhöhen-Wellenformen mit den Tonhöhen-Wellenformen verglichen werden, deren Amplitudengang in jedem Frequenzband gewichtet worden ist. Dieses Verfahren ist das Gleiche wie das, bei dem die Tonhöhen-Wellenform 1101 durch ein Tiefpassfilter 1102 gefiltert wird, um die Tonhöhen-Wellenform 1103, bei der der Einfluss der hohen Frequenzen unterdrückt ist, zu erhalten. Die so gefilterten Tonhöhen-Wellenformen werden nur zum Vergleichen der Tonhöhen-Wellenformen verwendet, die Tonhöhen-Wellenformen ohne Gewicht werden dann tatsächlich klassifiziert, und die repräsentativen Tonhöhen-Wellenformen werden ebenfalls aus den Tonhöhen-Wellenformen ohne Gewicht gewählt.
  • Die vierte Ausführungsform der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens, die wie vorstehend gestaltet sind, führt dazu, dass eine geringere Datenkapazität, die einer hohen Tonqualität entspricht, erreicht werden kann. Insbesondere können zum Erreichen einer geringeren Datenkapazität und einer hohen Tonqualität nicht nur die Unterschiede in der Gestalt der Tonhöhen-Wellenformen in unwichtigen Frequenzbändern vernachlässigt werden, sondern es kann auch die Identität der Tonhöhen-Wellenformen in wichtigen Frequenzbändern aufrechterhalten werden.
  • In den Zeichnungen, und zwar zusätzlich zu den 1 bis 11 insbesondere in den 12 und 13, ist eine fünfte Ausführungsform der erfindungsgemäßen Sprachsynthesevorrichtung und des erfindungsgemäßen Sprachsyntheseverfahrens gezeigt.
  • Die fünfte Ausführungsform der Sprachsynthesevorrichtung unterscheidet sich von der vierten Ausführungsform der Sprachsynthesevorrichtung darin, dass die Tonhöhen-Wellenformen-Wählmittel so betreibbar sind, dass sie die Tonhöhen-Wellenformen, die beim Synthetisieren der Sprache aneinandergrenzen sollen, vergleichen. Die anderen Komponenten sind die Gleichen wie die bei der vierten Ausführungsform der Sprachsynthesevorrichtung, und daher entfällt ihre detaillierte Beschreibung.
  • 12 ist ein Ablaufdiagramm, das ein Beispiel für den Prozess des Wählens der Repräsentanten der Tonhöhen-Wellenformen zeigt. Im Schritt 1201 wird eine geeignete Anzahl von repräsentativen Tonhöhen-Wellenformen im Anfangszustand aus den in der temporären Datenbank gespeicherten Tonhöhen-Wellenformen beliebig gewählt. Im Schritt 1202 werden die Tonhöhen-Wellenformen in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellen mit im Wesentlichen identischer Gestalt bestehen, klassifiziert. Die Anzahl der Gruppen ist gleich der Anzahl der Repräsentanten. Im Schritt 1203 wird die Tonhöhen-Wellenform, die dem Schwerpunkt in jeder Gruppe am nächsten ist, als Repräsentant neu gewählt. Die neu gewählten Repräsentanten werden dahingehend beurteilt, ob sie bestimmte Bedingungen erfüllen. Im Schritt 1204 wird entschieden, ob die Ähnlichkeit zwischen den einzelnen Repräsentanten und den einzelnen Tonhöhen-Wellenformen, die zu ihrer Gruppe gehören, in einem vorgegebenen Bereich liegt. Im Schritt 1205 wird ebenfalls entschieden, ob die Ähnlichkeit zwischen den Repräsentanten, die beim Reassemblieren eines Sprachsegments aneinandergrenzen sollen, in einem Bereich liegt, der von der Ähnlichkeit zwischen den original-Tonhöhen-Wellenformen bestimmt wird. Wenn die Bedingungen nicht erfüllt sind, wird im Schritt 1206 die Gruppe in zwei Gruppen geteilt, und ein Repräsentant wird dann in jeder der Gruppen neu gewählt. Die vorgenannten Entscheidungen, also die Entscheidung der Ähnlichkeit in jeder der Gruppen und die Entscheidung de Ähnlichkeit in der Nähe, werden so lange wiederholt, bis die Bedingungen erfüllt sind, um schließlich die Repräsentanten zu wählen.
  • 13 ist eine erläuternde Darstellung, die ein Beispiel für den Prozess des Vergleichens der Repräsentanten der Tonhöhen-Wellenformen, die aneinandergrenzen sollen, zeigt. Zwei original-Tonhöhen-Wellenformen 1301 und 1302, die in einem original-Sprachsegment aneinandergrenzen, sollen durch die Repräsentanten 1311 und 1312 ersetzt werden. Es wird entschieden, ob die Ähnlichkeit zwischen den Repräsentanten 1311 und 1312 die Bedingung erfüllt. Wenn beispielsweise in dem Fall, dass ein Korrelationskoeffizient als Maß für die Ähnlichkeit verwendet wird, der Korrelationskoeffizient zwischen den zusammenhängenden original-Tonhöhen-Wellenformen 1301 und 1302 0,9 ist, muss der Korrelationskoeffizient zwischen den Repräsentanten 1311 und 1312 mindestens 0,9α sein. α ist ein vorgegebener Koeffizient zum Vorgeben des Schwellenwerts 0,9α und erfüllt die Bedingung 0 < α < 1. Die Prozessserie Klassifizieren der Tonhöhen-Wellenformen und Wählen der Repräsentanten wird so lange wiederholt, bis diese Bedingung erfüllt ist.
  • Die sechste Ausführungsform der Sprachsynthesevorrichtung und des Sprachsyntheseverfahrens, die wie vorstehend gestaltet sind, führt dazu, dass die Sprache unter Aufrechterhaltung der Kontinuität zwischen den angrenzenden Tonhöhen-Wellenformen reassembliert werden kann, wodurch die Verschlechterung der Tonqualität weiter verringert wird.
  • Die Sprachsegmente in der vorstehenden Beschreibung sind zwar VKV-Einheiten, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch die Verwendung anderer Arten von Einheiten, wie etwa KV-Einheiten und KVK-Einheiten.
  • Außerdem können die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren zum Extrahieren der Tonhöhen-Wellenformen aus einer natürlichen Sprache zum Synthetisieren der natürlichen Sprachen eingerichtet werden.
  • In der vorstehenden Beschreibung wird zwar die Tonhöhen-Wellenform, die dem Schwerpunkt am nächsten ist, als Repräsentant in den einzelnen Gruppen gewählt, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch die Verwendung des Schwerpunkts selbst als Repräsentant in den einzelnen Gruppen.
  • In der vorstehenden Beschreibung wird zwar der Mittelwert der Phasengänge als Standard-Phasengang verwendet, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch die Verwendung des Schwerpunkts oder des Phasengangs, der dem Schwerpunkt am nächsten ist, als Standard-Phasengang.
  • In der vorstehenden Beschreibung wird zwar eine Vielzahl von temporären Datenbanken für jedes Phonem zum Speichern der aus dem Sprachsegment extrahierten Tonhöhen-Wellenform verwendet, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch die Verwendung nur einer einzigen physischen Datenbank, die logisch in mehrere Bereiche unterteilt ist.
  • In der vorstehenden Beschreibung wird zwar der Amplitudengang im Frequenzbereich zum Vergleichen der Tonhöhen-Wellenformen verwendet, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch einen Vergleich der im Zeitbereich gefilterten Tonhöhen-Wellenformen.
  • In der vorstehenden Beschreibung wird zwar der Korrelationskoeffizient als Index, der die Ähnlichkeit zwischen den Repräsentanten der Tonhöhen-Wellenformen angibt, zum Wählen der repräsentativen Tonhöhen-Wellenformen verwendet, aber die Sprachsynthesevorrichtung und das Sprachsyntheseverfahren gestatten auch die Verwendung eines Spektralabstands und anderer Arten von Indices, die die Ähnlichkeit zwischen den Repräsentanten der Tonhöhen-Wellenformen angeben.
  • Die Sprachsegment-Disassembliermittel 101, die Phasengang-Erzeugungsmittel 102, die Phasengang-Umwandlungsmittel 103, die Tonhöhen-Wellenformen-Klassifizierungsmittel 104, die Tonhöhen-Wellenform-Wählmittel 105 und die Tonhöhen-Wellenformen-Registriermittel 106 bilden eine Tonhöhen-Wellenformen-Registriervorrichtung zum Registrieren einer Vielzahl von Tonhöhen. In der Tonhöhen-Wellenformen-Registriervorrichtung werden die einzelnen Sprachsegmente zunächst in eine Vielzahl von Tonhöhen-Wellenformen mit jeweils einem Phasengang disassembliert, dann werden aufgrund der Phasengänge der durch Disassemblieren der Sprachsegmente erhaltenen Tonhöhen-Wellenformen einheitliche Phasengänge erzeugt, die einzelnen Phasengänge der Tonhöhen-Wellenformen werden dann in den einheitlichen Phasengang umgewandelt, die Tonhöhen-Wellenformen werden dann in eine Vielzahl von Gruppen, die jeweils aus einer Vielzahl von Tonhöhen-Wellenformen mit im Wesentlichen identischer Gestalt bestehen, klassifiziert, die in der Datenbank zu registrierenden Tonhöhen-Wellenformen werden dann durch Vergleichen der Tonhöhen-Wellenformen gewählt, und die Tonhöhen-Wellenformen werden dann durch Extrahieren einer Tonhöhen-Wellenform von den Tonhöhen-Wellenformen in den einzelnen Gruppen in der Datenbank registriert. Aber die Sprache kann auch mit den in der Datenbank registrierten Tonhöhen-Wellenformen mittels einer anderen Vorrichtung synthetisiert werden.
  • Aus der vorstehenden detaillierten Beschreibung geht hervor, dass die vorstehende Sprachsynthesevorrichtung und das vorstehende Sprachsyntheseverfahren eine natürliche Sprache unter Verwendung einer relativ kleinen Datenbank-Kapazität synthetisieren können.

Claims (10)

  1. Sprachsynthesevorrichtung (10) zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten besteht, die jeweils mindestens ein Phonem aufweisen, wobei die Sprachsynthesevorrichtung (10) dadurch gekennzeichnet ist, dass sie Folgendes aufweist: eine Datenbank (111) zum Speichern von Daten, die sich auf die Sprachsegmente beziehen; Sprachsegment-Disassembliermittel (101) zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; Phasengang-Erzeugungsmittel (102) zum Erzeugen eines einheitlichen Phasengangs durch Ermitteln des Mittelwerts der Phasengänge der mit den Sprachsegment-Disassembliermitteln (101) erhaltenen Tonhöhen-Wellenformen; Phasengang-Umwandlungsmittel (103) zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang, der von den Phasengang-Erzeugungsmitteln (102) erzeugt wird; Tonhöhen-Wellenformen-Klassifizierungsmittel (104) zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen; Tonhöhen-Wellenformen-Registriermittel (106) zum Registrieren der Tonhöhen-Wellenformen in der Datenbank (111) durch Gewinnen einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen und Synthetisiermittel (107) zum Synthetisieren der Sprache mit den in der Datenbank (111) registrierten Tonhöhen-Wellenformen.
  2. Sprachsynthesevorrichtung (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Tonhöhen-Wellenformen-Klassifizierungsmittel (104) so betreibbar sind, dass sie die Tonhöhen-Wellenformen aufgrund von entsprechenden Phonem-Arten klassifizieren.
  3. Sprachsynthesevorrichtung (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Tonhöhen-Wellenformen-Klassifizierungsmittel (104) so betreibbar sind, dass sie die Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, deren Amplitudengang auf entsprechenden Frequenzen nur zum Vergleichen gewichtet wird, klassifizieren.
  4. Sprachsynthesevorrichtung (10) nach Anspruch 1, die weiterhin Tonhöhen-Wellenform-Wählmittel (105) zum Wählen der in der Datenbank (111) zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, die beim Assemblieren der Sprache aneinandergrenzen sollen, aufweist.
  5. Sprachsyntheseverfahren zum Synthetisieren von Sprache, die aus einer Vielzahl von Sprachsegmenten besteht, die jeweils mindestens ein Phonem aufweisen, wobei das Sprachsyntheseverfahren dadurch gekennzeichnet ist, dass es folgende Schritte aufweist: einen Sprachsegment-Disassemblierschritt (201) zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; einen Phasengang-Erzeugungsschritt (202) zum Erzeugen eines einheitlichen Phasengangs durch Ermitteln des Mittelwerts der Phasengänge der in dem Sprachsegment-Disassemblierschritt (201) erhaltenen Tonhöhen-Wellenformen; einen Phasengang-Umwandlungsschritt (203) zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang, der in dem Phasengang-Erzeugungsschritt (202) erzeugt wird; einen Tonhöhen-Wellenformen-Klassifizierungsschritt (204) zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen; einen Tonhöhen-Wellenformen-Registrierschritt (206) zum Registrieren der Tonhöhen-Wellenformen in einer Datenbank durch Gewinnen einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen und einen Synthetisierschritt (207) zum Synthetisieren der Sprache mit den in der Datenbank registrierten Tonhöhen-Wellenformen.
  6. Sprachsyntheseverfahren nach Anspruch 5, dadurch gekennzeichnet, dass der Tonhöhen-Wellenformen-Klassifizierungsschritt die Tonhöhen-Wellenformen aufgrund von entsprechenden Phonem-Arten klassifiziert.
  7. Sprachsyntheseverfahren nach Anspruch 5, dadurch gekennzeichnet, dass der Tonhöhen-Wellenformen-Klassifizierungsschritt (204) die Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, deren Amplitudengang auf entsprechenden Frequenzen nur zum Vergleichen gewichtet wird, klassifiziert.
  8. Sprachsyntheseverfahren nach Anspruch 5, das weiterhin einen Tonhöhen-Wellenform-Wählschritt (205) zum Wählen der in der Datenbank zu registrierenden Tonhöhen-Wellenformen durch Vergleichen der Tonhöhen-Wellenformen, die beim Assemblieren der Sprache aneinandergrenzen sollen, aufweist.
  9. Tonhöhen-Wellenformen-Registriervorrichtung (10) zum Registrieren einer Vielzahl von Tonhöhen-Wellenformen, die zum Synthetisieren von Sprache verwendet werden sollen, in einer Datenbank (111), wobei die Sprache aus einer Vielzahl von Sprachsegmenten besteht, die jeweils mindestens ein Phonem aufweisen, wobei die Tonhöhen-Wellenformen-Registriervorrichtung (10) dadurch gekennzeichnet ist, dass sie Folgendes aufweist: Sprachsegment-Disassembliermittel (101) zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; Phasengang-Erzeugungsmittel (102) zum Erzeugen eines einheitlichen Phasengangs durch Ermitteln des Mittelwerts der Phasengänge der mit den Sprachsegment-Disassembliermitteln (101) erhaltenen Tonhöhen-Wellenformen; Phasengang-Umwandlungsmittel (103) zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang, der von den Phasengang-Erzeugungsmitteln (102) erzeugt wird; Tonhöhen-Wellenformen-Klassifizierungsmittel (104) zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen und Tonhöhen-Wellenformen-Registriermittel (106) zum Registrieren der Tonhöhen-Wellenformen in der Datenbank (111) durch Gewinnen einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen.
  10. Tonhöhen-Wellenformen-Registrierverfahren zum Registrieren einer Vielzahl von Tonhöhen-Wellenformen, die zum Synthetisieren von Sprache verwendet werden sollen, in einer Datenbank, wobei die Sprache aus einer Vielzahl von Sprachsegmenten besteht, die jeweils mindestens ein Phonem aufweisen, wobei das Tonhöhen-Wellenformen-Registrierverfahren dadurch gekennzeichnet ist, dass es folgende Schritte aufweist: einen Sprachsegment-Disassemblierschritt (201) zum Disassemblieren jedes der Sprachsegmente in eine Vielzahl von Tonhöhen-Wellenformen, die jeweils einen Phasengang haben; einen Phasengang-Erzeugungsschritt (202) zum Erzeugen eines einheitlichen Phasengangs durch Ermitteln des Mittelwerts der Phasengänge der in dem Sprachsegment-Disassemblierschritt (201) erhaltenen Tonhöhen-Wellenformen; einen Phasengang-Umwandlungsschritt (203) zum Umwandeln der Phasengänge der Tonhöhen-Wellenformen in den einheitlichen Phasengang, der in dem Phasengang-Erzeugungsschritt (202) erzeugt wird; einen Tonhöhen-Wellenformen-Klassifizierungsschritt (204) zum Klassifizieren der Tonhöhen-Wellenformen in eine Vielzahl von Gruppen und einen Tonhöhen-Wellenformen-Registrierschritt (206) zum Registrieren der Tonhöhen-Wellenformen in einer Datenbank durch Gewinnen einer einzigen Tonhöhen-Wellenform aus den Tonhöhen-Wellenformen in jeder der Gruppen.
DE60120585T 2000-09-18 2001-09-12 Anordnung und Verfahren zur Sprachsynthese Expired - Fee Related DE60120585T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000281683 2000-09-18
JP2000281683A JP2002091475A (ja) 2000-09-18 2000-09-18 音声合成方法

Publications (2)

Publication Number Publication Date
DE60120585D1 DE60120585D1 (de) 2006-07-27
DE60120585T2 true DE60120585T2 (de) 2007-05-31

Family

ID=18766302

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60120585T Expired - Fee Related DE60120585T2 (de) 2000-09-18 2001-09-12 Anordnung und Verfahren zur Sprachsynthese

Country Status (7)

Country Link
US (1) US7016840B2 (de)
EP (1) EP1195743B1 (de)
JP (1) JP2002091475A (de)
CN (1) CN1243340C (de)
DE (1) DE60120585T2 (de)
ES (1) ES2266063T3 (de)
TW (1) TW525145B (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220801A1 (en) * 2001-08-31 2004-11-04 Yasushi Sato Pitch waveform signal generating apparatus, pitch waveform signal generation method and program
JP2003108178A (ja) 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
US20060074675A1 (en) * 2002-09-17 2006-04-06 Koninklijke Philips Electronics N.V. Method of synthesizing creaky voice
CN100361198C (zh) * 2002-09-17 2008-01-09 皇家飞利浦电子股份有限公司 一种清音语音信号合成的方法
KR100477224B1 (ko) * 2002-09-28 2005-03-17 에스엘투 주식회사 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
CN101510424B (zh) * 2009-03-12 2012-07-04 孟智平 基于语音基元的语音编码与合成方法及系统
JP5747471B2 (ja) * 2010-10-20 2015-07-15 三菱電機株式会社 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN110444190A (zh) * 2019-08-13 2019-11-12 广州国音智能科技有限公司 语音处理方法、装置、终端设备及存储介质
CN113066472B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60205500A (ja) * 1984-03-29 1985-10-17 松下電器産業株式会社 音声合成用駆動信号生成方法
JPS6228800A (ja) * 1985-07-31 1987-02-06 松下電器産業株式会社 規則音声合成用駆動信号生成方法
JP2931059B2 (ja) * 1989-12-22 1999-08-09 沖電気工業株式会社 音声合成方式およびこれに用いる装置
JPH088503B2 (ja) * 1990-11-27 1996-01-29 松下電器産業株式会社 音声符号化復号化装置
JP3109778B2 (ja) * 1993-05-07 2000-11-20 シャープ株式会社 音声規則合成装置
JPH0764599A (ja) * 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH09258796A (ja) * 1996-03-25 1997-10-03 Toshiba Corp 音声合成方法
JP3281281B2 (ja) * 1996-03-12 2002-05-13 株式会社東芝 音声合成方法及び装置
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置

Also Published As

Publication number Publication date
CN1243340C (zh) 2006-02-22
DE60120585D1 (de) 2006-07-27
TW525145B (en) 2003-03-21
CN1345028A (zh) 2002-04-17
JP2002091475A (ja) 2002-03-27
ES2266063T3 (es) 2007-03-01
US20020052733A1 (en) 2002-05-02
EP1195743B1 (de) 2006-06-14
EP1195743A3 (de) 2003-04-09
EP1195743A2 (de) 2002-04-10
US7016840B2 (en) 2006-03-21

Similar Documents

Publication Publication Date Title
DE60120585T2 (de) Anordnung und Verfahren zur Sprachsynthese
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE69917961T2 (de) Phonembasierte Sprachsynthese
DE602004000873T2 (de) Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne
DE69907498T2 (de) Verfahren zur schnellen erfassung der tonhöhe
EP1797552B1 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE69614752T2 (de) Vorrichtung und Verfahren zur Sprachkodierung unter Verwendung eines Filters zur Verbesserung der Signalqualität
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
WO2006039995A1 (de) Verfahren und vorrichtung zur harmonischen aufbereitung einer melodielinie
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE69720861T2 (de) Verfahren zur Tonsynthese
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
WO2006039993A1 (de) Verfahren und vorrichtung zur glättung eines melodieliniensegments
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
EP1787283A1 (de) Extraktion einer einem audiosignal zu grunde liegenden melodie
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE69722585T2 (de) Synthese von wellenformen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee