DE4218623C2 - Sprachsynthesizer - Google Patents

Sprachsynthesizer

Info

Publication number
DE4218623C2
DE4218623C2 DE4218623A DE4218623A DE4218623C2 DE 4218623 C2 DE4218623 C2 DE 4218623C2 DE 4218623 A DE4218623 A DE 4218623A DE 4218623 A DE4218623 A DE 4218623A DE 4218623 C2 DE4218623 C2 DE 4218623C2
Authority
DE
Germany
Prior art keywords
waveform
period
unit
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4218623A
Other languages
English (en)
Other versions
DE4218623A1 (de
Inventor
Shunichi Yajima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE4218623A1 publication Critical patent/DE4218623A1/de
Application granted granted Critical
Publication of DE4218623C2 publication Critical patent/DE4218623C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

Die vorliegende Erfindung betrifft einen Sprachsynthesizer nach Anspruch 1.
Der Grundaufbau eines Sprachsynthesesystems ist beispielsweise im einzelnen in "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki), April 1983, Kapitel 6 und 7, und in einem Artikel "DIGITAL PROCESSING OF VOICE" von Furui, The Tokai University Publishing Society, September 1985 beschrieben.
In diesen Artikeln ist "ein Vocoder" als eine Art von Sprachsynthesizer vorgestellt. Der Vocoder dient, die Informationskomprimierbarkeit der Sprache zu erhöhen, um die Umsetzung und Synthese durchzuführen. In dem Vocoder wird die Spektrumseinhüllende aus der Sprache erhalten und die Sprache, die wieder aufzubauen ist, wird auf der Basis der Spektrumseinhüllenden synthetisiert. Die verschiedenen Arten von Voco­ dern sind bisher entwickelt worden, um die Klangqualität zu verbessern. In diesem Zusammenhang gibt es als typische Vocoder den Kanalvocoder und den homomorphen Vocoder.
In den Systemen, die diesen Vocoder anwenden, ist jedoch, da die Genauigkeit, die Spektrum-Einhüll-Information zu extrahieren unzurei­ chend ist, die Qualität der synthetisierten Sprache fragwürdig. Anderer­ seits ist als eine neue Methode, die Spektrum-Einhüll-Information zu extrahieren, kürzlich eine PSE-(Power Spectrum Envelope = Leistungs-Spektrum-Einhüll)-Methode vorgeschlagen worden. Diese Methode ist eine Methode, bei der das Fourier-Leistungsspektrum der Sprache mit einer Klang- bzw. Klanghöhen- bzw. Teilungsfrequenz abgetastet wird. Es wird erwogen, daß die synthetisierte Sprache, die durch diese Methode erhalten wird, eine hohe Qualität hat, verglichen mit dem System nach dem Stand der Technik. Zu den Einzelheiten davon kann Bezug genommen werden auf einen Artikel "POWER SPECTRUM ENVELOPE (PSE) SPEECH ANALYSIS/SYNTHESIS SYSTEM" von Nakajima et al. (JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, Bd. 44, Nr. 11, 1988-11).
Bei dem System der Sprachsynthetisierung, das die oben genannte PSE-Analyse-Synthese-Methode auf die gleiche Weise wie in dem homomor­ phen Vocoder verwendet, wird die Impulsantwort der synthetisierten Sprache in Intervallen der Klanghöhen- bzw. Teilungs-(Pitch)-Periode ausgesetzt. Gemäß dem obigen Artikel von Nakajima et al. wird die Impulsantwort durch Einstellen der Null-Phase erhalten. Das basiert auf dem Wissen, daß die Charakteristik akustischer Wahrnehmung eines Men­ schen eine geringe Empfindlichkeit gegenüber der Phase hat. Darüber hinaus werden gemäß dem obigen Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner zusätzlich zu der Null-Phase die minimale Phase und die maximale Phase eingestellt, um die Impuls­ antwort zu erhalten, und die Qualitäten der individuellen, synthetisierten Sprache werden miteinander verglichen. Als ein Ergebnis wird zu dem Schluß gekommen, daß die beste Qualität synthetisierter Sprache durch die Minimum-Phasen-Methode erhalten werden kann.
Es ist jedoch gefun­ den worden, daß eine Zufalls-Phasenkomponente in der Hochfrequenz­ komponente der Wellenform der natürlichen Sprache enthalten ist, und die Zufalls-Phasenkomponente hat eine wichtige Rolle in natürlich klin­ gender Sprache. Da die Wellenform der Zufalls-Phasenkomponente in die Wellenform mit einer einheitlichen Phase umgewandelt ist, existiert die natürliche Sprache bei der obigen Methode jedoch in der syntheti­ sierten Sprache. Darüberhinaus ist auch die gleiche Tatsache in wieder zusammengesetzten Klängen von Musikinstrumenten erkannt worden.
Die vorliegende Erfindung wurde aufgrund der obigen Umstände ge­ macht, und es ist eine Aufgabe, einen Sprachsynthesizer zu schaffen, der derart konstruiert ist, daß die synthetisierte Sprache bzw. der synthetisier­ te Klang hoher Qualität sicher bzw. dauerhaft erhalten wird.
Diese Aufgabe wird erfindungsgemäß durch einen Sprachsynthesizer gelöst, der in den Ansprüchen definiert ist.
Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird ein Sprach­ synthesizer zum Auslesen einer partiellen Wellenform eines Klangs geschaffen, der vorher gespeichert ist, um die partielle Wellenform in jeder Periode einer Überlappungsaddition zu unterziehen, um Sprache zu erzeugen, und um eine Einheit zum Speichern einer periodischen Wellenform eines Klangs, eine Einheit zum Speichern einer aperiodischen Wellenform eines Klangs und eine Einheit zum synchronen Addieren der periodischen Wellenform und der aperiodi­ schen Wellenform zueinander zu schaffen.
Angesichts dessen, daß das Einstellen der einheitlichen Phase eine Ver­ schlechterung der Qualität der synthetisierten Sprache verursacht, um die Erzeugung der Zufallskomponente der Hochfrequenz-Wellenform davon abzuhalten, realisiert zu werden, ist der Sprachsynthesizer gemäß der vorliegenden Erfindung aufgebaut, um die Zufallskomponente einer hohen Frequenz erzeugen zu können.
Genauer gesagt werden in dem Sprachsynthesizer gemäß der vorliegenden Erfindung die Wellenform der periodischen Komponente (Impulsantwort) und jene der aperiodischen Komponente einzeln gespeichert. In bezug auf die Wellenform der periodischen Komponente wird die Wellenform der Impulsantwort der Überlappungsaddition in Intervallen der bestimm­ ten Periode unterzogen, d. h. die Wellenform der Impulsantwort wird verschoben, um jede vorbestimmte Periode addiert zu werden, und die Wellenform der aperiodischen Komponente wird zu der periodischen Komponente addiert, um dadurch die Wellenform der natürlichen Spra­ che zu erhalten, wobei die Wellenform der Zufallskomponente überlagert ist.
Als nächstes wird die Methode zum Erhalten der Wellenform der peri­ odischen Komponente und jener der aperiodischen Komponente beschrie­ ben. Die aperiodische Komponente ist in den Komponenten hoher Frequenz (z. B. 2 kHz oder mehr) enthalten. Daher wird das Ergebnis des Ausgangs des Tiefpaßfilters der ursprünglichen Sprache verwendet, um die Wellenform der periodischen Komponente zu extrahieren, wäh­ rend das Ergebnis des Ausgangs des Hochpaßfilters verwendet wird, die Wellenform der aperiodischen Komponente zu extrahieren. In bezug auf die Methode zum Erhalten der Wellenform der periodischen Komponente (Impulsantwort) sind die Einzelheiten in dem obigen Artikel "POWER SPECTRUM ENVELOPE SPEECH ANALYSIS/SYNTHESIS SYSTEM". von Nakajima et al. beschrieben. Das bedeutet, daß die Wellenform der periodischen Komponente durch Multiplizieren der Sprache mit dem Zeitfenster extrahiert wird (z. B. dem Hamming-Fenster), und zwar jede auf den neuesten Stand gebrachte Periode der Daten (z. B. 10 ms). Die Wellenform der aperiodischen Komponente wird durch Multiplizieren der Sprache mit dem Zeitfenster (rechtwinkliges Fenster) extrahiert, dessen Länge die gleiche ist, wie die auf den neuesten Stand gebrachte Periode, und zwar jede auf den neuesten Stand gebrachte Periode, die die gleiche wie jene der Extraktion der Wellenform der periodischen Komponente ist. Somit wird die aperiodische Komponente der Wellenform herkömm­ lich verarbeitet, als ob sie eine periodische Komponente ist, was eine Verschlechterung der Audio-Quantität verursacht. Andererseits wird, da die aperiodische Komponente zuvor von dem Audio-Signal getrennt ist, und die aperiodische Komponente zu der periodischen Komponente der Wellenform addiert ist, so daß die aperiodische Komponente nicht in die periodische Komponente geändert wird, die Reproduktion eines guten Hörgefühls erhalten.
Weitere Vorteile und Anwendungsmöglichkeiten der vorliegen­ den Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen in Verbindung mit der Zeichnung.
Fig. 1A ist ein Blockdiagramm, das die Anordnung eines Ausführungsbei­ spiels eines Sprach-Analyse-Synthese-Systems unter Verwendung der vorliegenden Erfindung zeigt;
Fig. 1B ist ein Wellenformdiagramm, das ein Beispiel einer in einer in Fig. 1A gezeigten Impulsantwort-Wellenform-Speichereinheit gespeicherten Wellenform zeigt;
Fig. 1C ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die der Überlappungsaddition in einer Überlappungsaddi­ tionseinheit unterzogen wurde, die in Fig. 1A gezeigt ist;
Fig. 1D ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die in einer Speichereinheit für aperiodische Wellenform gespeichert ist, die in Fig. 1A gezeigt ist;
Fig. 1E ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die durch die Addition in einer Einheit für einfache Addition erhalten wurde, die in Fig. 1A gezeigt ist;
Fig. 2 ist ein Blockdiagramm, das die Anordnung eines Ausführungsbei­ spiels eines Systems für Sprachsynthese durch eine Regel gemäß der vorliegenden Erfindung zeigt;
Fig. 3 ist ein Blockdiagramm, das die Anordnung eines weiteren Aus­ führungsbeispiels des Systems für Sprachsynthese durch eine Regel gemäß der vorliegenden Erfindung zeigt;
Fig. 4 ist ein Blockdiagramm, das die Anordnung einer Extraktionsein­ heit für periodische Wellenform/aperiodische Wellenform zeigt;
Fig. 5 ist ein Blockdiagramm, das die Anordnung einer Trenneinheit für periodische Wellenform/aperiodische Wellenform zeigt;
Fig. 6A ist ein Wellenformdiagramm, das ein Beispiel eines eingegebe­ nen Sprachwellenformsignals zeigt;
Fig. 6B ist ein Wellenformdiagramm, das eine aperiodische Wellenform hoher Frequenz einer durch die vorliegende Erfindung syntheti­ sierten Sprache bzw. Geschwindigkeit zeigt; und
Fig. 6C ist ein Wellenformdiagramm, das eine aperiodische Wellenform hoher Frequenz einer durch die Null-Phasen-Einstellmethode nach dem Stand der Technik synthetisierte Sprache bzw. Ge­ schwindigkeit zeigt.
Die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung werden im nachfolgenden im einzelnen unter Bezugnahme auf die beigefügten Zeichnungsseiten beschrieben. Übrigens sind in bezug auf die Sprachsyn­ these zwei Methoden wohlbekannt, d. h. die Synthese durch Analyse und die Synthese durch eine Regel.
Fig. 1A ist ein Blockdiagramm, das die Anordnung eines Sprachsynthese­ systems (Sprachsynthesizers) eines Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Synthese durch Analyse zeigt. In Fig. 1A ist gezeigt: eine Impulsantwort-Wellenform-Speichereinheit 101, eine Überlappungsadditions­ einheit 102, die die Wellenform der Impulsantwort in periodischen Inter­ vallen der Überlappungsaddition unterzieht, eine Einheit 103 für einfache Addition zum Addieren der durch die Überlappungsaddition erhaltenen Wellenform und die aperiodische Wellenform zueinander, ein Doppel­ pufferspeicher 104 zum Ausgeben von Sprachen und ein Digital/Ana­ log-(D/A)-Wandler 105. Darüberhinaus ist gezeigt: eine Perioden-Speicher­ einheit 110 und eine Perioden-Wellenform-Speichereinheit 120.
Der Betrieb des derart aufgebauten Sprachsynthesesystems ist wie folgt. Zuerst werden die Wellenformdaten in der Impulsantwort-Wellenform-Spei­ chereinheit 101 gespeichert, was auf einem derartigen Weg erhalten wurde, der in Fig. 1B gezeigt ist; die periodische Wellenform eines Klangs wurde in der Richtung der Zeit abgetastet, um in der Richtung der Amplitude quantisiert zu werden. Die Daten, die ein vorbestimmtes periodisches Intervall des Klangs darstellen, werden in der Perioden-Spei­ chereinheit 110 gespeichert. In der Überlappungsadditionseinheit 102 werden die Wellenformdaten, die von der Impulsantwort-Wellenform-Spei­ chereinheit 101 ausgelesen wurden, der Überlappungsaddition in periodischen Intervallen unterzogen, die von der Perioden-Speichereinheit 110 ausgelesen wurden. Das heißt, daß die Wellenformdaten verschoben werden, um jedes Periodenintervall addiert zu werden, das aus der Perioden-Speichereinheit 110 ausgelesen ist. Die resultierenden Wellen­ formdaten sind in Fig. 1C gezeigt. Das periodische Intervall, das in der Perioden-Speichereinheit 110 gespeichert ist, entspricht der Spitze-Spitze der Wellenformdaten, gezeigt in Fig. 1C. In der Einheit 103 für ein­ fache Addition wird die Wellenform, die durch die Überlappungsaddition erhalten wurde, zu den Daten aperiodischer Wellenform addiert, die aus der Speichereinheit 120 für aperiodische Wellenform ausgelesen wurden. Die Daten aperiodischer Wellenform sind beispielsweise Zufalls-Wellen­ formdaten, wie in Fig. 1D gezeigt. Die Wellenformdaten, die durch die Addition in der Einheit 103 für einfache Addition erhalten wurden, haben eine Wellenform, bei der die Wellenformdaten der Fig. 1D den Wellenformdaten der Fig. 1C überlagert sind, wie in Fig. 1E gezeigt. Jene Wellenformdaten werden durch den A/D-Wandler 105 durch den Doppelpufferspeicher 104 für die Sprachausgabe in eine analoge Wellen­ form umgewandelt und dann durch das Tiefpaßfilter 111 geführt, um in der Form einer Sprache 106 ausgegeben zu werden.
Fig. 2 ist ein Blockdiagramm, das die Anordnung eines Sprachsynthesesy­ stems 1 eines Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Methode der Sprachsynthese durch eine Regel zeigt. In Fig. 2 ist eine Perioden-Erzeugungseinheit 210 zum Erzeugen eines periodi­ schen Intervalls gezeigt. Das periodische Intervall entspricht der Spitze- Spitze der Wellenformdaten, gezeigt in Fig. 1B. Die Bezugszeichen, die andere als das Bezugszeichen 210 sind, sind die gleichen wie jene der Fig. 1. Der Betrieb des so aufgebauten Sprachsynthesesystems 1 der vorliegenden Erfindung ist wie folgt. In der Überlappungsadditions-Einheit 102 wird die Überlappungsaddition der Impulsantwort-Wellenform­ daten in periodischen Intervallen durchgeführt, die in der Perioden-Er­ zeugungseinheit 210 erhalten werden. Die nachfolgenden Operationen sind die gleichen wie jene des Beispiels des Betriebs des obigen Sprach­ synthesesystems. In der Perioden-Erzeugungseinheit 210 ist die Methode des Addierens oder Subtrahierens eines bestimmten konstanten Wertes zu oder von der Periode angewandt, und zwar zum Zwecke des Durch­ führens der Änderung der Teilungsperiode eines vorbestimmten Sprach­ klangs (Teilungsverschiebung), das Fujisaki-Modell, das zu dem Zweck ausgedacht wurde, auf das Sprachsynthesesystem durch eine Regel und ähnliches angewandt zu werden. Die Methode zum Erzeugen einer Periode durch das Fujisaki-Modell ist beispielsweise in der JP-A-64-28695 beschrieben und wird dem Fachmann vollständig bekannt sein.
Fig. 3 ist ein Blockdiagram, das die Anordnung eines Sprachsynthesesy­ stems 2 eines weiteren Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Methode der Sprachsynthese durch eine Regel zeigt. Bei der Sprachsynthese durch eine Regel ist es das wichtige Thema, die Qualität der synthetisierten Sprache möglichst jener einer natürlichen Stimme anzunähern. Es ist eine Tendenz beobachtet worden, bei der in der natürlichen Stimme das Pegelverhältnis der periodischen Wellenform zu der aperiodischen Wellenform in der Wellen­ form der natürlichen Stimme entsprechend der Position der Satzsprache geändert wird. Eine Tendenz der Änderung des Verhältnisses ist derart, daß, wenn die Klang- bzw. Teilungsperiode am Ende eines Satzes bei­ spielsweise lang wird, das Pegelverhältnis der aperiodischen Wellenform erhöht wird. Bei dem Sprachsynthesesystem durch eine Regel, in dem die Charakteristiken der Wellenform der natürlichen Stimme reflektiert werden, nähert sich die resultierende synthetisierte Sprache der natürli­ chen Stimme an, so daß die Qualität der synthetisierten Sprache erhöht ist. Dies ist das Sprachsynthesesystem durch eine Regel 2 in groben Zügen.
In Fig. 3 ist eine Pegel-Steuereinheit 211 zum Steuern der Spitze-Spitze der Daten aperiodischer Wellenform gezeigt. Die Bezugszeichen, die andere als das Bezugszeichen 211 sind, sind die gleichen wie jene der Fig. 2. Der Betrieb des so aufgebauten Sprachsynthesesystems durch eine Regel 2 ist wie folgt. In der Pegelsteuereinheit 211 wird der Pegelwert (der Spitzenwert der aperiodischen Wellenform), der die positive Korrelation zu dem Wert der Periode hat, die durch die Peri­ oden-Erzeugungseinheit 210 erzeugt ist, erhalten, und dann werden die Daten periodischer Wellenform mit dem Pegelwert multipliziert. Anders ausgedrückt ist der Spitzenwert der Wellenform gegeben, zu dem die Wellenformdaten, die in Fig. 1D gezeigt sind, überlagert wird. Die Operationen, die anders als die obigen sind, sind die gleichen wie jene des Beispiels des Betriebs des oben genannten Sprachsynthesesystems.
Fig. 4 ist ein Blockdiagramm, das ein Beispiel der Anordnung einer Einheit zum Extrahieren einer periodischen Wellenform und einer aperi­ odischen Wellenform zeigt. In Fig. 4 ist gezeigt: ein Eingangs-Sprach­ signal 401, das durch Unterziehen der Sprache der Sprache-zu-elektrisches Sprachsignal-Umwandlung durch ein Mikrofon und dergleichen erhalten wurde, ein Analog/Digital-(A/D)-Wandler 402 und ein Zweitor-Puffer­ speicher 403. Dieser Speicher 403 ist vorgesehen, um die Diskontinuität der Zeiteinstellung der folgenden Verarbeitung und der eingegebenen Sprache zu verhindern. Darüberhinaus ist eine Einheit 405 zum Trennen einer periodischen Wellenform und einer aperiodischen Wellenform voneinander gezeigt, ein Impulsantwort-Wellenformsignal 406 und ein Signal 407 aperiodischer Wellenform.
Der Betrieb der auf diese Weise aufgebauten periodische Wellenform/ aperiodische Wellenform-Extraktionseinheit ist in groben Zügen wie folgt.
Das eingegebene Sprachsignal 401, das durch Unterziehen der Sprache der Sprache-zu-elektrisches Sprachsignal-Wandlung durch ein Mikrofon und dergleichen erhalten wurde, wird dem Zweitor-Pufferspeicher 403 durch den A/D-Wandler 402 eingegeben. Die Sprachdaten 404, die von dem Pufferspeicher 403 ausgelesen wurden, werden der Trenneinheit für periodische Wellenform/aperiodische Wellenform-Trenneinheit 405 einge­ geben, die die periodische Wellenform und die aperiodische Wellenform voneinander trennt, um das Impulsantwort-Wellenformsignal 406 und das Signal 407 aperiodischer Wellenform einzeln auszugeben. In diesem Zusammenhang ist es, wenn anstelle der Impulsantwort-Wellenform-Spei­ chereinheit 101 und der Speichereinheit 120 für aperiodische Wellen­ form, die in Fig. 1 gezeigt sind, die Extraktionseinheit für periodische Wellenform/aperiodische Wellenform, die in Fig. 4 gezeigt ist, ange­ schlossen ist, möglich, die Sprachsynthese des eingegebenen Sprachsignals 401 zu erhalten, das kontinuierlich eingegeben wird, und zwar anstelle der gespeicherten Wellenformdaten.
Fig. 5 ist ein Blockdiagramm, das ein Beispiel der Anordnung der Trenneinheit 405 für periodische Wellenform/aperiodische Wellenform zeigt. In Fig. 5 ist gezeigt Sprachdaten 404, die aus dem Zweitorpuf­ ferspeicher 403 der Fig. 4 ausgelesen wurden, eine Einheit 501 zum Ausschneiden eines Blocks, eine Bandteilungseinheit 502 zum Teilen der Wellenformdaten in zwei Bänder niedriger Frequenz und hoher Frequenz, die resultierende Wellenform 510 niedriger Frequenz und die resultieren­ de Wellenform 520 hoher Frequenz. Darüberhinaus ist eine Teilungs- bzw. "Pitsch"-Extraktionseinheit 503 zum Erhalten einer Teilungsperiode aus der Wel­ lenform niedriger Frequenz gezeigt, eine Periodizitätsbeurteilungseinheit 504 zum Beurteilen der Periodizität der Wellenform hoher Frequenz, eine Wellenformherausgabeeinheit 505 zum Durchführen der Wellenform­ herausgabe entsprechend dem Ergebnis der Beurteilung der Periodizität, eine Impulsantwort-Wellenform-Erzeugungseinheit 506 zum Erhalten von Impulsantwort-Wellenformdaten aus der periodischen Wellenform und eine Rechteckfenster-Multipliziereinheit zum Ab- oder Ausschneiden der aperiodischen Wellenform in dem Blockintervall.
Der Betrieb der auf diese Weise aufgebauten Trenneinheit für periodi­ sche Wellenform/aperiodische Wellenform ist in groben Zügen wie folgt.
Wenn die Sprachdaten 404 eingegeben sind, werden die Wellenformdaten mit einer festen Zeitdauer jede Blockperiode in der Block-Ausschneid-Ein­ heit 501 erhalten. Die Bandteilungseinheit 502 teilt jene Wellenform­ daten in zwei Bänder niedriger Frequenz und hoher Frequenz, um die Wellenformdaten niedriger Frequenz 510 und die Wellenformdaten hoher Frequenz 520 auszugeben. Die Teilungsextraktionseinheit 503 erhält die Teilungsperiode aus den Wellenformdaten niedriger Frequenz 510. Der Grund dafür ist, daß die Periodizität der Wellenform niedriger Frequenz stabiler ist. In dem Fall der Sprachsynthese durch eine Regel kann zum Zwecke des Verbesserns der Qualität synthetisierter Sprache die Teilungs­ periode in einem nichtflüchtigen Speicher 500 gespeichert werden. In der Periodizitäts-Beurteilungseinheit 504 wird, wenn die Wellenformdaten hoher Frequenz 520 eingegeben sind, der Korrelationswert zwischen den Teilungsperiodenlängen der benachbarten periodischen Wellenformen, die in der Teilungsextraktionseinheit 503 erhalten werden, erhalten, um die Periodizität der Wellenform hoher Frequenz in Abhängigkeit von der Größe des Korrelationswertes zu beurteilen. Wenn der Korrelationswert groß ist, ist die Periodizität vorhanden, während, wenn der Korrelations­ wert klein ist, die Periodizität nicht vorhanden ist. In der Wellenform­ herausgabeeinheit bzw. -editiereinheit 505 wird die Wellenformherausgabe bzw. das -editieren entsprechend dem Ergebnis der Beurteilung der Periodizität durchgeführt. In der Wellenformherausgabeeinheit 505 werden, wenn die Periodizität vorhanden ist, die Wellenformdaten, die durch Addieren der Wellenformdaten niedriger Frequenz 510 und der Wellenformdaten hoher Frequenz 520 zueinander erhalten wurden, als Daten periodischer Wellenform ausgegeben. Zu diesem Zeitpunkt werden die Wellenformdaten, die den Wert "Null" haben, über die gesamten Intervalle als die Daten aperiodischer Wellenform ausgegeben. Andererseits werden, wenn die Periodizität nicht vorhanden ist, die Wellenformdaten 510 niedriger Frequenz als die Daten periodischer Wellenform ausgegeben, während die Wellenformdaten 520 hoher Fre­ quenz als die Daten aperiodischer Wellenform ausgegeben werden. Wenn die Daten periodischer Wellenform eingegeben sind, erhält die Impulsantwort-Wellenform-Erzeugungseinheit 506 die Impulsantwort-Wel­ lendaten 406. In diesem Zusammenhang werden die Impulsantwort-Wel­ lenformdaten 406 auf solche Art erhalten, daß die periodische Wel­ lenform der Fourier-Transformation unterzogen werden, die Spektrumein­ hüllende wird aus den resultierenden Spektren erhalten und die inverse Fourier-Transformation der Spektrumeinhüllenden wird durchgeführt. Darüberhinaus erhält, wenn die Daten aperiodischer Wellenform eingege­ ben sind, die Rechteckfenster-Multipliziereinheit 507 die Daten aperiodi­ scher Wellenform entsprechend dem Blockintervall, um dadurch Daten 407 aperiodischer Wellenform zu erhalten, die die Blockperiodenlänge aufweisen. In dem Fall der Sprachsynthese durch eine Regel können Impulsantwort-Wellenformdaten 406 und die Daten 407 aperiodischer Wellenform in jeweiligen nichtflüchtigen Speichern 500 gespeichert wer­ den.
Wie oben beschrieben ist, sind die Impulsantwort-Wellenform-Speicher­ einheit, die Speichereinheit 120 für aperiodische Wellenform und die Perioden-Speichereinheit 110, die in den Fig. 1A, 2 und 3 gezeigt sind, durch jene nichtflüchtigen Speicher 500 ersetzt.
Im nachfolgenden werden Einzelheiten des Betriebs der Trenneinheit für periodische Wellenform/aperiodische Wellenform beschrieben. Es gibt einige wohlbekannte Methoden zum Realisieren der Bandteilungseinheit 502. Eine davon ist eine Methode, bei der das Tiefpaßfilter präpariert ist, die Ausgabe, die durch Eingeben der Sprachdaten 404 zu jenem Filter erhalten wurde, als die Wellenformdaten niedriger Frequenz be­ nutzt wird, und die Daten, die durch Subtrahieren der Wellenformdaten niedriger Frequenz von den Sprachdaten 404 erhalten wurden, als die Wellenformdaten hoher Frequenz benutzt werden. Mehr Einzelheiten über den Aufbau des digitalen Filters wie beispielsweise ein Tiefpaßfilter ist in dem Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki) beschrieben. Es ist zu verstehen, daß es sogar, wenn das Hochpaßfilter präpariert ist, möglich ist, die gleiche Trennverarbeitung durchzuführen. Darüberhinaus erfordert die Methode, die von keinem digitalen Filter abhängt, die Fourier-Transformationsverarbeitung.
Bei dieser Methode werden, wenn die numerischen Werte der Frequenz­ komponenten, die durch die Fourier-Transformation erhalten wurden und deren Frequenz höher oder gleich einer vorbestimmten Frequenz ist, auf Null gesetzt werden, und dann wird die inverse Fourier-Transformation durchgeführt, und es werden Wellenformdaten niedriger Frequenz erhal­ ten. Für eine hohe Geschwindigkeit zum Ausführen der Methode ist die schnelle Fourier-Transformation (allgemein als FFT bekannt) wohlbe­ kannt. Dann ist es geeignet, daß die Trennfrequenz zwischen der hohen Frequenz und der niedrigen Frequenz (d. h. die Grenzfrequenz des Tief­ paßfilters) auf 2 bis 3 kHz eingestellt ist.
Weiterhin ist die Methode zum Erhalten der Teilungsperiode im einzel­ nen in dem obigen Artikel beschrieben.
Mit dem Korrelationswert, der in der Periodizitätsbeurteilungseinheit 504 berechnet ist, ist der Autokorrelationskoeffizient gemeint, der um die Teilungsperiode verzögert ist. Der Rechnungsausdruck wird durch die folgende Gleichung ausgedrückt:
wobei Φ den Autokorrelationskoeffizienten darstellt, Tp die Teilungs­ periode darstellt und W(i) die Wellenformdaten zu der Zeit i (Spitzen­ wert) darstellt. W(0) sind die Wellenformdaten, die jede Blockperiode an der Mitte der Wellenformgrenze sind. Der Autokorrelationskoeffizient Φ nimmt die Werte in dem Bereich von -1 bis +1 an. Wenn der Autokorrelationskoeffizient Φ einen Wert nahe 1 annimmt, wird die Wellenform beurteilt, periodisch zu sein. Wenn der Autokorrelations­ koeffizient Φ einen Wert geringer als 0,7 bis 0,5 annimmt, kann die Wellenform beurteilt werden, aperiodisch zu sein.
Weiterhin ist die Methode zum Erhalten der Impulsantwort-Wellenform­ daten aus den Daten periodischer Wellenform im einzelnen in der Beschreibung über den homomorphen Vocoder in dem Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki) dargestellt.
Das Sprach-Analyse-Synthesesystem kann derart realisiert werden, daß die Ein-Perioden-Wellenformdaten 406 und die Daten 407 aperiodischer Wellenform, die in der Extraktionseinheit für periodische Wellenform/ aperiodische Wellenform erhalten wurden, die unter Bezugnahme auf Fig. 4 beschrieben ist, und die Teilungsperiode 400, die unter Bezugnahme auf Fig. 5 beschrieben wurde, in dem Analyse-Synthesesystem (Fig. 1A) der Impulsantwort-Wellenform-Speichereinheit 101 und der Speichereinheit 120 für aperiodische Wellenform des Sprachsynthesesystems durch eine Regel (Fig. 2 und 3) bzw. der Perioden-Speichereinheit 110 aufgezeichnet werden. Insbesondere wenn die Zeitverzögerung zwischen der Sprach­ analyseverarbeitung und der Sprachsyntheseverarbeitung nicht vorhanden ist, wie es in den Fig. 1A, 2 und 3 gezeigt ist, kann die Sprachsynthese­ funktion derart realisiert werden, daß die Wellenformdaten direkt zu der Überlappungsadditionseinheit 102 und der Einheit 103 für einfache Addition eingegeben werden, ohne die Impulsantwort-Wellenform-Spei­ chereinheit 101, die Speichereinheit 120 für aperiodische Wellenform und die Periodenspeichereinheit 110 vorzubereiten.
Fig. 6A bis 6C sind jeweils Wellenformdiagramme, die experimentell erhalten wurden. Daraus zeigt Fig. 6A eine Wellenform des eingegebe­ nen Sprachsignals 401, das in Fig. 4 gezeigt ist, und enthält die Kom­ ponenten des gesamten Bandes. Die Fig. 6B zeigt die aperiodische Wellenform, die in der Speichereinheit 120 für aperiodische Wellenform gespeichert ist, die in Fig. 1A gezeigt ist, oder die aperiodische Wellen­ form 407, die in den Fig. 4 und 5 gezeigt ist. Das bedeutet, daß die aperiodische Wellenform 407 den in der Fig. 1D gezeigten Wellenform­ daten entspricht. Da jene aperiodische Wellenform die Wellenform hoher Frequenz der synthetisierten Sprache der vorliegenden Erfindung ist und die Komponente aperiodischer Wellenform des eingegebenen Sprachsignals 401, das in Fig. 6A gezeigt ist, getreu rekonstruiert, ergibt die rekonstruierte Sprache ein gutes Hörgefühl, verglichen mit der Wel­ lenform hoher Frequenz der synthetisierten Sprache durch die Null-Phasen-Einstellmethode nach dem Stand der Technik, die in Fig. 6C gezeigt ist, in der dargestellt ist, daß die aperiodische Komponente der Wellenform verarbeitet ist, als ob sie eine periodische Komponente ist. Es ist selbstverständlich, daß diese Sprachsynthese nicht auf die natürli­ che Stimme beschränkt ist und auf ähnliche Weise auf die Klänge von Musikinstrumenten und dergleichen anwendbar ist.

Claims (9)

1. Sprachsynthesizer zum Synthetisieren von Sprache durch Überlappen eines partiellen Sprachwellenformsignals zu vorbestimmten Perioden, welcher aufweist:
eine erste Wellenformspeicherungseinrichtung (101) zum Speichern einer Ein-Perioden-Wellenformsignalkomponente in dem Sprach­ wellenformsignal;
eine zweite Wellenformspeicherungseinrichtung (120) zum Speichern eines aperiodischen Wellenformsignals, das aus einer hohen Fre­ quenzkomponente gebildet ist, die sich von der Ein-Perioden-Wellen­ formsignalkomponente unterscheidet; und
eine Einrichtung (102, 103) zum Generieren eines Sequentiell-Peri­ oden-Wellenformsignals durch Verschieben des Ein-Perioden-Wellen­ formsignals, das aus der ersten Wellenformspeicherungseinrichtung in jeder vorbestimmten Periode ausgelesen worden ist, und durch synchrones Überlagern des Sequentiell-Perioden-Wellenformsignals und des aperiodischen Wellenformsignals, das aus der zweiten Wel­ lenformspeicherungseinheit ausgelesen worden ist.
2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenformsi­ gnals eine Überlappungsadditionseinheit (102) zum Generieren eines Sequentiell-Perioden-Wellenformsignals durch Verschieben des Ein- Perioden-Wellenformsignals aufweist, das aus der ersten Wellenform­ speicherungseinrichtung (101) in der vorbestimmten Periode ausgele­ sen worden ist, und eine einfache Additionseinheit (103) zum Über­ lagern des Sequentiell-Perioden-Wellenformsignals und des aperiodi­ schen Wellenformsignals aufweist, das aus der zweiten Wellenspeiche­ rungseinrichtung (120) ausgelesen worden ist.
3. Sprachsynthesizer nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenform­ signals eine Periodenspeicherungseinheit (110) zum Speichern von Periodendaten zum Bestimmen einer Periode des Sequentiell-Peri­ oden-Wellenformsignals aufweist.
4. Sprachsynthesizer nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenformsi­ gnals eine Perioden-Erzeugungseinheit (210) zum Bilden einer Perio­ de des Sequentiell-Perioden-Wellenformsignals aufweist.
5. Sprachsynthesizer nach Anspruch 4, dadurch gekennzeichnet, daß die Perioden-Erzeugungseinheit (210) mit einer Pegel-Steuereinheit (211) zum Steuern eines Spitzenwertes des aperiodischen Wellenformsignals verbunden ist, das aus der zweiten Wellenspeicherungseinrichtung (120) ausgelesen worden ist.
6. Sprachsynthesizer nach Anspruch 5, dadurch gekennzeichnet, daß die Pegel-Steuereinheit (211) den Spitzenwert bestimmt, der eine positive Korrelation zu der Periode hat, die aus der Perioden-Erzeugungsein­ heit (210) ausgelesen worden ist.
7. Sprachsynthesizer nach Anspruch 1 mit einem Sprachanalysator, dadurch gekennzeichnet, daß die erste Wellenformspeicherungsein­ richtung (101) und die zweite Wellenformspeicherungseinrichtung (120) aufweisen:
einen A/D-Wandler (402) zum Wandeln des Sprachwellenformsignals in ein Digitalsignal;
einen Pufferspeicher (403) zum Speichern des Digitalsignals; und
eine Trenneinheit (405) zum Trennen des Digitalsignals in ein perio­ disches Wellenformsignal und in ein aperiodisches Wellenformsignal.
8. Sprachsynthesizer nach Anspruch 7, dadurch gekennzeichnet, daß die Trenneinheit (405) aufweist:
eine Blockabschneideeinheit (501) zum Wandeln des Sprachwellen­ formsignals in Blockdaten, die durch Wellenformdaten kurzer Zeit konstruiert sind,
eine Bandteilungseinheit (502) zum Teilen der Blockdaten in ein Band von Wellenformdaten niedriger Frequenz und ein Band von Wellenformdaten hoher Frequenz,
eine Teilungsextraktionseinheit (503) zum Erhalten einer Teilungs­ periode aus den Wellenformdaten niedriger Frequenz,
eine Periodizitätsbeurteilungseinheit (504) zum Beurteilen der Perio­ dizität der Wellenformdaten hoher Frequenz, eine Wellenformedi­ tiereinheit (505) zum Editieren der Blockdaten in Daten periodischer Wellenform und Daten aperiodischer Wellenform in Übereinstim­ mung mit dem Ergebnis der Beurteilung der Periodizität,
eine Impulsantwort-Wellenform-Erzeugungseinheit (506) zum Erhalten von Wellenformdaten der Impulsantwort aus den Daten periodischer Wellenform, und
eine Rechteckfenster-Multipliziereinheit (507) zum Erhalten von Daten aperiodischer Wellenform eines Blockintervalls aus den Daten aperiodischer Wellenform.
9. Sprachsynthesizer nach Anspruch 8, wobei die Teilungsextraktionsein­ heit (503), die Impulsantwort-Wellenform-Erzeugungseinheit (506) und die Rechteckfenster-Multipliziereinheit (507) jeweils mit nichtflüchti­ gen Speichern (500) verbunden sind, und die Teilungsperiodendaten aus der Teilungsextraktionseinheit (503), die Impulsantwortwellenform aus der Impulsantwort-Wellenform-Erzeugungseinheit (506) und die Daten aperiodischer Wellenform aus der Rechteckfenster-Multiplizier­ einheit (507) jeweils in den Speichern (500) gespeichert sind.
DE4218623A 1991-06-05 1992-06-05 Sprachsynthesizer Expired - Fee Related DE4218623C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13402291A JP3278863B2 (ja) 1991-06-05 1991-06-05 音声合成装置

Publications (2)

Publication Number Publication Date
DE4218623A1 DE4218623A1 (de) 1992-12-10
DE4218623C2 true DE4218623C2 (de) 1996-07-04

Family

ID=15118553

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4218623A Expired - Fee Related DE4218623C2 (de) 1991-06-05 1992-06-05 Sprachsynthesizer

Country Status (3)

Country Link
US (1) US5369730A (de)
JP (1) JP3278863B2 (de)
DE (1) DE4218623C2 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
DE69736279T2 (de) * 1996-11-11 2006-12-07 Matsushita Electric Industrial Co., Ltd., Kadoma Tonwiedergabe-geschwindigkeitsumwandler
JP3644263B2 (ja) * 1998-07-31 2005-04-27 ヤマハ株式会社 波形形成装置及び方法
US6298322B1 (en) 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP2000330599A (ja) * 1999-05-21 2000-11-30 Sony Corp 信号処理方法及び装置、並びに情報提供媒体
JP5159325B2 (ja) * 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US9741343B1 (en) * 2013-12-19 2017-08-22 Amazon Technologies, Inc. Voice interaction application selection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3872250A (en) * 1973-02-28 1975-03-18 David C Coulter Method and system for speech compression
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4163120A (en) * 1978-04-06 1979-07-31 Bell Telephone Laboratories, Incorporated Voice synthesizer
JP2590997B2 (ja) * 1987-12-29 1997-03-19 日本電気株式会社 音声合成装置

Also Published As

Publication number Publication date
US5369730A (en) 1994-11-29
JP3278863B2 (ja) 2002-04-30
JPH04358200A (ja) 1992-12-11
DE4218623A1 (de) 1992-12-10

Similar Documents

Publication Publication Date Title
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE3486280T2 (de) Vorrichtung zur Erzeugung von Musiktönen vom Wellenformauslesespeichertyp.
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE2818204C2 (de) Signalverarbeitungsanlage zur Ableitung eines störverringerten Ausgangssignals
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69607223T2 (de) Verfahren zur Tonhöhenerkennung, insbesondere für Zupf- oder Perkussionsinstrumente
DE69521405T2 (de) System zum Abspielen mit veränderbarer Geschwindigkeit
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE4218623C2 (de) Sprachsynthesizer
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE2622423B2 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE68923771T2 (de) Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung.
DE3226538C2 (de) LSP-Stimmsynthetisierer
DE69703233T2 (de) Verfahren und Systeme zur Sprachkodierung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee