DE69028072T2

DE69028072T2 - Verfahren und Einrichtung zur Sprachsynthese

Info

Publication number: DE69028072T2
Application number: DE69028072T
Authority: DE
Inventors: Takashi Aso; Takeshi Fujita; Katsuhiko Kawasaki; Tetsuo Kosaka; Yasunori Ohora; Atsushi Sakurai; Junichi Tamura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-11-06
Filing date: 1990-11-05
Publication date: 1997-01-09
Anticipated expiration: 2010-11-06
Also published as: EP0427485A3; EP0427485B1; EP0427485A2; DE69028072D1; US5220629A

Description

ALLGEMEINER STAND DER Technik

Gebiet der Erfindung

Die vorliegende Erfindung betrifft eine Einrichtung zur Sprachsynthese nach Regeln und ein Verfahren zum Ausführen der Sprachsynthese durch Verbinden von Parametern für Sprachseginente nach Regeln.

Zum Stand der Technik

Eineeinrichtung zur Sprachsynthese nach Regeln ist verfügbar als eine Einrichtung zur Spracherzeugung aus Zeichenzugdaten. Ein Merkmalsparameter (beispielsweise LPC, PARCOR, LSP oder Mel-Kepstrum werden nachstehend als Parameter bezeichnet) eines Sprachsegments, das in einer Sprachsegmentablage gemäß Zeichenzugdaten abgelegt ist, wird ausgelesen und mit einem Treiberklangquellensignal zusammengesetzt (d.h., ein Impulszug in einer stimmhaften Sprachperiode und Rauschen in einer stimmlosen Sprachperiode) entsprechend einer Bemessung zur Erzeugung künstlicher Sprache. Ein Zusammensetzergebnis wird an einen Sprachsynthesizer geliefert, um künstlicher Sprache zu erzeugen. Zu den Sprachsegmenten gehören allgemein ein CV- (Konsonant-Vokal) - Segment, ein VCV (Vokal- Konsonant- Vokal)- Segment und ein CVC- (Konsonant-Vokal-Konsonant)-Segment.
Um Sprachsegmente zu synthetisieren, müssen Parameter interpoliert werden. Selbst bei Interpolation, die ausgeführt wird, wenn sich ein Parameter abrupt ändert, werden Sprachsegmente einfach durch eine Linie in einer Interpolationsperiode entsprechend einer herkömmlichen Technik verbunden, so daß den Sprachsegmenten innewohnende spektrale Information verlorengeht, und die sich ergebende Sprache kann Veränderungen erfahren. In der herkömmlichen Technik wird ein als ein Wort oder ein Satz geäußerter Abschnitt von Sprache als eine Periode ausgelesen und als Sprachsegment verwendet.
Abhängig von Stimmungen, in denen menschliche Sprache als Sprachsegmente verwendet wird, ändert sich aus diesem Grund die Sprachleistungen erheblich, und zwischen den verbundenen Sprachsegmenten wird ein Abstand gebildet. Im Ergebnis klingt die synthetisierte Sprache fremd.
Ein herkömmliches Verfahren, bei dem zu verbindende Sprachsegmente gemäß einer Mora- Länge durch die Aussprechgeschwindigkeit einer synthetisierten Sprache geändert wird, wird ein Vokal, ein Konsonant und ein übergangsabschnitt zwischen Vokal und Konsonant nicht als getrennt angesehen, und die Ganzheit der Sprachsegmentdaten wird mit einer einheitlichen Rate gedehnt/komprimiert.
Wenn jedoch Parameter in einfacher Weise gedehnt/reduziert werden und zur Übereinstimmung mit einer Silbentonlagen- Überlagerungspunkt verbunden werden, werden Vokale, deren Länge zur Änderung mit einer Aussprechgeschwindigkeit tendieren, Phoneme /S/ und /F/ und Knallphoneme /P/ und /T/ einheitlich gedehnt/reduziert, ohne diese voneinander zu unterscheiden. Die sich ergebende synthetisierte Sprache ist unklar und kann nicht leicht verstanden werden.
Die Längen Japanischer Silben sind fast nicht voneinander unterschieden. Beim Zusammenzusetzen von Sprachsegmenten werden Parameter zu einheitlichen Silbentonlagen-Überlagerungspunkten interpoliert, und der sich ergebende synthetisierte Sprachrhythmus ist unnatürlich.
Ein Vokal kann stimmlos sein, abhängig von vorangehender oder nachfolgender Phonemluft. Wenn beispielsweise ein Wort "issiki" erzeugt wird, wird der Vokal "i" zwischen "s" und "k" stimmlos. Dies kann durch Regelsynthese mit einer herkömmlichen Technik erreicht werden, so daß bei einem zu synthetisierenden Vokal /i/ der Silbe "shi" das Treiberklangquellensignal in Rauschen geändert wird, um einen stimmlosen Laut von einem Impulszug zur Synthetisierung eines stimmhaften Lauts ohne Änderung der Parameter zu erreichen, wodurch ein stimmloser Laut erzeugt wird.
Der Merkmalsparameter des stimmhaften, durch eine Impulsklangquelle zu synthetisierenden Lauts wird durch eine Rauschklangquelle forciert synthetisiert, und die synthetisierte Sprache wird unnatürlich.
Wenn beispielsweise eine Regelsyntheseinrichtung unter Verwendung eines VCV- Segments als Sprachsegment sechs Vokale aufweist und 25 Konsonanten, müssen 900 Sprachsegmente vorbereitet werden, und eine große Kapazität ist erforderlich. Im Ergebnis wird die Einrichtung sperrig.
Es gibt drei Arten von Betonungen, d.h. solche, bei denen die Hauptbetonung am Anfang oder in der Mitte liegt, und den flachen Betonungstyp. Beispielsweise hat jede der Betonungsarten mit stärkster Betonung am Anfang und stärkster Betonung in der Mitte drei Magnituden, und die Betonungsart des flachen Typs hat zwei Magnituden. Die Betonung entsprechend dem eingegebenen Text wird lediglich durch ein Maximum von drei Magnituden festgelegt, die die Betonungsart festlegen. In der Betonungsinformation ist ein Wörterbuch vorgespeichert.
In einer herkömmlichen Technik kann die Betonungsart nicht zur Zeit der Texteingabe verändert werden, und eine gewünschte Betonung ist schwer abzugeben.
Eine herkömmliche Anordnung ohne Wörterbuch der Betonungsinformation entsprechend dem eingegebenen Text zur Eingabe des Textes gemeinsam mit der Betonungsinformation ist verfügbar. Jedoch erfordert diese Anordnung schwierige Operationen. Es ist nicht leicht, das Ansteigen und Abfallen der Betonung durch Beobachtung lediglich des eingegebenen Textes zu verstehen. Betonungen einer Sprache, die sich von der des Japanischen unterscheiden, treffen mit Japanischen Betonungsarten zusammen und sind schwierig zu erzeugen.
Die Schrift DE-A-1922170 offenbart eine Sprachsyntheseeinrichtung einschließlich Mitteln zur Speicherung einer Vielzahl von Segmenten mit Vokal-Konsonant-Vokal- Information, die Parameter- und Klangquelleninformation einschließt. Die Klangquelleninformation besteht aus derartiger Information, wie beispielsweise Regeln betreffs derartiger sprachlicher Merkmale, die die Phoneme auf Betonungen beeinflussen oder Mittel zur Umsetzung eines männlichen Sprachmusters in ein weibliches Sprachmuster.
Japan Telecommunications Review, Band 23, Nr. 4, Oktober 1981, Seiten 383-380, Tokyo, Y Imai et al, "Shared Audio Information System Using New Audio Response Unit" offenbart eine Sprachanalyse- Synthesetechnik, bei der ein eingegebenes Sprachmuster in eine Phonemdehnung gewandelt wird und dann in Vokal- Konsonant- Vokal- Einheiten geteilt wird.
Speech Communication, Band 7, Nr. 1, März 1988, Seiten 55 bis 65, veröffentlicht von Elsevier Science Publisheres BV, Amsterdam, Niederlande, D O'Shaughnessy et al: "Diphone Speech Synthesis" offenbart ein Text- zu- Sprache- Wandlersystem, das an diphtonischen Grenzen eine einfache Interpolation durchführt.

ZUSAMMENFASSUNG DER ERFINDUNG

Das Hauptanliegen der vorliegenden Erfindung, wie es in den anliegenden Patentansprüchen angegeben ist, ist das Normieren einer Leistung eines Sprachsegments unter Verwendung eines Durchschnittswertes der Leistung von Vokalen der Sprachsegmente als Bezug zur Sicherstellung der Stetigkeit zur Zeit der Zusammensetzung der Sprachsegmente, wodurch eine geglättete synthetisierte Sprache entsteht. Diese Aufgabe wird in allen beschriebenen Ausführungsbeispielen angewandt. Darüber hinaus sind weiterbildungen dieser grundlegenden Erfindung beschrieben und können folgende Gegenstände umfassen: es ist eine weitere Aufgabe, eine Leistung eines Sprachsegments durch Einstellen eines Durchschnittswertes der Leistungen der Vokale gemäß einer Leistungskennlinie eines Wortes oder Satzes zu normieren, wodurch künstliche Sprache erzeugt wird, bei der Betonungen und dergleichen von Wörtern oder Sätzen natürlicher und geglätteter erzeugt werden.
Eine weitere Aufgabe besteht darin, die Länge eines Vokals von einer Mora- Länge zu bestimmen, die gemäß einer Aussprechgeschwindigkeit geändert ist, um so einer Phonemeigenschaft zu entsprechen, wodurch die Längen der Übergangsabschnitte von einem Vokal zu einem Konsonaten und von einem Konsonaten zu einem Vokal unter Verwendung der verbleibenden Konsonanten und Vokale gewonnen werden, und Verbinden der Sprachsegmente, wodurch künstliche Sprache erzeugt wird mit einer guten ausgeglichen Länge zwischen Phonemen, selbst wenn sich die Sprechgeschwindigkeit der synthetisierten Sprache ändert.
Eine weitere Aufgabe besteht darin, Sprachsegmente zu dehnen/reduzieren und mit einer Dehnungs- /Reduktionsrate eines Parameters entsprechend der Art des Sprachsegments zu verbinden, wodurch hochqualitative Sprache ähnlich der menschlichen Aussprache erzielt wird.
Es ist eine weitere Aufgabe, Sprache unter Verwendung eines exponentiellen Nährungsfilters und eines basischen Filters einer orthogonalen Normierungsfunktion mit einem größeren Informationsumfang in einem niederfrequenten Spektrum zu synthetisieren, wodurch Sprache erzeugt wird, die leicht zu verstehen ist, um so für menschliche Höherempfingung geeignet zu sein.
Ein noch andere Aufgabe besteht darin, ein relatives Zeitintervall beim Beginn eines Vokals gemäß der Sprechgeschwindigkeit konstant zu halten, wodurch Sprache erzeugt wird, die für den Japanischen Aussprechzeitablauf geeignet ist.
Eine noch andere Aufgabe besteht darin, eine Dehnungs- /Reduktionsrate eines Parameters in Übereinstimmung damit zu ändern, ob die Länge des Sprachsegments entsprechend einer Änderung der Sprechgeschwindigkeit zur Änderung neigt, wodurch eine klare hochqualitative Sprache gewonnen wird.
Eine noch andere Aufgabe besteht darin, Sprache zu synthetisieren, indem ein Konsonantparameter unmittelbar vor einem Vokal verwendet wird, der in einen stimmlosen Laut umzusetzen ist, und eine Rauschlautquelle als Klangquelle zur Sprachsynthetisierung verwendet wird, wenn der Vokal in einen stimmlosen Laut umzusetzen ist, wodurch ein natürlicherer stimmloser Vokal erzeugt wird.
Eine noch andere Aufgabe besteht darin, den Speicherbetrag von gewonnenen Sprachsegmenten weitestgehend so zu reduzieren, daß ein Sprachsegment invertiert und auf einer Zeitachse verbunden wird, um die Ergebnisse als eine Vielzahl von Sprachsegmenten zu verwenden, wodurch eine die Regelsynthese realisierende kompakte Einrichtung geschaffen wird.
Eine andere Aufgabe besteht darin, eine Zeitachsenwandlung auszuführen, um ein invertiertes Sprachsegment längs der Zeitachse zu verwenden, wodurch natürliche Sprache erzeugt wird.
Eine noch andere Aufgabe besteht darin, gemeinsam mit einem Text ein Steuerzeichen einzugeben, das eine Änderung der Betonung und der Äußerung und der Sprechgeschwindigkeit zur Zeit der Texteingabe darstellt, wodurch gewünschte Zustände der Betonung und der Äußerungsgeschwindigkeit leicht geändert werden.

KURZE BESCHREIBUNG DER ZEICHNUNG

Fig. 1 ist ein Blockdiagramm, das eine Grundanordnung zur Ausführung der Regelsprachsynthese zeigt;
Fig. 2 ist ein Graph, der einen Leistungsabstand in einer VCV- Segmentverbindung zeigt;
Fig. 3 ist ein Graph, der ein Verfahren zur Erzeugung eines Durchschnittsleistungswertes von Vokalen zeigt;
Figuren 4A, 4B und 4C sind Graphen, die ein Vokalleistungs- Normierungsverfahren in einem VCV- Segment zeigen;
Figuren 5A, 5B und 5C sind Graphen, die ein weiteres Vokalleistungs- Normierungsverfahren in einem VCV- Segment zeigen;
Fig. 6 ist ein Graph, der ein Normierungsverfahren eines VCV- Segmentes unter Verwendung einer quadratischen Kurve zeigt;
Fig. 7 ist ein Graph, der ein weiteres Normierungsverfahren eines VCV- Segments unter Verwendung einer quadratischen Kurve zeigt;
Fig. 8 ist ein Blockdiagramm, das ein Anordnung zur Änderung eines Vokalleistungs- Bezugswertes zur Ausführung der Leistungsnormierung zeigt;
Figuren 9A bis 9D sind Graphen, die ein Leistungsnormierungsverfahren durch Änderung eines Vokalleistungs- Bezugswertes zeigen;
Fig. 10 ist ein Blockdiagramm, das eine Anordnung zeigt, mit der zuerst die Bestimmung einer Vokallänge erfolgt, wenn eine Mora- Länge zu ändern ist;
Fig. 11 ist ein Ansicht, die eine Mora- Länge zeigt, eine Vokalperiode und eine Konsonantenperiode in einer Sprachwellenform;
Fig. 12 ist ein Graph, der eine Beziehung zwischen einer Mora- Länge, einer Vokalperiode und einer Konsonantenperiode zeigt;
Fig. 13 ist eine Ansicht, die ein Verbindungsverfahren durch Feststellung einer Vokallänge zeigt, wenn zunächst die Mora- Länge zu ändern ist;
Fig. 14 ist ein Blockdiagramm, das eine Anordnung zur Ausführung der Sprachsynthese mit einer Dehnungs- /Reduktionsrate entsprechend der Art der Phoneme zeigt;
Fig. 15 ist ein Blockdiagramm, das einen Digitalfilter 5 aus Fig. 14 zeigt;
Fig. 16 ist ein Blockdiagramm, das das erste Ausführungsbeispiel eines der Grundfilter 9 bis 12 in Fig. 15 zeigt;
Fig. 17 ist eine Ansicht, die Kurven zeigt, die durch separates Ausdrucken von Real- und Imaginärteilen einer Fourierfunktion gewonnen werden;
Fig. 18 ist ein Blockdiagramm, das die Anordnung zur Verbindung von Sprachsegmenten zeigt;
Fig. 19 ist eine Ansicht, die eine Dehnungs/Reduktionsverbindung von Sprachsegmenten zeigt;
Fig. 20 ist eine Ansicht zur Erläuterung einer Dehnung/Reduktion von Parametern;
Fig. 21 ist eine Ansicht zur weiteren Erläuterung von Dehnungs- /Reduktions- Parameteroperationen;
Fig. 22 ist eine Ansicht zur Erläuterung von Operationen zur Verbindung von Parameter- und Kennzeicheninformation;
Fig. 23 ist ein Blockdiagramm, das das zweite Ausführungsbeispiel der Grundfilter 9 bis 12 in Fig. 15 zeigt;
Fig. 24 ist eine Ansicht, die Kurven zeigt, die durch getrenntes Ausdrucken der Real- und Imaginärteile einer orthogonalen Normierungsfunktion zeigt;
Fig. 25A ist eine Ansicht, die eine Sprachwellenform zeigt;
Fig. 25B ist eine Ansicht, die eine Originalparameterfolge zeigt;
Fig. 25C ist eine Ansicht, die eine Parameterreihe zur Erzeugung eines stimmlosen Vokals aus der in Fig. 25B dargestellten Parameterfolge zeigt;
Fig. 25D ist eine Ansicht, die die Wellenform eines stimmlosen Lauts zeigt;
Fig. 25E ist eine Ansicht, die eine Leistungssteuerfunktion zeigt;
Fig. 25F ist eine Ansicht, die eine leistungsgesteuerte Sprachwellenform zeigt;
Figuren 26A und 26B sind Ansichten, die eine Anderung der Sprachwellenform zeigen, wenn ein stimmioser Vokal in einem VCV- Segment anwesend ist;
Figuren 27A und 27B sind Ansichten, die eine Operation unter Verwendung eines gespeicherten Sprachsegments in einer entlang einer Zeitachse invertierten Form zeigen;
Fig. 28 ist ein Blockdiagramm, das eine Anordnung zeigt, bei der ein gespeichertes Sprachsegment zeitinvertiert verwendet wird;
Fig. 29 ist ein Blockdiagramm, das eine Anordnung zur Ausführung der Sprachsynthese von Fig. 28 unter Verwendung eines Mikroprozessors zeigt;
Fig. 30 ist eine Ansicht, die ein Konzept zur Zeitinvertierung und Verwendung eines Sprachsegments zeigt;
Fig. 31 ist ein Blockdiagramm, das eine Anordnung zur Eingabe eines Sprachsynthese- Leistungssteuersignals und eines Textes zur Zeit der Texteingabe zeigt;
Fig. 32 ist ein Blockdiagramm, das eine detaillierte Anordnung eines Textanalysators gemäß Fig. 31 zeigt;
Fig. 33 ist ein Arbeitsablaufplan zur Einstellung der Betonung;
Fig. 34 ist ein Arbeitsablaufplan zur Einstellung einer Sprechgeschwindigkeit (Mora- Länge); und
Fig. 35 ist eine Ansicht, die eine Sprachsyntheseleistung und einen eingegebenen Text zeigt, dem ein Leistungssteuersignal hinzugefügt ist.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE

< Interpolation durch Normierung von Sprachsegmenten >

Fig. 1 ist ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels zur Interpolation eines Vokalabstandes zwischen Sprachsegmentdaten durch Normierung einer Leistung der Sprachsegmentdaten, wenn die Sprachsegmentdaten miteinander verbunden sind. Eine Anordnung dieses Ausführungsbeispiels umfaßt ein Texteingabemittel 1 zur Eingabe von zu synthetisierenden Wörtern oder Sätzen, einen Textanalysator 2 zur Analyse eines eingegebenen Textes und zur Entmischung des Textes in eine Phonemfolge und zur Analyse eines Steuercodes (d. h., ein Code zur Steuerung der Betonungsinformation und der Sprechgeschwindigkeit), der in dem eingegebenen Text enthalten ist, einen Parameterleser 3 zum Lesen erforderlicher Sprachsegmentparameter aus Phonemfolgeinformationen des Textes aus dem Textanalysator 2 und eine VCV- Parameterablage zur Speicherung von VCV- Sprachsegmenten und deren Sprachleistungsinformation. Die Anordnung dieses Ausführungsbeispiels enthält auch einen Tonlagengenerator 5 zur Tonlagenerzeugung aus der Steuerinformation des Textanalysators 2, einen Leistungsnormierer 6 zur Normierung von Leistungen der von dem Parameterleser 5 gelesenen Sprachsegmente, einen Leistungsnormierungs- Datenspeicher 7 zur Speicherung einer Bezugsleistung, die in dem Leistungsnormierer 6 verwendet wird, einen Parameterverbinder 8 zur Verbindung leistungsnormierter Sprachsegmentedaten, einen Sprachsynthetisierer 9 zur Bildung einer Sprachwellenform aus den verbundenen Parameterfolgen und der Tonlageninformation und ein Ausgabemittel 10 zur Abgabe der Sprachwellenform.
Um in diesem Ausführungsbeispiel eine Leistung zu normieren, die eine Durchschnittsvokalleistung als einen Bezug verwendet, wenn Sprachsegmente zu verbinden sind, wird vorher ein Standardleistungswert zur Normierung der Leistung gewonnen und muß in dem Leistungsnormierung- Datenspeicher 7 gespeichert werden; ein Verfahren zur Erzeugung und Speicherung des Bezugswertes wird nachstehend beschrieben. Fig. 3 ist eine Ansicht, die ein Verfahren zur Erzeugung einer durchschnittlichen Vokalleistung zeigt. Eine konstante Periode V' eines Vokales V wird gemäß einer Änderung seiner Leistung ausgelesen, und ein Merkmalsparameter {bij} (1 ≤ i ≤ n, 1 ≤ j ≤ k) wird erzeugt. In diesem Falle ist k eine Analysereihenfolge und n ist ein Bildzählwert in der konstanten Periode V'. Ausdrücke, die Stücke der Leistungsinformation darstellen, werden aus den Merkmalsparametern {bij} (d.h., Ausdrücke erster Ordnung der Mel- Kepstrum- Kooffizienten) ausgewählt und werden addiert und längs einer Zeitachse (i-Richtung) gemittelt, um einen Durchschnittswert der Leistungsausdrücke zu erzeugen. Die obigen Operationen werden für jeden Vokal ausgeführt (erforderlichenfalls wird selbst von einer Silbe eine Durchschnittsleistung erzeugt), und es wird eine Durchschnittsleistung eines jeden Vokals erzeugt und in dem Leistungsnormierungs- Datenspeicher 7 gespeichert.
Operationen werden in übereinstimmung mit einem Datenstrom beschrieben. Ein zu analysierender Text wird von den Texteingabemitteln 1 eingegeben. Es wird angenommen, daß ein Steuercode zur Steuerung der Betonung und der Sprechgeschwindigkeit in ein Zeichen eingefügt ist, wie beispielsweise in ein Roman- Zeichen oder ein Kana- Zeichen. Wenn jedoch ein Sprachausgangssignal eines Satzes bestehend aus Kanji und Kana- Zeichen, die auszugeben sind, wird ein Sprachanalysator mit dem Eingang des Texteingabemittels verbunden, um einen eingegebenen Satz in einen Satz zu wandeln, der aus Kanji- und Kana- Zeichen besteht.
Der von Texteingabemittel 1 eingegebene Text wird von dem Textanalysator 2 analysiert und in Leseform entmischt (d.h., Phonemfolgen- Information) und Information (Steuerinformation), die eine Betonungsposition und eine Erzeugungsgeschwindigkeit darstellt. Die Phonemfolgen- Information wird in den Parameterleser 3 eingegeben, und ein ausgewählter Sprachsegmentparameter wird aus der VCV- Parameterablage 4 gelesen. Der der von dem Parameterleser 3 abgegebene Sprachsegmentparameter wird durch den Leistungsnormierer 6 leistungsnormiert.
Figuren 4A und 4B sind Graphen zur Erläuterung eines Verfahrens der Normierung einer Vokalleistung in einem VCV- Segment. Fig. 4A zeigt eine Änderung der Leistung in dem VCV- Datum, das von der Datenbasis ausgelesen wurde, Fig. 4B zeigt eine Leistungsnormierungsfunktion, und Fig. 4C zeigt eine Änderung der Leistung in dem VCV- Datum, das unter Verwendung der Normierungsfunktion, dargestellt in Fig. 4B, normiert worden ist. Das VCV- Datum, das aus der Datenbasis ausgelesen worden ist, hat Variationen in seiner Leistung beim gleichen Vokal, abhängig von der Lufterzeugung. Wie in Fig. 4A dargestellt, sind an beiden Enden des VCV- Datums Abstände zwischen Durchschnittsleistungen des in dem Leistungsnormierungs- Datenspeicher 7 gebildet. Die Abstände (βx und βy) an beiden Enden des VCV- Datums werden gemessen, um eine Zeile zur Beseitung der Abstände an beiden Enden zu erzeugen, um eine Normierungsfunktion zu gewinnen. Genauer gesagt, werden die in Fig. 4B dargestellten Abstände (βx und βy) an beiden Enden durch eine Linie zwischen dem VCV- Datum verbunden, um eine Leistungsnormierungsfunktion zu erzeugen.
Die in Fig. 4B erzeugte Normierungsfunktion wird an Originaldaten in Fig. 4A angelegt, und es wird eine Justage ausgeführt, um die Leistungsabstände zu beseitigen, wodurch das in Fig. 4C dargestellte normierte VCV- Datum gewonnen wird. In diesem Fall kann ein Parameter (d. h., ein Mel- Kepstrum- Parameter) als ein logarithinischer Wert durch eine Addition oder eine Subtraktion justiert werden. Die in Fig. 4B dargestellte Normierungsfunktion wird addiert oder subtrahiert zu oder von den in Fig. 4B dargestellten Originaldaten. Die in Fig. 4B dargestellte Normierungsfunktion wird zu oder von den in Fig. 4A dargestellten Originaldaten addiert bzw. subtrahiert, wodurch die Originaldaten einfach normiert werden. Die Figuren 4A bis 4C zeigen die Normierung unter Verwendung eines Mel- Kepstrum- Parameters zum Zwecke der Vereinfachung.
In dem Parameterverbinder 8 sind die VCV- Daten leistungsnormiert durch den Leistungsnormierer 6 so lokalisiert, daß die Mora- Längen zu gleichen Abständen angeordnet sind, und die konstante Periode des Vokals wird interpoliert, wodurch eine Parameterfolge erzeugt wird.
Der Betonungsgenerator 5 erzeugt eine Betonungsfolge gemäß der Steuerinformation aus dem Textanalysator 2. Eine Sprachwellenform wird von dem Synthesizer 9 erzeugt, der die Betonungsfolgen und die Parameterfolgen verwendet, die aus dem Parameterverbinder 8 gewonnen worden. Der Synthesizer 9 ist mit einem Digitalfilter aufgebaut. Die erzeugte Sprachwellenform wird vom Ausgabemittel 10 abgegeben.
Dieses Ausführungsbeispiel kann durch ein Programm in einer CPU (Zentraleinheit) gesteuert werden.
In der obigen Beschreibung ist für eine VCV- Datenperiode als eine Normierungsfunktion in dem Leistungsnormierer 6 eine gerade Linie angegeben. Gemäß dieser Technik wird jedoch ein C- (Konsonant)-Abschnitt ebenfalls durch die Normierung beeinflußt, und dessen Leistung wird geändert. Lediglich Vokale werden nach dem nachstehenden Verfahren normiert.
In gleicher Weise wie bei der Normierung eines VCV- Datums als ein Ganzes wird eine Durchschnittsleistung eines jeden Vokals erzeugt und in dem Leistungsnormierungs- Datenspeicher 7 gespeichert. Daten, die Marken an Grenzen zwischen den V (Vokalen) und C (Konsonaten) in dem VCV- Datum darstellen und zur Verbindung verwendet werden, sind ebenfalls in dem Speicher gespeichert.
Die Figuren 5A, 5B und 5C sind Graphen zur Erläuterung der Normierung lediglich von Vokalen in VCV- Daten. Fig. 5A zeigt eine Änderung der Leistung der VCV- Daten, die aus einer Datenbasis ausgelesen wurden, Fig. 5B zeigt eine Leistungsnormierungs- Funktion zur Normierung einer Leistung eines Vokals, und Fig. 5C zeigt eine Änderung der Leistung der VCV- Daten, die durch die Normierungsfunktion normiert sind.
In gleicher Weise wie bei der Normierung von VCV- Daten als Ganzes werden Abstände (βx und βy) zwischen beiden Enden der VCV- Daten und der Durchschnittsleistung eines jeden Vokals gemessen. Um für einen Abstand βx den Abstand in dem vorhergehenden V des VCV- Datums zu beseitigen, wird eine Linie, die durch Verbindung von βx und βx0 in einer Periode A in Fig. 5A als Normierungsfunktion festgelegt. In gleicher Weise wie für βy wird eine Linie, die durch Verbinden des Abstandes βy und βy0 in einer Periode C in Fig. 5A als Leistungsnormierungsfunktion festgelegt, um den Abstand in dem Bereich des folgenden V in dem VCV- Datum zu beseitigen. Für den Konsonanten in einer Periode B wird keine Normierungsfunktion eingestellt.
Um einen Leistungswert praktisch einzustellen, werden die Leistungsnormierungsfunktionen, dargestellt in Fig. 5B, an die Originaldaten in Fig. 5A in gleicher Weise angelegt, wie bei der Normierung der VCV- Daten als ein Ganzes, wodurch das in Fig. 5C dargestellte normierte VCV- Datum erzeugt wird. Zur Zeit kann ein Parameter (d.h., ein Mel- Kepstrum- Parameter), der durch einen logarithmischen Wert angegeben wird, durch eine Addition/Subtrahtion eingestellt werden. Die in Fig. 5B dargestellten Normierungsfunktionen werden von den in Fig. 5A dargestellten Originaldaten abgezogen, um auf einfache Weise normierte Daten zu erzeugen. Figuren 5A bis 5C veranschaulichen einen Fall unter Verwendung eines Mel- Kepstrum- Parameters zum Zwecke der Vereinfachung.
Wie schon beschrieben, werden die Leistungsnormierungsfunktionen durch Beseitigung der Abstände zwischen Durchschnittsvokalleistungen und den VCV- Datenleistungen gewonnen, und die VCV- Daten werden normiert, wodurch eine natürlichere synthetisierte Sprache erzeugt wird. Die Erzeugung von Leistungsnormierungsfunktionen ist durch die obige Beschreibung zweier Fälle veranschaulicht. Jedoch kann die folgende Funktion als eine Normierungsfunktion verwendet werden.
Fig. 6 ist ein Graph, der ein Verfahren der Erzeugung einer Leistungsnormierungsfunktion zusätzlich zu den obigen beiden Normierungsfunktionen zeigt. Die Normierungsfunktion von Fig. 4B wird durch Verbindung der Abstände (βx und βy) durch eine Linie gewonnen. Jedoch wird in Fig. 6 eine quadratische Kurve festgelegt, die an beiden Enden von VCV- Daten als eine Leistungsnormierungsfunktion auf Null eingestellt wird. Die vorangehenden und nachfolgenden Interpolationsperioden der VCV- Daten werden nicht durch die Normierungsfunktion leistungsjustiert. Wenn der Gradient der Leistungsnormierungfunktion allmählich auf Null absinkt, kann eine Änderung der Leistung nach Normierung nahe einer Grenze zwischen den VCV- Daten und dem durchschnittlichen Vokalleistung in der Interpolationsperiode glatt sein.
Für diesen Falle ist das Leistungsnormierungsverfahren das gleiche wie das anhand des obigen Ausführungsbeispiels beschriebene.
Fig. 7 zeigt einen Graphen, der ein weiteres Verfahren der Erzeugung einer Leistungsnormierungsfunktion beinhaltet, die sich von den obigen drei Normierungsfunktionen unterscheidet. Während der Perioden A und C der Leistungsnormierungsfunktion in Fig. 4B wird eine quadratische Kurve mit Null- Gradient an ihren Grenzen als eine Leistungsnormierungsfunktion festgelegt. Da die vorangehenden und nachfolgenden Interpolationsperioden der VCV- Daten nicht durch die Normierungsfunktionen leistungsnormiert werden, wenn gradienten der Leistungsnormierungsfunktionen allmählich gegen Null gehen, kann eine Änderung der Leistung nach Normierung glatt an die Grenzen zwischen den VCV- Daten und den durchschnittlichen Vokalleistungen in den Interpolationsperioden gebracht werden. In diesem Falle kann die Änderung der Leistung nahe den Grenzen der VCV- Daten sanft gestaltet werden.
In diesem Falle wird das gleiche Leistungsnormierungsverfahren angewandt, wie zuvor anhand des obigen Ausführungsbeispiels beschrieben.
Bei dem obigen Verfahren hat die durchschnittliche Vokalleistung einen vorbestimmten Wert in Einheiten von Vokalen, unabhängig von Verbindungszeiten der VCV- Daten. Wenn jedoch ein Wort oder ein Satz zu synthetisieren ist, kann die durchschnittliche Vokalleistung abhängig von Positionen der VCV- Segmente eine natürlichere synthetisierte Sprache erzeugen. Wenn angenommen wird, daß eine Änderung der Leistung synchron mit einer Änderung der Tonlage auftritt, kann die durchschnittliche Vokalleistung (wird nachstehend als Bezugswert eines jeden Vokals bezeichnet) synchron mit der Tonlage gehandhabt werden. In diesem Falle wird ein ansteigendes oder ein abfallendes Verhältnis (wird nachstehend als Leistungskennlinie bezeichnet) für den Bezugswert bestimmt, abhängig von einem Tonlagenmuster, das der synthetisierten Sprache hinzuzufügen ist, und der Bezugswert wird gemäß diesem Verhältnis verändert, wodurch die Leistung eingestellt wird. Eine Anordnung dieser Technik ist in Fig. 8 dargestellt.
Schaltungskomponenten 11 bis 20 in Fig. 8 haben die gleiche Funktionen wie jene der Blöcke in Fig. 1.
Die Anordnung von Fig. 8 enthält einen Leistungsbezugsgenerator 21 zur Änderung einer Bezugsleistung des Leistungsnormierungs- Datenspeichers 17 gemäß einem Tonlagenmuster, das von dem Tonlagengenerator 15 erzeugt wird.
Die Anordnung von Fig. 8 wird durch Hinzufügen des Leistungsbezugsgenerators 21 in die Anordnung des Blockdiagramms von Fig. 1 gewonnen, und diese Schaltungskomponente wird anhand der Figuren 9A bis 9D beschrieben.
Fig. 9A zeigt eine Beziehung zwischen einer Änderung der Leistung und einem Leistungsbezugs eines jeden Vokals, wenn das VCV- Datum längs der Zeitachse gemäß einer eingegebenen Phonemsene aufgetragen wird; Fig. 9B zeigt eine Leistungskennlinie, die entsprechend einem Tonlagenmuster erzeugt wird; Fig. 9C zeigt einen Bezug zwischen dem Leistungsbezug und der Kennlinie, und Fig. 9D zeigt eine Leistung, die nach Normierung der VCV- Daten erzeugt wird.
Wenn ein Satz oder ein Wort auszusprechen ist, wird der Start des Satzes oder des Wortes mit höherer Leistung begonnen und die Leistung wird allmählich zum Ende hin herabgesetzt. Dies kann durch die Anzahl von Morae festgelegt werden, die eine Silbenzählung in dem Satz oder dem Wort repräsentieren, und die Ordnung einer Mora mit der höchsten Leistung in einer Mora- Folge. Eine Betonungsposition in einem Wort hat vorübergehend eine hohe Leistung. Folglich ist es möglich, eine Leistungskennlinie gemäß einer Mora- Zählung des Wortes anzunehmen und dessen Betonungsposition. Es wird angenommen, daß eine in Fig. 9B vorgegebene Leistungskennlinie vorgegeben ist, und daß ein Vokalbezug während einer Interpolationsperiode von Fig. 9A entsprechend dieser Leistungskennlinie korrigiert wird. Wenn ein Mel-Kepstrum-Koofizient verwendet wird, ist dessen Parameter als logarithmischer Wert vorgegeben. Wie in Fig. 9C dargestellt, ändert sich der Bezug durch Addieren des Korrekturwertes oder Subtrahieren desselben von dem Bezug. Der geänderte Bezug wird zur Normierung der Leistung der VCV- Daten von Fig. 9A verwendet, wie in Fig. 9D dargestellt. Das Normierungsverfahren ist das gleiche wie das zuvor beschriebene.
Das obige Normierungsverfahren kann gesteuert werden von einem Programm in einer CPU (Zentraleinheit).

< Dehnung/Reduktion von Sprachsegmenten mit synthetisierter Sprachsprechgeschwindigkeit >

Fig. 10 ist ein Blockschaltbild, das eine Anordnung für ein Dehn/Reduzier- Sprachsegment bei einer synthetisierten Sprach- Sprechgeschwindigkeit zeigt und zur Synthetisierung von Sprache. Diese Anordnung enthält einen Sprachsegmentleser 31, eine Sprachsegment-Datenablage 32, einen Vokallängenbestimmer 33 und einen Segmentverbinder 34.
Der Sprachsegmentleser liest Sprachsegmentdaten aus der Sprachsegment- Datenablage 32 gemäß einer eingegebenen Phonemfolge. Angemerkt sei, daß das Sprachsegmentdatum in Form eines Parameters vorgegeben wird. Der Vokallängenbestimmer 33 bestimmt die Länge eines Vokals konstanter Periode gemäß Mora- Längeninformation, die hierfür eingegeben wird. Ein Verfahren zur Bestimmung der Länge der konstanten Vokalperiode wird nachstehend anhand Fig. 11 beschrieben.
Ein VCV- Datum hat eine konstante Vokalperiodenlänge V, und eine Periodenlänge C, mit Ausnahme der konstanten Vokalperiode innerhalb einer Mora. Eine Mora- Länge M hat einen geänderten Wert entsprechend der Sprechgeschwindigkeit. Die Periodendauer V und C ändern sich entsprechend der Änderung einer Mora- Länge M. Wenn der Konsonant und der Vokal im gleichen Verhältnis abgekürzt werden, wird die Sprechgeschwindigkeit hoch. Wenn eine Mora- Länge kurz ist, ist der Konsonant kaum hörbar. Die Vokalperiode wird soweit wie möglich minimiert, und die Konsonantenperiode wird soweit wie möglich ausgedehnt. Wenn die Sprechgeschwindigkeit gering ist und die Mora- Länge groß, verursacht eine exessiv lange Periode einen unnatürlichen Klang des Konsonaten. In diesem Falle bleibt die Konsonantenperiode unverändert, und die Vokalperiode wird verändert.
Änderungen der Vokal- und Konsonantenlänge gemäß den Änderungen der Mora- Länge sind in Fig. 12 dargestellt. Die Vokallänge wird unter Verwendung einer Formel gewonnen, die die Kennlinie in Fig. 12 darstellt, um Sprache zu erzeugen, die einfach zu verstehen ist. Punkte ml und mh sind charakteristische Änderungspunkte und werden als feste Punkte vorgegeben.
Formeln zur Erlangung von V und C durch die Mora- Länge sind folgende:
(1) Wenn M < ml, dann ist V = 1 vorgegeben, und (m- 1) ist C zugeordnet.
(2) Wenn ml < M < mh, dann werden V und C geändert mit einer vorgegebenen Rate nach einer Änderung in M.
(3) Wenn mh < M, dann wird C unverändert beibehalten, und (m- C) ist V zugehörig. Die obigen Formeln werden dargestellt durch die folgende Gleichung:
V + C = M
genauer gesagt, wenn mm < M < ml, dann V = vm
wenn ml < M < MH, dann V = vm + a(M - ml)
wenn mh < M, dann V = vm + a(mh - ml) + (M - mh)
wenn mm < M < ml, dann C = (M - vm)
wenn ml < M < mh, dann C = (ml - vm) + b(M - ml)
wenn mh < M, dann C = (ml - vm) + b(mh - ml)
wobei a ein Wert ist, der der Bedingung 0 < a < 1 nach einer Änderung von V genügt,
b ein Wert ist, der der Bedingung 0 < b < 1 nach einer Änderung in C genügt,
a+b = 1, vm ist ein Minimalwert, der konstanten Vokalperiodenlänge V,
mm ist ein Minimaiwert der Mora- Länge M für vm < mm, und ml und mh sind Werte, die der Bedingung mm < ml < mh genügen.
In dem in Fig. 12 dargestellten Graphen ist die Mora- Länge längs der Abzisse aufgetragen, und die konstante Vokalperiodenlänge V, die Periodenlänge C mit Ausnahme der konstanten Vokalperiode, eine Summe (V+C) (= der Mora-Länge M) zwischen der konstanten Vokalperiodenlänge V und der Periodenlänge C mit Ausnahme der konstanten Periode sind auf der Ordinate aufgetragen.
Durch die obigen Beziehung wird die Periodenlänge zwischen Phonemen durch den Vokallängenbestimmer 33 entsprechend der eingegebenen Mora- Längeninformation bestimmt. Sprachparameter werden von dem Verbinder 34 entsprechend der bestimmten Periodenlänge verbunden.
Ein Verbindungsverfahren ist in Fig. 13 dargestellt. Eine Wellenform ist in Fig. 13 zum Zwecke des leichteren Verständnisses veranschaulicht. Jedoch wird in der Praxis eine Verbindung in Form von Parametern ausgeführt.
Eine konstante Vokalperiodenlänge v' eines Sprachsegments wird gedehnt/reduziert, um mit V übereinzustimmen. Eine Dehn- /Reduziertechnik kann ein Verfahren von Dehn- /Reduzier- Parameterdaten der konstanten Vokalperiode in liniare Daten sein, oder ein Verfahren des Auslesens oder Einfügens von Parameterdaten der konstanten Vokalperiode. Eine Periode c' mit Ausnahme der konstanten Vokalperiode des Sprachsegments wird gedehnt/reduziert, um mit C zusammenzutreffen. Ein Dehn/Reduzierverfahren ist nicht auf ein spezifisches beschränkt.
Die Längen der Sprachsegmentdaten werden justiert und aufgezeichnet, um synthetisierte Sprachdaten zu erzeugen. Die vorliegende Erfindung ist nicht auf das zuvor beschriebene Verfahren beschränkt, vielmehr sind verschiedene Änderungen und Abwandlungen möglich. Bei dem obigen Verfahren wird die Mora- Länge M eingeteilt in drei Abschnitte, d.h., C, V und C, wodurch die Periodenlängen der Phoneme gesteuert werden. Jedoch braucht die Mora- Länge M nicht in drei Teile eingeteilt zu werden, und die Anzahl der Einteilungen der Mora- Länge ist nicht auf eine spezifische Anzahl beschränkt. In alternativer Weise kann in jedem Vokal eine Funktion oder ein Funktionsparameter (vm, ml, mh, a und b) geändert werden, um eine Funktion zu erzeugen, die optimal für jeden Vokal ist, wodurch eine Periodenlänge eines jeden Phonems festgelegt wird.
Im Falle von Fig. 13 ist der Silbentonlagen- Überlagerungspunkt der Sprachsegmentwellenform derjenigen der synthetisierten Sprache gleich. Da jedoch der Silbentonlagenüberlagerungspunkt sich entsprechend der Sprechgeschwindigkeit der synthetisierten Sprache ändert, werden die Werte v' und V der Werte c' und C ebenfalls zugleich mitgeändert.

< Sprachsyntheseeinrichtung >

Eine wichtige grundlegende Anordnung zur Sprachsynthese ist in Fig. 14 dargestellt.
Eine Sprachsyntheseeinrichtung in Fig. 14 enthält einen Klangquellengenerator 41 zur Erzeugung eines Geräuschs oder eines Impulses, einen Rhythmusgenerator 42 zur Analyse eines Rhythmus aus einem eingegebenen Zeichenzug und gibt eine Tonlage des Klangquellengenertors 41 an, eine Parametersteuerung 43 zur Bestimmung eines VCV- Parameters und einer Interpolationsoperation aus dem eingegebenen Zeichenzug, ein Justierglied 44 zur Justage eines Amplitudenpegels, ein Digitalfilter 45, ein Parameterpuffer 46 zur Speicherung von Parametern für das Digitalfilter 45, einen Parameterinterpolator 47 zur Interpolation von VCV- Parametern mit dem Parameterpuffer 46 und eine VCV- Parameterablage 48 zur Speicherung aller VCV- Parameter. Fig. 15 ist ein Blockdiagramm, das eine Anordnung eines Digitalfilters 45 zeigt. Das Digitalfilter 45 enthält Basisfilter 49 bis 52. Fig. 16 ist ein Blockdiagramm, das eine Anordnung eines der in Fig. 15 dargestellten Basisfilter 49 bis 52 zeigt.
In diesem Ausführungsbeispiel enthält das in Fig. 16 dargestellte Basisfilter ein diskretes Filter zur Ausführung der Synthese unter Verwendung einer orthogonalen Normierungsfunktion, die durch die folgende Gleichung entwickelt wird:
Wenn dieses Filter mit einem Exponentialfunktions- Annäherungsfilter kombiniert wird, stellt jede reelle Zahl einer jeden orthogonalen Normierungsfunktion eine logarithmische Spektralkennlinie dar. Fig. 17 zeigt Kurven, die durch getrenntes Auftragen der Real- und Imaginärteile der orthogonalen Normierungsfunktion entstehen. Bei Beurteilung gemäß Fig. 17 ist es offensichtlich, daß das orthogonale System eine feine Kennlinie im Niederfrequenzbereich und eine grobe Kennlinie im Hochfrequenzbereich aufweist. Ein Parameter Cn dieses Synthesizers wird als fouriertransformierter Wert eines frequenzgewandelten logarithmischen Spektrums gewonnen. Wenn die Frequenzumwandlung in eine Mel- Einheit gewandelt wird, wird sie ein Mel- Kepstrum genannt. In diesem Ausführungsbeispiel muß die Frequenzumwandlung nicht immer an die Mel- Einheit angenähert werden.
Eine verzögerungsfreie Schleife wird aus dem in Fig. 16 dargestellten Filter weggelassen, und eine Filterkoeoffiziente bn kann aus dem Parameter Cn folgendermaßen abgeleitet werden:
Unter dieser Bedingung ist bn+1 = 2αCn
bn = Cn + α(2Cn - 1-bn+1) für 2 ≤ n < n
b&sub1; = (2C&sub1; - αb&sub2;)/1 - α²)
b0 = C0 - αb&sub1;
Ein Arbeitsablauf in Fig. 14 wird nachstehend detailliert beschrieben.
Ein Zeichenzug wird dem Rhythmusgenerator 42 eingegeben und Tonlagendaten P(t) werden vom Rhythmusgenerator 42 abgegeben. Der Klangwellengenerator 41 erzeugt Rauschen in einer stimmlosen Periode und einen Impuls in einer stimmhaften Periode. Zur gleichen Zeit wird auch der Zeichenzug in die Parametersteuerung 43 eingegeben, so daß die Arten der VCV- Parameter und eine Interpolationsoperation festgelegt werden. Die von der Parametersteuerung bestimmten VCV- Parameter werden aus der VCV- Parameterablage 48 ausgelesen und von dem Parameterinterpolator 47 gemäß dem Interpolationsverfahren verbunden, das von der Parametersteuerung 43 bestimmt ist. Die verbundenen Parameter werden in dem Parameterpuffer 46 gespeichert. Der Parameterinterpolator 47 führt Interpolationen von Parametern zwischen Vokalen aus, wenn VCV- Parameter zur verbinden sind. Da der Parameter eine feine Kennlinie im Niederfrequenzbereich und eine grobe Kennlinie im Hochfrequenzbereich aufweist, und da das logarithmische Spektrum durch eine liniare Summe von Parametern dargestellt wird, kann die liniare Operation genau ausgeführt werden, so daß auf diese Weise Verzerrungen minimiert werden. Die in dem Parameterpuffer 46 gespeicherten Parameter werden eingeteilt in einen Abschnitt, der eine Nichtverzögerungskomponente (b&sub0;) und einen Abschnitt mit Verzögerungskomponenten (b&sub1;, b&sub2;, ..., bn + 1) hat. Die erstere Komponente wird in ein Amplitudenpegel- Justierglied 44 eingegeben, so daß ein Ausgangssignal aus dem Klangquellengenerator 41 mit exp (b&sub0;) multipliziert wird.

< Dehnung/Reduzierung von Parametern >

Fig. 18 ist ein Blockdiagramm, das eine Anordnung zur Ausführung eines Verfahrens der Änderung eines Dehn/Reduzierverhältnisses von Sprachsegmenten gemäß Arten von Sprachsegmenten nach einer Änderung der Sprechgeschwindigkeit der synthetisierten Sprache, wenn Sprachsegmente zu verbinden sind. Diese Anordnung enthält eine Zeichenfolgeeingang 101 zum Empfang einer Zeichenfolge. Wenn beispielsweise zu synthetisierende Sprache /on sei/ (das bedeutet Sprache), wird ein Zeichenzug "OnSEI" eingegeben.
Ein VCV- Folgegenerator 102 wandelt den Zeichenzug, der über den Zeichenfolgeeingang 101 eingegeben wurde, in eine VCV- Folge, d.h., "Q0, On, nSE, EI, IQ".
Ein VCV- Parameterspeicher 103 speichert V (Vokale) und CV- Parameter als VCV- Parameter- Segmentdaten oder Wortstart- oder Enddaten entsprechend einer jeden VCV der VCV- Folgen, die von dem VCV- Folgengenerator 102 erzeugt werden.
Ein VCV-Markierspeicher 104 speichert akustische Grenzunterscheidungsmarkierungen (d.h., einen Vokalstart, eine stimmhafte Periode, eine stimmiose Periode, und einen Silbenüberlagerungspunkt eines jeden VCV- Parametersegments, das gemeinsam mit ihem Positionsdatum in dem VCV- Parameterspeicher 103 gespeichert ist.
Ein Einstellmittel 105 für den Silbentonlagen- Überlagerungspunkt stellt einen Silbentonlagen- Überlagerungspunkt gemäß einer Sprechgeschwindigkeit synthetisierter Sprache ein. Ein Konstantlängen- Vokaleinstellmittel 106 stellt die Länge einer konstanten Periode eines Vokals ein, der in Verbindung mit VCV- Parametern gemäß der von dem Silbentonlagen- Überlagerungspunkt- Einstellmittel 105 und der Art des Vokals eingestellt wird.
Ein Einstellmittel 107 für die Parameter- Dehn- /Reduzierrate stellt eine Dehn- /Reduzierrate für in dem VCV- Parameterspeicher 103 gespeicherte VCV- Parameter gemäß den Arten der Markierungen ein, die im VCV-Markierspeicher 104 in solcher Weise gespeichert sind, daß ein höhere Dehn- /Reduzierrate einem Vokal gegeben wird, /S/, und /F/, deren Längen gemäß einer Änderung der Sprechgeschwindigkeit zur Änderung neigen, und eine geringere Dehn- /Reduzierrate wird für einen Knallkonsonanten wie /P/ und /T/ gegeben.
Ein VCV- EXP/RED- Verbinder 108 liest aus dem VCV- Parameterspeicher 103 Parameter entsprechend den VCV- Folgen, die von dem VCV- Folgengenerator 102 erzeugt werden, und liest die zugehörigen Markierungen aus dem VCV-Markierspeicher 104 aus.
Eine Dehn- /Reduzierrate wird den Parametern durch das Parameter- EXP/RED- Rateneinstellmittel 107 vermittelt, und die Längen der Vokale, die zur Verbindung gehören, werden durch die Vokal- Konsonant- Längeneinstellmittel 106 eingestellt. Die Paramter werden gedehnt/reduziert und verbunden, um mit einem Silbentonlagen-Überlagerungspunkt zusammenzutreffen, der von dem Silbentonlagen-Überlagerungspunkt- Einstellmittel 105 entsprechend einem später anhand Fig. 19 zu beschreibenden Verfahren eingestellt worden ist.
Ein Tonlagenmustergenerator 109 erzeugt ein Tonlagenmuster in Übereinstimmung mit Betonungsinformationen für die Zeichenzugeingabe durch den Zeichenfolgeeingang 101.
Ein Treiberklangquelle 110 erzeugt ein Klangquellensignal, z.B. einen Impulszug.
Ein Sprachsynthesizer 111 synthetisiert sequentiell die VCV- Parameter, die von dem VCV-EXP/RED-Verbinder 108 abgegeben werden, die Tonlagenmuster, die von dem Tonlagenmustergenerator 109 kommen, und die Treiberklangquellen, die von der Treiberklangquelle 110 entsprechend vorbestimmter Regeln ausgegeben werden und gibt synthetisierte Sprache ab.
Fig. 19 ist eine Operation zum Dehnen/Reduzieren und Verbinden von VCV- Parametern als Sprachsegment.
(A1) zeigt eine Aussprache von "ASA" (dies bedeutet morgen) in einer Sprachwellenformablage vor dem Auslesen des VCC- Segments;
(A2) zeigt einen Teil einer Aussprache von "ASA" in der Sprachwellenformablage vor dem Auslesen des VCV- Segments.
(B1) zeigt ein Wandelergebnis der Wellenforminformation, die in (A1) in Parametern gezeigt ist.
(B2) zeigt ein Wandlerergebnis der Wellenforminformation von (A2) in Parameter. Diese Parameter werden in dem VCV- Parameterspeicher 103 in Fig. 14 gesepeichert.
(B3) zeigt ein Interpolationsergebnis spektraler Parameterdaten, die zwischen den Paramtern interpoliert sind. Das Spektralparameterdatum hat eine Länge, die von einem Silbentonlagen-Überlagerungspunkt und Arten der Vokale in zugehöriger Verbindung eingestellt werden.
(C1) zeigt eine akustische Parametergrenzposition&sub1; die durch Markierinformation entsprechend (A1) und (B1) dargestellt ist.
(C2) zeigt eine akustische Parametergrenzposition, die durch Markierinformationen entsprechend (A2) und (B2) dargestellt ist. Diese Stücke der Markierinformationen werden in dem VCV- Markierspeicher 104 in Fig. 14 gespeichert. Angemerkt sei, daß die Markierung "?" einem Silbenüberlagerungspunkt entspricht.
(D) zeigt Parameter, die nach Stücken von Parameterinformationen entsprechend einem Abschnitt aus dem Silbenüberlagerungspunkt von (C1) mit dem Silbenüberlagerungspunkt von (C2) verbunden sind, die aus (B1), (B3), und (B2) abgeleitet werden.
(E) zeigt Markierinformationen entsprechend (D).
(F) zeigt eine Dehn- Ireduzierrate, die von der Art angrenzender Markierungen eingestellt ist, und stellt eine relative Messung dar, die verwendet wird, wenn die Parameter gedehnt oder reduziert sind, entsprechend der Silbentonlagen- Überlagerungspunkt der Sprache.
(G) zeigt gedehnte/reduzierte Parameter in Übereinstimmung mit dem Silbentonlagen-Überlagerungspunkt. Diese Paramter werden sequentiell erzeugt und in Übereinstimmung mit den VCV- Folgen der Sprache verbunden.
(H) zeigt Markierinformationen entsprechend (G). Diese Stücke der Markierinformationen werden sequentiell erzeugt und entsprechend den VCV- Folgen der zu synthetisierenden Sprache verbunden.
Fig. 20 zeigt Parameter, bevor und nachdem sie gedehnt/reduziert worden sind, um so eine Dehn- /Reduzieroperation der Parameter zu erläutern. In diesem Falle ist die Dehn- /Reduktionsrate der zugehörigen Markierungen der Parameter zwischen den Markierungen, und die Länge des Parameters nach seiner Dehnung/Reduzierung werden vorbestimmt. Genauer gesagt, ist die Markierzählung (n+1), ein gestrichelter Abschnitt in Fig. 20 stellt einen markierten Rahmen dar, si (1 < 1 ≤ n) ist eine Tonlage zwischen Markierungen vor Dehnung/Reduktion, ei (1 ≤ i ≤ n) ist eine Dehn- /Reduzierrate, di (1< i ≤ n) ist eine Tonlage zwischen Markierungennachdehnen/reduzieren, und d0 ist die Länge eines Parmeters nach Dehnung/Reduktion.
Eine Tonlage di, die der folgenden Beziehung genügt:
Parameter entsprechend si (1 ≤ i ≤ n) werden auf die Längen von di gedehnt/reduziert und werden nacheinander verbunden.
Fig. 21 ist eine Ansicht zur weiteren Erläuterung einer Parameter- Dehn- /Reduzier- Operation und zeigt ein Parameter vor und nach der Dehnung/Reduzierung. In diesem Falle werden die Längen der Parameter vor und nach der Dehnung/Reduzierung bestimmt. Genauer gesagt, ist k die Ordnung eines jeden Parameters, s die Länge des Parameters vor der Dehnung/Reduktion, und d ist die Länge des Parameters nach der Dehnung/Reduktion.
Die j-te (1 ≤ d) Rahmen des Parameters nach der Dehnung/Reduktion wird durch die folgende Sequenz gewonnen.
Ein Wert x ist durch die folgende Rechenoperation festgelegt:
j/d = x/s.
Wenn der Wert x eine ganze Zahl ist, wird der x- te Rahmen vor der Dehnung/Reduktion in die j-te Rahmenpostion nach der Dehnung/Reduktion eingefügt. Anderenfalls wird eine maximale ganze Zahl als i festgelegt, die x nicht übersteigt, und ein Ergebnis wird durch Wichtung und Mittelung des i- ten Rahmens vor der Dehnung/Reduktion gewonnen, und der (1 + 1) - te Rahmen vor der Dehnung/Reduktion auf (x - 1) vs. Es wird (1 - x + i) in die j-te Rahmenposition nach der Dehnung/Reduktion eingefügt.
Die obige Operation wird für alle Werte von i durchgeführt, und der Parameter kann nach der Dehnung/Reduktion erzeugt werden.
Fig. 22 ist eine Ansicht zur Erläuterung einer Operation zur sequentiellen Erzeugung und Verbindung von Parameterinformationen und Markierinformationen gemäß der VCV- Folgen der zu synthesierenden Sprache. Beispielsweise wird die Sprache "OnSEI" (was Sprache bedeutet) synthetesiert.
Die Sprache "Onsei" wird in fünf VCV-Phonemfolgen/Q0/, /On/, /nSE/, /EI/ und /IQ/ segmentiert, wobei Q Ruhe darstellt.
Die Parameterinformation und die Markierinformation der ersten Phonemfolge werden ausgelesen, und die Informationsstücke bis zum ersten Silbenüberlagerungspunkt werden in einem Ausgabepuffer gespeichert.
Bei der Beschreibung anhand der Figuren 15, 16 und 17 werden vier Stücke von Parameterinformationen und vier Stücke von Markierinformationen addiert und mit den gespeicherten Informationsstücken im Ausgabepuffer verbunden. Angemerkt sei, daß Verbindungen so ausgeführt werden, daß die Rahmen entsprechend der Silbenüberlagerungspunkte (Markierung "?") miteinander überlagert werden.
Die obigen Operationen sind anhand der Sprachsynthese durch ein Fourierschaltnetz unter Verwendung von VCV- Daten als Sprachsegmente beschrieben worden. Nachstehend wird ein anderes Verfahren zur Ausführung der Sprachsynthese durch ein Exponentialfunktionsfilter unter Verwendung von VCV- Daten als Sprachsegmente beschrieben.
Eine Gsamtanordnung zur Ausführung der Sprachsynthese unter Verwendung des Exponentialfunktionsfilters und eine Anordnung eines Digitalfilters 45 sind die gleiche wie jene im Fourierschaltnetz. Diese Anordnungen sind anhand der Figuren 1 bis 15 beschrieben worden, und eine detaillierte Beschreibung dieser wird fortgelassen.
Fig. 23 zeigt eine Anordnung eines von Basisfiltern 49 bis 52 gemäß Fig. 15. Fig. 24 zeigt Kurven, die durch getrenntes Auftragen der Real- und Imaginärteile der orthogonalen Normierfunktion gewonnen werden.
In diesem Ausführungsbeispiel wird die orthogonale Normierfunktion wie folgt entwickelt:
Die obige Funktion wird durch ein diskretes Filter unter Verwendung bilinearer Wandlung als Basisfilter realisiert, das in Fig. 23 gezeigt ist. Bei Beurteilung aus den charakteristischen Kurven in Fig. 24 hat das Orthogonalsystem eine feine Kennlinie im Niederfrequenzbereich und eine grobe Kennlinie im Hochfrequenzbereich.
Eine verzögerungsfreie Schleife wird aus diesem Filter fortgelassen, und ein Filterkoeffizient bn kann wie folgt aus Cn abgeleitet werden:
wobei
und wobei T die Abtastperiode ist.
Wenn Sprachsynthese unter Verwendung des Exponentialfunktionsfilters ausgeführt wird, werden die Operationen in Fig. 14 und ein Verfahren der Verbindung der Sprachsegmente die gleichen sein wie jene im Fourierschaltnetz, und eine detaillierte Beschreibung dieser wird fortgelassen.
In der obigen Beschreibung ist die Entwicklung der Systemfunktion durch die orthogonalen Normierungssysteme der Fourierfunktion und durch die Exponentialfunktion dargestellt. Jedoch kann jede beliebige Funktion mit Ausnahme der Fourieroder Exponentialfunktion verwendet werden, wenn die Funktion einer orthogonalen Normierungsfunktion ist, wenn die Funktion eine orthogonale Normierungsfunktion ist, die einen größeren Informationsumfang im niederfrequenten Spektrum aufweist.

< Stimmloser Vokal >

Die Figuren 25A bis 25F sind Ansichten, die einen Fall zeigen, bei dem ein stimmloser Vokal als natürliche Sprache synthetisiert wird. Fig. 25A zeigt Sprachsegmentdaten, die eine stimmlose Sprechperiode enthalten, Fig. 25B zeigt eine Parameterfolge eines Sprachsegments, Fig. 25C zeigt eine Parameterfolge, die durch Substituierung eines Parameters eines stimmlosen Abschnitts des Vokals mit einer Parameterfolge des unmittelbar vorangehenden Konsonanten zeigt, Fig. 25 zeigt die sich ergebenden stimmlosen Sprachsegmentdaten, Fig. 25E zeigt eine Leistungssteuerfunktion der stimmlosen Sprachsegmentdaten, und Fig. 25F zeigt eine leistungsgesteuerte stimmlose Sprachwellenform. Ein Verfahren der Erzeugung eines stimmlosen Vokals wird anhand der anliegenden Zeichnung beschrieben.
Bedingungen zur Erzeugung eines stimmlosen Vokals werden folgendermaßen angegeben:
(1) Stimmlose Vokale sind beschränkt auf /i/ und /u/.
(2) Ein Konsonant, der unmittelbar einem stimmlosen Vokal vorangeht, ist einer von ruhigen Reiblauten /s/, /h/, /c/ und /f/ und Explosionslaute /p/, /t/ und /k/.
(3) Wenn ein Konsonant einem stimmlosen Vokal folgt, ist der Konsonant einer der Explosionslaute /p/, /t/ und /k/.
Wenn die obigen drei Bedingungen erfüllt sind, wird ein stimmioser Vokal erzeugt. Wenn jedoch ein Vokal am Ende eines Wortes anwesend ist, wird ein stimmloser Vokal erzeugt, wenn die Bedingungen (1) und (2) erfüllt sind.
Wenn ein stimmloser Vokal zur Erzeugung gemäß den obigen Bedingungen bestimmt ist, werden Sprachsegmentdaten mit stimmlosem Vokal (in der Praxis eine Merkmalparameterfolge) (Fig. 25B) durch Sprachanalyse erzeugt) aus der Datenbank ausgelesen. Zu dieser Zeit werden die Sprachsegmentdaten mit akustischer Grenzinformation gekennzeichnet, wie in Fig. 25A dargestellt. Daten, die eine Periode vom Beginn des Vokals bis zum Ende des Vokals repräsentieren, werden in Daten der konstanten Konsonantperiode C aus der Bankinformation geändert. Als Verfahren hierfür wird ein Parameter der konstanten Konsonantperiode C liniar bis zum Ende des Vokals gedehnt, um einen Konsonantparameter in die Periode V einzufügen, wie in Fig. 25C gezeigt. Eine Klangquelle für die Periode V Ist bestimmt, eine Rauschklangquelle auszuwählen.
Wenn Leistungssteuerung erforderlich ist, um die Bildung von Leistungsabständen nach Verbindung der Sprachsegmente zu bilden und die Erzeugung eines fremden Klanges, wird eine Steuerkennlinien- Korrekturfunktion mit einem Nullwert nahe dem Ende der Hohe eingestellt und an den Leistungsabschnitts des Parameters angelegt, wodurch die Leistungssteuerung ausgeführt wird, wie in Fig. 25D gezeigt. Wenn der Koeffizient ein Mel- Kepstrum- Koeffizient ist, wird dessen Parameter durch einen logarithmischen Wert dargestellt. Die Leistungskennlinien- Korrekturfunktion wird von dem Leistungsabschnitt abgezogen, um die Leistungssteuerung zu steuern.
Das Verfahren der Erzeugung eines stimmlosen Vokals bei vorgegebenen Sprachsegment wie CV- (Konsonant- Vokal) - segment ist zuvor beschrieben worden. Jedoch ist die obige Operation nicht auf ein spezielles Sprachsegment beschränkt, d. h. auf das CV- Segment. Wenn das Sprachsegment größer ist als ein CV- Segment (d.h., ein CVC- Segment; in diesem Falle wird ein Konsonant mit dem Vokal verbunden, oder die Konsonanten sind untereinander zu verbinden), kann ein stimmioser Vokal nach dem gleichen zuvor beschriebenen Verfahren erzeugt werden.
Der Fall, bei dem ein Sprachsegment als ein VCV- Segment (Vokal- Konsonant- Vokalsegment) vorgegeben ist und eine Operation ausgeführt wird, d.h., daß die Vokale zur Zeit der Sprachsegmentverbindung verbunden sind, wird nachstehend anhand der Figuren 26A und 26B beschrieben.
Fig. 26A zeigt ein VCV- Segment mit einer stimmlosen Periode, und Fig. 26D zeigt eine Sprachwellenform zur Erzeugung eines stimmlosen Abschnitts der Sprachperiode V.
Diese Operation wird anhand der Figuren 26A und 26B beschrieben. Ein Sprachsegmentdatum wird aus der Datenbank ausgelesen. Wenn die Verbindung unter Verwendung eines VCV- segments ausgeführt wird, werden konstante Vokalperioden des vorangehenden VCV- Segments und des folgenden VCV- Segments generell interpoliert, um die Verbindung auszuführen, wie in Fig. 26A gezeigt. Wenn in diesem Falle ein stimmloser Vokal zu erzeugen ist, wird ein Vokal zwischen dem vorangehenden und dem nachfolgenden VCV- Segment als ein stimmloser Vokal erzeugt. Das VCV-Segment ist gemäß einer Mora-Position lokalisiert. Wie in Fig. 26D dargestellt, werden die Daten der Vokalperiode V vom Anfang des Vokals nach dem vorangehenden VCV- Segment bis zum Ende des Vokals vor dem nachfolgenden VCV- Segment in Daten der konstanten Konsonantperiode C des vorangehenden VCV- Segments geändert. Wie dieses Verfahren für das erste Ausführungsbeispiel beschrieben worden ist, wird der Parameter der konstanten Konsonantperiode C liniar gedehnt bis zum Ende des Vokals, und die Klangquelle wird als Rauschklangquelle vorgegeben, um eine stimmlose Vokalperiode zu erzeugen. Wenn Leistungssteuerung erforderlich ist, kann die Leistung durch das anhand Fig. 1 beschriebene Verfahren gesteuert werden.
Der stimmlose Vokal, der zuvor beschrieben worden ist, kann in der Anordnung gemäß Fig. 1 erzeugt werden. Die Anordnung von Fig. 1 ist zuvor beschrieben worden, und eine detaillierte Beschreibung dieser wird fortgelassen.
Ein Verfahren zur Syntetisierung von Phonemen zur Erzeugung eines stimmlosen Vokals als natürliche Sprache ist nicht auf das obige Verfahren beschränkt, sondern verschiedene Abänderungen und Modifikationen sind möglich. Wenn beispielsweise ein Parameter einer Vokalperiode in einen Parameter einer konstanten Periode zu ändern ist, wird die konstante Periode des Konsonanten nach dem obigen Verfahren liniar gedehnt, bis ans Ende des Vokals. Jedoch kann der Parameter der konstanten Konsonantperiode teilweise zu der Vokalperiode kopiert werden, wodurch die Parameter ersetzt werden.

< Speicherung des Sprachsegments >

Notwendige VCV- Segmente müssen vorgespeichert werden, um eine Sprachparameterfolge zu erzeugen, damit die Sprachsynthese ausgeführt werden kann. Wenn alle VCV- Kombinationen gespeichert sind, wird die Speicherkapazität sehr groß. Verschiedene VCV- Segmente können aus einem VCV- Segment durch Zeitinversion und Zeitachsenwandlung erzeugt werden, wodurch die Anzahl der VCV- Segmente reduziert wird, die in dem Speicher zu speichern sind. Wie beispielsweise in Fig. 27A gezeigt, kann die Anzahl von VCV- Segmenten reduziert werden. Genauer gesagt, ein VV- Muster wird erzeugt, wenn eine Vokalkette in einem VCV- Zeichenzug vorgegeben ist. Da die Vokalkette generell symetrisch um die Zeitachse verläuft, wird die Zeitachse invertiert, um ein anderes Muster zu erzeugen. Wie in Fig. 27A gezeigt, kann ein /AI/-Muster durch Invertierung eines /IA/-Musters erzeugt werden und umgekehrt. Folglich wird nur eines der /IA/- und /AI/-Muster gespeichert. Fig. 27D zeigt die Aussprache "NAGANO" (Japanischer Name für Platz). Ein /ANO/-Muster kann durch Invertierung eines /ONA/- Musters erzeugt werden. Jedoch hat in einem VCV- Muster mit einem Nasallaut eine Startdauer des Nasallautes, die sich von dessen Enddauer unterscheidet. In diesem Falle wird die Zeitachsenumkehrung unter Verwendung einer geeigneten Zeitumkehrfunktion ausgeführt. Ein /AGA/-Muster wird so erzeugt, daß ein /AGA/- Muster als ein VCV- Muster durch Zeitumkehr und Verbindung des /AG/- oder /GA/- Musters erzeugt wird, und dann werden die Startdauer der Nasalkomponente und die Enddauer der Nasalkomponente aneinander angeglichen. Die Zeitachsenumkehr wird gemäß einer Nachschlagetabelle ausgeführt, in der eine Zeitumkehrfunktion durch DP erzeugt und in Form einer Tabelle in einem Speicher gespeichert wird. Wenn die Zeitumkehrung liniar ist, können liniare Funktionsparameter gespeichert werden, und liniare Rechnungen können ausgeführt werden, um die Zeitachse umzukehren.
Fig. 28 ist ein Blockschaltibild, das eine Sprachsyntheseanordnung unter Verwendung der Zeitumkehr und der Zeitachsenkonvertierung von VCV- Daten zeigt, die in einem Speicher vorgespeicherts sind.
In Fig. 28 enthält diese Anordnung einen Textanalysator 61, eine Klangquellensteuerung 62, einen Klangquellengenerator 63, einen Impulsquellengenerator 64, einen Rauschquellengenerator 65, einen Mora-Verbinder 66, einen VCV-Datenspeicher 67, einen VCV-Dateninverter 68, einen Zeitachsenkonverter 69, eine Sprachsynthesizer 70 mit einem Synthesefilter, einem Sprachausgang 71 und einem Lautsprecher 72. +-
Anhand Fig. 28 wird die Sprachsyntheseverarbeitung nachstehend beschrieben. Ein Text, der durch einen Zeichenzug zur Sprachsynthese dargestellt ist, wird von dem Textanalysator 61 analysiert, 50 daß übergänge zwischen stimmhaften und stimmlosen Lauten, starken und schwachen Betonungen eine Änderung der Verbindungszeit und eine Reihenfolge der VCV- Verbindung ausgelesen werden. Information, die zu der Klangquelle gehört (beispielsweise übergang zwischen stimmhaft und stimmlosen Lauten und starker und schwacher Betonung), wird zu der Klangquellensteuerung 62 gesandt. Die Klangquellensteuerung 62 erzeugt einen Code zur Steuerung des Klangquellengenerators 63 auf der Grundlage der eingegebenen Informationen. Der Klangquellengenerator 63 enthält die Impulsklangquelle 64, den Rauschquellengenerator 65, und einen Umschalter zur Umschaltung zwischen Impuls- und Rauschquellengeneratoren 64 bzw. 65. Der Impulsquellengenerator 64 wird als Klangquelle für stimmhafte Laute verwendet. Eine Impulstonlage wird von einem im Tonlagensteuercode gesteuert, der von der Klangquellensteuerung 62 kommt. Der Klangquellengenerator 65 wird als Quelle für stimmlose Laute verwendet. Diese beiden Klangquellen werden von einem stimmhaft/stimmlos- Umschaltsteuercode umgeschaltet, der von einer Klangquellensteuerung 62 gesandt wird. Der Mora-Verbinder 66 liest VCV- Daten aus dem VCV- Datenspeicher 67 und verbindet diese auf der Grundlage der VCV-Verbindungsdaten, die von dem Textanalysator 61 geliefert werden. Verbindungsvorgänge werden nachstehend beschrieben.
Die VCV- Daten werden als Sprachparameterfolgen einer höheren Ordnung gespeichert, die Mel-Kepstrum-Parameterfolgen in dem VCV- Datenspeicher 67. Zusätzlich zu den Sprachparametern speichert der VCV- Datenspeicher 67 auch VCV- Musternamen unter Verwendung von Phonemmarkierungen ein Kennzeichen, das darstellt, ob Inversionsdaten verwendet werden (wenn die Inversionsdaten verwendet werden, wird das Kennzeichen auf "1" gesetzt; anderenfalls auf "0"), und ein VCV-Mustername wird von einem VCV- Muster verwendet, wenn die Inversionsdaten zu verwenden sind. Der VCV- Datenspeicher 67 speichert des weiteren ein Zeitachsen-Konvertierungskennzeichen zur Bestimmung, ob die Zeitachse zu konvertieren ist (wenn die Zeitachse konvertiert wird, wird das Kennzeichen auf "1" gesetzt; anderenfalls auf "0"), und Adressen, die die Zeitkonvertierungsfunktion oder Tabelle kennzeichnen. Wenn ein VCV- Muster auszulesen ist, und das Invertierungskennzeichen auf "1" gesetzt ist, wird ein Invertierungs- VCV- Muster zum VCV- Inverter 68 gesandt, und das VCV- Muster wird entlang der Zeitachse invertiert. Wenn das Invertierungskennzeichen auf "0" gesetzt ist, wird das VCV- Muster nicht an den VCV- Inverter 68 geliefert. Wenn das Zeitachsen-Konvertierungskennzeichen auf "1" steht, wird die Zeitachse vom Zeitachsenkonverter 69 konvertiert. Die Zeitachsenkonvertierung kann durch ein System mit Nachschlagetabelle ausgeführt werden unter Verwendung einer Konvertierungstabelle zur Speicherung von Konvertierungsfunktionsparametern, wodurch die Zeitachsenkonvertierung durch Funktionsoperationen aufgeführt wird. Der Mora-Verbinder 66 verbindet VCV-Datenausgangssignale aus dem VCV- Datenspeicher 67, dem VCV- Inverter 68 und dem Zeitachsenkonverter 69 auf der Grundlage der Mora- Verbindungsinformation.
Eine Sprachparameterfolge, die durch VCV- Verbindungen in dem Mora-Verbinder 66 erzeugt wird, wird mit der Klangquellen- Parameterfolge synthetisiert, die von dem Klangquellengenerator 63 durch den Sprachsynthesizer 70 ausgegeben wird. Das Syntheseergebnis wird zum Sprachausgang 71 gesandt und wird von einem Lautsprecher 72 als Schall erzeugt.
Eine Anordnung zur Aufführung der obigen Verarbeitung unter Verwendung eines Mikroprozessors wird nachstehend anhand Fig. 29 beschrieben.
In Fig. 29 enthält diese Anordnung eine Schnittstelle (I/F) 73 zur Aussendung eines Textes auf einen Bus, einen Nur-Lese- Speicher (ROM) 74 zur Speicherung von Programmen und VCV- Daten, einen Pufferspeicher mit wahlfreiem Zugriff (RAM) 75, eine direkte Speicherzugriffssteuerung (DMA) 76, einen Sprachsynthesizer 77, einen Sprachausgang 78 mit einem Filter aus einem Verstärker, einen Lautsprecher 79 und einen Prozessor 80 zur Steuerung der gesamten Operationen dieser Anordnung.
Der Text wird vorübergehend über die Schnittstelle in dem RAM 75 gespeichert. Dieser Text wird gemäß den Programmen verarbeitet, die in dem ROM 74 gespeichert sind, und wird mit einem VCV- Verbindungscode und einem Klangquellen- Steuercode versehen. Der sich ergebende Text wird erneut in dem RAM 75 gespeichert. Die gespeicherten Daten werden zum Sprachsynthesizer 77 durch die DMA 76 gesandt und in Sprache mit einer Tonlage gewandelt. Die Sprache mit einer Tonlage wird als Klang vom Lautsprecher 79 durch den Sprachausgang 78 ausgegeben. Die obige Steuerung wird vom Prozessor 80 durchgeführt.
In der obigen Beschreibung ist die VCV- Parameterfolge durch die Mel- Kepstrum- Parameterfolge dargestellt worden. Jedoch können andere Parameterfolgen wie PARCOR, LSP, und LPS- Kepstrum- Parameterfolgen anstelle der Mel- Kepstrum- Parameterfolge verwendet werden. Das VCV- Segment ist als Sprachsegment dargestellt. Jedoch können andere Segmente wie ein CVC- Segment in gleicher Weise verarbeitet werden. Wenn darüber hinaus ein Sprachausgang durch Kombination von CV- und VC- Segmenten erzeugt wird, kann das CV-Muster aus dem VC-Muster erzeugt werden und umgekehrt.
Wenn ein Sprachsegment zu invertieren ist, braucht der Inverter nicht notwendigerweise zusätzlich vorgesehen sein. Wie in Fig. 30 gezeigt, kann eine Technik zur Benennung eines Zeigers am Ende des Sprachsegments verwendet werden und dieses in der umgekehrten Richtung gelesen werden.

< Texteingabe>

Das vorliegende Ausführungsbeispiel veranschaulicht ein Verfahren der Sprachsynthese mit einer gewünschten Betonung durch Eingabe einer Sprachbetonungs-Steuermarkierung gemeinsam mit einem Zeichenzug, wenn der zu synthetisierende Text als Sprache in Form eines Zeichenzuges eingegeben wird.
Fig. 31 ist ein Blockschaltbild&sub1; das eine Anordnung dieses Ausführungsbeispiels zeigt. Diese Anordnung enthält einen Textanalysator 81, einen Parameterverbinder 82, einen Tonlagengenerator 83 und einen Sprachsignalgenerator 84. Ein eingegebener Text bestehend aus Roman- Zeichen und Steuerzeichen wird in Einheiten von VCV- Segmenten (d.h. von Sprachsegmenten) durch den Textanalysator 89 ausgelesen. Die als Mel- Kepstrum- Parameter gespeicherten VCV- Parameter werden gedeht/reduziert und von dem Parameterverbinder 82 verbunden, wodurch Sprachparameter erzeugt werden. Ein Tonlagenmuster wird dem Sprachparameter durch den Tonlagengenerator 83 hinzugefügt. Die sich ergebenden Daten werden zum Sprachsignalgenerator 84 gesandt und als Sprachsignal abgegeben.
Fig. 32 ist ein Blockschaltbild, das eine detaillierte Anordnung des Textanalysators 81 zeigt. Die Art der Zeichen des eingegebenen Textes wird von einem Zeichenartdiskriminator 91 erkannt. Wenn das erkannte Zeichen ein Mora- Segmentierzeichen ist (d.h., ein Vokal, ein Silbennasallaut, ein langer Vokal oder ein Doppelkonsonant), wird eine VCV- Tabelle 92 zur Speicherung von VCV- Segmentparametern, die durch VCV- Nummern in einem VCV- Nummemgabemittel 93 zugegriffen werden können, und eine VCV- Nummer wird in die Textanalyse-Ausgangsdaten eingefügt. Ein VCV- Arteinstellmittel 94 stellt eine VCV-Art ein (d.h., stimmhaft/stimmlos, langer Vokal/Doppelkonsonant, Ruhe, Wortbeginn/Wortende, Doppelvokal, Satzende), um so der VCV- Nummer zu entsprechen, die von dem VCV-Nummerngabemittel 93 ausgelesen wurde. Ein Einstellmittel 95 voraussichtlichen Silbenüberlagerungspunktes stellt einen voraussichtlichen Silbenüberlagerungspunkt ein, und ein Satzeinstellmittel 97 stellt einen Satz ("Atmer") ein.
Dieses Ausführungsbeispiel ist mit der Einstellung einer Betonung und eines voraussichtlichen Silberüberlagerungspunkt in dem Eingangsanalysator 81 verbunden. Die Betonung und der veraussichtliche Silbenüberlagerungspunkt wird in Einheiten von Morae eingestellt und wird zum Tonlagengenerator 83 gesandt. Wenn eine Betonung durch den eingegeben Text einzustellen ist, beispielsweise wenn ein Tokyo- Dialog einzustellen ist und "hashi" einzugeben ist (was Brücke bedeutet) ist als "HA/SHI" geschrieben und eine Eingabe "hashi" (was Hackstück bedeutet) wird als "/HA\SHI" geschrieben. Die Betonungssteuerung wird ausgeführt durch Markierungssteuerung "/" und "\". Die Betonung wird auf einen Pegel angehoben durch die Markierung "/", und die Betonung wird abgesenkt durch die Pegelmarkierung "\". In gleicher Weise wird die Betonung um zwei Pegel angehoben durch die Markierung "//", und die Betonung wird durch einen Pegel abgesenkt durch die Markierung "//\" oder "/\/".
Fig. 33 ist ein Arbeitsablaufplan zur Einstellung einer Betonung. Die Mora- Nummer und die Betonung werden initialisiert (S31). EIN eingegebener Text wird zeichenweise gelesen (S32), und die Zeichenart wird bestimmt (S33). Wenn ein eingebenes Zeichen eine Betonungssteuermarkierung ist, wird bestimmt, ob es sich um eine Betonungs- Anhebungsmarkierung oder eine Betonungs- Absenkungsmarkierung handelt (S34). Wenn bestimmt ist, daß es sich um eine Betonungsanhebungsmarkierung handelt, wird die Betonung um einen Pegel angehoben (S36). Wenn jedoch bestimmt ist, daß es sich um eine Betonungs-Absenkungsmarkierung handelt, wird die Betonung um einen Pegel abgesenkt (S37). Wenn das eingegebene Zeichen nicht als Betonungssteuermarkierung erkannt ist (S33), wird beurteilt, ob es ein Zeichen am Ende des Satzes ist (S35). Wenn JA in Schritt S35, endet die Verarbeitung. Anderenfalls wird die Betonung in das VCV- Datum eingesetzt (S38).
Eine Verarbeitungssequenz wird nun anhand des Arbeitsablaufplans in Fig. 33 beschrieben, bei dem eine Ausgabe des Textanalysators erzeugt wird, wenn ein Text eingegeben wird "//\" oder "/\/". Die Betonung wird auf 0 initialisiert (S31).
Ein Zeichen "K" wird eingegeben (S32), und dessen Zeichenart wird vom Zeichenartdiskreminator 91 (S33) bestijnmt. Das Zeichen "K" ist weder ein Steuerzeichen noch ein Mora- Segmentierzeichen, und wird dann in dem VCV- Puffer gespeichert. Ein Zeichen "0" ist weder ein Steuerzeichen noch ein Mora- Segmentierzeichen und wird in dem VCV- Puffer gespeichert. Das VCV- Nummemgabemittel 93 greift auf die VCV- Tabelle 92 zu, indem der Zeichenzug "KO" als Schlüssel für den VCV- Puffer verwendet wird (S38). Ein Betonungswert von Null wird in den Textanalysator- Ausgangsdaten eingestellt abhängig von der Eingabe von "KO", der VCV- Puffer wird in den VCV- Puffer (S31) auf Null gelöscht. Dann wird ein Zeichen "/" in den VCV- Puffer eingegeben, und dessen Art wird bestimmt (S33). Da das Zeichen "/" eine Betonungsanhebungs- Steuermarkierung ist (S34), wird der Betonungswert um 1 inkrementiert (S36). Ein weiteres Zeichen "/" wird eingegeben, um den Betonungswert weiter um 1 zu erhöhen (S36), wodurch der Betonungswert auf 2 gestellt wird. Ein Zeichen "R" wird eingegeben, und dessen Zeichenart wird erkannt und in dem VCV- Puffer gespeichert. Dann wird ein Zeichen "E" eingegeben, und dessen Zeichenart wird erkannt. Ein Zeichen "E" ist ein Roman- Zeichen und ein Segmentierungszeichen, so daß dieses in dem VCV- Puffer gespeichert wird. Die VCV- Tabelle wird unter Verwendung des Zeichenzuges "ORE" als Schlüssel für den VCV- Puffer zugegriffen, wodurch auf die entsprechende VCV- Nummer zugegriffen wird. Das eingegebene Textanalyse- Ausgangsdatum entsprechend dem Zeichenzug "ORE" wird gemeinsam mit dem Betonungswert von 2 eingestellt (S38). Der VCV- Puffer wird dann gelöscht, und ein Zeichen "E" wird in dem VCV- Puffer gespeichert. Ein Zeichen "\" wird dann eingegeben (S32), und dessen Zeichenart wird erkannt (S33). Da das Zeichen "\" eine Betonungsabsenkungs- Steuermarkierung ist (S34), wird der Betonungswert um 1 dekrementiert (S37), so daß der Betonungswert auf 1 eingestellt ist. Die gleiche zuvor beschriebene Verarbeitung wird ausgeführt, und der Betonungswert von 1 des eingegebenen Textanalyse- Ausgangsdatums "EWA" wird eingestellt. Wenn (n + 1) Abstände als n Morae gezählt sind, kann die Eingabe "KO/RE\WA\//PE\N\DE\SU/KA/" in folgender Weise zu Morae entmischt werden:
"KO" + "ORE" + "EWA" + "A" + "PE" + "EN" + "NDE" + "ESU" + "UKA" + "A"
und die Betonungswerte der jeweiligen Morae werden in Klammern gesetzt:
"KO (0)" + "ORE (32)" + "EWA (1)" + "A (0)" + "PE (2)" + "EN (1)" + "NDE (1)" + "ESU (0) " + "UKA (1) " + "A (2)".
Die sich ergebenden Mora- Folgen werden in den Betonungsgenerator 83 eingegeben, wodurch die in Fig. 35 dargestellten Betonungskomponenten erzeugt werden.
Fig. 34 ist ein Arbeitsablaufplan zur Einstellung einer Sprechgeschwindigkeit.
Die Steuerung der Mora- Betonung einer Sprechgeschwindigkeit wird ausgeführt durch Steuermarkierung "-" und "+", in gleicher Weise wie die Betonungssteuerung. Die Silbenüberlagerungspunkt- Betonung wird um 1 durch die Markierung "-" dekrementiert, um die Sprechgeschwindigkeit zu erhöhen. Dieselbe Überlagerungspunktbetonung wird um 1 durch die Markierung "+" dekrementiert, um die Sprechgeschwindigkeit herabzusetzen.
Ein dem Textanalysator 81 eingegebener Zeichenzug wird in Einheiten von Morae ausgelesen, und ein Silbenüberlagerungspunkt und eine Silbenüberlagerungspunkttonlage werden jedem Mora hinzugefügt. Das sich ergebende Datum wird zum Parameterverbinder 83 und an den Tonlagengenerator 83 gesandt.
Der Silbenüberlagerungspunkt wird durch 0 (msec) initialisiert, und die Silbenüberlagerungspunkte werden mit 96 initialisiert (160 msec).
Wenn eine Eingabe "A + IU-- E- 0" eingegeben wird&sub1; wird die Eingabe in Einheiten von Morae ausgelesen. Eine angenommene Silbenüberlagerungsposition (dargestellt durch []) dient als Bezug, bevor eine Änderung durch einen Sprechgeschwindigkeits- Steuercode hinzugefügt wird, und das nächste eingegebene Textanalyse- Ausgangsdatum wird wie folgt erzeugt:
"A [16]" + "AI [33] + "IU [50]" + "UF: [65]" + "EO [79]" + "0 [94]".
Das Einstellen einer Sprechgeschwindigkeit (Mora- Tonlage) wird nachstehend anhand eines Arbeitsablaufplanes in Fig. 34 beschrieben.
Der Silbenüberlagerungspunkt wird mit 0 (msec) initialisiert, und der angenommene Silbenüberlagerungspunkt wird initialisiert mit 96 (160 msec) (S41). Ein aus Roman- Buchstaben und Steuermarkierungen bestehender Text wird eingegeben (S42) und der eingegebene Text wird zeichenweise in dem Zeichenartdiskriminator 91 gelesen, um die Zeichentypen oder Zeichenart zu erkennen (S43). Wenn ein eingegebenes Zeichen eine Mora- Tonlagen- Steuermarkierung ist (S43), wird beurteilt, ob es sich um eine Verlangsamungs- oder eine Beschleunigungsmarkierung handelt (S44). Wenn das Zeichen als Verlangsamungsmarkierung erkannt ist, wird die Silbenüberlagerungspunkttonlage um 1 dekrementiert (S46). Wenn jedoch das eingegebene Zeichen als Beschleunigungsmarkierung beurteilt wird, wird die Silbenüberlagerungspunkttonlage um 1 dekrementiert (S47). Wenn die Silbenüberlagerungspunkttonlage geändert wird (S46 und S47), wird das nächste Zeichen von dem eingegebenen Text an den Zeichenartdiskriminator 91 angelegt (S42). Wenn die Zeichenart nicht als eine Mora- Tonlagen- Steuermarkierung in Schritt S43 beurteilt ist, wird bestimmt, daß diese am Ende des Satzes lokalisiert ist (S45). Wenn NEIN in Schritt S45, wird das VCV- Datum ohne Änderung der angenommenen Silbenüberlagerungspunkttonlage eingestellt (S48). Wenn jedoch JA in Schritt S45, dann wird die Verarbeitung beendet.
Wenn die Silbenüberlagerungspunkttonlage bei der -Verarbeitung zur Einstellung der Sprechgeschwindigkeit geändert wird, wird ebenfalls die Position des angegnommenen Silbenüberlagerungspunktes geändert.
Die Verarbeitung der Betonung und die Geschwindigkeitsänderung wird mit der CPU (Zentraleinheit) ausgeführt.
Vorstehend hat das Wort "Mora" die im Zusammenhang erforderliche Bedeutung, und umfaßt, ohne Beschränkung darauf, die Bedeutung der Dauer einer kurzen Silbe. Die Begriffe "Vokal" und "Konsonant" enthalten nicht spezielle sprachliche Modelle oder Gruppen von Sprachen; die Erfindung ist allgemein auf Gruppen und Teile von Sprache und Übergängen zwischen diesen anwendbar, wie sich aus dem Vorstehenden ergibt.

Claims

1. Einrichtung zur Sprachsynthese, die eine Sprachsegmentablage (4) zur Speicherung einer Vielzahl von Segmenten enthält, wobei jedes Segment über Vokal- Konsonant- Vokal- Informationen verfügt, die eine Vielzahl von Informationsstücken enthält, einschließlich eines Parameters und Klangquelleninformationen, und die zur Analyse eines eingegebenen Textes für jedes einzelne einer Vielzahl von Segmentdaten und zur Erzeugung von Parametern zur Synthese des Textes als Sprache auf der Grundlage der Vielzahl der in der Sprachsegmentablage (4) gespeicherten Segmente eingerichtet ist,

gekennzeichnet durch

Speichermittel (7) zur Speicherung einer Vielzahl von Durchschnittsleistungen eines jeden Vokals;

Mitteln (6) zur Messung des Abstandes zwischen den Leistungen an beiden Enden eines Vokal-Konsonant-Vokal- Segments, das die Sprachinformationen bildet und die Durchschnittsleistung von Vokalen an beiden Enden des Vokal- Konsonant- Vokal- Segments;

Mitteln (6) zur Bestimmung einer Normierungsfunktion für das Vokal- Konsonant- Vokal- Segment auf der Grundlage des gemessenen Abstandes; und durch

Leistungssteuermittel (6) zur Normierung der Leistung des Vokal- Konsonant- Vokal- Segments gemäß der bestimmten Normierungsfunktion und zur Ausgabe der Sprachinformation.

2. Einrichtung nach Anspruch 1, deren Leistungssteuermittel (6) zur Normierung des Vokal- Konsonant- Vokal- Segments als ein Ganzes eingerichtet ist.

3. Einrichtung nach Anspruch 1, deren Leistungssteuermittel (6) zur Normierung lediglich eines Vokals des Vokal- Konsonant- Vokal- Segments eingerichtet ist.

4. Einrichtung nach Anspruch 1, deren Leistungssteuermittel (6) zur Justage der Durchschnittsleistung eines jeden Vokals gemäß einer Leistungskennlinie eines Wortes oder Satzes und zur Normierung der Leistung des Vokal- Konsonat- Vokal- Segments eingerichtet ist.

5. Verfahren zur Sprachsynthese unter Verwendung einer Sprachsegmentablage (4), die eine Vielzahl von Segmenten speichert, wobei jedes Segment über eine Vokal-Konsonant-Vokal- Informationen verfügt, die eine Vielzahl von Informationsstücken enthält, einschließlich Parameter- und Klangquelleninformationen, wobei das Verfahren die Verfahrensschritte der Analyse eines eingegebenen Textes für alle der Vielzahl von Segmentdaten enthält und der Erzeugung von Parametern zur Synthese des Textes als Sprache auf der Grundlage der Vielzahl der in der Sprachsegmentablage (4) gespeicherten Segmente, mit den Verfahrensschritten:

Speichern einer Vielzahl von Durchschnittsleistungen eines jeden Vokals;

Messung eines Abstandes zwischen Leistungen an beiden Enden eines die Sprachinformationen bildenden Vokal-Konsonant-Vokal- Segments, und Messung einer Durchschnittsleistung von Vokalen an beiden Enden des Vokal- Konsonant- Vokal- Segments;

Bestimmung einer Normierungsfunktion für das Vokal- Konsonant- Vokal- Segment auf der Grundlage des gemessenen Abstandes; und mit dem Verfahrensschritt der Normierung der Leistung des Vokal- Konsonant- Vokal- Segments gemäß der bestimmten Normierungsfunktion und Ausgabe der Sprachinformationen.

6. Verfahren nach Anspruch 5, bei dem der Schritt der Normierung der Leistung des Vokal- Konsonant- Vokal- Segments die Ausführung der Normierung des VKV- Segments als Ganzes umfaßt.

7. Verfahren nach Anspruch 5, bei dem der Schritt der Normierung der Leistung des Vokal- Konsonant- Vokal- Segments die Ausführung der Normierung lediglich eines Vokals des Vokal- Konsonant-Vokal- Segments umfaßt.

8. Verfahren nach Anspruch 5, bei dem der Schritt der Normierung der Leistung des Vokal- Konsonant- Vokal- Segments die Justage der Durchschnittsleistung eines jeden Vokals gemäß einer Leistungskennlinie eines Wortes oder Satzes der zu synthetisierenden Sprache und die Normierung der Leistung des Vokal- Konsonant- Vokal- Segments umfaßt.