-
HINTERGRUND
DER ERFINDUNG
-
Die Erfindung bezieht sich auf ein
Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung und insbesondere
auf ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung
zur Steuerung der Energie von synthetisierter Sprache.
-
Ein bekanntes Sprachsyntheseverfahren, das
zum Erhalten von gewünschter
synthetisierter Sprache verfügbar
ist, umfaßt
ein Aufteilen einer voraufgezeichneten Phonemeinheit in eine Vielzahl
von Unterphonemeinheiten und ein Unterziehen der als Ergebnis erhaltenen
Unterphonemeinheiten einer Verarbeitung wie beispielsweise einer
Intervallmodifikation, einer Wiederholung und einer Ausdünnung, um
dadurch einen zusammengesetzten Ton mit einer gewünschten
Dauer und Grundfrequenz zu erhalten.
-
5A bis 5D zeigen graphische Darstellungen,
die ein Verfahren zur Aufteilung eines Sprachsignalverlaufs in Unterphonemeinheiten
schematisch veranschaulichen. Ein in 5A gezeigter
Sprachsignalverlauf wird unter Verwendung einer Extraktionsfensterfunktion
der in 5B gezeigten
Art in Unterphonemeinheiten der in 5C veranschaulichten Art
aufgeteilt. Dabei wird eine mit dem Tonhöhenintervall von ursprünglicher
Sprache synchronisierte Extraktionsfensterfunktion auf den Abschnitt
des Signalverlaufs angewendet, der stimmhaft ist (die letztere Hälfte des
Sprachsignalverlaufs), und eine Extraktionsfensterfunktion mit einem
passenden Intervall wird auf den Abschnitt des Signalverlaufs angewendet,
der stimmlos ist.
-
Die Dauer von synthetisierter Sprache
kann verkürzt
werden, indem ausgedünnt
wird und daraufhin diese durch die Fensterfunktion erhaltenen Unterphonemeinheiten
verwendet werden. Die Dauer von synthetisierter Sprache kann demgegenüber verlängert werden,
indem diese Unterphonemeinheiten wiederholt verwendet werden.
-
Durch eine Verkleinerung des Intervalls
der Unterphonemeinheiten in dem stimmhaften Abschnitt ist es möglich, die
Grundfrequenz von synthetisierter Sprache zu erhöhen. Eine Erweiterung des Intervalls der
Unterphonemeinheiten ermöglicht
es demgegenüber,
die Grundfrequenz von synthetisierter Sprache zu senken.
-
Gewünschte synthetisierte Sprache
der in 5D angegebenen
Art wird erhalten, indem die Unterphonemeinheiten nach der vorstehend
beschriebenen Wiederholung, Ausdünnung
und Intervallmodifikation wieder überlagert werden.
-
Eine Steuerung der Energie von synthetisierter
Sprache wird in der nachstehenden Art und Weise ausgeführt: in
einem Fall, in dem eine als ein Ziel dienende Phonemdurchschnittsenergie
p
0 gegeben ist, wird eine Durchschnittsenergie
p von durch die vorstehend beschriebene Prozedur erhaltener synthetisierter
Sprache bestimmt, und durch die vorstehend beschriebene Prozedur
erhaltene synthetisierte Sprache wird mit
multipliziert,
um dadurch synthetisierte Sprache mit der gewünschten Durchschnittsenergie
zu erhalten. Es ist zu beachten, daß die Energie als das Quadrat der
Amplitude oder als ein durch eine Integration des Quadrats der Amplitude über ein
geeignetes Intervall erhaltener Wert definiert ist. Die Lautstärke eines
zusammengesetzten Tons ist groß,
falls die Energie groß ist,
und klein, falls die Energie klein ist.
-
6A bis
6E zeigen graphische Darstellungen,
die bei der Beschreibung einer üblichen
Steuerung der Energie von synthetisierter Sprache verwendbar sind.
Der Sprachsignalverlauf, die Extraktionsfensterfunktion, die Unterphonemeinheiten
und der synthetisierte Signalverlauf davon in
6A bis
6D entsprechen
jeweils denjenigen gemäß
5A bis
5D.
6E veranschaulicht
energiegesteuerte synthetisierte Sprache, die durch eine Multiplikation des
synthetisierten Signalverlaufs gemäß
6D mit
erhalten
wird.
-
Mit dem vorstehend beschriebenen
Verfahren zur Energiesteuerung werden jedoch stimmlose Abschnitte
und stimmhafte Abschnitte gemäß der gleichen
Vergrößerung vergrößert, und
folglich sind Fälle
vorhanden, in denen die stimmlosen Abschnitte anormale rauschartige
Töne entwickeln.
Dies führt
zu einer Abnahme der Qualität
von synthetisierter Sprache.
-
Die WO-A-97/26648 beschreibt ein
Sprachsynthesesystem, in dem synthetisierte Sprache aus gespeicherten
Phonemproben erzeugt wird und in dem eine CPU oder ein analoger
Verstärker
eine Amplitudensteuerung bei jeder zur Synthese der Sprache verwendeten
Phonemprobe ausführt.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Entsprechend besteht ein Ziel der
vorliegenden Erfindung darin, ein Sprachsyntheseverfahren und eine
Sprachsynthesevorrichtung zur Realisierung einer Energiesteuerung,
bei der eine Abnahme der Qualität
von synthetisierter Sprache verringert ist, bereitzustellen.
-
Gemäß einer Ausgestaltung der vorliegenden
Erfindung wird das vorhergehende Ziel erreicht, indem ein Verfahren
zur Synthese von Sprache bereitgestellt wird, mit: einem Vergrößerungserfassungsschritt
zum Erhalten einer auf Unterphonemeinheiten eines stimmhaften Abschnitts
anzuwendenden ersten Vergrößerung und
einer auf Unterphonemeinheiten eines stimmlosen Abschnitts anzuwendenden
zweiten Vergrößerung auf
der Grundlage einer Zielenergie von synthetisierter Sprache; einem Extraktionsschritt
zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden
Phonem; einem Amplitudenänderungsschritt
zum Ändern
einer Amplitude einer Unterphonemeinheit eines stimmhaften Abschnitts
unter den in dem Extraktionsschritt extrahierten Unterphonemeinheiten
auf der Grundlage der ersten Vergrößerung und Ändern einer Amplitude einer
Unterphonemeinheit eines stimmlosen Abschnitts unter den in dem
Extraktionsschritt extrahierten Unterphonemeinheiten auf der Grundlage
der zweiten Vergrößerung;
und einem Syntheseschritt zum Erhalten von synthetisierter Sprache
unter Verwendung der in dem Amplitudenänderungsschritt verarbeiteten
Unterphonemeinheiten.
-
Gemäß einer anderen Ausgestaltung
der vorliegenden Erfindung wird das vorhergehende Ziel erreicht,
indem eine Vorrichtung zur Synthese von Sprache bereitgestellt wird,
mit: einer Vergrößerungserfassungseinrichtung
zum Erhalten einer auf eine Unterphonemeinheit eines stimmhaften
Abschnitts anzuwendenden ersten Vergrößerung und einer auf eine Unterphonemeinheit
eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf
der Grundlage einer Zielenergie von synthetisierter Sprache; einer
Extraktionseinrichtung zum Extrahieren von Unterphonemeinheiten
aus einem zu synthetisierenden Phonem; einer Amplitudenänderungseinrichtung
zum Multiplizieren einer Unterphonemeinheit eines stimmhaften Abschnitts
unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten
mit einer ersten Amplitudenänderungsvergrößerung und
Multiplizieren einer Unterphonemeinheit eines stimmlosen Abschnitts
unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten
mit einer zweiten Amplitudenänderungsvergrößerung;
und einer Syntheseeinrichtung zum Erhalten von synthetisierter Sprache unter
Verwendung der durch die Amplitudenänderungseinrichtung verarbeiteten
Unterphonemeinheiten.
-
Die vorliegende Erfindung stellt
auch einen Speicherträger
gemäß dem Patentanspruch
15 und von einer Verarbeitungseinrichtung ausführbare Anweisungen gemäß dem Patentanspruch
22 bereit.
-
Andere Merkmale und Vorteile der
vorliegenden Erfindung sind aus der nachstehenden Beschreibung in
Verbindung mit den beigefügten
Zeichnungen, in denen gleiche Bezugszeichen überall in den Figuren davon
die gleichen oder ähnliche
Teile bezeichnen, ersichtlich.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
Die beigefügten Zeichnungen, die eng mit der
Patentschrift verbunden sind und einen Teil von ihr bilden, veranschaulichen
Ausführungsbeispiele der
Erfindung und dienen zusammen mit der Beschreibung zur Erläuterung
der Prinzipien der Erfindung.
-
1 zeigt
ein Blockschaltbild, das einen Hardwareaufbau gemäß einem
Ausführungsbeispiel der
vorliegenden Erfindung veranschaulicht;
-
2 zeigt
ein Flußdiagramm,
das eine Sprachsyntheseverarbeitung gemäß diesem Ausführungsbeispiel
veranschaulicht;
-
3 zeigt
ein Flußdiagramm,
das die Einzelheiten der Verarbeitung (Schritt S4) zur Berechnung
von Amplitudenänderungsvergrößerungen
veranschaulicht;
-
4A bis 4D zeigen graphische Darstellungen,
die bei der Beschreibung eines Überblicks
der Energiesteuerung bei der Sprachsyntheseverarbeitung gemäß diesem
Ausführungsbeispiel
verwendbar sind;
-
5A bis 5D zeigen graphische Darstellungen,
die ein Verfahren zur Aufteilung eines Sprachsignalverlaufs in Unterphonemeinheiten
schematisch veranschaulichen;
-
6A bis 6E zeigen graphische Darstellungen,
die bei der Beschreibung einer üblichen
Steuerung der Energie von synthetisierter Sprache verwendbar sind;
und
-
7 zeigt
ein Flußdiagramm,
das eine andere Sequenz der Berechnungsverarbeitung einer Amplitudenänderungsvergrößerung darstellt.
-
BESCHREIBUNG
DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
-
1 zeigt
ein Blockschaltbild, das einen Hardwareaufbau gemäß einem
Ausführungsbeispiel der
Erfindung veranschaulicht.
-
Wie es in 1 gezeigt ist, umfaßt die Hardware eine Zentraleinheit
H1 zur Ausführung
einer Verarbeitung wie beispielsweise numerischer Berechnungen und
einer Steuerung gemäß nachstehend
beschriebenen Flußdiagrammen,
eine Speichervorrichtung H2 wie beispielsweise ein RAM und ROM zur
Speicherung eines Steuerprogramms und von für die später beschriebene Prozedur und
Verarbeitung notwendigen temporären
Daten und eine externe Speichereinheit H3 mit einer Festplatte oder dergleichen.
Die externe Speichereinheit H3 speichert ein Phonemlexikon, in dem
als die Grundlage von synthetisierter Sprache dienende Phonemeinheiten
eingetragen worden sind.
-
Die Hardware umfaßt ferner eine Ausgabeeinheit
H4 wie beispielsweise einen Lautsprecher zur Ausgabe von synthetisierter
Sprache. Es ist jedoch zu beachten, daß es möglich ist, dieses Ausführungsbeispiel
als Teil einer anderen Vorrichtung oder als Teil eines Programms
zu integrieren, wobei in diesem Fall die Ausgabe mit der Eingabe
der anderen Vorrichtung oder des Programms verbunden wäre. Es ist auch
eine Eingabeeinheit H5 wie beispielsweise eine Tastatur zur Eingabe
von Text, der das Ziel der Sprachsynthese ist, sowie von Befehlen
zur Steuerung von synthetisiertem Ton bereitgestellt. Es ist jedoch
zu beachten, daß es
möglich
ist, die Erfindung als Teil einer anderen Vorrichtung oder als Teil
eines Programms zu integrieren, wobei in diesem Fall die Eingabe
indirekt über
die andere Vorrichtung oder das Programm ausgeführt werden würde. Beispiele für die andere
Vorrichtung umfassen ein Fahrzeugnavigationssystem, einen Anrufbeantworter
und andere elektrische Haushaltsgeräte. Ein Beispiel für eine andere
Eingabe als von einer Tastatur sind über zum Beispiel eine Kommunikationsleitung
verteilte Textinformationen. Ein Beispiel für eine andere Ausgabe als von
einem Lautsprecher ist die Ausgabe zu einer Telefonleitung, die
Aufzeichnung auf eine Aufzeichnungsvorrichtung wie beispielsweise
eine Minidisc und so weiter. Ein Bus H6 verbindet diese Komponenten
miteinander.
-
Nachstehend ist eine Sprachsyntheseverarbeitung
gemäß diesem
Ausführungsbeispiel
der Erfindung auf der Grundlage des vorstehend dargelegten Hardwareaufbaus
beschrieben. Ein Überblick
der Verarbeitung gemäß diesem
Ausführungsbeispiel
ist unter Bezugnahme auf 4A bis 4D beschrieben, bevor die
Einzelheiten der Verarbeitungsprozedur beschrieben sind.
-
4A bis 4D zeigen graphische Darstellungen,
die bei der Beschreibung eines Überblicks
der Energiesteuerung bei der Sprachsyntheseverarbeitung gemäß diesem
Ausführungsbeispiel
verwendbar sind. Gemäß dem Ausführungsbeispiel
werden eine Amplitudenvergrößerung s
des Unterphonemsignalverlaufs eines stimmlosen Abschnitts und eine Amplitudenvergrößerung r
des Unterphonemsignalverlaufs eines stimmhaften Abschnitts bestimmt,
die Amplitude jeder Unterphonemeinheit wird geändert, und daraufhin werden
eine Unterphonemeinheitswiederholung, eine Ausdünnung und eine Intervallmodifikationsverarbeitung
ausgeführt.
Die Unterphonemeinheiten werden wieder überlagert, um dadurch synthetisierte
Sprache mit der gewünschten
Energie zu erhalten, wie es in 4D gezeigt
ist.
-
2 zeigt
ein Flußdiagramm,
das die Verarbeitung gemäß der Erfindung
veranschaulicht. Die Erfindung ist nachstehend gemäß diesem
Flußdiagramm
beschrieben.
-
In einem Schritt S1 werden Parameter
bezüglich
des Ziels der Syntheseverarbeitung eingestellt. Bei diesem Ausführungsbeispiel
werden ein Phonem (Name), eine Durchschnittsenergie p0 des Phonems
von Interesse, eine Dauer d und eine Zeitreihe f(t) der Grundfrequenz
als die Parameter eingestellt. Diese Werte können direkt über die
Eingabeeinheit H5 eingegeben oder durch ein anderes Modul unter
Verwendung der Ergebnisse einer Sprachanalyse oder der Ergebnisse
einer auf eingegebenen Text angewendeten statistischen Verarbeitung
berechnet werden.
-
Als nächstes wird in einem Schritt
S2 eine Phonemeinheit A, auf deren Grundlage ein zu synthetisierendes
Phonem basiert, aus einem Phonemlexikon ausgewählt. Das grundlegendste Kriterium für die Auswahl
der Phonemeinheit A ist der vorstehend angeführte Phonemname. Andere Auswahlkriterien,
die verwendet werden können,
umfassen die Leichtigkeit der Verbindung mit Phonemeinheiten (wobei
es sich um die Namen der Phonemeinheiten handeln kann) auf beiden
Seiten und die "Nähe" zu der Dauer, Grundfrequenz
und Energie, die bei der Synthese die Ziele sind. In einem Schritt
S3 wird die Durchschnittsenergie p der Phonemeinheit A berechnet.
Die Durchschnittsenergie wird als der Zeitdurchschnitt des Quadrats
der Amplitude berechnet. Es ist zu beachten, daß die Durchschnittsenergie
einer Phonemeinheit im voraus berechnet und auf einer Platte oder
dergleichen gespeichert werden kann. Daraufhin kann dann, wenn ein
Phonem zu synthetisieren ist, die Durchschnittsenergie von der Platte ausgelesen
werden, statt sie zu berechnen. Dem folgt in einem Schritt S4 die
Berechnung der auf einen stimmhaften Ton angewendeten Vergrößerung r und
der auf einen stimmlosen Ton angewendeten Vergrößerung s zum Zwecke der Änderung
der Amplitude der Phonemeinheit. Die Einzelheiten der Verarbeitung
des Schritts S4 zur Berechnung der Amplitudenänderungsvergrößerungen
sind später
unter Bezugnahme auf 3 beschrieben.
-
In einem Schritt S5 wird ein Schleifenzähler i auf
0 initialisiert.
-
Als nächstes wird in einem Schritt
S6 eine i-te Unterphonemeinheit α(i)
aus den die Phonemeinheit A bildenden Unterphonemeinheiten ausgewählt. Die
Unterphonemeinheit α(i)
wird erhalten, indem die Phonemeinheit, die von der in 4A gezeigten Art ist, mit
der in 4B veranschaulichten
Fensterfunktion multipliziert wird.
-
Als nächstes wird es in einem Schritt
S7 bestimmt, ob die in dem Schritt S6 ausgewählte Unterphonemeinheit α(i) eine
stimmhafte oder stimmlose Unterphonemeinheit ist. Die Verarbeitung
verzweigt sich abhängig
von der ausgebildeten Bestimmung. Die Steuerung geht zu 58 über, falls α(i) stimmhaft
ist, und zu einem Schritt S9, falls α(i) stimmlos ist.
-
In dem Schritt S8 wird die Amplitude
einer stimmhaften Unterphonemeinheit geändert. Speziell wird die Amplitude
der Unterphonemeinheit α(i)
mit r multipliziert, was die in dem Schritt S4 gefundene Amplitudenänderungsvergrößerung ist,
wonach die Steuerung zu einem Schritt S10 übergeht. Demgegenüber wird
in dem Schritt S9 die Amplitude einer stimmlosen Unterphonemeinheit
geändert.
Speziell wird die Amplitude der Unterphonemeinheit α(i) mit s multipliziert,
was die in dem Schritt S4 gefundene Amplitudenänderungsvergrößerung ist,
wonach die Steuerung zu dem Schritt S10 übergeht.
-
In dem Schritt S10 wird der Wert
des Schleifenzählers
i erhöht.
Als nächstes
wird es in einem Schritt S11 bestimmt, ob der Zählwert in dem Schleifenzähler i gleich
der Anzahl von in der Phonemeinheit A enthaltenen Unterphonemeinheiten
ist. Die Steuerung geht zu einem Schritt S12 über, falls die zwei gleich
sind, und zu dem Schritt S6, falls die zwei nicht gleich sind.
-
In dem Schritt S12 wird ein zusammengesetzter
Ton erzeugt, indem die Unterphonemeinheit, die in der beschriebenen
Art und Weise mit r oder s multipliziert worden ist, einer Signalverlaufsformungs-
und Signalverlaufsverbindungsverarbeitung gemäß der in dem Schritt S1 eingestellten
Grundfrequenz f(t) und Dauer d unterzogen wird.
-
Nachstehend sind die Einzelheiten
der Verarbeitung des Schritts S4 zur Berechnung der Amplitudenänderungsvergrößerungen
beschrieben. 3 zeigt
ein Flußdiagramm,
das die Einzelheiten dieser Verarbeitung darstellt.
-
In einem Schritt S13 wird eine anfängliche Einstellung
der Amplitudenänderungsvergrößerung ausgeführt. Bei
diesem Ausführungsbeispiel
werden die Amplitudenänderungsvergrößerungen
auf
eingestellt.
Als nächstes
wird es in einem Schritt S14 bestimmt, ob die auf einen stimmhaften
Ton anzuwendende Amplitudenänderungsvergrößerung r
größer als
ein zulässiger
oberer Grenzwert r
max ist. Falls das Ergebnis
der Bestimmung darin besteht, daß r > r
max gilt, geht
die Steuerung zu einem Schritt S15 über, wo der Wert von r bei
dem oberen Grenzwert der auf stimmhaften Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten
wird. Das heißt,
in dem Schritt S15 wird die auf stimmhaften Ton angewendete Amplitudenänderungsvergrößerung r
auf den oberen Grenzwert r
max eingestellt.
Die Steuerung geht daraufhin zu einem Schritt S18 über. Falls
es in dem Schritt S14 gefunden wird, daß r > r
max nicht gilt,
geht die Steuerung demgegenüber
zu einem Schritt S16 über.
Hier wird es bestimmt, ob die auf einen stimmhaften Ton anzuwendende
Amplitudenänderungsvergrößerung r
kleiner als ein zulässiger
unterer Grenzwert r
min ist. Falls r < r
min gilt,
geht die Steuerung zu einem Schritt S17 über. Wenn r < r
min nicht
gilt, dann geht die Steuerung zu einem Schritt S18 über. In
dem Schritt S17 wird der Wert von r bei dem unteren Grenzwert der
auf stimmhaften Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten.
Das heißt,
die auf stimmhaften Ton angewendete Amplitudenänderungsvergrößerung r
wird auf den unteren Grenzwert r
min eingestellt. Die
Steuerung geht daraufhin zu dem Schritt S18 über.
-
In dem Schritt S18 wird es bestimmt,
ob die auf einen stimmlosen Ton anzuwendende Amplitudenänderungsvergrößerung s
größer als
ein zulässiger
oberer Grenzwert smax ist. Die Steuerung
geht zu einem Schritt S19 über,
falls s > smax gilt, und zu einem Schritt 520, falls
s > smax nicht
gilt. In dem Schritt S19 wird der Wert von s bei dem oberen Grenzwert der
auf stimmlosen Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten.
Das heißt,
die auf stimmlosen Ton angewendete Amplitudenänderungsvergrößerung s
wird auf den oberen Grenzwert smax eingestellt.
Die Berechnung dieser Amplitudenänderungsvergrößerung wird
daraufhin beendet. Demgegenüber
wird es in dem Schritt S20 bestimmt, ob die auf einen stimmlosen
Ton anzuwendende Amplitudenänderungsvergrößerung s
kleiner als ein zulässiger
unterer Grenzwert smin ist. Falls s < smin gilt,
geht die Steuerung zu einem Schritt S21 über. Wenn s < smin nicht
gilt, dann wird die Berechnung dieser Amplitudenänderungsvergrößerung beendet.
In dem Schritt S21 wird der Wert von s bei dem unteren Grenzwert
der auf stimmlosen Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten.
Das heißt,
die auf stimmlosen Ton angewendete Amplitudenänderungsvergrößerung s
wird auf den unteren Grenzwert smin eingestellt.
Die Berechnung dieser Amplitudenänderungsvergrößerungen
wird daraufhin beendet.
-
Gemäß diesem Ausführungsbeispiel
der Erfindung wie vorstehend beschrieben werden dann, wenn sich
nach einer eingestellten Energie richtende synthetisierte Sprache
zu erhalten ist, die Amplituden von Unterphonemeinheiten durch an
jeweilige stimmhafte und stimmlose Töne angepaßte Amplitudenänderungsvergrößerungen
geändert.
Dies ermöglicht es,
synthetisierte Sprache von guter Qualität zu erhalten. Da die Amplitudenänderungsvergrößerung von
stimmloser Sprache bei einer vorbestimmten Größe abgeschnitten wird, wird
insbesondere anormaler rauschartiger Ton in stimmlosen Abschnitten verringert.
-
Es sind Fälle vorhanden, in denen der
Energiezielwert in einer Sprachsynthesevorrichtung selbst eine durch
ein Verfahren oder anders gefundene Schätzung ist. Um in derartigen
Fällen
mit einem einem Schätzfehler
zuzuschreibenden anormalen Wert fertig zu werden, wird bei der Verarbeitung
gemäß 3 das Abschneiden bei den
oberen und unteren Grenzwerten ausgeführt, um eine Verwendung von
Vergrößerungen,
die nicht vernünftig
sind, zu vermeiden. Ferner sind Fälle vorhanden, in denen die stimmhafte
und stimmlose Töne
betreffenden Bestimmungen nicht mit Sicherheit ausgebildet werden können und
die zwei nicht klar voneinander unterschieden werden können. In
derartigen Fällen
wird zum Zwecke des Fertigwerdens mit stimmhafte und stimmlose Töne betreffenden
Beurteilungsfehlern ein oberer Grenzwert bezüglich stimmhaften Tons bereitgestellt.
-
Bei dem vorstehend beschriebenen
Ausführungsbeispiel
wird ein Zielwert p der Energie pro Phonem eingestellt. Es ist jedoch
ebenfalls möglich,
ein Phonem in eine Anzahl N von Intervallen aufzuteilen und einen
Zielwert pk (1 < k < N)
der Energie in jedem Intervall einzustellen. In einem derartigen
Fall würde die
vorstehend beschriebene Verarbeitung auf jedes Intervall der Anzahl
N von Intervallen angewendet werden. Das heißt, es würde genügen, die vorstehend beschriebene
Verarbeitung gemäß 2 und 3 durch eine Behandlung des Sprachsignalverlaufs
in jedem Intervall als ein unabhängiges
Phonem anzuwenden.
-
Ferner veranschaulicht das vorstehende Ausführungsbeispiel
ein Verfahren zur Multiplikation der Phonemeinheit A mit einer Fensterfunktion
als das Verfahren zum Erhalten der Unterphonemeinheit α(i). Unterphonemeinheiten
können
jedoch durch eine kompliziertere Signalverarbeitung erhalten werden.
Zum Beispiel kann die Phonemeinheit A einer Cepstrum-Analyse in
einem geeigneten Intervall unterzogen werden, und ein Impulsantwortsignalverlauf in
dem erhaltenen Filter kann verwendet werden.
-
Obwohl bei dem in 3 gezeigten Flußdiagramm die auf die stimmhafte
Unterphonemeinheit anzuwendende Amplitudenänderungsvergrößerung r
und die auf die stimmlose Unterphonemeinheit anzuwendende Amplitudenänderungsvergrößerung s auf
den gleichen Wert eingestellt (Schritt S13) und daraufhin bei der
nachfolgenden Abschneideverarbeitung geändert werden, ist es zu beachten,
daß das
Verfahren zur Bestimmung der Werte der Amplitudenänderungsvergrößerungen
r und s nicht darauf beschränkt
ist. Die Amplitudenänderungsvergrößerungen
r und s können
vor der Ausführung
des Abschneidens auf verschiedene Werte eingestellt werden. 7 zeigt ein Flußdiagramm,
das ein Beispiel für
derartige Verarbeitungsschritte darstellt. Es ist zu beachten, daß in 7 im Hinblick auf die gleichen Verarbeitungsschritte
wie diejenigen in 3 die gleichen
Bezugszeichen zugewiesen sind und eine ausführliche Beschreibung davon
dabei weggelassen ist.
-
In 7 ist
ein Schritt S22 nach dem Schritt S13 hinzugefügt. In dem Schritt S22 wird
die auf einen stimmlosen Ton anzuwendende Amplitudenänderungsvergrößerung r
mit ρ(0 < ρ < 1) multipliziert, um
die Energie des stimmlosen Abschnitts zu unterdrücken. Dabei kann ρ ein konstanter
Wert oder ein durch eine Bedingung wie beispielsweise einen Namen
einer Phonemeinheit bestimmter Wert sein. Dadurch können die
Amplitudenänderungsvergrößerungen
r und s ohne Rücksicht
auf die Abschneideverarbeitung auf verschiedene Werte eingestellt
werden. Ferner kann durch eine Einstellung eines Werts ρ in Verbindung
mit jedem Phonem die Amplitudenänderungsvergrößerung s
geeigneter eingestellt werden.
-
Die Erfindung kann auf ein durch
eine Vielzahl von Vorrichtungen (zum Beispiel einen Hostcomputer,
eine Schnittstelle, eine Leseeinrichtung, einen Drucker und so weiter)
gebildetes System oder auf ein eine einzelne Vorrichtung (zum Beispiel
einen Kopierer oder ein Faxgerät
und so weiter) umfassendes Gerät
angewendet werden.
-
Ferner ist es selbstverständlich,
daß die
Erfindung auch auf einen Fall anwendbar ist, in dem das Ziel der
Erfindung erreicht wird, indem einem System oder einem Gerät ein Speicherträger oder
ein Trägersignal,
der oder das die Programmcodes der Software zur Ausführung der
Funktionen des vorhergehenden Ausführungsbeispiels speichert oder
trägt, zugeführt wird,
die Programmcodes mit einem Computer (zum Beispiel einer CPU oder
MPU) des Systems oder Geräts
von dem Speicherträger
gelesen werden und daraufhin die Programmcodes ausgeführt werden.
-
In diesem Fall realisieren die von
dem Speicherträger
gelesenen Programmcodes die neuen Funktionen der Erfindung, und
der die Programmcodes speichernde Speicherträger bildet die Erfindung.
-
Ferner kann der Speicherträger wie
beispielsweise eine Diskette, eine Festplatte, eine optische Platte,
eine magnetooptische Platte, eine CD-ROM, eine CD-R, ein Magnetband,
eine Speicherkarte des nichtflüchtigen
Typs oder ein ROM zur Bereitstellung der Programmcodes verwendet
werden.
-
Ferner ist es neben dem Fall, in
dem die oben erwähnten
Funktionen gemäß dem Ausführungsbeispiel
durch eine Ausführung
der durch einen Computer gelesenen Programmcodes realisiert werden,
selbstverständlich,
daß die
Erfindung einen Fall abdeckt, in dem ein auf dem Computer laufendes
Betriebssystem oder dergleichen einen Teil des Prozesses oder den
ganzen Prozeß gemäß der Bezeichnung
von Programmcodes ausführt
und die Funktionen gemäß den Ausführungsbeispielen
realisiert.
-
Es ist selbstverständlich,
daß die
Erfindung ferner einen Fall abdeckt, in dem nach einem Schreiben
der von dem Speicherträger
gelesenen Programmcodes in eine in den Computer eingesetzte Funktionserweiterungskarte
oder in einen in einer mit dem Computer verbundenen Funktionserweiterungseinheit
bereitgestellten Speicher eine in der Funktionserweiterungskarte
oder Funktionserweiterungseinheit enthaltene CPU oder dergleichen
einen Teil des Prozesses oder den ganzen Prozeß gemäß der Bezeichnung von Programmcodes
ausführt
und die Funktion des vorstehenden Ausführungsbeispiels realisiert.
-
Somit werden gemäß der Erfindung wie vorstehend
beschrieben Amplitudenänderungsvergrößerungen,
die sich für
stimmhafte und stimmlose Töne
unterscheiden, zur Ausführung
einer Multiplikation verwendet, wenn die Energie von synthetisierter Sprache
gesteuert wird. Dies ermöglicht
eine Sprachsynthese, bei der rauschartige anormale Töne in stimmlosem
Ton erzeugt werden.
-
Da viele offensichtlich sehr verschiedene Ausführungsbeispiele
der Erfindung ausgebildet werden können, ohne von ihrem Schutzbereich
abzuweichen, ist es selbstverständlich,
daß die
Erfindung nicht auf die vorstehend beschriebenen speziellen Ausführungsbeispiele
beschränkt
ist, sondern daß der
Schutzbereich der Erfindung lediglich durch die beigefügten Patentansprüche beschränkt ist.