-
HINTERGRUND
DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung
zur Editierung/Erzeugung synthetischer Sprachmitteilungen und auf
ein Aufzeichnungsmedium, auf dem das Verfahren aufgezeichnet ist.
Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Editierung/Erzeugung
einer Sprachmitteilung, das eine einfache und schnelle Synthese
von Sprachmitteilungen mit gewünschten
prosodischen Merkmalen ermöglicht.
-
Das
Sprechen in dialogischer Form übermittelt
den mentalen Zustand des Sprechers, seine Intentionen und ähnliches
sowie die sprachliche Bedeutung des gesprochenen Dialogs. Derartige
in der Stimme des Sprechers enthaltene Informationen werden, abgesehen
von ihrer sprachlichen Bedeutung, im Allgemeinen als nicht-verbale
(außersprachliche)
Informationen bezeichnet. Der Hörer
entnimmt der Intonation, der Betonung und der Dauer der gemachten Äußerung die
nicht-verbalen Informationen.
Hierfür
wurde ein sogenanntes Text-zu-Sprache-(TTS/Text-To-Speech)-Verfahren zur Synthese
von Mitteilungen, eine „Sprachsynthese mittels
Regeln", erforscht
und entwickelt, die einen Text in eine gesprochene Form umwandelt.
Im Gegensatz zu dem Fall des Erzeugens und Synthetisierens aufgenommener
Sprache, beinhaltet dieses Verfahren keine bestimmten Begrenzungen
bezüglich
der ausgegebenen Sprache und behebt das Problem, dass für die nachfolgende,
teilweise Änderung
der Mitteilung die Originalstimme des Sprechers benötigt wird.
Da jedoch die verwendeten Regeln zur Erzeugung der Prosodik auf
prosodischen Merkmalen einer Sprache basieren, die in einem rezitierenden
Ton entstanden ist, ist es jedoch unvermeidbar, dass die synthetisierte
Sprache eine rezitierende Form erhält und daher monoton klingt.
Bei natürlichen
Unterhaltungen verändern
sich die prosodischen Merkmale der in Dialogen gesprochenen Sprache
erheblich mit dem mentalen Zustand und den Intentionen des Sprechers.
-
Im
Hinblick darauf, die mithilfe von Regeln synthetisierte Sprache
natürlicher
klingen zu lassen, hat man einen Versuch unternommen, die prosodischen
Merkmale zu editieren; derartige Editierungsvorgänge sind jedoch schwer zu automatisieren: üblicherweise
ist es für
einen Nutzer notwendig, auf seiner Erfahrung und seinem Wissen basierende
Editierungen zu machen. Bei den Editierungen ist es schwierig, eine
Anordnung oder eine Konfiguration zum zufälligen Korrigieren prosodischer
Parameter, wie der Betonung, der grundlegenden Frequenz (Tonhöhe bzw.
pitch (engl.)), des Amplitudenwerts (Leistung) und der Dauer einer
zu synthetisierenden Äußerungseinheit,
einzusetzen. Daher ist es schwierig, eine Sprachmitteilung mit gewünschten prosodischen
Merkmalen dadurch zu erhalten, dass prosodische oder phonologische
Parameter desjenigen Abschnitts der synthetischen Sprache, der monoton
und daher rezitierend klingt, willkürlich korrigiert werden.
-
Um
eine Korrektur prosodischer Parameter zu vereinfachen, wurde in
der EP-A-0 762 384 ebenfalls ein ein GUI (Graphic User Interface)
anwendendes Verfahren vorgeschlagen, bei welchem prosodische Parameter
einer synthetisierten Sprache in graphischer Form auf einem Display
angezeigt, diese durch Verwendung einer Maus oder einem ähnlichen
Zeigewerkzeug visuell korrigiert und modifiziert werden und eine Sprachmitteilung
mit gewünschten
nicht-verbalen Informationen synthetisiert wird, während die
Korrekturen und Modifikationen durch Verwendung der synthetisierten
Sprachausgabe bestätigt
werden. Da dieses Verfahren die prosodischen Parameter visuell korrigiert,
benötigt
der Vorgang zur Korrektur gegenwärtiger
Parameter jedoch Erfahrung und Kenntnis bezüglich der Phonetik, was daher
für eine
gewöhnliche
Bedienperson schwierig ist.
-
U.S.
Patent Nr. 4,907,279, JP-A-5-307396, JP-A-3-189697 und JP-A-5-19780
offenbaren ein Verfahren, das Steuerbefehle für phonologische Parameter,
wie Betonungen und Pausen, in einen Text einfügt und synthetisierte Sprache
durch Verwendung derartiger Steuerbefehle editiert. Auch bei diesem
Verfahren gestaltet sich der Vorgang zum Editieren der nicht-verbalen
Information für
eine Person, die kein Wissen über
die Beziehung zwischen nicht-verbalen Informationen und der Steuerung
der Prosodik besitzt, immer noch schwierig.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Es
ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren
und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache
bereitzustellen, mit denen es für
eine Bedienperson auf einfache Weise möglich ist, eine Sprachmitteilung
mit gewünschten
prosodischen Parametern zu synthetisieren.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren
und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache
bereitzustellen, die verschiedene nicht-verbale Informationen auszudrücken ermöglicht,
die nicht in der verbalen Information enthalten sind, wie der mentale
Zustand des Sprechers, seine Haltung und den Grad des Verstehens.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren
und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache
bereitzustellen, die eine Erleichterung bei der visuellen Erkennung
der Wirkungen einer Steuerung prosodischer Parameter bei der Editierung
nicht-verbaler Information einer synthetischen Sprachmitteilung
ermöglichen.
-
Diese
Aufgaben werden mit einem in Anspruch 1 beanspruchten Verfahren
und einer in Anspruch 6 beanspruchten Vorrichtung gelöst. Bevorzugte
Ausführungsformen
der Erfindung sind Gegenstand der abhängigen Ansprüche.
-
Aufzeichnungsmedien,
auf denen Abläufe
zur Ausführung
der Editierungsverfahren gemäß der vorliegenden
Erfindung aufgezeichnet werden, sind von der Erfindung ebenfalls
umfasst.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist ein Schaubild zur
Erläuterung
eines MSCL(Multi-Layered Speech/Sound Synthesis Control Language)-Beschreibungsschemas
bei einer ersten Ausführungsform
der voiliegenden Erfindung;
-
2 ist ein Ablaufdiagramm,
das ein Verfahren zur Editierung synthetischer Sprache zeigt, das
die erste Ausführungsform
umfasst;
-
3 ist ein Blockdiagramm,
das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der ersten
Ausführungsform
veranschaulicht;
-
4 ist ein Schaubild zur
Erläuterung
von Veränderungen
einer Tonhöhenkontur
bei einer zweiten Ausführungsform
der vorliegenden Erfindung;
-
5 ist eine Tabelle, die
die Ergebnisse von Hörtests
synthetischer Sprachmitteilungen mit modifizierten Tonhöhenkonturen
bei der zweiten Ausführungsform
zeigt;
-
6 ist eine Tabelle, die
die Ergebnisse von Hörtests
synthetischer Sprachmitteilungen mit skalierten Äußerungsdauern bei der zweiten
Ausführungsform
zeigt;
-
7 ist eine Tabelle, die
die Ergebnisse von Hörtests
synthetischer Sprachmitteilungen zeigt, die in Kombination modifizierte
Tonhöhenkonturen
und skalierte Äußerungsdauern
bei der zweiten Ausführungsform besitzen;
-
8 ist eine Tabelle, die
Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die
prosodische Merkmale der Tonhöhe
und der Leistung bei einer dritten Ausführungsform der vorliegenden
Erfindung betreffen;
-
9 ist eine Tabelle, die
Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die
den dynamischen Umfang der Tonhöhe
bei der dritten Ausführungsform
zeigt;
-
10A ist ein Schaubild, das
eine Beispiel eines eingegebenen japanischen Satzes bei der dritten Ausführungsform
zeigt;
-
10B ist ein Schaubild, das
ein Beispiel seiner Beschreibung mithilfe von MSCL zeigt;
-
10C ist ein Schaubild, das
ein Beispiel einer Darstellung der Wirkung der Befehle gemäß der dritten
Ausführungsform
zeigt;
-
11 ist ein Ablaufdiagramm,
das Editierungs- und Anzeigevorgänge
gemäß der dritten
Ausführungsform
zeigt;
-
12 ist ein Blockdiagramm,
das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der dritten
Ausführungsform
veranschaulicht.
-
DETAILLIERTE
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Erste Ausführungsform
-
Bei
spontanen Unterhaltungen ändert
der Sprecher die Betonung, die Geschwindigkeit und die Tonhöhe seiner Äußerungen,
um damit verschiedenste Informationen auszudrücken, die in der verbalen Information
nicht enthalten sind, wie sein mentaler Zustand, seine Haltung und
sein Verständnis
sowie deren beabsichtigte Abstufungen. Hierdurch wird der gesprochene
Dialog ausdrucksstark und klingt natürlich. Bei der Synthese von
Sprache mithilfe von Regeln ausgehend von einem Text wurden ebenfalls
Bestrebungen unternommen, zusätzlich
gewünschte
nicht-verbale Informationen bereitzustellen. Da bei jedem dieser
Ansätze
ein Befehl zur Steuerung spezifischer phonologischer Information
in den Text eingebracht wird, muss der Nutzer Kenntnisse über verbale
Informationen besitzen.
-
Bei
der Verwendung einer Vorrichtung zur Synthese von Sprache aus Texten
ist zur Übermittlung
von Informationen und Nuancen, die tagtägliche Unterhaltungen beinhalten,
eine genaue Steuerung der prosodischen Parameter der synthetischen
Sprache notwendig. Andererseits ist es für einen Nutzer unmöglich, abzuschätzen, inwiefern
die Tonhöhe
oder die Dauer einen Einfluss auf die Mitteilung von Informationen
oder Nuancen der Sprache haben, sofern er nicht Kenntnisse zur Sprachsynthese
oder zu Text-zu-Sprache-Synthesevorrichtungen besitzt. Nun folgt
zunächst
eine Beschreibung der Mehrfach-Ebenen-Sprach/Klang-Synthese-Steuerungssprache
(Multi-Layered Speech/Sound Synthesis Control Language/MSCL) gemäß der vorliegenden
Erfindung, deren Nutzung für
den Nutzer erleichtert werden soll.
-
Bei
der Nutzung ergeben sich für
den Nutzer zwei Erleichterungen. Zunächst ist eine Nutzungserleichterung
für Anfänger vorgesehen,
die es ihnen ermöglicht,
einen Text, der in die Text-zu-Sprache-Synthesevorrichtung
eingegeben wird, auf einfache Weise zu beschreiben, auch wenn sie über kein
Expertenwissen verfügen.
Durch HTML, die die Beziehung zwischen der Größe und der Position jedes Zeichens
im Internet definiert, können
die Zeichen in einer Größe entsprechend
der Länge
eines Satzes dargestellt werden, indem die Zeichenfolge beispielsweise
mit als <H1> und </H1> bezeichneten Markierungen
umgeben wird; jedermann kann die gleiche Homepage erzeugen. Eine
derartige Standardregel ist nicht nur für Anfänger günstig, sondern führt auch
zu einer Reduzierung des die Beschreibung betreffenden Arbeitsumfangs.
Zweitens besteht eine Nutzungserleichterung, die für sachkundige
Nutzer gedacht ist, die die Beschreibung einer genauen Steuerung ermöglicht.
Das vorgenannte Verfahren kann die Zeichengestalt und die Schreibrichtung
nicht verändern. Selbst
im Falle der Zeichenfolge ergibt sich beispielsweise die Notwendigkeit,
diese auf verschiedenste Weise zu verändern, falls eine die Aufmerksamkeit
anziehende Homepage angefertigt werden soll. Es wäre daher manchmal
wünschenswert,
eine synthetische Sprache mit einem höheren Grad an Vollständigkeit
zu schaffen, auch wenn Expertenwissen dafür benötigt wird.
-
Vom
Standpunkt der Steuerung nicht-verbaler Information der Sprache
aus, verwendet die erste Ausführungsform
der vorliegenden Erfindung als Mittel zur Umsetzung der erstgenannten
Nutzungserleichterung eine Semantik-Niveauebene (nachfolgend als
S-Ebene bezeichnet), die aus Steuerbefehlen zu semantisch-prosodischen
Merkmalen aufgebaut ist, die Worte oder Ausdrücke darstellen, die jeweils
nicht-verbale Informationen repräsentieren,
und als Mittel zur Umsetzung der zweiten Nutzungserleichterung eine
Interpretations-Niveauebene (nachfolgend als I-Ebene bezeichnet),
die aus Prosodikmerkmal-Steuerbefehlen zur Interpretation jedes
Prosodikmerkmal-Steuerbefehls der S-Ebene und zur Definierung einer
direkten Steuerung prosodischer Parameter der Sprache aufgebaut
ist. Des Weiteren verwendet diese Ausführungsform eine Parameter-Niveauebene
(nachfolgend als P-Ebene bezeichnet), die aus prosodischen Parametern
aufgebaut ist, die der Steuerung durch die Steuerbefehle der I-Ebene
unterworfen sind. Die erste Ausführungsform
fügt die Prosodikmerkmal-Steuerbefehle
durch Verwendung eines Prosodik-Steuersystems in einen Text ein,
wobei das System die drei genannten Ebenen in einer wie in 1 dargestellten Mehrfachebenenform
besitzt.
-
Die
P-Ebene besteht hauptsächlich
aus prosodischen Parametern, die von den als nächstes beschriebenen Prosodikmerkmal-Steuerbefehlen
der I-Ebene ausgewählt
und gesteuert werden. Diese prosodischen Parameter sind diejenigen
prosodischer Merkmale, die in einem Sprachsynthesesystem verwendet
werden, wie die Tonhöhe
(Pitch, engl.), die Leistung, die Dauer und phonematische Information
für jedes
Phonem. Die prosodischen Parameter sind grundlegende Objekte einer
Prosodiksteuerung durch MSCL, und diese Parameter werden zur Steuerung
synthetischer Sprache verwendet. Die prosodischen Parameter der
P-Ebene stellen Basisparameter der Sprache dar und besitzen eine
schnittstellenähnliche
Eigenschaft, die die Anwendung der Editierungstechnik für synthetische
Sprache gemäß der vorliegenden
Erfindung auf verschiedenste andere Sprach-Synthese- oder Sprach-Kodierungs-Systeme
erlaubt, die ähnliche
prosodische Parameter verwenden. Die prosodischen Parameter der
P-Ebene nutzen die vorhandene Sprachsynthesevorrichtung und sind
daher von deren Spezifikation abhängig.
-
Die
I-Ebene besteht aus Befehlen, die dazu verwendet werden, den Wert,
das Zeit-veränderliche
Muster (ein prosodisches Merkmal) und die Betonung jedes prosodischen
Parameters der P-Ebene zu steuern. Durch eine genaue Steuerung der
physikalischen Quantitäten
der prosodischen Parameter auf dem Niveau des Phonems durch Verwendung
der Befehle der I-Ebene, ist es möglich, Befehle wie „Vibrato", „stimmhafter Nasallaut", weiter dynamischer
Bereich", „langsam" und „hohe Tonhöhe", wie in der Befehlsgruppe
der I-Ebene in 1 angegeben,
zu implementieren. Dazu werden Beschreibungen mittels Symbolen,
die Muster der entsprechenden Parameter auf der P-Ebene steuern,
als Prosodikmerkmal-Steuerbefehle der I-Ebene verwendet. Die Prosodikmerkmal-Steuerbefehle der
I-Ebene werden unter vorbestimmten Standard-Steuerregeln auf prosodische
Parameter der P-Ebene abgebildet. Die I-Ebene wird auch als eine
Ebene genutzt, die die Prosodikmerkmal-Steuerbefehle der S-Ebene
interpretiert und der P-Ebene ein Steuerschema angibt. Die Befehle der
I-Ebene besitzen einen Satz von Symbolen zur Spezifizierung der
Steuerung einer oder mehrer prosodischer Parameter, die Steuerobjekte
in der P-Ebene sind. Diese Symbole können auch dazu verwendet werden,
das Zeit-veränderliche
Muster jeder Prosodik und ein Verfahren zu dessen Interpolation
zu spezifizieren. Jeder Befehl der S-Ebene wird in einen Satz von
Befehlen der I-Ebene konvertiert – dies erlaubt eine genauere Steuerung
der Prosodik. Die nachstehende Tabelle 1 zeigt Beispiele von Befehlen
der I-Ebene, zu steuernden prosodischen Parametern und die Steuerungsinhalte.
-
Tabelle
1: Befehle der I-Ebene
-
Ein
oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene können entsprechend
zu einem ausgewählten
Befehl der Prosodikmerkmal-Steuerbefehle der S-Ebene verwendet werden.
Die zur Beschreibung der Befehle der I-Ebene verwendeten Symbole
werden später
noch beschrieben; XXXX in den geschwungenen Klammern {} repräsentieren
ein Zeichen oder eine Zeichenfolge eines Textes, der ein Steuerobjekt
darstellt.
-
Nun
folgt die Beschreibung eines Beispiels der Anwendung der Prosodikmerkmal-Steuerbefehle
der I-Ebene auf einen englischen Text.
Will you do [F0d](2,0){me}
a [~/]{favor}.
-
Der
Befehl [F0d] setzt den dynamischen Bereich der Tonhöhe auf einen
doppelten Wert, was dem Befehl nachfolgend mit (2,0) angegeben ist.
Das Steuerobjekt dieses Befehls ist das dem Befehl unmittelbar folgende
{me}. Der nächste
Befehl [~/] ist ein Befehl, der das Tonhöhenmuster des letzten Vokals
erhöht,
und sein Steuerobjekt ist das ihm unmittelbar folgende {favor}.
-
Die
S-Ebene führt
die Steuerung der Prosodik semantisch durch. Die S-Ebene besteht
aus Worten, die auszudrücken
gewünschte
nicht-verbale Informationen konkret repräsentieren, wie den mentalen
Zustand des Sprechers, seine Stimmung, seinen Charakter, sein Geschlecht
und Alter, beispielsweise „ärgerlich", erfreut", schwach", „weinend", „aufzählend" und „zweifelnd", die in der S-Ebene
in 1 angegeben sind.
Diesen Worten geht jeweils eine Markierung @ voraus, welche als
der Prosodikmerkmal-Steuerbefehl der S-Ebene verwendet wird, um
die Steuerung der Prosodik der in den Klammern dem Befehl folgenden
Zeichenfolge anzugeben. Beispielsweise vergrößert der Befehl für die „ärgerlich"-Äußerung die dynamischen Bereiche
der Tonhöhe
und der Leistung, und der Befehl für die weinend"-Äußerung lässt das Tonhöhenmuster
jedes Phonems erschüttern
oder schwanken, was ein für
ein Satzende charakteristisches Tonhöhenmuster liefert. Der Befehl „aufzählend" ist ein Befehl,
der einen Ton zum Auslesen betroffener Begriffe bestimmt und das
am Satzende befindliche Tonhöhenmuster
auch im Falle einer fragenden Äußerung nicht
erhöht.
Der Befehl „Schwach" verengt die dynamischen
Bereiche der Tonhöhe
und der Leistung, der Befehl „zweifelnd" erhöht die Tonhöhe am Ende
eines Wortes. Diese Steuerungsbeispiele sind für den Fall bestimmt, dass diese
zum Editieren japanischer Sprache verwendet werden. Wie vorstehend
beschrieben, wird jeder der Befehle der S-Ebene dazu verwendet,
ein oder mehrere Prosodikmerkmal-Steuerbefehle
der I-Ebene nach einem vorbestimmten Muster auszuführen. Die
S-Ebene ermöglicht
von der Intuition abhängige
Steuerbeschreibungen, wie beispielsweise vom mentalen Zustand des
Sprechers, und Satzstrukturen, ohne Kenntnisse über die Prosodik oder andere
die Phonetik betreffende Dinge zu benötigen. Es ist ebenso möglich, zwischen
den Befehlen der S-Ebene und HTML, LaTex oder anderen Befehlen Korrespondenz
herbeizuführen.
-
Die
folgende Tabelle zeigt Anwendungsbeispiele der Prosodikmerkmal-Steuerbefehle
der S-Ebene.
-
Tabelle
2: Befehle der S-Ebene
-
Unter
Bezugnahme auf die 2 und 3 wird nachstehend ein Beispiel
einer Sprachsynthese in Verbindung mit dem Fall beschrieben, dass
es sich bei den in einen Text einzufügenden Steuerbefehle um Prosodikmerkmal-Steuerbefehle
der S-Ebene handelt.
-
S1:
Ein japanischer Text, welcher der zu synthetisieren und editieren
gewünschten
Sprachmitteilung entspricht, wird mit einer Tastatur oder einer
anderen Eingabeeinheit eingegeben.
-
S2:
Die Zeichen oder Zeichenfolgen, deren prosodische Merkmale zu korrigieren
gewünscht
sind, werden spezifiziert und die entsprechenden Prosodikmerkmal-Steuerbefehle
werden eingegeben und in den Text eingefügt.
-
S3:
Der Text und die Prosodikmerkmal-Steuerbefehle werden beide in ein
Text/Befehle-Trennungsteil 12 eingegeben, in welchem sie
voneinander getrennt werden. Zu diesem Zeitpunkt werden auch Informationen über die
Position der Prosodikmerkmal-Steuerbefehle in dem Text bereitgestellt.
-
S4:
Die Prosodikmerkmal-Steuerbefehle werden dann in einem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 analysiert,
um diesen deren Steuerabfolge zu entnehmen.
-
S5:
In einem Satzstruktur-Analyseteil 13 wird unter Heranziehung
einer Datenbank 14 für
Regeln zur Sprachsynthese die Zeichenfolge des Textes in eine signifikante
eine Bedeutung besitzende Wortfolge zerlegt. Anschließend wird
für jedes
Wort in Hinblick auf die Zeichenfolge ein prosodischer Parameter
beschafft.
-
S6:
Ein Prosodikmerkmal-Steuerteil 17 zieht die Prosodikmerkmal-Steuerbefehle,
die ihre Position betreffende Information und deren Steuerabfolge
heran und steuert die Prosodikparameterfolge, die der zu steuernden
Zeichenfolge entspricht, indem es Prosodiksteuerregeln folgt, die
individuell spezifizierten Prosodikmerkmal-Steuerbefehlen der I-Ebene
entsprechen, die in einer Prosodikmerkmalregeln-Datenbank 16 vorgeschrieben
sind, oder den Prosodiksteuerregeln, die dem Satz Prosodikmerkmal-Steuerbefehlen
der I-Ebene entsprechen, die durch diejenigen der S-Ebene spezifiziert
sind.
-
S7:
Ein Synthetiksprache-Erzeugungsteil 18 erzeugt basierend
auf den gesteuerten prosodischen Parametern synthetische Sprache.
-
In
Bezugnahme auf 3 wird
nun eine Ausführungsform
der Synthetiksprache-Editierungseinheit konkret beschrieben. Ein
japanischer Text, der Prosodikmerkmal-Steuerbefehle enthält, wird
in ein Text/Befehl-Eingabeteil 11 über eine Tastatur oder einen
anderen Editor eingegeben. Unten ist eine Beschreibung beispielsweise
eines japanischen Textes „Watashino
Namaeha Nakajima desu. Yoroshiku Onegaishimasu" (Bedeutung: Mein Name ist Nakajima.
Wie geht es Dir?) mit einem Beschreibungsschema gezeigt, das die
I- und S-Ebene von MSCL verwendet.
-
-
Im
Obigen gibt [L] die Dauer an und spezifiziert die Äußerungszeit
des Satzes in den entsprechenden Klammern {}. [>] repräsentiert
einen Ausdrucksbestandteil der Tonhöhe und gibt an, dass die Grundfrequenz der Äußerung der
Zeichenfolge in Klammern {} zwischen 150 Hz und 80 Hz variiert wird.
[/-\] zeigt einen lokalen Wechsel der Tonhöhe an. /,- und \ geben an,
dass die zeitliche Variation der Grundfrequenz erhöht, flach
gehalten bzw. erniedrigt wird. Durch Verwendung dieser Befehle ist
es möglich,
zeitliche Veränderungen
von Parametern zu beschreiben. Was {Watashino Namaeha} (Bedeutung: „Mein Name") angeht, ist in
dem Prosodikmerkmal-Steuerbefehl [>]
(150,80), der eine Variation der Grundfrequenz von 150 Hz bis 80
Hz spezifiziert, des Weiteren ein Prosodikmerkmal-Steuerbefehl [/-\]
(120) zur lokalen Änderung
der Tonhöhe
eingefügt
bzw. in diesem verschachtelt. [#] gibt ein Einfügen einer stillen Zeitspanne
bzw. Pause in die synthetische Sprache an. Die stille Zeitspanne
beträgt
in diesem Fall 1 mora, wobei „mora" eine durchschnittliche Länge einer
Silbe ist. Bei [@Asking] handelt es sich um einen Prosodikmerkmal-Steuerbefehl
der S-Ebene; in diesem Beispiel weist er eine Kombination von Prosodikmerkmal-Steuerbefehlen
als prosodischen Parameter der Sprache auf, wie im Falle von „Praying".
-
Die
obige Eingabeinformation wird in das Text/Befehl-Trennungsteil (das üblicherweise
als lexikalisches Analyseteil bezeichnet wird) 12 eingegeben,
in welchem diese in den Text und Informationen zu den Prosodikmerkmal-Steuerbefehlen
aufgetrennt wird, die dem Satzstruktur-Analyseteil 13 bzw.
dem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 (üblicherweise
als Syntaxanalyseteil (Parsing Part, engl.) bezeichnet) zugeführt werden.
Unter Heranziehung der Datenbank 14 für Regeln zur Sprachsynthese
wird der zu dem Satzstruktur-Analyseteil 13 gelieferte
Text in den Satz abgrenzende Information, in Information zur Äußerungsfolge und
Information zur Betonung basierend auf einem bekannten „Synthese-durch-Regeln"-Verfahren umgewandelt,
und diese Informationsteile werden in prosodische Parameter umgewandelt.
Die Information zu Prosodikmerkmal-Steuerbefehlen, die dem Befehl-Analyseteil 15 zugeführt wurde,
wird verarbeitet, um hiervon die Prosodikmerkmal-Steuerbefehle und
die Information über
deren Positionen in dem Text zu extrahieren. Die Prosodikmerkmal-Steuerbefehle
und deren Positionsinformation werden zu dem Prosodikmerkmal-Steuerteil 17 geliefert.
Das Prosodikmerkmal-Steuerteil 17 zieht eine Datenbank 16 für Regeln
zu prosodischen Merkmalen heran und erhält Instruktionen, die spezifizieren,
welche und wie die prosodischen Parameter des Textes gesteuert werden;
das Prosodikparameter-Steuerteil 17 variiert und korrigiert
die prosodischen Parameter entsprechend. Diese Steuerung durch Regeln
spezifiziert die Sprachleistung, die Grundfrequenz, die Dauer und andere
prosodische Parameter und in manchen Fällen auch die Gestalt von Zeit-veränderlichen
Mustern der prosodischen Parameter. Die Angabe des Wertes des prosodischen
Parameters spaltet sich in die zwei folgenden auf: eine relative
Steuerung zum Verändern
und Korrigieren der aus dem Text durch die „Synthese-durch-Regeln" erhaltenen Prosodikparameterfolge
in Übereinstimmung
mit einem vorgegebenen Verhältnis oder
einer vorgegebenen Differenz, und eine absolute Steuerung zur Bestimmung
absoluter Werte der zu steuernden Parameter. Ein Beispiel für Ersteres
ist der Befehl [F0d](2,0) zur Verdoppelung der Tonhöhenfrequenz und
ein Beispiel für
Letzteres ist der Befehl [>](150,80)
zum Ändern
der Tonhöhenfrequenz
von 150 Hz auf 80 Hz.
-
In
der Datenbank 16 für
Regeln zu prosodischen Merkmalen sind Regeln gespeichert, die vorsehen, wie
die prosodischen Parameter in Übereinstimmung
mit jedem Prosodikmerkmal-Steuerbefehl zu ändern und zu korrigieren sind.
Die prosodischen Merkmale des Textes, die in dem Prosodikmerkmal-Steuerteil 17 gesteuert
werden, werden zu dem Synthetiksprache-Erzeugungsteil 18 geliefert,
in welchem sie zu einem Synthetiksprachsignal gemacht werden, das
einem Lautsprecher 19 zugeführt wird.
-
Stimmen,
die verschiedenste nicht-verbale Informationen enthalten, die durch
die Prosodikmerkmal-Steuerbefehle
der S-Ebene repräsentiert
sind, d. h. Stimmen, die verschiedenste Ausdrucksformen von Angst,
Wut, Ablehnung usw. enthalten, die den Prosodikmerkmal-Steuerbefehlen
der S-Ebene entsprechen, werden in einem Eingabesprache-Analyseteil 22 voranalysiert.
Jede Kombination üblicher
prosodischer Merkmale (Kombinationen von Tonhöhen-, Leistungs- und Zeitspannenmustern,
deren Kombinationen nachfolgend als Prosodiksteuerregeln oder Prosodikmerkmalsregeln
bezeichnet werden), die für
jede Art durch die Voranalyse erhalten werden, wird als ein Satz
von Prosodikmerkmal-Steuerbefehlen der I-Ebene, die jedem Befehl der
S-Ebene entsprechen, von einem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 geliefert.
Die Befehle der S-Ebene und die entsprechenden Steuerbefehlssätze der
I-Ebene werden als Prosodikmerkmalsregeln in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert.
-
Die
in der Prosodikmerkmalsregeln-Datenbank 16 gespeicherten
Prosodikmerkmalsmuster werden von dieser gezielt ausgelesen und
dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 zugeführt, indem
ein notwendiger Befehl der S-Ebene bestimmt wird. Das herausgelesene
Prosodikmerkmalsmuster wird auf einem Synthetiksprache-Editierungsteil 21 vom
Typ eines Bildschirms angezeigt. Das Prosodikmerkmalsmuster kann
Neuerungen angepasst werden, indem der entsprechende prosodische
Parameter auf dem Bildschirm mittels GUI korrigiert wird, und der
korrigierte Parameter dann vom Umwandlungsteil 23 aus in
die Prosodikmerkmalsregeln-Datenbank 16 geschrieben wird.
Falls die Prosodikmerkmals-Steuerbefehle, die von dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 erhalten
werden, in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert
werden, kann der Nutzer der Synthetiksprache-Editierungsvorrichtung
der vorliegenden Erfindung ebenso eine Kombination häufig verwendeter
Prosodikmerkmal-Steuerbefehle der I-Ebene unter einem gewünschten
Namen als einen neuen Befehl der S-Ebene eintragen. Diese Eintragungsfunktion
vermeidet das Erfordernis nicht-verbale Information enthaltende
synthetische Sprache durch Verwendung vieler Prosodikmerkmals-Steuerbefehle
der I-Ebene zu erhalten, wann immer es für den Nutzer notwendig ist, nicht-verbale
Information nicht mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene
zu erhalten.
-
Das
Hinzufügen
von nicht-verbaler Information zu synthetischer Sprache durch Verwendung
der Multi-Layered/Sound Synthesis Control Language (MSCL) gemäß der vorliegenden
Erfindung erfolgt durch die Steuerung grundlegender prosodischer
Parameter, die jede Sprache besitzt. Es ist allen Sprachen gemein, dass
sich prosodische Merkmale von Stimmen mit dem mentalen Zustand des
Sprechers, seinen Intentionen und so weiter verändern. Somit ist es klar, dass
die MSCL gemäß der vorliegenden
Erfindung zum Editieren synthetischer Sprache in jeglichen Sprachen
verwendet werden kann.
-
Da
die Prosodikmerkmal-Steuerbefehle durch Verwendung der Multi-Layered/Sound
Synthesis Control Language, die aus den vorstehend beschriebenen
Semantik-, Interpretations- und Parameterebenen besteht, in den
Text geschrieben werden, kann eine normale Bedienperson durch Verwendung
der Beschreibung mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene
auf einfache Weise nicht-verbale Information editieren. Andererseits
kann eine Bedienperson mit Expertenkenntnissen durch Verwendung
der Prosodikmerkmal-Steuerbefehle der S-Ebene und I-Ebene detailliertere
Editierungen ausführen.
-
Mit
dem vorstehend beschriebenen MSCL-System ist es möglich, manche
Stimmeigenschaften von hohen bis niedrigen Tonhöhen zusätzlich zu männlichen und weiblichen Stimmen
zu bestimmen. Dies dient nicht nur dazu, den Wert der Tonhöhe oder
der Grundfrequenz der synthetischen Sprache zu verändern, sondern
auch dazu, ihr gesamtes Spektrum in Übereinstimmung mit dem Frequenzspektrum
der hoch- oder tieftonigen Stimme zu ändern. Diese Funktion erlaubt
die Durchführung
von Unterhaltungen mit einer Vielzahl von Sprechern. Des Weiteren
ermöglicht
das MSCL-System die Eingabe einer Klangdatendatei mit Musik, Hintergrundgeräuschen,
natürlichen
Stimmen und so weiter. Denn eine effizientere Erzeugung von Inhalten
benötigt unvermeidbar
zusätzlich
zur Sprache Musik, natürliche
Stimmen und ähnliche
Klanginformationen. Bei dem MSCL-System werden diese Daten derartiger
Klanginformationen als zusätzliche
Information synthetischer Sprache behandelt.
-
Mit
dem Editierungsverfahren für
synthetische Sprache gemäß der in
Bezug auf 2 vorstehend
beschriebenen ersten Ausführungsform
können
nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache
hinzugefügt
werden, indem das Editierungsverfahren als ein Programm (eine Software)
gestaltet wird, das Verfahren dann auf einer Disketteneinheit gespeichert
wird, die mit einem Computer einer Sprachsynthesevorrichtung oder
einer Prosodikeditierungsvorrichtung verbunden ist, oder auf einem
transportfähigen
Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM,
und das gespeicherte Verfahren für
jede Sitzung zur Editierung/Erzeugung synthetischer Sprache installiert
wird.
-
Die
obige Ausführungsform
wurde hauptsächlich
in Verbindung mit der japanischen Sprache und einigen Anwendungsbeispielen
für die
englische Sprache beschrieben. Wird ein japanischer Text durch japanische
alphabetische Schriftzeichen ausgedrückt, so sind im Allgemeinen
nahezu alle Schriftzeichen einsilbig, was eine sprachliche Erleichterung
beim Aufbau einer Übereinstimmung
zwischen den Positionen der Zeichen und den Silben im Text bedeutet.
Somit kann die Position der Silbe, die das Prosodiksteuerungsobjekt
darstellt, relativ leicht aus der entsprechenden Zeichenposition
bestimmt werden. In anderen als der japanischen Sprache gibt es
jedoch viele Fälle,
wo die Position der Silbe in einem Wort nicht einfach mit der Position
des Wortes in der Zeichenfolge übereinstimmt,
wie im Falle der englischen Sprache. Falls die vorliegende Erfindung
auf eine derartige Sprache angewandt wird, wird für jedes
Wort im Text ein Wörterbuch
dieser Sprache hinzugezogen, das die Aussprache der Wörter beinhaltet,
um die Position jeder Silbe relativ zu einer Folge von Buchstaben
in einem Wort zu bestimmen.
-
Zweite Ausführungsform
-
Da
die in 3 dargestellte
Vorrichtung für
ein Verfahren zur Editierung synthetischer Sprache gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung verwendet werden kann, wird diese Ausführungsform
nachstehend mit Bezug auf 3 beschrieben.
In der Prosodikmerkmalsregeln-Datenbank 16, auf die vorstehend
bereits Bezug genommen wurde, sind nicht nur Steuerregeln für prosodische
Parameter gespeichert, die den Prosodikmerkmal-Steuerbefehlen der
I-Ebene entsprechen, sondern auch ein Satz von Prosodikmerkmal-Steuerbefehlen
der I-Ebene, die jeden Prosodikmerkmal-Steuerbefehl der S-Ebene
in Übereinstimmung
damit interpretiert haben. Nun erfolgt eine Beschreibung der Steuerung
prosodischer Parameter durch die Befehle der I-Ebene. Zunächst werden
mehrere Beispiele der Steuerung der Tonhöhenkontur und der Dauer von
Wortäußerungen
beschrieben, gefolgt von einem Beispiel der Erzeugung von Befehlen
der S-Ebene durch die Untersuchung mentaler Tendenzen der synthetischen
Sprache in jedem Beispiel einer solchen Steuerung.
-
Das
Verfahren zur Steuerung der Tonhöhenkontur
benutzt als Referenz für
die Steuerung einen Bereich, in dem eine Änderung der Betonung oder ähnlichem
nicht zu einer für
den Hörer
wahr nehmbaren Unstimmigkeit führt.
Wie in 4 dargestellt
teilt sich die Tonhöhenkontur
in drei Abschnitte auf: einen Abschnitt T1 vom Anfang des Prosodikmusters
einer Wortäußerung (der
Anfang eines Vokals einer ersten Silbe) bis zum Höchstwert
(Peak) der Tonhöhenkontur,
einen Abschnitt T2 vom Höchstwert
bis zum Anfang eines letzten Vokals, und einen Abschnitt T3 des
letzten Vokals. Mit diesem Steuerverfahren ist es möglich, sechs
Arten von nachfolgend aufgelisteten Modifikationen (a) bis (f) vorzunehmen,
wobei die Modifikationen durch die gestrichelt dargestellten Muster
a, b, c, d, e und f in 4 angegeben
sind. Die durchgezogene Linie gibt eine nicht-modifizierte ursprüngliche Tonhöhenkontur
(eine Standard-Tonhöhenkontur,
die durch beispielsweise eine Satzstrukturanalyse von der Datenbank 14 für Regeln
zur Sprachsynthese erhalten wird) an.
- (a) Der
dynamische Bereich der Tonhöhenkontur
ist vergrößert.
- (b) Der dynamische Bereich der Tonhöhenkontur ist verringert.
- (c) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton
abfallendes Muster ausgebildet.
- (d) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton
ansteigendes Muster ausgebildet.
- (e) Das Muster des Abschnitts vom Anfang des Vokals der ersten
Silbe bis zum Höchstwert
(Peak) des Musters ist als ein sich nach oben erstreckendes Muster
ausgebildet.
- (f) Das Muster des Abschnitts vom Anfang des Vokals der ersten
Silbe bis zum Höchstwert
(Peak) des Musters ist als ein sich nach unten erstreckendes Muster
ausgebildet.
-
Das
Verfahren zur Steuerung der Zeitdauer ermöglicht zwei Arten von Eingriffen
zur (g) Verkürzung sowie
zur (h) Verlängerung
der Zeitdauer jedes Phonems.
-
Untersuchungsergebnisse über mentale
Einflüsse
bei jedem der Steuerverfahren werden nachstehend beschrieben. Nachstehend
sind mentale Haltungen (nicht-verbale Informationen) aufgelistet,
die Hörer synthetisierten
Stimmen entnahmen, die durch Modifikation einer japanischen Wortäußerung entsprechend der
vorgenannten Steuerverfahren (a) bis (f) erhalten wurden.
- (1) Härte
oder positive Haltung
- (2) Schwäche
oder passive Haltung
- (3) Verständige
Haltung
- (4) Fragende Haltung
- (5) Sicherheit oder Gelassenheit
- (6) Unsicherheit oder Widerwillen
-
Sieben
Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die
durch Modifikation einer japanischen Wortäußerung „shikatanai" (was „Es geht
nicht anders" bedeutet)
entsprechend der obigen Verfahren (a) bis (f) erzeugt wurden. 5 zeigt Antwortraten im
Hinblick auf die vorstehend genannten mentalen Zustände (1)
bis (6), die die Untersuchungskandidaten den gehörten Stimmen
entnommen haben. Die Untersuchungsergebnisse deuten an, dass die
sechs Arten von Modifikationen (a) bis (f) der in 4 dargestellten Tonhöhenkontur zu einem hohen Prozentsatz
als die oben genannten mentalen Zustände (1) bis (6) erkannt
wurden. Daher ist bei der zweiten Ausführungsform festgelegt, dass
diese modifizierten Versionen der Tonhöhenkontur den mentalen Zuständen (1)
bis (6) entsprechen, und sie werden als grundlegende Prosodiksteuerregeln
verwendet.
-
In ähnlicher
Weise wurde die Zeitdauer einer japanischen Wortäußerung verlängert oder verkürzt, um synthetisierte
Stimmen zu erzeugen, denen die Hörer
die nachstehenden mentalen Zustände
des Sprechers entnahmen.
- (a) Verlängert: (7)
Intention des klaren Sprechens
(8) Intention des suggestiven
Sprechens
- (b) Verkürzt:
(9) Gehetzt
(10) Dringlich
-
Sieben
Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die
durch (g) Verlängern und
(h) Verkürzen
der Zeitdauer eines prosodischen Musters einer japanischen Wortäußerung „Aoi" (was „Blau" bedeutet) erzeugt
wurden. 6 zeigt die
Antwortraten im Hinblick auf die oben genannten mentalen Zustände (7)
bis (10), die die Untersuchungskandidaten den gehörten Stimmen
entnommen haben. Auch in diesem Fall zeigen die Untersuchungsergebnisse,
dass die verlängerte
Zeitdauer die Intention zum klarem Sprechen des Sprechers wiedergibt,
wohingegen die verkürzte
Zeitdauer wiedergibt, dass der Sprecher hastig spricht. Daher werden
eine Verkürzung
oder Verlängerung
der Zeitdauer ebenfalls als grundlegende Prosodiksteuerregeln verwendet,
die diesen mentalen Zuständen
entsprechen.
-
Basierend
auf den oben genannten Untersuchungsergebnissen wurden die von Untersuchungskandidaten
verstandenen mentalen Zustände
des Sprechers für
Fälle untersucht,
bei denen eine Modifikation der Tonhöhenkontur und eine Verlängerung
und Verkürzung
der Zeitdauer miteinander kombiniert wurden.
-
Sieben
Untersuchungskandidaten wurden gebeten, die mentalen Zustände des
Sprechers, die sie mit der vorgenannten japanischen Wortäußerung „shikatanai" in Verbindung brachten,
zu notieren. 7 zeigt
die Untersuchungsergebnisse, die andeuten, dass verschiedene mentale
Zustände
durch verschiedenste Kombinationen von Prosodiksteuerregeln ausgedrückt werden
könnten,
und die Antwortraten zu den entsprechenden mentalen Zuständen zeigen,
dass deren Erkennung den Untersuchungskandidaten ziemlich geläufig ist. Des
Weiteren kann gesagt werden, dass diese mentalen Zustände durch
die Wechselwirkung von Einflüssen nicht-verbaler
Information, die Prosodikmerkmalsmuster besitzen, erzeugt werden.
-
Wie
vorstehend beschrieben, kann der synthetischen Sprache eine breite
Vielfalt nicht-verbaler Informationen hinzugefügt werden, indem Modifikationen
der Tonhöhenkontur
(Modifikationen des dynamischen Bereichs und der Hülle) mit
einer Verlängerung
und Verkürzung
der Zeitdauer kombiniert werden. Es besteht auch eine Möglichkeit,
dass die gewünschte
nicht-verbale Information erzeugt werden kann, indem die obigen Manipulationen
selektiv miteinander kombiniert werden, während der mentale Einfluss
der grundlegenden Manipulation berücksichtigt wird; dies kann
als jedem mentalen Zustand entspiechende Prosodiksteuerregel in der
Datenbank 16 von 3 gespeichert
werden. Es ist berücksichtigt,
dass diese Prosodiksteuerregeln als Manipulationsreferenz für eine GUI
nutzende Prosodikeditierungsvorrichtung wirksam sind. Des weiteren könnten der
synthetischen Sprache mehr Ausdrücke
hinzugefügt
werden, indem, als eine grundlegende Prosodiksteuerregel, Modifikationen
des Amplitudenmusters (des Leistungsmusters) sowie Modifikationen
der Tonhöhenkontur
und der Zeitdauer miteinander kombiniert würden.
-
Bei
der zweiten Ausführungsform
ist zumindest eine Kombination bestehend aus einer Modifikation der
Tonhöhenkontur,
einer Modifikation des Leistungsmusters und einer Verlängerung
und Verkürzung
der Zeitdauer, bei denen es sich um grundlegende, den entsprechenden
mentalen Zuständen
entsprechende Prosodiksteuerregeln handelt, als eine Prosodiksteuerregel
in der in 3 gezeigten
Prosodiksteuerregel-Datenbank 16 vorab gespeichert. Bei
der Synthese von Sprache ausgehend von einem Text wird die dem zu äußern gewünschten
mentalen Zustand entsprechende Prosodikmerkmal-Steuerregel (d. h.
eine Kombination einer modifizierten Tonhöhenstruktur, eines modifizierten
Leistungsmusters und verlängerten
und verkürzten
Zeitdauern) aus der Prosodiksteuerregel-Datenbank 16 herausgelesen
und dann in dem Prosodikmerkmal-Steuerteil 17 auf das prosodische
Muster eines geäußerten Worts
des Textes angewandt. Damit kann der synthetischen Sprache der gewünschte Ausdruck
(nicht-verbale Information) hinzugefügt werden.
-
Wie
aus obigem ersichtlich, können
bei dieser Ausführungsform
die Prosodikmerkmal-Steuerregeln nur auf dem Niveau der I-Ebene
beschrieben werden. Es ist natürlich
auch möglich,
als Prosodikmerkmal-Steuerregeln der S-Ebene des MSCL-Beschreibungsverfahrens
die Prosodikmerkmal-Steuerregeln
zu definieren, die verschiedenste Darstellungsweisen und Umsetzungen
entsprechender mentaler Zustände,
auf die vorstehend Bezug genommen wurde, erlauben; in diesem Fall
kann die Sprachsynthese mit einer auf MSCL-basierenden Vorrichtung
der 3, wie im Falle
der ersten Ausführungsform,
erfolgen. Die folgende Tabelle 3 zeigt Beschreibungsbeispiele in
einem solchen Fall.
-
Tabelle
3: S-Ebene & I-Ebene
-
Tabelle
3 zeigt ein Beispiel von fünf
Befehlen der S-Ebene, die basierend auf den Untersuchungsergebnissen
zur zweiten Ausführungsform
und deren Interpretation durch die entsprechenden Befehle der I-Ebene
erstellt wurden. Das japanische Wort „honto" (was „wirklich" bedeutet) in den Klammern {} ist ein
Beispiel eines Steuerobjekts des Befehls. In der Tabelle 3 gibt
[L] die Äußerungsdauer
und der Zahlenwert den Skalierungsfaktor für die Zeitdauer an. [F0d] gibt
den dynamischen Bereich der Tonhöhenkontur
und der Zahlenwert den Skalierungsfaktor für den Bereich an. [/V] gibt
die sich nach unten erstreckende Modifikation der Tonhöhenkontur
vom Anfang bis zu dem Höchstwert
(Peak) der sein Zahlenwert den Grad einer derartigen Modifikation
an.
-
Wie
vorstehend beschrieben wird gemäß dieser
Ausführungsform
der Prosodikmerkmal-Steuerbefehl zur Korrektur eines prosodischen
Parameters in den eingegebenen Text geschrieben und der prosodische
Parameter des Textes durch eine Kombination von modifizierten Prosodikparametermustern
korrigiert, die durch die Prosodiksteuerregel, die dem in den Text
geschriebenen Prosodikmerkmal-Steuerbefehl entspricht, spezifiziert
sind. Die Prosodiksteuerregel spezifiziert eine Kombination von Änderungen
des Sprachleistungsmusters, der Tonhöhenkontur und Äußerungsdauer
und, falls notwendig, auch die Gestalt des Zeit-veränderlichen Musters
des prosodischen Parameters.
-
Zur
Spezifizierung des prosodischen Parameters nimmt der Wert zwei Formen
an: eine relative Steuerung zur Änderung
und zur Korrektur des sich aus der „Synthese-durch-Regeln" ergebenden prosodischen Parameters
und eine absolute Steuerung zur absoluten Korrektur des Parameters.
Des Weiteren werden häufig
genutzte Prosodikmerkmal-Steuerbefehle für einen einfachen Zugriff miteinander
kombiniert, wenn sie in der Prosodiksteuerregeln-Datenbank 16 abgespeichert
werden, und sie werden zur Spezifizierung prosodischer Parameter
als neue Prosodikmerkmal-Steuerbefehle verwendet. Beispielsweise
wird eine Kombination von grundlegenden Steuerregeln in Übereinstimmung
mit jedem Prosodikmerkmal-Steuerbefehl der S-Ebene bei dem MSCL-System
bestimmt und dann in der Prosodiksteuerregeln-Datenbank 16 vorab
gespeichert. Alternativ werden nur die grundlegenden Prosodiksteuerregeln
in der Prosodiksteuerregeln-Datenbank 16 vorab gespeichert,
und einer oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene,
die jedem der Prosodikmerkmal-Steuerbefehle der S-Ebene entsprechen,
zur Spezifizierung und zum Herauslesen einer Kombination der grundlegenden
Prosodiksteuerregeln aus der Datenbank 16 verwendet. Zur
Beschreibung der Prosodiksteuerung des Textes wurde bei der zweiten
Ausführungsform
das MSCL-Verfahren
verwendet, es können
jedoch auch andere Beschreibungsverfahren verwendet werden.
-
Die
zweite Ausführungsform
basiert auf der Annahme, dass es sich bei Kombinationen von spezifischen
prosodischen Merkmalen um Prosodiksteuerregeln handelt. Es ist offensichtlich,
dass die zweite Ausführungsform
zur Steuerung prosodischer Parameter verschiedenster natürlicher
Sprachen wie dem Japanischen verwendet werden kann.
-
Mit
dem Editierungsverfahren für
synthetische Sprache gemäß der oben
beschriebenen zweiten Ausführungsform
können
nicht-verbale Informationen auf einfache Weise zu synthetischer
Sprache hinzugefügt werden,
indem das Editierungsverfahren als ein Programm (eine Software)
gestaltet wird, das Verfahren dann auf einer mit einem Computer
verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder
einer Prosodikeditierungsvorrichtung, oder auf einem transportfähigen Aufzeichnungsmedium,
wie einer Floppy-Diskette oder einer CD-ROM, gespeichert wird, und
es zum Zeitpunkt des Editierungs-/Erzeugungsvorgangs synthetischer
Sprache installiert wird.
-
Dritte Ausführungsform
-
Bei
dem Fall, bei welchem Prosodikmerkmal-Steuerbefehle über das
Text/Befehl-Eingabeteil 11 in 3 durch Verwendung der MSCL-Beschreibung
gemäß der vorliegenden
Erfindung in einen Text eingefügt werden,
wäre es
günstig,
wenn visuell bestätigt
werden könnte,
wie die Äußerungsdauer,
die Tonhöhenkontur und
das Amplitudenmuster der synthetischen Sprache des Textes durch
entsprechende Prosodikmerkmal-Steuerbefehle gesteuert werden. Nun
erfolgt nachstehend eine Beschreibung eines Beispiels einer Darstellung
des durch die Befehle gesteuerten Prosodikmerkmalmusters des Textes
und einer Konfiguration zum Erzeugen der Darstellung.
-
Zunächst werden
Untersuchungsergebnisse, die das prosodische Merkmal der Äußerungsdauer
betreffen, beschrieben. Durch eine Verlängerung der Zeitdauer klingt
die Äußerung langsam,
wohingegen, wenn die Zeitdauer kurz ist, die Äußerung schnell klingt. Bei
den Untersuchungen wurde ein japanisches Wort „Urayamashii" (was „neidisch" bedeutet) verwendet.
Mehrere in der Länge
variierten Versionen dieses Worts, die durch verschiedenstes Ändern der
Zeichenabstände
erhalten wurden, wurden Seite-an-Seite geschrieben. Gemischte oder
synthetische Klänge
oder Äußerungen
des Wortes wurden erzeugt, die normale, lange bzw. kurze Zeitdauern
besaßen,
und 14 Untersuchungskandidaten wurden gebeten, ihre Stimme
darüber
abzugeben, von welchen Äußerungen
sie denken, dass sie welchen in der Länge variierten Versionen des
japanischen Wortes entsprechen. Die folgenden Ergebnisse wurden,
wie im Wesentlichen vorhergesagt, erhalten.
Kurze Zeitdauer:
Enger Zeichenabstand (88%)
Lange Zeitdauer: Weiter Zeichenabstand
(100%)
-
Als
nächstes
folgt eine Beschreibung von Untersuchungsergebnissen, die betreffend
der prosodischen Merkmale der grundlegenden Frequenz (Tonhöhe) und
des Amplitudenwertes (Leistung) erhalten wurden. Neun Variationen
derselben japanischen Wortäußerung „Urayamashii", wie sie oben verwendet
wurde, wurden mit den nachstehend aufgelisteten Tonhöhen und
Leistungen synthetisiert, und 14 Untersuchungskandidaten
wurden gebeten, ihre Stimme darüber
abzugeben, von welchen der neun Zeichenfolgen (a) bis (i) sie denken,
dass sie mit welchen der synthetisierten Äußerungen übereinstimmen würden. Die
Ergebnisse sind in der Tabelle 4 gezeigt.
-
Tabelle
4: Prosodische Merkmale und zugehörige Vermerke
-
Als
nächstes
werden Untersuchungsergebnisse betreffend einer Variation der Intonation
beschrieben. Die Intonation repräsentiert
den Wert (den dynamischen Bereich) einer Tonhöhenvariation innerhalb eines Wortes.
Wenn die Intonation groß ist,
klingt die Äußerung „kräftig, positiv" und mit einer kleinen
Intonation klingt die Äußerung „schwach,
passiv". Es wurden
synthetisierte Versionen der japanischen Wortäußerung „Urayamashii" mit normalen, kräftigen und
schwachen Intonationen erzeugt, und es wurden Tests zur Einschätzung dazu
durchgeführt,
welche der synthetisierten Äußerungen
zu welcher in 9 gezeigten
Zeichenfolge passt. Als Ergebnis kommt man zu folgender Schlussfolgerung.
-
Starke
Intonation → Die
Zeichenposition wird mit der Tonhöhenstruktur geändert (eine
sich verändernde
Zeitfolge), wodurch die Inklination (71%) weiter erhöht wird.
-
Schwache
Intonation → Die
Zeichenpositionen am Anfang und am Ende des Wortes werden erhöht (43%).
-
In
den 10A, 10B und 10C sind
Beispiele der Darstellung japanischer Sätze gezeigt, die zur Erzeugung
synthetischer Sprache eingegeben werden, eine Beschreibung des eingegebenen
Textes kombiniert mit darin eingefügten Prosodikmerkmal-Steuerbefehlen
der MSCL-Beschreibung und die Anwendung der oben genannten Untersuchungsergebnisse
auf die eingefügten
Prosodikmerkmal-Steuerbefehle.
-
Der
eingegebene japanische Satz von 10A bedeutet „Ich bitte
Dich, den Vogel weit von Deinen Händen weggehen zu lassen." Die japanische Aussprache
jedes Zeichens ist unter dem jeweiligen Zeichen dargestellt.
-
In 10B stellt [L] einen Äußerungsdauer-Steuerbefehl
und die diesem folgende Zeitangabe eine Anwendung dar, dass der
gesamte Satz in 8500 ms zu beenden ist. [/-I\] stellt einen Tonhöhenkontur-Steuerbefehl dar,
und die Symbole zeigen einen Anstieg (/), eine Abflachung (-), einen
Fest punkt/Verankerung (I) und einen Abfall (\) der Tonhöhenkontur.
Der dem Tonhöhenkontur-Steuerbefehl
folgende Zahlenwert (2) gibt an, dass die Frequenz in einem
wechselnden Verhältnis
von 20 Hz pro Phonem variiert wird, und es wird angegeben,
das die Tonhöhenkontur
der Silbe des letzten Zeichens durch die Verankerung „I" gesenkt wird. [#]
stellt einen Befehl zum Einfügen
einer Pause dar, durch den eine stille Zeitdauer von etwa 1 mora
eingefügt
wird. [A] stellt einen Amplitudenwert-Steuerbefehl dar, durch welchen der
Amplitudenwert um das 1,8-fache größer als zuvor, d. h. bei „konotori" (was „der Vogel" bedeutet) gemacht
wird. Diese Befehle sind diejenigen der I-Ebene. Andererseits handelt
es sich bei [@naki] um einen Befehl der S-Ebene zur Erzeugung einer Äußerung mit einem
Gefühl
von Sorge/Bedauern.
-
Nun
folgt unter Bezugnahme auf 10C eine
Beschreibung eines Beispiels einer Darstellung für den Fall, dass das Beschreibungsschema
oder die Notation, die auf den oben genannten Untersuchungen beruhen,
auf die in 10B gezeigte
Beschreibung angewandt wird. Die eingegebenen japanischen Zeichen
sind in horizontaler Richtung angeordnet. Eine Anzeige 1 [-],
die sich am Anfang jeder Zeile befindet, gibt die Position der Tonhöhenfrequenz
des synthetisierten Ergebnisses vor dem Editierungsvorgang an. D.
h. wenn kein Editierungsvorgang betreffend die Tonhöhenfrequenz
stattgefunden hat, sind die Zeichen jeder Zeile so angeordnet, dass
die Position der Anzeige [-] auf der gleichen Höhe gehalten wird wie diejenige
des Zentrums jedes Zeichens. Wenn die Tonhöhenfrequenz geändert wird,
so ändert
sich die Höhe
der Anzeige am Zentrum jedes Zeichens relative zu „-" entsprechend dem
Wert der geänderten
Tonhöhenfrequenz.
-
Die
Punkte „.", die durch die Bezugsziffer 2 unterhalb
der Zeichenfolge jeder Zeile angegeben sind, repräsentieren
durch ihre Abstände
eine durchschnittliche Zeitdauer Tm (die
die Länge
einer Silbe angibt, d. h. 1 mora im Falle der japanischen
Sprache) jedes Zeichens. Falls kein Skalierungsvorgang der Zeitdauer
vorgesehen ist, werden jedem Zeichen der angezeigten Zeichenfolge
Moras einer Anzahl gegeben, die der Anzahl der Silben in dem Zeichen
entspricht. Wird die Äußerungsdauer
geändert, ändert sich
der angezeigte Zeichenabstand der Zeichenfolge entsprechend. Das
Symbol „∘", das mit der Bezugsziffer 3 am
Ende jeder Zeile angegeben ist, repräsentiert den Endpunkt jeder
Zeile; d. h. dieses Symbol gibt an, dass das Phonem bis zu seiner
Position weitergeht.
-
Die
drei Zeichen, die mit der Bezugsziffer 4 in der ersten
Zeile der 10C angegeben
sind, sind so dargestellt, dass sie linear von dem Symbol „-„, das
mit der Bezugsziffer 1 angegeben ist, ansteigen, wodurch angegeben
wird, dass dies auf dem eingegebenen MSCL-Befehl „ein Anstieg
der Tonhöhenkontur
um 20 Hz" beruht.
In gleicher Weise geben die vier Zeichen, die durch die Bezugsziffer 5 angegeben
sind, eine flache Tonhöhenkontur
und die zwei Zeichen, die durch die Bezugsziffer 6 angegeben
sind, eine abfallende Tonhöhenkontur
an.
-
Das
Symbol „#", das mit der Bezugsziffer 7 bezeichnet
ist, gibt das Einfügen
einer Pause an. Die drei mit der Bezugsziffer 8 bezeichneten
Zeichen sind größer als
die vorhergehenden und die nachfolgenden Zeichen. Dies gibt an,
dass sich der Amplitudenwert im Anstieg befindet.
-
Die
zwei Mora andauernde Leerstelle in der zweiten Zeile, die mit der
Bezugsziffer 9 bezeichnet ist, gibt an, dass das unmittelbar
vorhergehende Zeichen unter der Steuerung durch den Zeitdauer-Steuerbefehl über T1 (3
Moras = 2Tm) weitergeht.
-
Die
fünf Zeichen
in der letzten Zeile, die mit der Bezugsziffer 10 angegeben
sind, unterscheiden sich bezüglich
der Schriftart von den anderen Zeichen. Dieses Beispiel nutzt nur
für die
Zeichenfolge 10 eine feinlinige Schriftart, jedoch eine
hervorstechende (Gothic) für
die anderen Zeichen. Die feinlinige Schriftart gibt die Einführung der
Befehle der S-Ebene an. Die Höhe
der Zeichen gibt das Ergebnis von Höhenvariationen entsprechend
der Befehle der S-Ebene an.
-
11 zeigt ein Beispiel des
vorstehend beschriebenen Verfahrens. Zunächst wird der beispielsweise in 10A gezeigte Satz eingegeben
(S1), dann wird der eingegebene Satz auf dem Display angezeigt,
dann werden Prosodikmerkmal-Steuerbefehle in den Satz an den Positionen
der Zeichen eingefügt,
wo die prosodischen Merkmale, die durch die herkömmliche Synthese mittels Regeln
zu erhalten sind, korrigiert werden sollen, während der Satz auf dem Display
beobachtet wird, wodurch beispielsweise die in 10B dargestellten Informationen erhalten
werden, d. h. Informationen zur Synthetiksprache-Steuerungs-Beschreibungssprache (S2).
-
Diese
Information, d. h. eine Information, bei der die Prosodikmerkmal-Steuerbefehle
in den japanischen Text eingefügt
sind, wird in eine die vorliegende Erfindung ausführende Vorrichtung
eingegeben (S3).
-
Die
eingegebene Information wird durch eine Trenneinrichtung verarbeitet,
um diese in den japanischen Text und die Prosodikmerkmal-Steuerbefehle
aufzutrennen (S4}. Diese Trennung erfolgt, indem durch Verwendung
des MSCL-Beschreibungsschemas und einem Formulierungs-Analyseschema festgestellt
wird, ob entsprechende Codes zu den Prosodikmerkmal-Steuerbefehlen
oder zu dem japanischen Text gehören.
-
Die
abgetrennten Prosodikmerkmal-Steuerbefehle werden analysiert, um
Informationen über
ihre Eigenschaften, Bezugspositionsinformationen über ihre
Position (Zeichen oder Zeichenfolgen) in dem japanischen Text und
Informationen zur Abfolge ihrer Ausführung zu erhalten (S5). Falls
die Befehle in der Reihenfolge, in der sie erhalten werden, ausgeführt werden,
sind Informationen zur Abfolge deren Ausführung nicht notwendig. Dann
wird der in Schritt S4 abgetrennte japanische Text einer japanischen
Syntaxstrukturanalyse unterzogen, um prosodische Parameter zu erhalten,
die auf dem herkömmlichen
Synthese-durch-Regeln-Verfahren beruhen (S6).
-
Die
auf diese Weise erhaltenen prosodischen Parameter werden durch Verwendung
der Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation
in Informationen zur Position und Größe der Zeichen umgewandelt
(S7). Die auf diese Weise umgewandelte Informationen werden verwendet,
um die entsprechenden Zeichen des japanischen Textes, der in Schritt
S4(S8) abgetrennt wurde, umzuwandeln; diese werden auf dem Display
angezeigt, um eine Darstellung, beispielsweise des in 10C dargestellten japanischen
Satzes (außer
der Anzeige der Aussprache), bereitzustellen (S9).
-
Die
in Schritt S6 erhaltenen prosodischen Parameter werden unter Heranziehung
der Prosodikmerkmal-Steuerbefehle und der Positionsinformationen,
die beide in Schritt S5 erhalten werden, gesteuert (S 10). Basierend
auf den gesteuerten prosodischen Parametern, wird ein Sprachsynthesesignal
für den
in Schritt S4 abgetrennten japanischen Text erzeugt (S11), und dieses
dann als Sprache ausgegeben (S 12). Es ist möglich eine Kontrolle durchzuführen, um
zu sehen, ob die beabsichtigte Wiedergabe, d. h. die MSCL-Beschreibung, korrekt
durchgeführt
wurde, indem man die in Schritt S12 bereitgestellte Sprache anhört während man
die in Schritt S9 bereitgestellte Anzeige beobachtet.
-
12 veranschaulicht in einer
Blockdarstellung die funktionale Konfiguration einer Vorrichtung
zur Editierung synthetischer Sprache entsprechend der dritten Ausführungsform
der vorliegenden Erfindung. Die in MSCL beschriebenen, in 10B dargestellten Daten
werden beispielsweise über
ein Text/Befehl-Eingabeteil 11 eingegeben. Die eingegeben
Daten werden durch das Text/Befehl-Trennungsteil (oder lexikalisches Analyseteil) 12 in
japanischen Text und Prosodikmerkmal-Steuerbefehle getrennt. Der japanische
Text wird zu dem Satzstruktur-Analyseteil 13 geführt, in
welchem prosodische Parameter unter Heranziehung der Datenbank 14 für Regeln
zur Sprachsynthese erzeugt werden. Andererseits werden in dem Prosodikmerkmal-Steuerbefehl-Analyseteil
(oder Syntaxanalyse-Teil) 15 die abgetrennten Prosodikmerkmal-Steuerbefehle
analysiert, um deren Inhalte und Informationen über deren Position in der Zeichenfolge
(dem Text) zu entnehmen. Dann werden in dem Prosodikmerkmal-Steuerteil 17 die
Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation
verwendet, um die prosodischen Parameter aus dem Syntaxstruktur-Analyseteil 13 unter Heranziehung
der MSCL-Prosodiksteuerregeln-Datenbank 16 zu modifizieren.
Die modifizierten prosodischen Parameter werden verwendet, um das
Synthetiksprachsignal für
den japanischen Text in dem Synthetiksprache-Erzeugungsteil 18 zu
erzeugen; das Synthetiksprachsignal wird als Sprache über den
Lautsprecher 19 ausgegeben.
-
Andererseits
sind die prosodischen Parameter, die in dem Prosodikmerkmal-Steuerteil 17 modifiziert werden,
und Regeln zur Umwandlung der Position und Größe jedes Zeichens des japanischen
Textes in Zeichenumwandlungsinformation in der Datenbank 24 gespeichert.
Unter Heranziehung der Datenbank 24 werden in einem Zeichenumwandlungsinformations-Erzeugungsteil 25 die
modifizierten prosodischen Parameter aus dem Prosodikmerkmal-Steuerteil 17 in
die oben genannte Zeichenumwandlungsinformation umgewandelt. In
dem Zeichenumwandlungsteil 26 wird die Zeichenumwandlungsinformation
verwendet, um jedes Zeichen des japanisches Textes umzuwandeln,
und der auf diese Weise umgewandelte japanische Text wird auf einem
Display 27 angezeigt.
-
Die
Regeln zur Umwandlung der MSCL-Steuerbefehle in Zeicheninformation,
auf die vorstehend Bezug genommen wurde, können von einem Nutzer geändert oder
modifiziert werden. Das Verhältnis
zur Änderung
der Zeichenhöhe
und die Größe und die
Farbe jedes Zeichens kann der Nutzer festlegen. Schwankungen der
Tonhöhenfrequenz
können
durch die Zeichengröße repräsentiert
werden. Die Symbole „." Und „-„ können durch
eine Nutzeranfrage geändert
oder modifiziert werden. Wenn die Vorrichtung gemäß 12 die in gestrichelten
Linien angegebene Konfiguration besitzt, bei welcher der japanische
Text aus dem Satzstruktur-Analyseteil 13 und das in dem
Prosodikmerkmal-Steuerbefehl-Analyseteil 15 erhaltene Analyseergebnis
in das Zeichenumwandlungsinforma tions-Erzeugungsteil 25 eingegeben
werden, sind in der Datenbank 24 Regeln zur Prosodikmerkmalsteuerung
Befehl-zu-Zeichen-Umwandlungsregeln anstatt Prosodikparameter-zu-Zeichen-Umwandlungsregeln
gespeichert, und die Prosodikparameter-Steuerbefehle werden beispielsweise
genutzt, um die Tonhöhe
zu ändern,
Informationen zur entsprechenden Änderung der Zeichenhöhe werden
dem entsprechenden Zeichen des japanisches Textes zugeführt, und
wenn die Prosodikmerkmal-Steuerbefehle
benutzt werden, um den Amplitudenwert zu erhöhen, wird dem entsprechenden
Teil des japanischen Textes Vergrößerungsinformation zugeführt. Wird
im übrigen
der japanische Text dem Zeichenumwandlungsteil 26 unberührt zugeführt wird,
so erscheint auf dem Display 27 die in 10A dargestellte Anzeige.
-
Es
ist bedacht, dass der Zusammenhang zwischen der Größe des angezeigten
Zeichens und der Lautstärke
der Sprache, die in Verbindung damit wahrgenommen wird, und der
Zusammenhang zwischen der Höhe
der angezeigten Zeichenposition und der Tonhöhe der Sprache, die in Verbindung
damit wahrgenommen wird, nicht nur auf die japanische Sprache, sondern
auch auf alle natürlichen
Sprachen anwendbar ist. Daher ist klar, dass die dritte Ausführungsform
der vorliegenden Erfindung in gleicher Weise für andere verschiedenste natürliche Sprachen
neben der japanischen Sprache verwendet werden kann. Falls die Darstellung
der Steuerung prosodischer Parameter durch, wie vorstehend beschrieben,
die Größe und die
Position jedes Zeichens auf individuelle natürliche Sprachen angewandt wird,
kann die in der dritten Ausführungsform
gezeigte Notation in Kombination mit einer Notation verwendet werden,
die für
die Zeichenmerkmale jeder Sprache geeignet sind.
-
Mit
dem Editierungsverfahren für
synthetische Sprache gemäß der in
Bezug auf 11 vorstehend beschriebenen
dritten Ausführungsform
können
auf einfache Weise nicht-verbale Informationen zu synthetischer
Sprache hinzugefügt
werden, indem das Editierungsverfahren als ein Programm (eine Software)
gestaltet wird, das auf einer mit einem Computer verbundenen Disketteneinheit
einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung
verbunden ist, oder auf einem transportfähigen Aufzeichnungsmedium,
wie einer Floppy-Diskette oder einer CD-ROM, und das gespeicherte
Verfahren zu jedem Vorgang zur Editierung/Erzeugung synthetischer
Sprache installiert wird.
-
Die
dritte Ausführungsform
nutzt das MSCL-Schema, um synthetischer Sprache nicht-verbale Information
hinzuzufügen;
es ist jedoch auch möglich,
ein Verfahren zu verwenden, bei welchem prosodische Merkmale von
einer Vorrichtung mit GUI modifiziert werden und bei welchem die
prosodischen Parameter, die von dem Sprachsynthesemittel geliefert
werden, direkt verarbeitet werden.
-
WIRKUNG DER
ERFINDUNG
-
Entsprechend
dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer
Sprachmitteilungen gemäß der ersten
Ausführungsform
der vorliegenden Erfindung, wenn die synthetische Sprache durch
eine „Synthese-durch-Regeln" unnatürlich oder
monoton klingt und daher für
einen Nutzer ausdruckslos, kann eine Bedienperson auf einfache Weise
zu der Zeichenfolge, deren Prosodik geändert werden muss, gewünschte prosodische
Parameter hinzufügen,
indem mit dem MSCL-Beschreibungsschema Prosodikmerkmal-Steuerbefehle
in den Text eingefügt
werden.
-
Durch
Verwendung des relativen Steuerschemas ist es nicht notwendig, die
gesamte synthetische Sprache zu korrigieren, nur notwendige Korrekturen
werden an dem Ergebnis der „Synthese-durch-Regeln" an notwendigen Stellen
vorgenommen – dadurch
wird eine große
Menge an Arbeit, die mit der Synthese von Sprachmitteilungen verbunden
ist, eingespart.
-
Da
des Weiteren die Prosodikmerkmal-Steuerbefehle, die basierend auf
prosodischen Parametern erzeugt werden, die ihrerseits aus der eigentlichen
Sprache oder einer Vorrichtung zur Editierung synthetischer Sprache
des Typs eines Displays zu erhalten sind, gespeichert und genutzt
werden, kann auch ein gewöhnlicher
Nutzer auf einfache Weise eine gewünschte Sprachmitteilung synthetisieren
ohne ein spezielles Expertenwissen über Phonetik zu benötigen.
-
Da
entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung
synthetischer Sprachmitteilungen gemäß der zweiten Ausführungsform
der vorliegenden Erfindung Sätze
von Prosodikmerkmal-Steuerbefehlen basierend auf Kombinationen mehrerer
Arten von Prosodikmustervariationen als Prosodiksteuerregeln in Übereinstimmung
mit verschiedensten Arten nicht-verbaler Informationen in der Datenbank gespeichert
sind, können
dem eingegebenen Text auf einfache Weise verschiedenste nicht-verbale
Informationen hinzugefügt
werden.
-
Entsprechend
dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer
Sprachmitteilungen gemäß der dritten
Ausführungsform
der vorliegenden Erfindung, können
die Inhalte einer Manipulation (Editierung) visuell in Abhängigkeit
davon überprüft werden,
wie Zeichen, die einem Prosodikmerkmal-Steuervorgang unterzogen
werden, angeordnet sind – dies
ermöglicht
wirksamere Korrekturvorgänge. Falls
ein langer Satz editiert wird, kann eine zu korrigierende Zeichenfolge
leicht aufgefunden werden, ohne dass die gesamte Sprachmitteilung überprüft werden
muss.
-
Da
das Editierungsverfahren einem Zeichendruckverfahren gemein ist
(Common to), wird kein spezielles Druckverfahren benötigt. Daher
ist das System zur Editierung synthetischer Sprache sehr einfach.
-
Durch
Ausstatten der Displayeinrichtung mit einer Funktion zur Annahme
eines Zeigegeräts
zum Ändern
oder Modifizieren der Zeichenpositionsinformation oder ähnlichem,
ist es möglich,
den gleichen Effekt zu erzielen wie bei einem Editierungsvorgang,
bei dem GUI verwendet wird.
-
Da
darüber
hinaus die vorliegende Erfindung eine Erleichterung beim Umwandeln
konventioneller detaillierter Darstellungen prosodischer Parameter
ermöglicht,
ist es auch möglich,
die Notwendigkeit einer genauen Steuerung zu erfüllen. Die vorliegende Erfindung
ermöglicht
einem gewöhnlichen
Nutzer effektiv eine gewünschte
Sprachmitteilung zu erzeugen.
-
Es
ist offensichtlich, dass die vorliegende Erfindung nicht nur für die japanische
Sprache verwendet werden kann, sondern auch für andere natürliche Sprachen,
wie beispielsweise Deutsch, Französisch, Italienisch, Spanisch
und Koreanisch.
-
Es
ist ersichtlich, dass viele Modifikationen und Variationen ausgeführt werden
können,
ohne dass diese den Rahmen der neuen Konzepte der vorliegenden Erfindung
verlassen.