DE69821673T2

DE69821673T2 - Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren

Info

Publication number: DE69821673T2
Application number: DE69821673T
Authority: DE
Inventors: Osamu Shinjuku-ku Mizuno; Shinya Shinjuku-ku Nakajima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-05-21
Filing date: 1998-05-19
Publication date: 2005-01-05
Anticipated expiration: 2018-05-20
Also published as: CA2238067C; EP0880127A3; EP0880127B1; EP0880127A2; CA2238067A1; US6226614B1; US6334106B1; DE69821673D1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen und auf ein Aufzeichnungsmedium, auf dem das Verfahren aufgezeichnet ist. Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Editierung/Erzeugung einer Sprachmitteilung, das eine einfache und schnelle Synthese von Sprachmitteilungen mit gewünschten prosodischen Merkmalen ermöglicht.
Das Sprechen in dialogischer Form übermittelt den mentalen Zustand des Sprechers, seine Intentionen und ähnliches sowie die sprachliche Bedeutung des gesprochenen Dialogs. Derartige in der Stimme des Sprechers enthaltene Informationen werden, abgesehen von ihrer sprachlichen Bedeutung, im Allgemeinen als nicht-verbale (außersprachliche) Informationen bezeichnet. Der Hörer entnimmt der Intonation, der Betonung und der Dauer der gemachten Äußerung die nicht-verbalen Informationen. Hierfür wurde ein sogenanntes Text-zu-Sprache-(TTS/Text-To-Speech)-Verfahren zur Synthese von Mitteilungen, eine „Sprachsynthese mittels Regeln", erforscht und entwickelt, die einen Text in eine gesprochene Form umwandelt. Im Gegensatz zu dem Fall des Erzeugens und Synthetisierens aufgenommener Sprache, beinhaltet dieses Verfahren keine bestimmten Begrenzungen bezüglich der ausgegebenen Sprache und behebt das Problem, dass für die nachfolgende, teilweise Änderung der Mitteilung die Originalstimme des Sprechers benötigt wird. Da jedoch die verwendeten Regeln zur Erzeugung der Prosodik auf prosodischen Merkmalen einer Sprache basieren, die in einem rezitierenden Ton entstanden ist, ist es jedoch unvermeidbar, dass die synthetisierte Sprache eine rezitierende Form erhält und daher monoton klingt. Bei natürlichen Unterhaltungen verändern sich die prosodischen Merkmale der in Dialogen gesprochenen Sprache erheblich mit dem mentalen Zustand und den Intentionen des Sprechers.
Im Hinblick darauf, die mithilfe von Regeln synthetisierte Sprache natürlicher klingen zu lassen, hat man einen Versuch unternommen, die prosodischen Merkmale zu editieren; derartige Editierungsvorgänge sind jedoch schwer zu automatisieren: üblicherweise ist es für einen Nutzer notwendig, auf seiner Erfahrung und seinem Wissen basierende Editierungen zu machen. Bei den Editierungen ist es schwierig, eine Anordnung oder eine Konfiguration zum zufälligen Korrigieren prosodischer Parameter, wie der Betonung, der grundlegenden Frequenz (Tonhöhe bzw. pitch (engl.)), des Amplitudenwerts (Leistung) und der Dauer einer zu synthetisierenden Äußerungseinheit, einzusetzen. Daher ist es schwierig, eine Sprachmitteilung mit gewünschten prosodischen Merkmalen dadurch zu erhalten, dass prosodische oder phonologische Parameter desjenigen Abschnitts der synthetischen Sprache, der monoton und daher rezitierend klingt, willkürlich korrigiert werden.
Um eine Korrektur prosodischer Parameter zu vereinfachen, wurde in der EP-A-0 762 384 ebenfalls ein ein GUI (Graphic User Interface) anwendendes Verfahren vorgeschlagen, bei welchem prosodische Parameter einer synthetisierten Sprache in graphischer Form auf einem Display angezeigt, diese durch Verwendung einer Maus oder einem ähnlichen Zeigewerkzeug visuell korrigiert und modifiziert werden und eine Sprachmitteilung mit gewünschten nicht-verbalen Informationen synthetisiert wird, während die Korrekturen und Modifikationen durch Verwendung der synthetisierten Sprachausgabe bestätigt werden. Da dieses Verfahren die prosodischen Parameter visuell korrigiert, benötigt der Vorgang zur Korrektur gegenwärtiger Parameter jedoch Erfahrung und Kenntnis bezüglich der Phonetik, was daher für eine gewöhnliche Bedienperson schwierig ist.
U.S. Patent Nr. 4,907,279, JP-A-5-307396, JP-A-3-189697 und JP-A-5-19780 offenbaren ein Verfahren, das Steuerbefehle für phonologische Parameter, wie Betonungen und Pausen, in einen Text einfügt und synthetisierte Sprache durch Verwendung derartiger Steuerbefehle editiert. Auch bei diesem Verfahren gestaltet sich der Vorgang zum Editieren der nicht-verbalen Information für eine Person, die kein Wissen über die Beziehung zwischen nicht-verbalen Informationen und der Steuerung der Prosodik besitzt, immer noch schwierig.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, mit denen es für eine Bedienperson auf einfache Weise möglich ist, eine Sprachmitteilung mit gewünschten prosodischen Parametern zu synthetisieren.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die verschiedene nicht-verbale Informationen auszudrücken ermöglicht, die nicht in der verbalen Information enthalten sind, wie der mentale Zustand des Sprechers, seine Haltung und den Grad des Verstehens.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die eine Erleichterung bei der visuellen Erkennung der Wirkungen einer Steuerung prosodischer Parameter bei der Editierung nicht-verbaler Information einer synthetischen Sprachmitteilung ermöglichen.
Diese Aufgaben werden mit einem in Anspruch 1 beanspruchten Verfahren und einer in Anspruch 6 beanspruchten Vorrichtung gelöst. Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Aufzeichnungsmedien, auf denen Abläufe zur Ausführung der Editierungsverfahren gemäß der vorliegenden Erfindung aufgezeichnet werden, sind von der Erfindung ebenfalls umfasst.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Schaubild zur Erläuterung eines MSCL(Multi-Layered Speech/Sound Synthesis Control Language)-Beschreibungsschemas bei einer ersten Ausführungsform der voiliegenden Erfindung;
2 ist ein Ablaufdiagramm, das ein Verfahren zur Editierung synthetischer Sprache zeigt, das die erste Ausführungsform umfasst;
3 ist ein Blockdiagramm, das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der ersten Ausführungsform veranschaulicht;
4 ist ein Schaubild zur Erläuterung von Veränderungen einer Tonhöhenkontur bei einer zweiten Ausführungsform der vorliegenden Erfindung;
5 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen mit modifizierten Tonhöhenkonturen bei der zweiten Ausführungsform zeigt;
6 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen mit skalierten Äußerungsdauern bei der zweiten Ausführungsform zeigt;
7 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen zeigt, die in Kombination modifizierte Tonhöhenkonturen und skalierte Äußerungsdauern bei der zweiten Ausführungsform besitzen;
8 ist eine Tabelle, die Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die prosodische Merkmale der Tonhöhe und der Leistung bei einer dritten Ausführungsform der vorliegenden Erfindung betreffen;
9 ist eine Tabelle, die Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die den dynamischen Umfang der Tonhöhe bei der dritten Ausführungsform zeigt;
10A ist ein Schaubild, das eine Beispiel eines eingegebenen japanischen Satzes bei der dritten Ausführungsform zeigt;
10B ist ein Schaubild, das ein Beispiel seiner Beschreibung mithilfe von MSCL zeigt;
10C ist ein Schaubild, das ein Beispiel einer Darstellung der Wirkung der Befehle gemäß der dritten Ausführungsform zeigt;
11 ist ein Ablaufdiagramm, das Editierungs- und Anzeigevorgänge gemäß der dritten Ausführungsform zeigt;
12 ist ein Blockdiagramm, das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der dritten Ausführungsform veranschaulicht.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Erste Ausführungsform
Bei spontanen Unterhaltungen ändert der Sprecher die Betonung, die Geschwindigkeit und die Tonhöhe seiner Äußerungen, um damit verschiedenste Informationen auszudrücken, die in der verbalen Information nicht enthalten sind, wie sein mentaler Zustand, seine Haltung und sein Verständnis sowie deren beabsichtigte Abstufungen. Hierdurch wird der gesprochene Dialog ausdrucksstark und klingt natürlich. Bei der Synthese von Sprache mithilfe von Regeln ausgehend von einem Text wurden ebenfalls Bestrebungen unternommen, zusätzlich gewünschte nicht-verbale Informationen bereitzustellen. Da bei jedem dieser Ansätze ein Befehl zur Steuerung spezifischer phonologischer Information in den Text eingebracht wird, muss der Nutzer Kenntnisse über verbale Informationen besitzen.
Bei der Verwendung einer Vorrichtung zur Synthese von Sprache aus Texten ist zur Übermittlung von Informationen und Nuancen, die tagtägliche Unterhaltungen beinhalten, eine genaue Steuerung der prosodischen Parameter der synthetischen Sprache notwendig. Andererseits ist es für einen Nutzer unmöglich, abzuschätzen, inwiefern die Tonhöhe oder die Dauer einen Einfluss auf die Mitteilung von Informationen oder Nuancen der Sprache haben, sofern er nicht Kenntnisse zur Sprachsynthese oder zu Text-zu-Sprache-Synthesevorrichtungen besitzt. Nun folgt zunächst eine Beschreibung der Mehrfach-Ebenen-Sprach/Klang-Synthese-Steuerungssprache (Multi-Layered Speech/Sound Synthesis Control Language/MSCL) gemäß der vorliegenden Erfindung, deren Nutzung für den Nutzer erleichtert werden soll.
Bei der Nutzung ergeben sich für den Nutzer zwei Erleichterungen. Zunächst ist eine Nutzungserleichterung für Anfänger vorgesehen, die es ihnen ermöglicht, einen Text, der in die Text-zu-Sprache-Synthesevorrichtung eingegeben wird, auf einfache Weise zu beschreiben, auch wenn sie über kein Expertenwissen verfügen. Durch HTML, die die Beziehung zwischen der Größe und der Position jedes Zeichens im Internet definiert, können die Zeichen in einer Größe entsprechend der Länge eines Satzes dargestellt werden, indem die Zeichenfolge beispielsweise mit als <H1> und </H1> bezeichneten Markierungen umgeben wird; jedermann kann die gleiche Homepage erzeugen. Eine derartige Standardregel ist nicht nur für Anfänger günstig, sondern führt auch zu einer Reduzierung des die Beschreibung betreffenden Arbeitsumfangs. Zweitens besteht eine Nutzungserleichterung, die für sachkundige Nutzer gedacht ist, die die Beschreibung einer genauen Steuerung ermöglicht. Das vorgenannte Verfahren kann die Zeichengestalt und die Schreibrichtung nicht verändern. Selbst im Falle der Zeichenfolge ergibt sich beispielsweise die Notwendigkeit, diese auf verschiedenste Weise zu verändern, falls eine die Aufmerksamkeit anziehende Homepage angefertigt werden soll. Es wäre daher manchmal wünschenswert, eine synthetische Sprache mit einem höheren Grad an Vollständigkeit zu schaffen, auch wenn Expertenwissen dafür benötigt wird.
Vom Standpunkt der Steuerung nicht-verbaler Information der Sprache aus, verwendet die erste Ausführungsform der vorliegenden Erfindung als Mittel zur Umsetzung der erstgenannten Nutzungserleichterung eine Semantik-Niveauebene (nachfolgend als S-Ebene bezeichnet), die aus Steuerbefehlen zu semantisch-prosodischen Merkmalen aufgebaut ist, die Worte oder Ausdrücke darstellen, die jeweils nicht-verbale Informationen repräsentieren, und als Mittel zur Umsetzung der zweiten Nutzungserleichterung eine Interpretations-Niveauebene (nachfolgend als I-Ebene bezeichnet), die aus Prosodikmerkmal-Steuerbefehlen zur Interpretation jedes Prosodikmerkmal-Steuerbefehls der S-Ebene und zur Definierung einer direkten Steuerung prosodischer Parameter der Sprache aufgebaut ist. Des Weiteren verwendet diese Ausführungsform eine Parameter-Niveauebene (nachfolgend als P-Ebene bezeichnet), die aus prosodischen Parametern aufgebaut ist, die der Steuerung durch die Steuerbefehle der I-Ebene unterworfen sind. Die erste Ausführungsform fügt die Prosodikmerkmal-Steuerbefehle durch Verwendung eines Prosodik-Steuersystems in einen Text ein, wobei das System die drei genannten Ebenen in einer wie in 1 dargestellten Mehrfachebenenform besitzt.
Die P-Ebene besteht hauptsächlich aus prosodischen Parametern, die von den als nächstes beschriebenen Prosodikmerkmal-Steuerbefehlen der I-Ebene ausgewählt und gesteuert werden. Diese prosodischen Parameter sind diejenigen prosodischer Merkmale, die in einem Sprachsynthesesystem verwendet werden, wie die Tonhöhe (Pitch, engl.), die Leistung, die Dauer und phonematische Information für jedes Phonem. Die prosodischen Parameter sind grundlegende Objekte einer Prosodiksteuerung durch MSCL, und diese Parameter werden zur Steuerung synthetischer Sprache verwendet. Die prosodischen Parameter der P-Ebene stellen Basisparameter der Sprache dar und besitzen eine schnittstellenähnliche Eigenschaft, die die Anwendung der Editierungstechnik für synthetische Sprache gemäß der vorliegenden Erfindung auf verschiedenste andere Sprach-Synthese- oder Sprach-Kodierungs-Systeme erlaubt, die ähnliche prosodische Parameter verwenden. Die prosodischen Parameter der P-Ebene nutzen die vorhandene Sprachsynthesevorrichtung und sind daher von deren Spezifikation abhängig.
Die I-Ebene besteht aus Befehlen, die dazu verwendet werden, den Wert, das Zeit-veränderliche Muster (ein prosodisches Merkmal) und die Betonung jedes prosodischen Parameters der P-Ebene zu steuern. Durch eine genaue Steuerung der physikalischen Quantitäten der prosodischen Parameter auf dem Niveau des Phonems durch Verwendung der Befehle der I-Ebene, ist es möglich, Befehle wie „Vibrato", „stimmhafter Nasallaut", weiter dynamischer Bereich", „langsam" und „hohe Tonhöhe", wie in der Befehlsgruppe der I-Ebene in 1 angegeben, zu implementieren. Dazu werden Beschreibungen mittels Symbolen, die Muster der entsprechenden Parameter auf der P-Ebene steuern, als Prosodikmerkmal-Steuerbefehle der I-Ebene verwendet. Die Prosodikmerkmal-Steuerbefehle der I-Ebene werden unter vorbestimmten Standard-Steuerregeln auf prosodische Parameter der P-Ebene abgebildet. Die I-Ebene wird auch als eine Ebene genutzt, die die Prosodikmerkmal-Steuerbefehle der S-Ebene interpretiert und der P-Ebene ein Steuerschema angibt. Die Befehle der I-Ebene besitzen einen Satz von Symbolen zur Spezifizierung der Steuerung einer oder mehrer prosodischer Parameter, die Steuerobjekte in der P-Ebene sind. Diese Symbole können auch dazu verwendet werden, das Zeit-veränderliche Muster jeder Prosodik und ein Verfahren zu dessen Interpolation zu spezifizieren. Jeder Befehl der S-Ebene wird in einen Satz von Befehlen der I-Ebene konvertiert – dies erlaubt eine genauere Steuerung der Prosodik. Die nachstehende Tabelle 1 zeigt Beispiele von Befehlen der I-Ebene, zu steuernden prosodischen Parametern und die Steuerungsinhalte.
Tabelle 1: Befehle der I-Ebene
Ein oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene können entsprechend zu einem ausgewählten Befehl der Prosodikmerkmal-Steuerbefehle der S-Ebene verwendet werden. Die zur Beschreibung der Befehle der I-Ebene verwendeten Symbole werden später noch beschrieben; XXXX in den geschwungenen Klammern {} repräsentieren ein Zeichen oder eine Zeichenfolge eines Textes, der ein Steuerobjekt darstellt.
Nun folgt die Beschreibung eines Beispiels der Anwendung der Prosodikmerkmal-Steuerbefehle der I-Ebene auf einen englischen Text.
Will you do [F0d](2,0){me} a [~/]{favor}.
Der Befehl [F0d] setzt den dynamischen Bereich der Tonhöhe auf einen doppelten Wert, was dem Befehl nachfolgend mit (2,0) angegeben ist. Das Steuerobjekt dieses Befehls ist das dem Befehl unmittelbar folgende {me}. Der nächste Befehl [~/] ist ein Befehl, der das Tonhöhenmuster des letzten Vokals erhöht, und sein Steuerobjekt ist das ihm unmittelbar folgende {favor}.
Die S-Ebene führt die Steuerung der Prosodik semantisch durch. Die S-Ebene besteht aus Worten, die auszudrücken gewünschte nicht-verbale Informationen konkret repräsentieren, wie den mentalen Zustand des Sprechers, seine Stimmung, seinen Charakter, sein Geschlecht und Alter, beispielsweise „ärgerlich", erfreut", schwach", „weinend", „aufzählend" und „zweifelnd", die in der S-Ebene in 1 angegeben sind. Diesen Worten geht jeweils eine Markierung @ voraus, welche als der Prosodikmerkmal-Steuerbefehl der S-Ebene verwendet wird, um die Steuerung der Prosodik der in den Klammern dem Befehl folgenden Zeichenfolge anzugeben. Beispielsweise vergrößert der Befehl für die „ärgerlich"-Äußerung die dynamischen Bereiche der Tonhöhe und der Leistung, und der Befehl für die weinend"-Äußerung lässt das Tonhöhenmuster jedes Phonems erschüttern oder schwanken, was ein für ein Satzende charakteristisches Tonhöhenmuster liefert. Der Befehl „aufzählend" ist ein Befehl, der einen Ton zum Auslesen betroffener Begriffe bestimmt und das am Satzende befindliche Tonhöhenmuster auch im Falle einer fragenden Äußerung nicht erhöht. Der Befehl „Schwach" verengt die dynamischen Bereiche der Tonhöhe und der Leistung, der Befehl „zweifelnd" erhöht die Tonhöhe am Ende eines Wortes. Diese Steuerungsbeispiele sind für den Fall bestimmt, dass diese zum Editieren japanischer Sprache verwendet werden. Wie vorstehend beschrieben, wird jeder der Befehle der S-Ebene dazu verwendet, ein oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene nach einem vorbestimmten Muster auszuführen. Die S-Ebene ermöglicht von der Intuition abhängige Steuerbeschreibungen, wie beispielsweise vom mentalen Zustand des Sprechers, und Satzstrukturen, ohne Kenntnisse über die Prosodik oder andere die Phonetik betreffende Dinge zu benötigen. Es ist ebenso möglich, zwischen den Befehlen der S-Ebene und HTML, LaTex oder anderen Befehlen Korrespondenz herbeizuführen.
Die folgende Tabelle zeigt Anwendungsbeispiele der Prosodikmerkmal-Steuerbefehle der S-Ebene.
Tabelle 2: Befehle der S-Ebene
Unter Bezugnahme auf die 2 und 3 wird nachstehend ein Beispiel einer Sprachsynthese in Verbindung mit dem Fall beschrieben, dass es sich bei den in einen Text einzufügenden Steuerbefehle um Prosodikmerkmal-Steuerbefehle der S-Ebene handelt.
S1: Ein japanischer Text, welcher der zu synthetisieren und editieren gewünschten Sprachmitteilung entspricht, wird mit einer Tastatur oder einer anderen Eingabeeinheit eingegeben.
S2: Die Zeichen oder Zeichenfolgen, deren prosodische Merkmale zu korrigieren gewünscht sind, werden spezifiziert und die entsprechenden Prosodikmerkmal-Steuerbefehle werden eingegeben und in den Text eingefügt.
S3: Der Text und die Prosodikmerkmal-Steuerbefehle werden beide in ein Text/Befehle-Trennungsteil 12 eingegeben, in welchem sie voneinander getrennt werden. Zu diesem Zeitpunkt werden auch Informationen über die Position der Prosodikmerkmal-Steuerbefehle in dem Text bereitgestellt.
S4: Die Prosodikmerkmal-Steuerbefehle werden dann in einem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 analysiert, um diesen deren Steuerabfolge zu entnehmen.
S5: In einem Satzstruktur-Analyseteil 13 wird unter Heranziehung einer Datenbank 14 für Regeln zur Sprachsynthese die Zeichenfolge des Textes in eine signifikante eine Bedeutung besitzende Wortfolge zerlegt. Anschließend wird für jedes Wort in Hinblick auf die Zeichenfolge ein prosodischer Parameter beschafft.
S6: Ein Prosodikmerkmal-Steuerteil 17 zieht die Prosodikmerkmal-Steuerbefehle, die ihre Position betreffende Information und deren Steuerabfolge heran und steuert die Prosodikparameterfolge, die der zu steuernden Zeichenfolge entspricht, indem es Prosodiksteuerregeln folgt, die individuell spezifizierten Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, die in einer Prosodikmerkmalregeln-Datenbank 16 vorgeschrieben sind, oder den Prosodiksteuerregeln, die dem Satz Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, die durch diejenigen der S-Ebene spezifiziert sind.
S7: Ein Synthetiksprache-Erzeugungsteil 18 erzeugt basierend auf den gesteuerten prosodischen Parametern synthetische Sprache.
In Bezugnahme auf 3 wird nun eine Ausführungsform der Synthetiksprache-Editierungseinheit konkret beschrieben. Ein japanischer Text, der Prosodikmerkmal-Steuerbefehle enthält, wird in ein Text/Befehl-Eingabeteil 11 über eine Tastatur oder einen anderen Editor eingegeben. Unten ist eine Beschreibung beispielsweise eines japanischen Textes „Watashino Namaeha Nakajima desu. Yoroshiku Onegaishimasu" (Bedeutung: Mein Name ist Nakajima. Wie geht es Dir?) mit einem Beschreibungsschema gezeigt, das die I- und S-Ebene von MSCL verwendet.
Im Obigen gibt [L] die Dauer an und spezifiziert die Äußerungszeit des Satzes in den entsprechenden Klammern {}. [>] repräsentiert einen Ausdrucksbestandteil der Tonhöhe und gibt an, dass die Grundfrequenz der Äußerung der Zeichenfolge in Klammern {} zwischen 150 Hz und 80 Hz variiert wird. [/-\] zeigt einen lokalen Wechsel der Tonhöhe an. /,- und \ geben an, dass die zeitliche Variation der Grundfrequenz erhöht, flach gehalten bzw. erniedrigt wird. Durch Verwendung dieser Befehle ist es möglich, zeitliche Veränderungen von Parametern zu beschreiben. Was {Watashino Namaeha} (Bedeutung: „Mein Name") angeht, ist in dem Prosodikmerkmal-Steuerbefehl [>] (150,80), der eine Variation der Grundfrequenz von 150 Hz bis 80 Hz spezifiziert, des Weiteren ein Prosodikmerkmal-Steuerbefehl [/-\] (120) zur lokalen Änderung der Tonhöhe eingefügt bzw. in diesem verschachtelt. [#] gibt ein Einfügen einer stillen Zeitspanne bzw. Pause in die synthetische Sprache an. Die stille Zeitspanne beträgt in diesem Fall 1 mora, wobei „mora" eine durchschnittliche Länge einer Silbe ist. Bei [@Asking] handelt es sich um einen Prosodikmerkmal-Steuerbefehl der S-Ebene; in diesem Beispiel weist er eine Kombination von Prosodikmerkmal-Steuerbefehlen als prosodischen Parameter der Sprache auf, wie im Falle von „Praying".
Die obige Eingabeinformation wird in das Text/Befehl-Trennungsteil (das üblicherweise als lexikalisches Analyseteil bezeichnet wird) 12 eingegeben, in welchem diese in den Text und Informationen zu den Prosodikmerkmal-Steuerbefehlen aufgetrennt wird, die dem Satzstruktur-Analyseteil 13 bzw. dem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 (üblicherweise als Syntaxanalyseteil (Parsing Part, engl.) bezeichnet) zugeführt werden. Unter Heranziehung der Datenbank 14 für Regeln zur Sprachsynthese wird der zu dem Satzstruktur-Analyseteil 13 gelieferte Text in den Satz abgrenzende Information, in Information zur Äußerungsfolge und Information zur Betonung basierend auf einem bekannten „Synthese-durch-Regeln"-Verfahren umgewandelt, und diese Informationsteile werden in prosodische Parameter umgewandelt. Die Information zu Prosodikmerkmal-Steuerbefehlen, die dem Befehl-Analyseteil 15 zugeführt wurde, wird verarbeitet, um hiervon die Prosodikmerkmal-Steuerbefehle und die Information über deren Positionen in dem Text zu extrahieren. Die Prosodikmerkmal-Steuerbefehle und deren Positionsinformation werden zu dem Prosodikmerkmal-Steuerteil 17 geliefert. Das Prosodikmerkmal-Steuerteil 17 zieht eine Datenbank 16 für Regeln zu prosodischen Merkmalen heran und erhält Instruktionen, die spezifizieren, welche und wie die prosodischen Parameter des Textes gesteuert werden; das Prosodikparameter-Steuerteil 17 variiert und korrigiert die prosodischen Parameter entsprechend. Diese Steuerung durch Regeln spezifiziert die Sprachleistung, die Grundfrequenz, die Dauer und andere prosodische Parameter und in manchen Fällen auch die Gestalt von Zeit-veränderlichen Mustern der prosodischen Parameter. Die Angabe des Wertes des prosodischen Parameters spaltet sich in die zwei folgenden auf: eine relative Steuerung zum Verändern und Korrigieren der aus dem Text durch die „Synthese-durch-Regeln" erhaltenen Prosodikparameterfolge in Übereinstimmung mit einem vorgegebenen Verhältnis oder einer vorgegebenen Differenz, und eine absolute Steuerung zur Bestimmung absoluter Werte der zu steuernden Parameter. Ein Beispiel für Ersteres ist der Befehl [F0d](2,0) zur Verdoppelung der Tonhöhenfrequenz und ein Beispiel für Letzteres ist der Befehl [>](150,80) zum Ändern der Tonhöhenfrequenz von 150 Hz auf 80 Hz.
In der Datenbank 16 für Regeln zu prosodischen Merkmalen sind Regeln gespeichert, die vorsehen, wie die prosodischen Parameter in Übereinstimmung mit jedem Prosodikmerkmal-Steuerbefehl zu ändern und zu korrigieren sind. Die prosodischen Merkmale des Textes, die in dem Prosodikmerkmal-Steuerteil 17 gesteuert werden, werden zu dem Synthetiksprache-Erzeugungsteil 18 geliefert, in welchem sie zu einem Synthetiksprachsignal gemacht werden, das einem Lautsprecher 19 zugeführt wird.
Stimmen, die verschiedenste nicht-verbale Informationen enthalten, die durch die Prosodikmerkmal-Steuerbefehle der S-Ebene repräsentiert sind, d. h. Stimmen, die verschiedenste Ausdrucksformen von Angst, Wut, Ablehnung usw. enthalten, die den Prosodikmerkmal-Steuerbefehlen der S-Ebene entsprechen, werden in einem Eingabesprache-Analyseteil 22 voranalysiert. Jede Kombination üblicher prosodischer Merkmale (Kombinationen von Tonhöhen-, Leistungs- und Zeitspannenmustern, deren Kombinationen nachfolgend als Prosodiksteuerregeln oder Prosodikmerkmalsregeln bezeichnet werden), die für jede Art durch die Voranalyse erhalten werden, wird als ein Satz von Prosodikmerkmal-Steuerbefehlen der I-Ebene, die jedem Befehl der S-Ebene entsprechen, von einem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 geliefert. Die Befehle der S-Ebene und die entsprechenden Steuerbefehlssätze der I-Ebene werden als Prosodikmerkmalsregeln in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert.
Die in der Prosodikmerkmalsregeln-Datenbank 16 gespeicherten Prosodikmerkmalsmuster werden von dieser gezielt ausgelesen und dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 zugeführt, indem ein notwendiger Befehl der S-Ebene bestimmt wird. Das herausgelesene Prosodikmerkmalsmuster wird auf einem Synthetiksprache-Editierungsteil 21 vom Typ eines Bildschirms angezeigt. Das Prosodikmerkmalsmuster kann Neuerungen angepasst werden, indem der entsprechende prosodische Parameter auf dem Bildschirm mittels GUI korrigiert wird, und der korrigierte Parameter dann vom Umwandlungsteil 23 aus in die Prosodikmerkmalsregeln-Datenbank 16 geschrieben wird. Falls die Prosodikmerkmals-Steuerbefehle, die von dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 erhalten werden, in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert werden, kann der Nutzer der Synthetiksprache-Editierungsvorrichtung der vorliegenden Erfindung ebenso eine Kombination häufig verwendeter Prosodikmerkmal-Steuerbefehle der I-Ebene unter einem gewünschten Namen als einen neuen Befehl der S-Ebene eintragen. Diese Eintragungsfunktion vermeidet das Erfordernis nicht-verbale Information enthaltende synthetische Sprache durch Verwendung vieler Prosodikmerkmals-Steuerbefehle der I-Ebene zu erhalten, wann immer es für den Nutzer notwendig ist, nicht-verbale Information nicht mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene zu erhalten.
Das Hinzufügen von nicht-verbaler Information zu synthetischer Sprache durch Verwendung der Multi-Layered/Sound Synthesis Control Language (MSCL) gemäß der vorliegenden Erfindung erfolgt durch die Steuerung grundlegender prosodischer Parameter, die jede Sprache besitzt. Es ist allen Sprachen gemein, dass sich prosodische Merkmale von Stimmen mit dem mentalen Zustand des Sprechers, seinen Intentionen und so weiter verändern. Somit ist es klar, dass die MSCL gemäß der vorliegenden Erfindung zum Editieren synthetischer Sprache in jeglichen Sprachen verwendet werden kann.
Da die Prosodikmerkmal-Steuerbefehle durch Verwendung der Multi-Layered/Sound Synthesis Control Language, die aus den vorstehend beschriebenen Semantik-, Interpretations- und Parameterebenen besteht, in den Text geschrieben werden, kann eine normale Bedienperson durch Verwendung der Beschreibung mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene auf einfache Weise nicht-verbale Information editieren. Andererseits kann eine Bedienperson mit Expertenkenntnissen durch Verwendung der Prosodikmerkmal-Steuerbefehle der S-Ebene und I-Ebene detailliertere Editierungen ausführen.
Mit dem vorstehend beschriebenen MSCL-System ist es möglich, manche Stimmeigenschaften von hohen bis niedrigen Tonhöhen zusätzlich zu männlichen und weiblichen Stimmen zu bestimmen. Dies dient nicht nur dazu, den Wert der Tonhöhe oder der Grundfrequenz der synthetischen Sprache zu verändern, sondern auch dazu, ihr gesamtes Spektrum in Übereinstimmung mit dem Frequenzspektrum der hoch- oder tieftonigen Stimme zu ändern. Diese Funktion erlaubt die Durchführung von Unterhaltungen mit einer Vielzahl von Sprechern. Des Weiteren ermöglicht das MSCL-System die Eingabe einer Klangdatendatei mit Musik, Hintergrundgeräuschen, natürlichen Stimmen und so weiter. Denn eine effizientere Erzeugung von Inhalten benötigt unvermeidbar zusätzlich zur Sprache Musik, natürliche Stimmen und ähnliche Klanginformationen. Bei dem MSCL-System werden diese Daten derartiger Klanginformationen als zusätzliche Information synthetischer Sprache behandelt.
Mit dem Editierungsverfahren für synthetische Sprache gemäß der in Bezug auf 2 vorstehend beschriebenen ersten Ausführungsform können nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das Verfahren dann auf einer Disketteneinheit gespeichert wird, die mit einem Computer einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung verbunden ist, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, und das gespeicherte Verfahren für jede Sitzung zur Editierung/Erzeugung synthetischer Sprache installiert wird.
Die obige Ausführungsform wurde hauptsächlich in Verbindung mit der japanischen Sprache und einigen Anwendungsbeispielen für die englische Sprache beschrieben. Wird ein japanischer Text durch japanische alphabetische Schriftzeichen ausgedrückt, so sind im Allgemeinen nahezu alle Schriftzeichen einsilbig, was eine sprachliche Erleichterung beim Aufbau einer Übereinstimmung zwischen den Positionen der Zeichen und den Silben im Text bedeutet. Somit kann die Position der Silbe, die das Prosodiksteuerungsobjekt darstellt, relativ leicht aus der entsprechenden Zeichenposition bestimmt werden. In anderen als der japanischen Sprache gibt es jedoch viele Fälle, wo die Position der Silbe in einem Wort nicht einfach mit der Position des Wortes in der Zeichenfolge übereinstimmt, wie im Falle der englischen Sprache. Falls die vorliegende Erfindung auf eine derartige Sprache angewandt wird, wird für jedes Wort im Text ein Wörterbuch dieser Sprache hinzugezogen, das die Aussprache der Wörter beinhaltet, um die Position jeder Silbe relativ zu einer Folge von Buchstaben in einem Wort zu bestimmen.
Zweite Ausführungsform
Da die in 3 dargestellte Vorrichtung für ein Verfahren zur Editierung synthetischer Sprache gemäß einer zweiten Ausführungsform der vorliegenden Erfindung verwendet werden kann, wird diese Ausführungsform nachstehend mit Bezug auf 3 beschrieben. In der Prosodikmerkmalsregeln-Datenbank 16, auf die vorstehend bereits Bezug genommen wurde, sind nicht nur Steuerregeln für prosodische Parameter gespeichert, die den Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, sondern auch ein Satz von Prosodikmerkmal-Steuerbefehlen der I-Ebene, die jeden Prosodikmerkmal-Steuerbefehl der S-Ebene in Übereinstimmung damit interpretiert haben. Nun erfolgt eine Beschreibung der Steuerung prosodischer Parameter durch die Befehle der I-Ebene. Zunächst werden mehrere Beispiele der Steuerung der Tonhöhenkontur und der Dauer von Wortäußerungen beschrieben, gefolgt von einem Beispiel der Erzeugung von Befehlen der S-Ebene durch die Untersuchung mentaler Tendenzen der synthetischen Sprache in jedem Beispiel einer solchen Steuerung.
Das Verfahren zur Steuerung der Tonhöhenkontur benutzt als Referenz für die Steuerung einen Bereich, in dem eine Änderung der Betonung oder ähnlichem nicht zu einer für den Hörer wahr nehmbaren Unstimmigkeit führt. Wie in 4 dargestellt teilt sich die Tonhöhenkontur in drei Abschnitte auf: einen Abschnitt T1 vom Anfang des Prosodikmusters einer Wortäußerung (der Anfang eines Vokals einer ersten Silbe) bis zum Höchstwert (Peak) der Tonhöhenkontur, einen Abschnitt T2 vom Höchstwert bis zum Anfang eines letzten Vokals, und einen Abschnitt T3 des letzten Vokals. Mit diesem Steuerverfahren ist es möglich, sechs Arten von nachfolgend aufgelisteten Modifikationen (a) bis (f) vorzunehmen, wobei die Modifikationen durch die gestrichelt dargestellten Muster a, b, c, d, e und f in 4 angegeben sind. Die durchgezogene Linie gibt eine nicht-modifizierte ursprüngliche Tonhöhenkontur (eine Standard-Tonhöhenkontur, die durch beispielsweise eine Satzstrukturanalyse von der Datenbank 14 für Regeln zur Sprachsynthese erhalten wird) an.

(a) Der dynamische Bereich der Tonhöhenkontur ist vergrößert.
(b) Der dynamische Bereich der Tonhöhenkontur ist verringert.
(c) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton abfallendes Muster ausgebildet.
(d) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton ansteigendes Muster ausgebildet.
(e) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach oben erstreckendes Muster ausgebildet.
(f) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach unten erstreckendes Muster ausgebildet.

Das Verfahren zur Steuerung der Zeitdauer ermöglicht zwei Arten von Eingriffen zur (g) Verkürzung sowie zur (h) Verlängerung der Zeitdauer jedes Phonems.
Untersuchungsergebnisse über mentale Einflüsse bei jedem der Steuerverfahren werden nachstehend beschrieben. Nachstehend sind mentale Haltungen (nicht-verbale Informationen) aufgelistet, die Hörer synthetisierten Stimmen entnahmen, die durch Modifikation einer japanischen Wortäußerung entsprechend der vorgenannten Steuerverfahren (a) bis (f) erhalten wurden.

(1) Härte oder positive Haltung
(2) Schwäche oder passive Haltung
(3) Verständige Haltung
(4) Fragende Haltung
(5) Sicherheit oder Gelassenheit
(6) Unsicherheit oder Widerwillen

Sieben Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die durch Modifikation einer japanischen Wortäußerung „shikatanai" (was „Es geht nicht anders" bedeutet) entsprechend der obigen Verfahren (a) bis (f) erzeugt wurden. 5 zeigt Antwortraten im Hinblick auf die vorstehend genannten mentalen Zustände (1) bis (6), die die Untersuchungskandidaten den gehörten Stimmen entnommen haben. Die Untersuchungsergebnisse deuten an, dass die sechs Arten von Modifikationen (a) bis (f) der in 4 dargestellten Tonhöhenkontur zu einem hohen Prozentsatz als die oben genannten mentalen Zustände (1) bis (6) erkannt wurden. Daher ist bei der zweiten Ausführungsform festgelegt, dass diese modifizierten Versionen der Tonhöhenkontur den mentalen Zuständen (1) bis (6) entsprechen, und sie werden als grundlegende Prosodiksteuerregeln verwendet.
In ähnlicher Weise wurde die Zeitdauer einer japanischen Wortäußerung verlängert oder verkürzt, um synthetisierte Stimmen zu erzeugen, denen die Hörer die nachstehenden mentalen Zustände des Sprechers entnahmen.

(a) Verlängert: (7) Intention des klaren Sprechens (8) Intention des suggestiven Sprechens
(b) Verkürzt: (9) Gehetzt (10) Dringlich

Sieben Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die durch (g) Verlängern und (h) Verkürzen der Zeitdauer eines prosodischen Musters einer japanischen Wortäußerung „Aoi" (was „Blau" bedeutet) erzeugt wurden. 6 zeigt die Antwortraten im Hinblick auf die oben genannten mentalen Zustände (7) bis (10), die die Untersuchungskandidaten den gehörten Stimmen entnommen haben. Auch in diesem Fall zeigen die Untersuchungsergebnisse, dass die verlängerte Zeitdauer die Intention zum klarem Sprechen des Sprechers wiedergibt, wohingegen die verkürzte Zeitdauer wiedergibt, dass der Sprecher hastig spricht. Daher werden eine Verkürzung oder Verlängerung der Zeitdauer ebenfalls als grundlegende Prosodiksteuerregeln verwendet, die diesen mentalen Zuständen entsprechen.
Basierend auf den oben genannten Untersuchungsergebnissen wurden die von Untersuchungskandidaten verstandenen mentalen Zustände des Sprechers für Fälle untersucht, bei denen eine Modifikation der Tonhöhenkontur und eine Verlängerung und Verkürzung der Zeitdauer miteinander kombiniert wurden.
Sieben Untersuchungskandidaten wurden gebeten, die mentalen Zustände des Sprechers, die sie mit der vorgenannten japanischen Wortäußerung „shikatanai" in Verbindung brachten, zu notieren. 7 zeigt die Untersuchungsergebnisse, die andeuten, dass verschiedene mentale Zustände durch verschiedenste Kombinationen von Prosodiksteuerregeln ausgedrückt werden könnten, und die Antwortraten zu den entsprechenden mentalen Zuständen zeigen, dass deren Erkennung den Untersuchungskandidaten ziemlich geläufig ist. Des Weiteren kann gesagt werden, dass diese mentalen Zustände durch die Wechselwirkung von Einflüssen nicht-verbaler Information, die Prosodikmerkmalsmuster besitzen, erzeugt werden.
Wie vorstehend beschrieben, kann der synthetischen Sprache eine breite Vielfalt nicht-verbaler Informationen hinzugefügt werden, indem Modifikationen der Tonhöhenkontur (Modifikationen des dynamischen Bereichs und der Hülle) mit einer Verlängerung und Verkürzung der Zeitdauer kombiniert werden. Es besteht auch eine Möglichkeit, dass die gewünschte nicht-verbale Information erzeugt werden kann, indem die obigen Manipulationen selektiv miteinander kombiniert werden, während der mentale Einfluss der grundlegenden Manipulation berücksichtigt wird; dies kann als jedem mentalen Zustand entspiechende Prosodiksteuerregel in der Datenbank 16 von 3 gespeichert werden. Es ist berücksichtigt, dass diese Prosodiksteuerregeln als Manipulationsreferenz für eine GUI nutzende Prosodikeditierungsvorrichtung wirksam sind. Des weiteren könnten der synthetischen Sprache mehr Ausdrücke hinzugefügt werden, indem, als eine grundlegende Prosodiksteuerregel, Modifikationen des Amplitudenmusters (des Leistungsmusters) sowie Modifikationen der Tonhöhenkontur und der Zeitdauer miteinander kombiniert würden.
Bei der zweiten Ausführungsform ist zumindest eine Kombination bestehend aus einer Modifikation der Tonhöhenkontur, einer Modifikation des Leistungsmusters und einer Verlängerung und Verkürzung der Zeitdauer, bei denen es sich um grundlegende, den entsprechenden mentalen Zuständen entsprechende Prosodiksteuerregeln handelt, als eine Prosodiksteuerregel in der in 3 gezeigten Prosodiksteuerregel-Datenbank 16 vorab gespeichert. Bei der Synthese von Sprache ausgehend von einem Text wird die dem zu äußern gewünschten mentalen Zustand entsprechende Prosodikmerkmal-Steuerregel (d. h. eine Kombination einer modifizierten Tonhöhenstruktur, eines modifizierten Leistungsmusters und verlängerten und verkürzten Zeitdauern) aus der Prosodiksteuerregel-Datenbank 16 herausgelesen und dann in dem Prosodikmerkmal-Steuerteil 17 auf das prosodische Muster eines geäußerten Worts des Textes angewandt. Damit kann der synthetischen Sprache der gewünschte Ausdruck (nicht-verbale Information) hinzugefügt werden.
Wie aus obigem ersichtlich, können bei dieser Ausführungsform die Prosodikmerkmal-Steuerregeln nur auf dem Niveau der I-Ebene beschrieben werden. Es ist natürlich auch möglich, als Prosodikmerkmal-Steuerregeln der S-Ebene des MSCL-Beschreibungsverfahrens die Prosodikmerkmal-Steuerregeln zu definieren, die verschiedenste Darstellungsweisen und Umsetzungen entsprechender mentaler Zustände, auf die vorstehend Bezug genommen wurde, erlauben; in diesem Fall kann die Sprachsynthese mit einer auf MSCL-basierenden Vorrichtung der 3, wie im Falle der ersten Ausführungsform, erfolgen. Die folgende Tabelle 3 zeigt Beschreibungsbeispiele in einem solchen Fall.
Tabelle 3: S-Ebene & I-Ebene
Tabelle 3 zeigt ein Beispiel von fünf Befehlen der S-Ebene, die basierend auf den Untersuchungsergebnissen zur zweiten Ausführungsform und deren Interpretation durch die entsprechenden Befehle der I-Ebene erstellt wurden. Das japanische Wort „honto" (was „wirklich" bedeutet) in den Klammern {} ist ein Beispiel eines Steuerobjekts des Befehls. In der Tabelle 3 gibt [L] die Äußerungsdauer und der Zahlenwert den Skalierungsfaktor für die Zeitdauer an. [F0d] gibt den dynamischen Bereich der Tonhöhenkontur und der Zahlenwert den Skalierungsfaktor für den Bereich an. [/V] gibt die sich nach unten erstreckende Modifikation der Tonhöhenkontur vom Anfang bis zu dem Höchstwert (Peak) der sein Zahlenwert den Grad einer derartigen Modifikation an.
Wie vorstehend beschrieben wird gemäß dieser Ausführungsform der Prosodikmerkmal-Steuerbefehl zur Korrektur eines prosodischen Parameters in den eingegebenen Text geschrieben und der prosodische Parameter des Textes durch eine Kombination von modifizierten Prosodikparametermustern korrigiert, die durch die Prosodiksteuerregel, die dem in den Text geschriebenen Prosodikmerkmal-Steuerbefehl entspricht, spezifiziert sind. Die Prosodiksteuerregel spezifiziert eine Kombination von Änderungen des Sprachleistungsmusters, der Tonhöhenkontur und Äußerungsdauer und, falls notwendig, auch die Gestalt des Zeit-veränderlichen Musters des prosodischen Parameters.
Zur Spezifizierung des prosodischen Parameters nimmt der Wert zwei Formen an: eine relative Steuerung zur Änderung und zur Korrektur des sich aus der „Synthese-durch-Regeln" ergebenden prosodischen Parameters und eine absolute Steuerung zur absoluten Korrektur des Parameters. Des Weiteren werden häufig genutzte Prosodikmerkmal-Steuerbefehle für einen einfachen Zugriff miteinander kombiniert, wenn sie in der Prosodiksteuerregeln-Datenbank 16 abgespeichert werden, und sie werden zur Spezifizierung prosodischer Parameter als neue Prosodikmerkmal-Steuerbefehle verwendet. Beispielsweise wird eine Kombination von grundlegenden Steuerregeln in Übereinstimmung mit jedem Prosodikmerkmal-Steuerbefehl der S-Ebene bei dem MSCL-System bestimmt und dann in der Prosodiksteuerregeln-Datenbank 16 vorab gespeichert. Alternativ werden nur die grundlegenden Prosodiksteuerregeln in der Prosodiksteuerregeln-Datenbank 16 vorab gespeichert, und einer oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene, die jedem der Prosodikmerkmal-Steuerbefehle der S-Ebene entsprechen, zur Spezifizierung und zum Herauslesen einer Kombination der grundlegenden Prosodiksteuerregeln aus der Datenbank 16 verwendet. Zur Beschreibung der Prosodiksteuerung des Textes wurde bei der zweiten Ausführungsform das MSCL-Verfahren verwendet, es können jedoch auch andere Beschreibungsverfahren verwendet werden.
Die zweite Ausführungsform basiert auf der Annahme, dass es sich bei Kombinationen von spezifischen prosodischen Merkmalen um Prosodiksteuerregeln handelt. Es ist offensichtlich, dass die zweite Ausführungsform zur Steuerung prosodischer Parameter verschiedenster natürlicher Sprachen wie dem Japanischen verwendet werden kann.
Mit dem Editierungsverfahren für synthetische Sprache gemäß der oben beschriebenen zweiten Ausführungsform können nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das Verfahren dann auf einer mit einem Computer verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, gespeichert wird, und es zum Zeitpunkt des Editierungs-/Erzeugungsvorgangs synthetischer Sprache installiert wird.
Dritte Ausführungsform
Bei dem Fall, bei welchem Prosodikmerkmal-Steuerbefehle über das Text/Befehl-Eingabeteil 11 in 3 durch Verwendung der MSCL-Beschreibung gemäß der vorliegenden Erfindung in einen Text eingefügt werden, wäre es günstig, wenn visuell bestätigt werden könnte, wie die Äußerungsdauer, die Tonhöhenkontur und das Amplitudenmuster der synthetischen Sprache des Textes durch entsprechende Prosodikmerkmal-Steuerbefehle gesteuert werden. Nun erfolgt nachstehend eine Beschreibung eines Beispiels einer Darstellung des durch die Befehle gesteuerten Prosodikmerkmalmusters des Textes und einer Konfiguration zum Erzeugen der Darstellung.
Zunächst werden Untersuchungsergebnisse, die das prosodische Merkmal der Äußerungsdauer betreffen, beschrieben. Durch eine Verlängerung der Zeitdauer klingt die Äußerung langsam, wohingegen, wenn die Zeitdauer kurz ist, die Äußerung schnell klingt. Bei den Untersuchungen wurde ein japanisches Wort „Urayamashii" (was „neidisch" bedeutet) verwendet. Mehrere in der Länge variierten Versionen dieses Worts, die durch verschiedenstes Ändern der Zeichenabstände erhalten wurden, wurden Seite-an-Seite geschrieben. Gemischte oder synthetische Klänge oder Äußerungen des Wortes wurden erzeugt, die normale, lange bzw. kurze Zeitdauern besaßen, und 14 Untersuchungskandidaten wurden gebeten, ihre Stimme darüber abzugeben, von welchen Äußerungen sie denken, dass sie welchen in der Länge variierten Versionen des japanischen Wortes entsprechen. Die folgenden Ergebnisse wurden, wie im Wesentlichen vorhergesagt, erhalten.
Kurze Zeitdauer: Enger Zeichenabstand (88%)
Lange Zeitdauer: Weiter Zeichenabstand (100%)
Als nächstes folgt eine Beschreibung von Untersuchungsergebnissen, die betreffend der prosodischen Merkmale der grundlegenden Frequenz (Tonhöhe) und des Amplitudenwertes (Leistung) erhalten wurden. Neun Variationen derselben japanischen Wortäußerung „Urayamashii", wie sie oben verwendet wurde, wurden mit den nachstehend aufgelisteten Tonhöhen und Leistungen synthetisiert, und 14 Untersuchungskandidaten wurden gebeten, ihre Stimme darüber abzugeben, von welchen der neun Zeichenfolgen (a) bis (i) sie denken, dass sie mit welchen der synthetisierten Äußerungen übereinstimmen würden. Die Ergebnisse sind in der Tabelle 4 gezeigt.
Tabelle 4: Prosodische Merkmale und zugehörige Vermerke
Als nächstes werden Untersuchungsergebnisse betreffend einer Variation der Intonation beschrieben. Die Intonation repräsentiert den Wert (den dynamischen Bereich) einer Tonhöhenvariation innerhalb eines Wortes. Wenn die Intonation groß ist, klingt die Äußerung „kräftig, positiv" und mit einer kleinen Intonation klingt die Äußerung „schwach, passiv". Es wurden synthetisierte Versionen der japanischen Wortäußerung „Urayamashii" mit normalen, kräftigen und schwachen Intonationen erzeugt, und es wurden Tests zur Einschätzung dazu durchgeführt, welche der synthetisierten Äußerungen zu welcher in 9 gezeigten Zeichenfolge passt. Als Ergebnis kommt man zu folgender Schlussfolgerung.
Starke Intonation → Die Zeichenposition wird mit der Tonhöhenstruktur geändert (eine sich verändernde Zeitfolge), wodurch die Inklination (71%) weiter erhöht wird.
Schwache Intonation → Die Zeichenpositionen am Anfang und am Ende des Wortes werden erhöht (43%).
In den 10A, 10B und 10C sind Beispiele der Darstellung japanischer Sätze gezeigt, die zur Erzeugung synthetischer Sprache eingegeben werden, eine Beschreibung des eingegebenen Textes kombiniert mit darin eingefügten Prosodikmerkmal-Steuerbefehlen der MSCL-Beschreibung und die Anwendung der oben genannten Untersuchungsergebnisse auf die eingefügten Prosodikmerkmal-Steuerbefehle.
Der eingegebene japanische Satz von 10A bedeutet „Ich bitte Dich, den Vogel weit von Deinen Händen weggehen zu lassen." Die japanische Aussprache jedes Zeichens ist unter dem jeweiligen Zeichen dargestellt.
In 10B stellt [L] einen Äußerungsdauer-Steuerbefehl und die diesem folgende Zeitangabe eine Anwendung dar, dass der gesamte Satz in 8500 ms zu beenden ist. [/-I\] stellt einen Tonhöhenkontur-Steuerbefehl dar, und die Symbole zeigen einen Anstieg (/), eine Abflachung (-), einen Fest punkt/Verankerung (I) und einen Abfall (\) der Tonhöhenkontur. Der dem Tonhöhenkontur-Steuerbefehl folgende Zahlenwert (2) gibt an, dass die Frequenz in einem wechselnden Verhältnis von 20 Hz pro Phonem variiert wird, und es wird angegeben, das die Tonhöhenkontur der Silbe des letzten Zeichens durch die Verankerung „I" gesenkt wird. [#] stellt einen Befehl zum Einfügen einer Pause dar, durch den eine stille Zeitdauer von etwa 1 mora eingefügt wird. [A] stellt einen Amplitudenwert-Steuerbefehl dar, durch welchen der Amplitudenwert um das 1,8-fache größer als zuvor, d. h. bei „konotori" (was „der Vogel" bedeutet) gemacht wird. Diese Befehle sind diejenigen der I-Ebene. Andererseits handelt es sich bei [@naki] um einen Befehl der S-Ebene zur Erzeugung einer Äußerung mit einem Gefühl von Sorge/Bedauern.
Nun folgt unter Bezugnahme auf 10C eine Beschreibung eines Beispiels einer Darstellung für den Fall, dass das Beschreibungsschema oder die Notation, die auf den oben genannten Untersuchungen beruhen, auf die in 10B gezeigte Beschreibung angewandt wird. Die eingegebenen japanischen Zeichen sind in horizontaler Richtung angeordnet. Eine Anzeige 1 [-], die sich am Anfang jeder Zeile befindet, gibt die Position der Tonhöhenfrequenz des synthetisierten Ergebnisses vor dem Editierungsvorgang an. D. h. wenn kein Editierungsvorgang betreffend die Tonhöhenfrequenz stattgefunden hat, sind die Zeichen jeder Zeile so angeordnet, dass die Position der Anzeige [-] auf der gleichen Höhe gehalten wird wie diejenige des Zentrums jedes Zeichens. Wenn die Tonhöhenfrequenz geändert wird, so ändert sich die Höhe der Anzeige am Zentrum jedes Zeichens relative zu „-" entsprechend dem Wert der geänderten Tonhöhenfrequenz.
Die Punkte „.", die durch die Bezugsziffer 2 unterhalb der Zeichenfolge jeder Zeile angegeben sind, repräsentieren durch ihre Abstände eine durchschnittliche Zeitdauer T_m (die die Länge einer Silbe angibt, d. h. 1 mora im Falle der japanischen Sprache) jedes Zeichens. Falls kein Skalierungsvorgang der Zeitdauer vorgesehen ist, werden jedem Zeichen der angezeigten Zeichenfolge Moras einer Anzahl gegeben, die der Anzahl der Silben in dem Zeichen entspricht. Wird die Äußerungsdauer geändert, ändert sich der angezeigte Zeichenabstand der Zeichenfolge entsprechend. Das Symbol „∘", das mit der Bezugsziffer 3 am Ende jeder Zeile angegeben ist, repräsentiert den Endpunkt jeder Zeile; d. h. dieses Symbol gibt an, dass das Phonem bis zu seiner Position weitergeht.
Die drei Zeichen, die mit der Bezugsziffer 4 in der ersten Zeile der 10C angegeben sind, sind so dargestellt, dass sie linear von dem Symbol „-„, das mit der Bezugsziffer 1 angegeben ist, ansteigen, wodurch angegeben wird, dass dies auf dem eingegebenen MSCL-Befehl „ein Anstieg der Tonhöhenkontur um 20 Hz" beruht. In gleicher Weise geben die vier Zeichen, die durch die Bezugsziffer 5 angegeben sind, eine flache Tonhöhenkontur und die zwei Zeichen, die durch die Bezugsziffer 6 angegeben sind, eine abfallende Tonhöhenkontur an.
Das Symbol „#", das mit der Bezugsziffer 7 bezeichnet ist, gibt das Einfügen einer Pause an. Die drei mit der Bezugsziffer 8 bezeichneten Zeichen sind größer als die vorhergehenden und die nachfolgenden Zeichen. Dies gibt an, dass sich der Amplitudenwert im Anstieg befindet.
Die zwei Mora andauernde Leerstelle in der zweiten Zeile, die mit der Bezugsziffer 9 bezeichnet ist, gibt an, dass das unmittelbar vorhergehende Zeichen unter der Steuerung durch den Zeitdauer-Steuerbefehl über T1 (3 Moras = 2T_m) weitergeht.
Die fünf Zeichen in der letzten Zeile, die mit der Bezugsziffer 10 angegeben sind, unterscheiden sich bezüglich der Schriftart von den anderen Zeichen. Dieses Beispiel nutzt nur für die Zeichenfolge 10 eine feinlinige Schriftart, jedoch eine hervorstechende (Gothic) für die anderen Zeichen. Die feinlinige Schriftart gibt die Einführung der Befehle der S-Ebene an. Die Höhe der Zeichen gibt das Ergebnis von Höhenvariationen entsprechend der Befehle der S-Ebene an.
11 zeigt ein Beispiel des vorstehend beschriebenen Verfahrens. Zunächst wird der beispielsweise in 10A gezeigte Satz eingegeben (S1), dann wird der eingegebene Satz auf dem Display angezeigt, dann werden Prosodikmerkmal-Steuerbefehle in den Satz an den Positionen der Zeichen eingefügt, wo die prosodischen Merkmale, die durch die herkömmliche Synthese mittels Regeln zu erhalten sind, korrigiert werden sollen, während der Satz auf dem Display beobachtet wird, wodurch beispielsweise die in 10B dargestellten Informationen erhalten werden, d. h. Informationen zur Synthetiksprache-Steuerungs-Beschreibungssprache (S2).
Diese Information, d. h. eine Information, bei der die Prosodikmerkmal-Steuerbefehle in den japanischen Text eingefügt sind, wird in eine die vorliegende Erfindung ausführende Vorrichtung eingegeben (S3).
Die eingegebene Information wird durch eine Trenneinrichtung verarbeitet, um diese in den japanischen Text und die Prosodikmerkmal-Steuerbefehle aufzutrennen (S4}. Diese Trennung erfolgt, indem durch Verwendung des MSCL-Beschreibungsschemas und einem Formulierungs-Analyseschema festgestellt wird, ob entsprechende Codes zu den Prosodikmerkmal-Steuerbefehlen oder zu dem japanischen Text gehören.
Die abgetrennten Prosodikmerkmal-Steuerbefehle werden analysiert, um Informationen über ihre Eigenschaften, Bezugspositionsinformationen über ihre Position (Zeichen oder Zeichenfolgen) in dem japanischen Text und Informationen zur Abfolge ihrer Ausführung zu erhalten (S5). Falls die Befehle in der Reihenfolge, in der sie erhalten werden, ausgeführt werden, sind Informationen zur Abfolge deren Ausführung nicht notwendig. Dann wird der in Schritt S4 abgetrennte japanische Text einer japanischen Syntaxstrukturanalyse unterzogen, um prosodische Parameter zu erhalten, die auf dem herkömmlichen Synthese-durch-Regeln-Verfahren beruhen (S6).
Die auf diese Weise erhaltenen prosodischen Parameter werden durch Verwendung der Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation in Informationen zur Position und Größe der Zeichen umgewandelt (S7). Die auf diese Weise umgewandelte Informationen werden verwendet, um die entsprechenden Zeichen des japanischen Textes, der in Schritt S4(S8) abgetrennt wurde, umzuwandeln; diese werden auf dem Display angezeigt, um eine Darstellung, beispielsweise des in 10C dargestellten japanischen Satzes (außer der Anzeige der Aussprache), bereitzustellen (S9).
Die in Schritt S6 erhaltenen prosodischen Parameter werden unter Heranziehung der Prosodikmerkmal-Steuerbefehle und der Positionsinformationen, die beide in Schritt S5 erhalten werden, gesteuert (S 10). Basierend auf den gesteuerten prosodischen Parametern, wird ein Sprachsynthesesignal für den in Schritt S4 abgetrennten japanischen Text erzeugt (S11), und dieses dann als Sprache ausgegeben (S 12). Es ist möglich eine Kontrolle durchzuführen, um zu sehen, ob die beabsichtigte Wiedergabe, d. h. die MSCL-Beschreibung, korrekt durchgeführt wurde, indem man die in Schritt S12 bereitgestellte Sprache anhört während man die in Schritt S9 bereitgestellte Anzeige beobachtet.
12 veranschaulicht in einer Blockdarstellung die funktionale Konfiguration einer Vorrichtung zur Editierung synthetischer Sprache entsprechend der dritten Ausführungsform der vorliegenden Erfindung. Die in MSCL beschriebenen, in 10B dargestellten Daten werden beispielsweise über ein Text/Befehl-Eingabeteil 11 eingegeben. Die eingegeben Daten werden durch das Text/Befehl-Trennungsteil (oder lexikalisches Analyseteil) 12 in japanischen Text und Prosodikmerkmal-Steuerbefehle getrennt. Der japanische Text wird zu dem Satzstruktur-Analyseteil 13 geführt, in welchem prosodische Parameter unter Heranziehung der Datenbank 14 für Regeln zur Sprachsynthese erzeugt werden. Andererseits werden in dem Prosodikmerkmal-Steuerbefehl-Analyseteil (oder Syntaxanalyse-Teil) 15 die abgetrennten Prosodikmerkmal-Steuerbefehle analysiert, um deren Inhalte und Informationen über deren Position in der Zeichenfolge (dem Text) zu entnehmen. Dann werden in dem Prosodikmerkmal-Steuerteil 17 die Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation verwendet, um die prosodischen Parameter aus dem Syntaxstruktur-Analyseteil 13 unter Heranziehung der MSCL-Prosodiksteuerregeln-Datenbank 16 zu modifizieren. Die modifizierten prosodischen Parameter werden verwendet, um das Synthetiksprachsignal für den japanischen Text in dem Synthetiksprache-Erzeugungsteil 18 zu erzeugen; das Synthetiksprachsignal wird als Sprache über den Lautsprecher 19 ausgegeben.
Andererseits sind die prosodischen Parameter, die in dem Prosodikmerkmal-Steuerteil 17 modifiziert werden, und Regeln zur Umwandlung der Position und Größe jedes Zeichens des japanischen Textes in Zeichenumwandlungsinformation in der Datenbank 24 gespeichert. Unter Heranziehung der Datenbank 24 werden in einem Zeichenumwandlungsinformations-Erzeugungsteil 25 die modifizierten prosodischen Parameter aus dem Prosodikmerkmal-Steuerteil 17 in die oben genannte Zeichenumwandlungsinformation umgewandelt. In dem Zeichenumwandlungsteil 26 wird die Zeichenumwandlungsinformation verwendet, um jedes Zeichen des japanisches Textes umzuwandeln, und der auf diese Weise umgewandelte japanische Text wird auf einem Display 27 angezeigt.
Die Regeln zur Umwandlung der MSCL-Steuerbefehle in Zeicheninformation, auf die vorstehend Bezug genommen wurde, können von einem Nutzer geändert oder modifiziert werden. Das Verhältnis zur Änderung der Zeichenhöhe und die Größe und die Farbe jedes Zeichens kann der Nutzer festlegen. Schwankungen der Tonhöhenfrequenz können durch die Zeichengröße repräsentiert werden. Die Symbole „." Und „-„ können durch eine Nutzeranfrage geändert oder modifiziert werden. Wenn die Vorrichtung gemäß 12 die in gestrichelten Linien angegebene Konfiguration besitzt, bei welcher der japanische Text aus dem Satzstruktur-Analyseteil 13 und das in dem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 erhaltene Analyseergebnis in das Zeichenumwandlungsinforma tions-Erzeugungsteil 25 eingegeben werden, sind in der Datenbank 24 Regeln zur Prosodikmerkmalsteuerung Befehl-zu-Zeichen-Umwandlungsregeln anstatt Prosodikparameter-zu-Zeichen-Umwandlungsregeln gespeichert, und die Prosodikparameter-Steuerbefehle werden beispielsweise genutzt, um die Tonhöhe zu ändern, Informationen zur entsprechenden Änderung der Zeichenhöhe werden dem entsprechenden Zeichen des japanisches Textes zugeführt, und wenn die Prosodikmerkmal-Steuerbefehle benutzt werden, um den Amplitudenwert zu erhöhen, wird dem entsprechenden Teil des japanischen Textes Vergrößerungsinformation zugeführt. Wird im übrigen der japanische Text dem Zeichenumwandlungsteil 26 unberührt zugeführt wird, so erscheint auf dem Display 27 die in 10A dargestellte Anzeige.
Es ist bedacht, dass der Zusammenhang zwischen der Größe des angezeigten Zeichens und der Lautstärke der Sprache, die in Verbindung damit wahrgenommen wird, und der Zusammenhang zwischen der Höhe der angezeigten Zeichenposition und der Tonhöhe der Sprache, die in Verbindung damit wahrgenommen wird, nicht nur auf die japanische Sprache, sondern auch auf alle natürlichen Sprachen anwendbar ist. Daher ist klar, dass die dritte Ausführungsform der vorliegenden Erfindung in gleicher Weise für andere verschiedenste natürliche Sprachen neben der japanischen Sprache verwendet werden kann. Falls die Darstellung der Steuerung prosodischer Parameter durch, wie vorstehend beschrieben, die Größe und die Position jedes Zeichens auf individuelle natürliche Sprachen angewandt wird, kann die in der dritten Ausführungsform gezeigte Notation in Kombination mit einer Notation verwendet werden, die für die Zeichenmerkmale jeder Sprache geeignet sind.
Mit dem Editierungsverfahren für synthetische Sprache gemäß der in Bezug auf 11 vorstehend beschriebenen dritten Ausführungsform können auf einfache Weise nicht-verbale Informationen zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das auf einer mit einem Computer verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung verbunden ist, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, und das gespeicherte Verfahren zu jedem Vorgang zur Editierung/Erzeugung synthetischer Sprache installiert wird.
Die dritte Ausführungsform nutzt das MSCL-Schema, um synthetischer Sprache nicht-verbale Information hinzuzufügen; es ist jedoch auch möglich, ein Verfahren zu verwenden, bei welchem prosodische Merkmale von einer Vorrichtung mit GUI modifiziert werden und bei welchem die prosodischen Parameter, die von dem Sprachsynthesemittel geliefert werden, direkt verarbeitet werden.
WIRKUNG DER ERFINDUNG
Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der ersten Ausführungsform der vorliegenden Erfindung, wenn die synthetische Sprache durch eine „Synthese-durch-Regeln" unnatürlich oder monoton klingt und daher für einen Nutzer ausdruckslos, kann eine Bedienperson auf einfache Weise zu der Zeichenfolge, deren Prosodik geändert werden muss, gewünschte prosodische Parameter hinzufügen, indem mit dem MSCL-Beschreibungsschema Prosodikmerkmal-Steuerbefehle in den Text eingefügt werden.
Durch Verwendung des relativen Steuerschemas ist es nicht notwendig, die gesamte synthetische Sprache zu korrigieren, nur notwendige Korrekturen werden an dem Ergebnis der „Synthese-durch-Regeln" an notwendigen Stellen vorgenommen – dadurch wird eine große Menge an Arbeit, die mit der Synthese von Sprachmitteilungen verbunden ist, eingespart.
Da des Weiteren die Prosodikmerkmal-Steuerbefehle, die basierend auf prosodischen Parametern erzeugt werden, die ihrerseits aus der eigentlichen Sprache oder einer Vorrichtung zur Editierung synthetischer Sprache des Typs eines Displays zu erhalten sind, gespeichert und genutzt werden, kann auch ein gewöhnlicher Nutzer auf einfache Weise eine gewünschte Sprachmitteilung synthetisieren ohne ein spezielles Expertenwissen über Phonetik zu benötigen.
Da entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der zweiten Ausführungsform der vorliegenden Erfindung Sätze von Prosodikmerkmal-Steuerbefehlen basierend auf Kombinationen mehrerer Arten von Prosodikmustervariationen als Prosodiksteuerregeln in Übereinstimmung mit verschiedensten Arten nicht-verbaler Informationen in der Datenbank gespeichert sind, können dem eingegebenen Text auf einfache Weise verschiedenste nicht-verbale Informationen hinzugefügt werden.
Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der dritten Ausführungsform der vorliegenden Erfindung, können die Inhalte einer Manipulation (Editierung) visuell in Abhängigkeit davon überprüft werden, wie Zeichen, die einem Prosodikmerkmal-Steuervorgang unterzogen werden, angeordnet sind – dies ermöglicht wirksamere Korrekturvorgänge. Falls ein langer Satz editiert wird, kann eine zu korrigierende Zeichenfolge leicht aufgefunden werden, ohne dass die gesamte Sprachmitteilung überprüft werden muss.
Da das Editierungsverfahren einem Zeichendruckverfahren gemein ist (Common to), wird kein spezielles Druckverfahren benötigt. Daher ist das System zur Editierung synthetischer Sprache sehr einfach.
Durch Ausstatten der Displayeinrichtung mit einer Funktion zur Annahme eines Zeigegeräts zum Ändern oder Modifizieren der Zeichenpositionsinformation oder ähnlichem, ist es möglich, den gleichen Effekt zu erzielen wie bei einem Editierungsvorgang, bei dem GUI verwendet wird.
Da darüber hinaus die vorliegende Erfindung eine Erleichterung beim Umwandeln konventioneller detaillierter Darstellungen prosodischer Parameter ermöglicht, ist es auch möglich, die Notwendigkeit einer genauen Steuerung zu erfüllen. Die vorliegende Erfindung ermöglicht einem gewöhnlichen Nutzer effektiv eine gewünschte Sprachmitteilung zu erzeugen.
Es ist offensichtlich, dass die vorliegende Erfindung nicht nur für die japanische Sprache verwendet werden kann, sondern auch für andere natürliche Sprachen, wie beispielsweise Deutsch, Französisch, Italienisch, Spanisch und Koreanisch.
Es ist ersichtlich, dass viele Modifikationen und Variationen ausgeführt werden können, ohne dass diese den Rahmen der neuen Konzepte der vorliegenden Erfindung verlassen.

Claims

Verfahren zum Editieren nicht-verbaler Information einer Sprachmitteilung, die in Übereinstimmung mit einem Text durch Regeln synthetisiert wird, wobei das Verfahren folgende Schritte aufweist: (a) Einfügen eines Prosodikmerkmal-Steuerbefehls einer Semantikebene einer mehrere Ebenen aufweisenden Beschreibungssprache in den Text an der Position eines Zeichens oder einer Zeichenfolge, zu dem/der nicht-verbale Information hinzugefügt werden soll, so dass eine Prosodiksteuerung, die der nicht-verbalen Information entspricht, bewirkt wird, wobei die mehrere Ebenen aufweisende Beschreibungssprache aus der Semantikebene und einer Interpretationsebene und einer Parameterebene aufgebaut ist, wobei die Parameterebene eine Gruppe von steuerbaren prosodischen Parametern ist, die zumindest die Tonhöhe und die Leistung beinhalten, wobei die Interpretationsebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, die auf die prosodischen Parameter der Parameterebene unter vorbestimmten Standardregeln abgebildet werden, wobei die Semantikebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, wovon jeder durch einen Begriff oder ein Wort repräsentiert ist, der oder das für eine beabsichtigte Bedeutung nicht-verbaler Information steht, und dazu verwendet wird, einen Befehlssatz auszuführen, der aus zumindest einem Prosodikmerkmal-Steuerbefehl der Interpretationsebene besteht, und wobei die Beziehung zwischen jedem Prosodikmerkmal-Steuerbefehl der Semantikebene und einem Satz von Prosodikmerkmal-Steuerbefehlen der Interpretationsebene und Prosodiksteuerregeln, die Steuerungsdetails der prosodischen Parameter der Parameterebene durch die Prosodikmerkmal-Steuerbefehle der Interpretationsebene angeben, vorab in einer Prosodiksteuerregel-Datenbank (16) gespeichert sind; (b) Extrahieren einer Prosodikparameterfolge einer durch Regeln synthetisierten Sprache aus dem Text; (c) Steuern, als Antwort auf den in Schritt (a) eingefügten Prosodikmerkmal-Steuerbefehl, desjenigen der prosodischen Parameter der Prosodikparameterfolge, der dem entsprechenden Zeichen oder der entsprechenden Zeichenfolge entspricht, zu dem die nicht-verbale Information hinzugefügt werden soll, unter Heranziehen der Prosodiksteuerregel-Datenbank (16); und (d) Synthetisieren von Sprache aus der Prosodikparameterfolge, die den gesteuerten Prosodikparameter enthält, und zum Ausgeben einer synthetischen Sprachmitteilung.
Verfahren nach Anspruch 1, wobei die Prosodikparametersteuerung in Schritt (c) die Werte der Parameter relativ zu der in Schritt (b) erhaltenen Prosodikparameterfolge ändert.
Verfahren nach Anspruch 1, wobei die Prosodikparametersteuerung in Schritt (c) spezifizierte, absolute Werte der Parameter in Bezug auf die in Schritt (b) erhaltene Prosodikparameterfolge ändert.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Prosodikparametersteuerung in Schritt (c) zumindest eines ausführt, nämlich Spezifizieren des Werts zumindest eines von prosodischen Parametern für die Amplitude, die grundlegende Frequenz und die Dauer der betreffenden Äußerung und Spezifizieren der Form des zeit-veränderlichen Musters jedes prosodischen Parameters.
Das Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt (c) ein Schritt zum Aufspüren der Positionen eines Phonems und einer Silbe ist, die dem Zeichen oder der Zeichenfolge entsprechen, unter Heranziehung eines Wörterbuchs in der Sprache des Textes und zum Verarbeiten dieser in Übereinstimmung mit den Prosodikmerkmal-Steuerbefehlen.
Eine Vorrichtung zum Editieren synthetischer Sprache, aufweisend: ein Text/Prosodikmerkmal-Steuerbefehl-Eingabeteil (11), in das ein Piosodikmerkmal-Steuerbefehl einer Semantikebene einer mehrere Ebenen aufweisenden Beschreibungssprache, der in einen eingegebenen Text eingefügt werden soll, eingegeben wird, wobei die mehrere Ebenen aufweisende Beschreibungssprache aus der Semantikebene, einer Interpretationsebene und einer Parameterebene aufgebaut ist, wobei die Parameterebene eine Gruppe von steuerbaren Prosodischen Parametern ist, die zumindest die Tonhöhe und die Leistung beinhalten, wobei die Interpretationsebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, die auf die prosodischen Parameter der Parameterebene unter vorbestimmten Standardregeln abgebildet werden, und die Semantikebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, wovon jeder durch einen Begriff oder ein Wort repräsentiert ist, der oder das für eine beabsichtigte Bedeutung nicht-verbaler Information steht, und dazu verwendet wird, einen Befehlssatz auszuführen, der aus zumindest einem Prosodikmerkmal-Steuerbefehl der Interpretationsebene besteht, und wobei die Beziehung zwischen jedem Prosodikmerkmal-Steuerbefehl der Semantikebene und einem Satz von Prosodikmerkmal-Steuerbefehlen der Interpretationsebene und Prosodiksteuerregeln, die Steuerungsdetails der prosodischen Parameter der Parameterebene durch die Prosodikmerkmal-Steuerbefehle der Interpretationsebene angeben, vorab in einer Prosodiksteuerregel-Datenbank (16) gespeichert sind; ein Text/Prosodikmerkmal-Steuerbefehl-Trennungsteil (12) zur Trennung des Prosodikmerkmal-Steuerbefehls von dem Text; ein Sprachsyntheseinformations-Umwandlungsteil (13) zur Erzeugung einer Prosodikparameterfolge aus dem abgetrennten Text basierend auf einem „Synthese-durch-Regeln"-Verfahren; ein Prosodikmerkmal-Steuerbefehl-Analyseteil (15) zum Extrahieren von Information aus dem abgetrennten Prosodikmerkmal-Steuerbefehl über dessen Position in dem Text; ein Prosodikmerkmal-Steuerteil (17) zum Steuern und Korrigieren der Prosodikparameterfolge basierend auf der entnommenen Positionsinformation und dem abgetrennten Prosodikmerkmal-Steuerbefehl unter Heranziehung der Prosodiksteuerregel-Datenbank (16); und ein Sprachsyntheseteil (18) zur Erzeugung synthetischer Sprache basierend auf der korrigierten Prosodikparameterfolge aus dem Prosodikparameter-Steuerteil.
Vorrichtung nach Anspruch 6, die des Weiteren aufweist: ein Eingabesprache-Analyseteil (22) zum Analysieien von eingegebener Sprache, die nicht-verbale Information enthält, um prosodische Parameter zu erhalten; ein Prosodikparameter/Prosodikmerkmal-Steuerbefehl-Umwandlungsteil (23) zur Umwandlung der prosodischen Parameter der eingegebenen Sprache in einen Satz von Prosodikparameter-Steuerbefehlen; und wobei die Prosodiksteuerregel-Datenbank (16) den Satz von Prosodikmerkmal-Steuerbefehlen in Übereinstimmung mit der nicht-verbalen Information speichert.
Vorrichtung nach Anspruch 7, die des Weiteren ein Synthetiksprache-Editierungsteil (21) des Anzeigetyps, das mit einem Bildschirm und einem GUI-Mittel ausgestattet ist, aufweist, und wobei das Synthetiksprache-Editierungsteil (21) des Anzeigetyps einen Satz von Prosodikmerkmal-Steuerbefehlen, die der gewünschten nicht-verbalen Information entsprechen, aus der Prosodiksteuerregel-Datenbank (16) ausliest und in das Prosodikparameter/Prosodikmerkmal-Steuerbefehl-Umwandlungsteil (23) einliest, dann den ausgelesenen Satz von Prosodikmerkmal-Steuerbefehlen auf dem Bildschirm anzeigt und den Satz von Prosodikmerkmal-Steuerbefehlen durch das GUI korrigiert, wodurch der entsprechende Satz von Prosodikmerkmal-Steuerbefehlen in der Prosodiksteuerregel-Datenbank erneuert wird.
Ein Aufzeichnungsmedium, das mit einer Maschine lesbar ist, wobei das Medium ein Programm mit Anweisungen trägt, die, wenn sie von der Maschine ausgeführt werden, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 5 ausführen.