DE69821673T2 - Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren - Google Patents

Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren Download PDF

Info

Publication number
DE69821673T2
DE69821673T2 DE69821673T DE69821673T DE69821673T2 DE 69821673 T2 DE69821673 T2 DE 69821673T2 DE 69821673 T DE69821673 T DE 69821673T DE 69821673 T DE69821673 T DE 69821673T DE 69821673 T2 DE69821673 T2 DE 69821673T2
Authority
DE
Germany
Prior art keywords
prosodic
level
feature control
parameter
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69821673T
Other languages
English (en)
Other versions
DE69821673D1 (de
Inventor
Osamu Shinjuku-ku Mizuno
Shinya Shinjuku-ku Nakajima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of DE69821673D1 publication Critical patent/DE69821673D1/de
Publication of DE69821673T2 publication Critical patent/DE69821673T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen und auf ein Aufzeichnungsmedium, auf dem das Verfahren aufgezeichnet ist. Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Editierung/Erzeugung einer Sprachmitteilung, das eine einfache und schnelle Synthese von Sprachmitteilungen mit gewünschten prosodischen Merkmalen ermöglicht.
  • Das Sprechen in dialogischer Form übermittelt den mentalen Zustand des Sprechers, seine Intentionen und ähnliches sowie die sprachliche Bedeutung des gesprochenen Dialogs. Derartige in der Stimme des Sprechers enthaltene Informationen werden, abgesehen von ihrer sprachlichen Bedeutung, im Allgemeinen als nicht-verbale (außersprachliche) Informationen bezeichnet. Der Hörer entnimmt der Intonation, der Betonung und der Dauer der gemachten Äußerung die nicht-verbalen Informationen. Hierfür wurde ein sogenanntes Text-zu-Sprache-(TTS/Text-To-Speech)-Verfahren zur Synthese von Mitteilungen, eine „Sprachsynthese mittels Regeln", erforscht und entwickelt, die einen Text in eine gesprochene Form umwandelt. Im Gegensatz zu dem Fall des Erzeugens und Synthetisierens aufgenommener Sprache, beinhaltet dieses Verfahren keine bestimmten Begrenzungen bezüglich der ausgegebenen Sprache und behebt das Problem, dass für die nachfolgende, teilweise Änderung der Mitteilung die Originalstimme des Sprechers benötigt wird. Da jedoch die verwendeten Regeln zur Erzeugung der Prosodik auf prosodischen Merkmalen einer Sprache basieren, die in einem rezitierenden Ton entstanden ist, ist es jedoch unvermeidbar, dass die synthetisierte Sprache eine rezitierende Form erhält und daher monoton klingt. Bei natürlichen Unterhaltungen verändern sich die prosodischen Merkmale der in Dialogen gesprochenen Sprache erheblich mit dem mentalen Zustand und den Intentionen des Sprechers.
  • Im Hinblick darauf, die mithilfe von Regeln synthetisierte Sprache natürlicher klingen zu lassen, hat man einen Versuch unternommen, die prosodischen Merkmale zu editieren; derartige Editierungsvorgänge sind jedoch schwer zu automatisieren: üblicherweise ist es für einen Nutzer notwendig, auf seiner Erfahrung und seinem Wissen basierende Editierungen zu machen. Bei den Editierungen ist es schwierig, eine Anordnung oder eine Konfiguration zum zufälligen Korrigieren prosodischer Parameter, wie der Betonung, der grundlegenden Frequenz (Tonhöhe bzw. pitch (engl.)), des Amplitudenwerts (Leistung) und der Dauer einer zu synthetisierenden Äußerungseinheit, einzusetzen. Daher ist es schwierig, eine Sprachmitteilung mit gewünschten prosodischen Merkmalen dadurch zu erhalten, dass prosodische oder phonologische Parameter desjenigen Abschnitts der synthetischen Sprache, der monoton und daher rezitierend klingt, willkürlich korrigiert werden.
  • Um eine Korrektur prosodischer Parameter zu vereinfachen, wurde in der EP-A-0 762 384 ebenfalls ein ein GUI (Graphic User Interface) anwendendes Verfahren vorgeschlagen, bei welchem prosodische Parameter einer synthetisierten Sprache in graphischer Form auf einem Display angezeigt, diese durch Verwendung einer Maus oder einem ähnlichen Zeigewerkzeug visuell korrigiert und modifiziert werden und eine Sprachmitteilung mit gewünschten nicht-verbalen Informationen synthetisiert wird, während die Korrekturen und Modifikationen durch Verwendung der synthetisierten Sprachausgabe bestätigt werden. Da dieses Verfahren die prosodischen Parameter visuell korrigiert, benötigt der Vorgang zur Korrektur gegenwärtiger Parameter jedoch Erfahrung und Kenntnis bezüglich der Phonetik, was daher für eine gewöhnliche Bedienperson schwierig ist.
  • U.S. Patent Nr. 4,907,279, JP-A-5-307396, JP-A-3-189697 und JP-A-5-19780 offenbaren ein Verfahren, das Steuerbefehle für phonologische Parameter, wie Betonungen und Pausen, in einen Text einfügt und synthetisierte Sprache durch Verwendung derartiger Steuerbefehle editiert. Auch bei diesem Verfahren gestaltet sich der Vorgang zum Editieren der nicht-verbalen Information für eine Person, die kein Wissen über die Beziehung zwischen nicht-verbalen Informationen und der Steuerung der Prosodik besitzt, immer noch schwierig.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, mit denen es für eine Bedienperson auf einfache Weise möglich ist, eine Sprachmitteilung mit gewünschten prosodischen Parametern zu synthetisieren.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die verschiedene nicht-verbale Informationen auszudrücken ermöglicht, die nicht in der verbalen Information enthalten sind, wie der mentale Zustand des Sprechers, seine Haltung und den Grad des Verstehens.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die eine Erleichterung bei der visuellen Erkennung der Wirkungen einer Steuerung prosodischer Parameter bei der Editierung nicht-verbaler Information einer synthetischen Sprachmitteilung ermöglichen.
  • Diese Aufgaben werden mit einem in Anspruch 1 beanspruchten Verfahren und einer in Anspruch 6 beanspruchten Vorrichtung gelöst. Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.
  • Aufzeichnungsmedien, auf denen Abläufe zur Ausführung der Editierungsverfahren gemäß der vorliegenden Erfindung aufgezeichnet werden, sind von der Erfindung ebenfalls umfasst.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Schaubild zur Erläuterung eines MSCL(Multi-Layered Speech/Sound Synthesis Control Language)-Beschreibungsschemas bei einer ersten Ausführungsform der voiliegenden Erfindung;
  • 2 ist ein Ablaufdiagramm, das ein Verfahren zur Editierung synthetischer Sprache zeigt, das die erste Ausführungsform umfasst;
  • 3 ist ein Blockdiagramm, das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der ersten Ausführungsform veranschaulicht;
  • 4 ist ein Schaubild zur Erläuterung von Veränderungen einer Tonhöhenkontur bei einer zweiten Ausführungsform der vorliegenden Erfindung;
  • 5 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen mit modifizierten Tonhöhenkonturen bei der zweiten Ausführungsform zeigt;
  • 6 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen mit skalierten Äußerungsdauern bei der zweiten Ausführungsform zeigt;
  • 7 ist eine Tabelle, die die Ergebnisse von Hörtests synthetischer Sprachmitteilungen zeigt, die in Kombination modifizierte Tonhöhenkonturen und skalierte Äußerungsdauern bei der zweiten Ausführungsform besitzen;
  • 8 ist eine Tabelle, die Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die prosodische Merkmale der Tonhöhe und der Leistung bei einer dritten Ausführungsform der vorliegenden Erfindung betreffen;
  • 9 ist eine Tabelle, die Beispiele von Befehlen zeigt, die bei Hörtests verwendet werden, die den dynamischen Umfang der Tonhöhe bei der dritten Ausführungsform zeigt;
  • 10A ist ein Schaubild, das eine Beispiel eines eingegebenen japanischen Satzes bei der dritten Ausführungsform zeigt;
  • 10B ist ein Schaubild, das ein Beispiel seiner Beschreibung mithilfe von MSCL zeigt;
  • 10C ist ein Schaubild, das ein Beispiel einer Darstellung der Wirkung der Befehle gemäß der dritten Ausführungsform zeigt;
  • 11 ist ein Ablaufdiagramm, das Editierungs- und Anzeigevorgänge gemäß der dritten Ausführungsform zeigt;
  • 12 ist ein Blockdiagramm, das eine Vorrichtung zur Editierung synthetischer Sprache gemäß der dritten Ausführungsform veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Erste Ausführungsform
  • Bei spontanen Unterhaltungen ändert der Sprecher die Betonung, die Geschwindigkeit und die Tonhöhe seiner Äußerungen, um damit verschiedenste Informationen auszudrücken, die in der verbalen Information nicht enthalten sind, wie sein mentaler Zustand, seine Haltung und sein Verständnis sowie deren beabsichtigte Abstufungen. Hierdurch wird der gesprochene Dialog ausdrucksstark und klingt natürlich. Bei der Synthese von Sprache mithilfe von Regeln ausgehend von einem Text wurden ebenfalls Bestrebungen unternommen, zusätzlich gewünschte nicht-verbale Informationen bereitzustellen. Da bei jedem dieser Ansätze ein Befehl zur Steuerung spezifischer phonologischer Information in den Text eingebracht wird, muss der Nutzer Kenntnisse über verbale Informationen besitzen.
  • Bei der Verwendung einer Vorrichtung zur Synthese von Sprache aus Texten ist zur Übermittlung von Informationen und Nuancen, die tagtägliche Unterhaltungen beinhalten, eine genaue Steuerung der prosodischen Parameter der synthetischen Sprache notwendig. Andererseits ist es für einen Nutzer unmöglich, abzuschätzen, inwiefern die Tonhöhe oder die Dauer einen Einfluss auf die Mitteilung von Informationen oder Nuancen der Sprache haben, sofern er nicht Kenntnisse zur Sprachsynthese oder zu Text-zu-Sprache-Synthesevorrichtungen besitzt. Nun folgt zunächst eine Beschreibung der Mehrfach-Ebenen-Sprach/Klang-Synthese-Steuerungssprache (Multi-Layered Speech/Sound Synthesis Control Language/MSCL) gemäß der vorliegenden Erfindung, deren Nutzung für den Nutzer erleichtert werden soll.
  • Bei der Nutzung ergeben sich für den Nutzer zwei Erleichterungen. Zunächst ist eine Nutzungserleichterung für Anfänger vorgesehen, die es ihnen ermöglicht, einen Text, der in die Text-zu-Sprache-Synthesevorrichtung eingegeben wird, auf einfache Weise zu beschreiben, auch wenn sie über kein Expertenwissen verfügen. Durch HTML, die die Beziehung zwischen der Größe und der Position jedes Zeichens im Internet definiert, können die Zeichen in einer Größe entsprechend der Länge eines Satzes dargestellt werden, indem die Zeichenfolge beispielsweise mit als <H1> und </H1> bezeichneten Markierungen umgeben wird; jedermann kann die gleiche Homepage erzeugen. Eine derartige Standardregel ist nicht nur für Anfänger günstig, sondern führt auch zu einer Reduzierung des die Beschreibung betreffenden Arbeitsumfangs. Zweitens besteht eine Nutzungserleichterung, die für sachkundige Nutzer gedacht ist, die die Beschreibung einer genauen Steuerung ermöglicht. Das vorgenannte Verfahren kann die Zeichengestalt und die Schreibrichtung nicht verändern. Selbst im Falle der Zeichenfolge ergibt sich beispielsweise die Notwendigkeit, diese auf verschiedenste Weise zu verändern, falls eine die Aufmerksamkeit anziehende Homepage angefertigt werden soll. Es wäre daher manchmal wünschenswert, eine synthetische Sprache mit einem höheren Grad an Vollständigkeit zu schaffen, auch wenn Expertenwissen dafür benötigt wird.
  • Vom Standpunkt der Steuerung nicht-verbaler Information der Sprache aus, verwendet die erste Ausführungsform der vorliegenden Erfindung als Mittel zur Umsetzung der erstgenannten Nutzungserleichterung eine Semantik-Niveauebene (nachfolgend als S-Ebene bezeichnet), die aus Steuerbefehlen zu semantisch-prosodischen Merkmalen aufgebaut ist, die Worte oder Ausdrücke darstellen, die jeweils nicht-verbale Informationen repräsentieren, und als Mittel zur Umsetzung der zweiten Nutzungserleichterung eine Interpretations-Niveauebene (nachfolgend als I-Ebene bezeichnet), die aus Prosodikmerkmal-Steuerbefehlen zur Interpretation jedes Prosodikmerkmal-Steuerbefehls der S-Ebene und zur Definierung einer direkten Steuerung prosodischer Parameter der Sprache aufgebaut ist. Des Weiteren verwendet diese Ausführungsform eine Parameter-Niveauebene (nachfolgend als P-Ebene bezeichnet), die aus prosodischen Parametern aufgebaut ist, die der Steuerung durch die Steuerbefehle der I-Ebene unterworfen sind. Die erste Ausführungsform fügt die Prosodikmerkmal-Steuerbefehle durch Verwendung eines Prosodik-Steuersystems in einen Text ein, wobei das System die drei genannten Ebenen in einer wie in 1 dargestellten Mehrfachebenenform besitzt.
  • Die P-Ebene besteht hauptsächlich aus prosodischen Parametern, die von den als nächstes beschriebenen Prosodikmerkmal-Steuerbefehlen der I-Ebene ausgewählt und gesteuert werden. Diese prosodischen Parameter sind diejenigen prosodischer Merkmale, die in einem Sprachsynthesesystem verwendet werden, wie die Tonhöhe (Pitch, engl.), die Leistung, die Dauer und phonematische Information für jedes Phonem. Die prosodischen Parameter sind grundlegende Objekte einer Prosodiksteuerung durch MSCL, und diese Parameter werden zur Steuerung synthetischer Sprache verwendet. Die prosodischen Parameter der P-Ebene stellen Basisparameter der Sprache dar und besitzen eine schnittstellenähnliche Eigenschaft, die die Anwendung der Editierungstechnik für synthetische Sprache gemäß der vorliegenden Erfindung auf verschiedenste andere Sprach-Synthese- oder Sprach-Kodierungs-Systeme erlaubt, die ähnliche prosodische Parameter verwenden. Die prosodischen Parameter der P-Ebene nutzen die vorhandene Sprachsynthesevorrichtung und sind daher von deren Spezifikation abhängig.
  • Die I-Ebene besteht aus Befehlen, die dazu verwendet werden, den Wert, das Zeit-veränderliche Muster (ein prosodisches Merkmal) und die Betonung jedes prosodischen Parameters der P-Ebene zu steuern. Durch eine genaue Steuerung der physikalischen Quantitäten der prosodischen Parameter auf dem Niveau des Phonems durch Verwendung der Befehle der I-Ebene, ist es möglich, Befehle wie „Vibrato", „stimmhafter Nasallaut", weiter dynamischer Bereich", „langsam" und „hohe Tonhöhe", wie in der Befehlsgruppe der I-Ebene in 1 angegeben, zu implementieren. Dazu werden Beschreibungen mittels Symbolen, die Muster der entsprechenden Parameter auf der P-Ebene steuern, als Prosodikmerkmal-Steuerbefehle der I-Ebene verwendet. Die Prosodikmerkmal-Steuerbefehle der I-Ebene werden unter vorbestimmten Standard-Steuerregeln auf prosodische Parameter der P-Ebene abgebildet. Die I-Ebene wird auch als eine Ebene genutzt, die die Prosodikmerkmal-Steuerbefehle der S-Ebene interpretiert und der P-Ebene ein Steuerschema angibt. Die Befehle der I-Ebene besitzen einen Satz von Symbolen zur Spezifizierung der Steuerung einer oder mehrer prosodischer Parameter, die Steuerobjekte in der P-Ebene sind. Diese Symbole können auch dazu verwendet werden, das Zeit-veränderliche Muster jeder Prosodik und ein Verfahren zu dessen Interpolation zu spezifizieren. Jeder Befehl der S-Ebene wird in einen Satz von Befehlen der I-Ebene konvertiert – dies erlaubt eine genauere Steuerung der Prosodik. Die nachstehende Tabelle 1 zeigt Beispiele von Befehlen der I-Ebene, zu steuernden prosodischen Parametern und die Steuerungsinhalte.
  • Tabelle 1: Befehle der I-Ebene
    Figure 00060001
  • Ein oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene können entsprechend zu einem ausgewählten Befehl der Prosodikmerkmal-Steuerbefehle der S-Ebene verwendet werden. Die zur Beschreibung der Befehle der I-Ebene verwendeten Symbole werden später noch beschrieben; XXXX in den geschwungenen Klammern {} repräsentieren ein Zeichen oder eine Zeichenfolge eines Textes, der ein Steuerobjekt darstellt.
  • Nun folgt die Beschreibung eines Beispiels der Anwendung der Prosodikmerkmal-Steuerbefehle der I-Ebene auf einen englischen Text.
    Will you do [F0d](2,0){me} a [~/]{favor}.
  • Der Befehl [F0d] setzt den dynamischen Bereich der Tonhöhe auf einen doppelten Wert, was dem Befehl nachfolgend mit (2,0) angegeben ist. Das Steuerobjekt dieses Befehls ist das dem Befehl unmittelbar folgende {me}. Der nächste Befehl [~/] ist ein Befehl, der das Tonhöhenmuster des letzten Vokals erhöht, und sein Steuerobjekt ist das ihm unmittelbar folgende {favor}.
  • Die S-Ebene führt die Steuerung der Prosodik semantisch durch. Die S-Ebene besteht aus Worten, die auszudrücken gewünschte nicht-verbale Informationen konkret repräsentieren, wie den mentalen Zustand des Sprechers, seine Stimmung, seinen Charakter, sein Geschlecht und Alter, beispielsweise „ärgerlich", erfreut", schwach", „weinend", „aufzählend" und „zweifelnd", die in der S-Ebene in 1 angegeben sind. Diesen Worten geht jeweils eine Markierung @ voraus, welche als der Prosodikmerkmal-Steuerbefehl der S-Ebene verwendet wird, um die Steuerung der Prosodik der in den Klammern dem Befehl folgenden Zeichenfolge anzugeben. Beispielsweise vergrößert der Befehl für die „ärgerlich"-Äußerung die dynamischen Bereiche der Tonhöhe und der Leistung, und der Befehl für die weinend"-Äußerung lässt das Tonhöhenmuster jedes Phonems erschüttern oder schwanken, was ein für ein Satzende charakteristisches Tonhöhenmuster liefert. Der Befehl „aufzählend" ist ein Befehl, der einen Ton zum Auslesen betroffener Begriffe bestimmt und das am Satzende befindliche Tonhöhenmuster auch im Falle einer fragenden Äußerung nicht erhöht. Der Befehl „Schwach" verengt die dynamischen Bereiche der Tonhöhe und der Leistung, der Befehl „zweifelnd" erhöht die Tonhöhe am Ende eines Wortes. Diese Steuerungsbeispiele sind für den Fall bestimmt, dass diese zum Editieren japanischer Sprache verwendet werden. Wie vorstehend beschrieben, wird jeder der Befehle der S-Ebene dazu verwendet, ein oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene nach einem vorbestimmten Muster auszuführen. Die S-Ebene ermöglicht von der Intuition abhängige Steuerbeschreibungen, wie beispielsweise vom mentalen Zustand des Sprechers, und Satzstrukturen, ohne Kenntnisse über die Prosodik oder andere die Phonetik betreffende Dinge zu benötigen. Es ist ebenso möglich, zwischen den Befehlen der S-Ebene und HTML, LaTex oder anderen Befehlen Korrespondenz herbeizuführen.
  • Die folgende Tabelle zeigt Anwendungsbeispiele der Prosodikmerkmal-Steuerbefehle der S-Ebene.
  • Tabelle 2: Befehle der S-Ebene
    Figure 00070001
  • Unter Bezugnahme auf die 2 und 3 wird nachstehend ein Beispiel einer Sprachsynthese in Verbindung mit dem Fall beschrieben, dass es sich bei den in einen Text einzufügenden Steuerbefehle um Prosodikmerkmal-Steuerbefehle der S-Ebene handelt.
  • S1: Ein japanischer Text, welcher der zu synthetisieren und editieren gewünschten Sprachmitteilung entspricht, wird mit einer Tastatur oder einer anderen Eingabeeinheit eingegeben.
  • S2: Die Zeichen oder Zeichenfolgen, deren prosodische Merkmale zu korrigieren gewünscht sind, werden spezifiziert und die entsprechenden Prosodikmerkmal-Steuerbefehle werden eingegeben und in den Text eingefügt.
  • S3: Der Text und die Prosodikmerkmal-Steuerbefehle werden beide in ein Text/Befehle-Trennungsteil 12 eingegeben, in welchem sie voneinander getrennt werden. Zu diesem Zeitpunkt werden auch Informationen über die Position der Prosodikmerkmal-Steuerbefehle in dem Text bereitgestellt.
  • S4: Die Prosodikmerkmal-Steuerbefehle werden dann in einem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 analysiert, um diesen deren Steuerabfolge zu entnehmen.
  • S5: In einem Satzstruktur-Analyseteil 13 wird unter Heranziehung einer Datenbank 14 für Regeln zur Sprachsynthese die Zeichenfolge des Textes in eine signifikante eine Bedeutung besitzende Wortfolge zerlegt. Anschließend wird für jedes Wort in Hinblick auf die Zeichenfolge ein prosodischer Parameter beschafft.
  • S6: Ein Prosodikmerkmal-Steuerteil 17 zieht die Prosodikmerkmal-Steuerbefehle, die ihre Position betreffende Information und deren Steuerabfolge heran und steuert die Prosodikparameterfolge, die der zu steuernden Zeichenfolge entspricht, indem es Prosodiksteuerregeln folgt, die individuell spezifizierten Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, die in einer Prosodikmerkmalregeln-Datenbank 16 vorgeschrieben sind, oder den Prosodiksteuerregeln, die dem Satz Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, die durch diejenigen der S-Ebene spezifiziert sind.
  • S7: Ein Synthetiksprache-Erzeugungsteil 18 erzeugt basierend auf den gesteuerten prosodischen Parametern synthetische Sprache.
  • In Bezugnahme auf 3 wird nun eine Ausführungsform der Synthetiksprache-Editierungseinheit konkret beschrieben. Ein japanischer Text, der Prosodikmerkmal-Steuerbefehle enthält, wird in ein Text/Befehl-Eingabeteil 11 über eine Tastatur oder einen anderen Editor eingegeben. Unten ist eine Beschreibung beispielsweise eines japanischen Textes „Watashino Namaeha Nakajima desu. Yoroshiku Onegaishimasu" (Bedeutung: Mein Name ist Nakajima. Wie geht es Dir?) mit einem Beschreibungsschema gezeigt, das die I- und S-Ebene von MSCL verwendet.
  • Figure 00080001
  • Im Obigen gibt [L] die Dauer an und spezifiziert die Äußerungszeit des Satzes in den entsprechenden Klammern {}. [>] repräsentiert einen Ausdrucksbestandteil der Tonhöhe und gibt an, dass die Grundfrequenz der Äußerung der Zeichenfolge in Klammern {} zwischen 150 Hz und 80 Hz variiert wird. [/-\] zeigt einen lokalen Wechsel der Tonhöhe an. /,- und \ geben an, dass die zeitliche Variation der Grundfrequenz erhöht, flach gehalten bzw. erniedrigt wird. Durch Verwendung dieser Befehle ist es möglich, zeitliche Veränderungen von Parametern zu beschreiben. Was {Watashino Namaeha} (Bedeutung: „Mein Name") angeht, ist in dem Prosodikmerkmal-Steuerbefehl [>] (150,80), der eine Variation der Grundfrequenz von 150 Hz bis 80 Hz spezifiziert, des Weiteren ein Prosodikmerkmal-Steuerbefehl [/-\] (120) zur lokalen Änderung der Tonhöhe eingefügt bzw. in diesem verschachtelt. [#] gibt ein Einfügen einer stillen Zeitspanne bzw. Pause in die synthetische Sprache an. Die stille Zeitspanne beträgt in diesem Fall 1 mora, wobei „mora" eine durchschnittliche Länge einer Silbe ist. Bei [@Asking] handelt es sich um einen Prosodikmerkmal-Steuerbefehl der S-Ebene; in diesem Beispiel weist er eine Kombination von Prosodikmerkmal-Steuerbefehlen als prosodischen Parameter der Sprache auf, wie im Falle von „Praying".
  • Die obige Eingabeinformation wird in das Text/Befehl-Trennungsteil (das üblicherweise als lexikalisches Analyseteil bezeichnet wird) 12 eingegeben, in welchem diese in den Text und Informationen zu den Prosodikmerkmal-Steuerbefehlen aufgetrennt wird, die dem Satzstruktur-Analyseteil 13 bzw. dem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 (üblicherweise als Syntaxanalyseteil (Parsing Part, engl.) bezeichnet) zugeführt werden. Unter Heranziehung der Datenbank 14 für Regeln zur Sprachsynthese wird der zu dem Satzstruktur-Analyseteil 13 gelieferte Text in den Satz abgrenzende Information, in Information zur Äußerungsfolge und Information zur Betonung basierend auf einem bekannten „Synthese-durch-Regeln"-Verfahren umgewandelt, und diese Informationsteile werden in prosodische Parameter umgewandelt. Die Information zu Prosodikmerkmal-Steuerbefehlen, die dem Befehl-Analyseteil 15 zugeführt wurde, wird verarbeitet, um hiervon die Prosodikmerkmal-Steuerbefehle und die Information über deren Positionen in dem Text zu extrahieren. Die Prosodikmerkmal-Steuerbefehle und deren Positionsinformation werden zu dem Prosodikmerkmal-Steuerteil 17 geliefert. Das Prosodikmerkmal-Steuerteil 17 zieht eine Datenbank 16 für Regeln zu prosodischen Merkmalen heran und erhält Instruktionen, die spezifizieren, welche und wie die prosodischen Parameter des Textes gesteuert werden; das Prosodikparameter-Steuerteil 17 variiert und korrigiert die prosodischen Parameter entsprechend. Diese Steuerung durch Regeln spezifiziert die Sprachleistung, die Grundfrequenz, die Dauer und andere prosodische Parameter und in manchen Fällen auch die Gestalt von Zeit-veränderlichen Mustern der prosodischen Parameter. Die Angabe des Wertes des prosodischen Parameters spaltet sich in die zwei folgenden auf: eine relative Steuerung zum Verändern und Korrigieren der aus dem Text durch die „Synthese-durch-Regeln" erhaltenen Prosodikparameterfolge in Übereinstimmung mit einem vorgegebenen Verhältnis oder einer vorgegebenen Differenz, und eine absolute Steuerung zur Bestimmung absoluter Werte der zu steuernden Parameter. Ein Beispiel für Ersteres ist der Befehl [F0d](2,0) zur Verdoppelung der Tonhöhenfrequenz und ein Beispiel für Letzteres ist der Befehl [>](150,80) zum Ändern der Tonhöhenfrequenz von 150 Hz auf 80 Hz.
  • In der Datenbank 16 für Regeln zu prosodischen Merkmalen sind Regeln gespeichert, die vorsehen, wie die prosodischen Parameter in Übereinstimmung mit jedem Prosodikmerkmal-Steuerbefehl zu ändern und zu korrigieren sind. Die prosodischen Merkmale des Textes, die in dem Prosodikmerkmal-Steuerteil 17 gesteuert werden, werden zu dem Synthetiksprache-Erzeugungsteil 18 geliefert, in welchem sie zu einem Synthetiksprachsignal gemacht werden, das einem Lautsprecher 19 zugeführt wird.
  • Stimmen, die verschiedenste nicht-verbale Informationen enthalten, die durch die Prosodikmerkmal-Steuerbefehle der S-Ebene repräsentiert sind, d. h. Stimmen, die verschiedenste Ausdrucksformen von Angst, Wut, Ablehnung usw. enthalten, die den Prosodikmerkmal-Steuerbefehlen der S-Ebene entsprechen, werden in einem Eingabesprache-Analyseteil 22 voranalysiert. Jede Kombination üblicher prosodischer Merkmale (Kombinationen von Tonhöhen-, Leistungs- und Zeitspannenmustern, deren Kombinationen nachfolgend als Prosodiksteuerregeln oder Prosodikmerkmalsregeln bezeichnet werden), die für jede Art durch die Voranalyse erhalten werden, wird als ein Satz von Prosodikmerkmal-Steuerbefehlen der I-Ebene, die jedem Befehl der S-Ebene entsprechen, von einem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 geliefert. Die Befehle der S-Ebene und die entsprechenden Steuerbefehlssätze der I-Ebene werden als Prosodikmerkmalsregeln in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert.
  • Die in der Prosodikmerkmalsregeln-Datenbank 16 gespeicherten Prosodikmerkmalsmuster werden von dieser gezielt ausgelesen und dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 zugeführt, indem ein notwendiger Befehl der S-Ebene bestimmt wird. Das herausgelesene Prosodikmerkmalsmuster wird auf einem Synthetiksprache-Editierungsteil 21 vom Typ eines Bildschirms angezeigt. Das Prosodikmerkmalsmuster kann Neuerungen angepasst werden, indem der entsprechende prosodische Parameter auf dem Bildschirm mittels GUI korrigiert wird, und der korrigierte Parameter dann vom Umwandlungsteil 23 aus in die Prosodikmerkmalsregeln-Datenbank 16 geschrieben wird. Falls die Prosodikmerkmals-Steuerbefehle, die von dem Prosodikmerkmal-zu-Steuerbefehl-Umwandlungsteil 23 erhalten werden, in der Prosodikmerkmalsregeln-Datenbank 16 gespeichert werden, kann der Nutzer der Synthetiksprache-Editierungsvorrichtung der vorliegenden Erfindung ebenso eine Kombination häufig verwendeter Prosodikmerkmal-Steuerbefehle der I-Ebene unter einem gewünschten Namen als einen neuen Befehl der S-Ebene eintragen. Diese Eintragungsfunktion vermeidet das Erfordernis nicht-verbale Information enthaltende synthetische Sprache durch Verwendung vieler Prosodikmerkmals-Steuerbefehle der I-Ebene zu erhalten, wann immer es für den Nutzer notwendig ist, nicht-verbale Information nicht mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene zu erhalten.
  • Das Hinzufügen von nicht-verbaler Information zu synthetischer Sprache durch Verwendung der Multi-Layered/Sound Synthesis Control Language (MSCL) gemäß der vorliegenden Erfindung erfolgt durch die Steuerung grundlegender prosodischer Parameter, die jede Sprache besitzt. Es ist allen Sprachen gemein, dass sich prosodische Merkmale von Stimmen mit dem mentalen Zustand des Sprechers, seinen Intentionen und so weiter verändern. Somit ist es klar, dass die MSCL gemäß der vorliegenden Erfindung zum Editieren synthetischer Sprache in jeglichen Sprachen verwendet werden kann.
  • Da die Prosodikmerkmal-Steuerbefehle durch Verwendung der Multi-Layered/Sound Synthesis Control Language, die aus den vorstehend beschriebenen Semantik-, Interpretations- und Parameterebenen besteht, in den Text geschrieben werden, kann eine normale Bedienperson durch Verwendung der Beschreibung mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene auf einfache Weise nicht-verbale Information editieren. Andererseits kann eine Bedienperson mit Expertenkenntnissen durch Verwendung der Prosodikmerkmal-Steuerbefehle der S-Ebene und I-Ebene detailliertere Editierungen ausführen.
  • Mit dem vorstehend beschriebenen MSCL-System ist es möglich, manche Stimmeigenschaften von hohen bis niedrigen Tonhöhen zusätzlich zu männlichen und weiblichen Stimmen zu bestimmen. Dies dient nicht nur dazu, den Wert der Tonhöhe oder der Grundfrequenz der synthetischen Sprache zu verändern, sondern auch dazu, ihr gesamtes Spektrum in Übereinstimmung mit dem Frequenzspektrum der hoch- oder tieftonigen Stimme zu ändern. Diese Funktion erlaubt die Durchführung von Unterhaltungen mit einer Vielzahl von Sprechern. Des Weiteren ermöglicht das MSCL-System die Eingabe einer Klangdatendatei mit Musik, Hintergrundgeräuschen, natürlichen Stimmen und so weiter. Denn eine effizientere Erzeugung von Inhalten benötigt unvermeidbar zusätzlich zur Sprache Musik, natürliche Stimmen und ähnliche Klanginformationen. Bei dem MSCL-System werden diese Daten derartiger Klanginformationen als zusätzliche Information synthetischer Sprache behandelt.
  • Mit dem Editierungsverfahren für synthetische Sprache gemäß der in Bezug auf 2 vorstehend beschriebenen ersten Ausführungsform können nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das Verfahren dann auf einer Disketteneinheit gespeichert wird, die mit einem Computer einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung verbunden ist, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, und das gespeicherte Verfahren für jede Sitzung zur Editierung/Erzeugung synthetischer Sprache installiert wird.
  • Die obige Ausführungsform wurde hauptsächlich in Verbindung mit der japanischen Sprache und einigen Anwendungsbeispielen für die englische Sprache beschrieben. Wird ein japanischer Text durch japanische alphabetische Schriftzeichen ausgedrückt, so sind im Allgemeinen nahezu alle Schriftzeichen einsilbig, was eine sprachliche Erleichterung beim Aufbau einer Übereinstimmung zwischen den Positionen der Zeichen und den Silben im Text bedeutet. Somit kann die Position der Silbe, die das Prosodiksteuerungsobjekt darstellt, relativ leicht aus der entsprechenden Zeichenposition bestimmt werden. In anderen als der japanischen Sprache gibt es jedoch viele Fälle, wo die Position der Silbe in einem Wort nicht einfach mit der Position des Wortes in der Zeichenfolge übereinstimmt, wie im Falle der englischen Sprache. Falls die vorliegende Erfindung auf eine derartige Sprache angewandt wird, wird für jedes Wort im Text ein Wörterbuch dieser Sprache hinzugezogen, das die Aussprache der Wörter beinhaltet, um die Position jeder Silbe relativ zu einer Folge von Buchstaben in einem Wort zu bestimmen.
  • Zweite Ausführungsform
  • Da die in 3 dargestellte Vorrichtung für ein Verfahren zur Editierung synthetischer Sprache gemäß einer zweiten Ausführungsform der vorliegenden Erfindung verwendet werden kann, wird diese Ausführungsform nachstehend mit Bezug auf 3 beschrieben. In der Prosodikmerkmalsregeln-Datenbank 16, auf die vorstehend bereits Bezug genommen wurde, sind nicht nur Steuerregeln für prosodische Parameter gespeichert, die den Prosodikmerkmal-Steuerbefehlen der I-Ebene entsprechen, sondern auch ein Satz von Prosodikmerkmal-Steuerbefehlen der I-Ebene, die jeden Prosodikmerkmal-Steuerbefehl der S-Ebene in Übereinstimmung damit interpretiert haben. Nun erfolgt eine Beschreibung der Steuerung prosodischer Parameter durch die Befehle der I-Ebene. Zunächst werden mehrere Beispiele der Steuerung der Tonhöhenkontur und der Dauer von Wortäußerungen beschrieben, gefolgt von einem Beispiel der Erzeugung von Befehlen der S-Ebene durch die Untersuchung mentaler Tendenzen der synthetischen Sprache in jedem Beispiel einer solchen Steuerung.
  • Das Verfahren zur Steuerung der Tonhöhenkontur benutzt als Referenz für die Steuerung einen Bereich, in dem eine Änderung der Betonung oder ähnlichem nicht zu einer für den Hörer wahr nehmbaren Unstimmigkeit führt. Wie in 4 dargestellt teilt sich die Tonhöhenkontur in drei Abschnitte auf: einen Abschnitt T1 vom Anfang des Prosodikmusters einer Wortäußerung (der Anfang eines Vokals einer ersten Silbe) bis zum Höchstwert (Peak) der Tonhöhenkontur, einen Abschnitt T2 vom Höchstwert bis zum Anfang eines letzten Vokals, und einen Abschnitt T3 des letzten Vokals. Mit diesem Steuerverfahren ist es möglich, sechs Arten von nachfolgend aufgelisteten Modifikationen (a) bis (f) vorzunehmen, wobei die Modifikationen durch die gestrichelt dargestellten Muster a, b, c, d, e und f in 4 angegeben sind. Die durchgezogene Linie gibt eine nicht-modifizierte ursprüngliche Tonhöhenkontur (eine Standard-Tonhöhenkontur, die durch beispielsweise eine Satzstrukturanalyse von der Datenbank 14 für Regeln zur Sprachsynthese erhalten wird) an.
    • (a) Der dynamische Bereich der Tonhöhenkontur ist vergrößert.
    • (b) Der dynamische Bereich der Tonhöhenkontur ist verringert.
    • (c) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton abfallendes Muster ausgebildet.
    • (d) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton ansteigendes Muster ausgebildet.
    • (e) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach oben erstreckendes Muster ausgebildet.
    • (f) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach unten erstreckendes Muster ausgebildet.
  • Das Verfahren zur Steuerung der Zeitdauer ermöglicht zwei Arten von Eingriffen zur (g) Verkürzung sowie zur (h) Verlängerung der Zeitdauer jedes Phonems.
  • Untersuchungsergebnisse über mentale Einflüsse bei jedem der Steuerverfahren werden nachstehend beschrieben. Nachstehend sind mentale Haltungen (nicht-verbale Informationen) aufgelistet, die Hörer synthetisierten Stimmen entnahmen, die durch Modifikation einer japanischen Wortäußerung entsprechend der vorgenannten Steuerverfahren (a) bis (f) erhalten wurden.
    • (1) Härte oder positive Haltung
    • (2) Schwäche oder passive Haltung
    • (3) Verständige Haltung
    • (4) Fragende Haltung
    • (5) Sicherheit oder Gelassenheit
    • (6) Unsicherheit oder Widerwillen
  • Sieben Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die durch Modifikation einer japanischen Wortäußerung „shikatanai" (was „Es geht nicht anders" bedeutet) entsprechend der obigen Verfahren (a) bis (f) erzeugt wurden. 5 zeigt Antwortraten im Hinblick auf die vorstehend genannten mentalen Zustände (1) bis (6), die die Untersuchungskandidaten den gehörten Stimmen entnommen haben. Die Untersuchungsergebnisse deuten an, dass die sechs Arten von Modifikationen (a) bis (f) der in 4 dargestellten Tonhöhenkontur zu einem hohen Prozentsatz als die oben genannten mentalen Zustände (1) bis (6) erkannt wurden. Daher ist bei der zweiten Ausführungsform festgelegt, dass diese modifizierten Versionen der Tonhöhenkontur den mentalen Zuständen (1) bis (6) entsprechen, und sie werden als grundlegende Prosodiksteuerregeln verwendet.
  • In ähnlicher Weise wurde die Zeitdauer einer japanischen Wortäußerung verlängert oder verkürzt, um synthetisierte Stimmen zu erzeugen, denen die Hörer die nachstehenden mentalen Zustände des Sprechers entnahmen.
    • (a) Verlängert: (7) Intention des klaren Sprechens (8) Intention des suggestiven Sprechens
    • (b) Verkürzt: (9) Gehetzt (10) Dringlich
  • Sieben Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die durch (g) Verlängern und (h) Verkürzen der Zeitdauer eines prosodischen Musters einer japanischen Wortäußerung „Aoi" (was „Blau" bedeutet) erzeugt wurden. 6 zeigt die Antwortraten im Hinblick auf die oben genannten mentalen Zustände (7) bis (10), die die Untersuchungskandidaten den gehörten Stimmen entnommen haben. Auch in diesem Fall zeigen die Untersuchungsergebnisse, dass die verlängerte Zeitdauer die Intention zum klarem Sprechen des Sprechers wiedergibt, wohingegen die verkürzte Zeitdauer wiedergibt, dass der Sprecher hastig spricht. Daher werden eine Verkürzung oder Verlängerung der Zeitdauer ebenfalls als grundlegende Prosodiksteuerregeln verwendet, die diesen mentalen Zuständen entsprechen.
  • Basierend auf den oben genannten Untersuchungsergebnissen wurden die von Untersuchungskandidaten verstandenen mentalen Zustände des Sprechers für Fälle untersucht, bei denen eine Modifikation der Tonhöhenkontur und eine Verlängerung und Verkürzung der Zeitdauer miteinander kombiniert wurden.
  • Sieben Untersuchungskandidaten wurden gebeten, die mentalen Zustände des Sprechers, die sie mit der vorgenannten japanischen Wortäußerung „shikatanai" in Verbindung brachten, zu notieren. 7 zeigt die Untersuchungsergebnisse, die andeuten, dass verschiedene mentale Zustände durch verschiedenste Kombinationen von Prosodiksteuerregeln ausgedrückt werden könnten, und die Antwortraten zu den entsprechenden mentalen Zuständen zeigen, dass deren Erkennung den Untersuchungskandidaten ziemlich geläufig ist. Des Weiteren kann gesagt werden, dass diese mentalen Zustände durch die Wechselwirkung von Einflüssen nicht-verbaler Information, die Prosodikmerkmalsmuster besitzen, erzeugt werden.
  • Wie vorstehend beschrieben, kann der synthetischen Sprache eine breite Vielfalt nicht-verbaler Informationen hinzugefügt werden, indem Modifikationen der Tonhöhenkontur (Modifikationen des dynamischen Bereichs und der Hülle) mit einer Verlängerung und Verkürzung der Zeitdauer kombiniert werden. Es besteht auch eine Möglichkeit, dass die gewünschte nicht-verbale Information erzeugt werden kann, indem die obigen Manipulationen selektiv miteinander kombiniert werden, während der mentale Einfluss der grundlegenden Manipulation berücksichtigt wird; dies kann als jedem mentalen Zustand entspiechende Prosodiksteuerregel in der Datenbank 16 von 3 gespeichert werden. Es ist berücksichtigt, dass diese Prosodiksteuerregeln als Manipulationsreferenz für eine GUI nutzende Prosodikeditierungsvorrichtung wirksam sind. Des weiteren könnten der synthetischen Sprache mehr Ausdrücke hinzugefügt werden, indem, als eine grundlegende Prosodiksteuerregel, Modifikationen des Amplitudenmusters (des Leistungsmusters) sowie Modifikationen der Tonhöhenkontur und der Zeitdauer miteinander kombiniert würden.
  • Bei der zweiten Ausführungsform ist zumindest eine Kombination bestehend aus einer Modifikation der Tonhöhenkontur, einer Modifikation des Leistungsmusters und einer Verlängerung und Verkürzung der Zeitdauer, bei denen es sich um grundlegende, den entsprechenden mentalen Zuständen entsprechende Prosodiksteuerregeln handelt, als eine Prosodiksteuerregel in der in 3 gezeigten Prosodiksteuerregel-Datenbank 16 vorab gespeichert. Bei der Synthese von Sprache ausgehend von einem Text wird die dem zu äußern gewünschten mentalen Zustand entsprechende Prosodikmerkmal-Steuerregel (d. h. eine Kombination einer modifizierten Tonhöhenstruktur, eines modifizierten Leistungsmusters und verlängerten und verkürzten Zeitdauern) aus der Prosodiksteuerregel-Datenbank 16 herausgelesen und dann in dem Prosodikmerkmal-Steuerteil 17 auf das prosodische Muster eines geäußerten Worts des Textes angewandt. Damit kann der synthetischen Sprache der gewünschte Ausdruck (nicht-verbale Information) hinzugefügt werden.
  • Wie aus obigem ersichtlich, können bei dieser Ausführungsform die Prosodikmerkmal-Steuerregeln nur auf dem Niveau der I-Ebene beschrieben werden. Es ist natürlich auch möglich, als Prosodikmerkmal-Steuerregeln der S-Ebene des MSCL-Beschreibungsverfahrens die Prosodikmerkmal-Steuerregeln zu definieren, die verschiedenste Darstellungsweisen und Umsetzungen entsprechender mentaler Zustände, auf die vorstehend Bezug genommen wurde, erlauben; in diesem Fall kann die Sprachsynthese mit einer auf MSCL-basierenden Vorrichtung der 3, wie im Falle der ersten Ausführungsform, erfolgen. Die folgende Tabelle 3 zeigt Beschreibungsbeispiele in einem solchen Fall.
  • Tabelle 3: S-Ebene & I-Ebene
    Figure 00140001
  • Tabelle 3 zeigt ein Beispiel von fünf Befehlen der S-Ebene, die basierend auf den Untersuchungsergebnissen zur zweiten Ausführungsform und deren Interpretation durch die entsprechenden Befehle der I-Ebene erstellt wurden. Das japanische Wort „honto" (was „wirklich" bedeutet) in den Klammern {} ist ein Beispiel eines Steuerobjekts des Befehls. In der Tabelle 3 gibt [L] die Äußerungsdauer und der Zahlenwert den Skalierungsfaktor für die Zeitdauer an. [F0d] gibt den dynamischen Bereich der Tonhöhenkontur und der Zahlenwert den Skalierungsfaktor für den Bereich an. [/V] gibt die sich nach unten erstreckende Modifikation der Tonhöhenkontur vom Anfang bis zu dem Höchstwert (Peak) der sein Zahlenwert den Grad einer derartigen Modifikation an.
  • Wie vorstehend beschrieben wird gemäß dieser Ausführungsform der Prosodikmerkmal-Steuerbefehl zur Korrektur eines prosodischen Parameters in den eingegebenen Text geschrieben und der prosodische Parameter des Textes durch eine Kombination von modifizierten Prosodikparametermustern korrigiert, die durch die Prosodiksteuerregel, die dem in den Text geschriebenen Prosodikmerkmal-Steuerbefehl entspricht, spezifiziert sind. Die Prosodiksteuerregel spezifiziert eine Kombination von Änderungen des Sprachleistungsmusters, der Tonhöhenkontur und Äußerungsdauer und, falls notwendig, auch die Gestalt des Zeit-veränderlichen Musters des prosodischen Parameters.
  • Zur Spezifizierung des prosodischen Parameters nimmt der Wert zwei Formen an: eine relative Steuerung zur Änderung und zur Korrektur des sich aus der „Synthese-durch-Regeln" ergebenden prosodischen Parameters und eine absolute Steuerung zur absoluten Korrektur des Parameters. Des Weiteren werden häufig genutzte Prosodikmerkmal-Steuerbefehle für einen einfachen Zugriff miteinander kombiniert, wenn sie in der Prosodiksteuerregeln-Datenbank 16 abgespeichert werden, und sie werden zur Spezifizierung prosodischer Parameter als neue Prosodikmerkmal-Steuerbefehle verwendet. Beispielsweise wird eine Kombination von grundlegenden Steuerregeln in Übereinstimmung mit jedem Prosodikmerkmal-Steuerbefehl der S-Ebene bei dem MSCL-System bestimmt und dann in der Prosodiksteuerregeln-Datenbank 16 vorab gespeichert. Alternativ werden nur die grundlegenden Prosodiksteuerregeln in der Prosodiksteuerregeln-Datenbank 16 vorab gespeichert, und einer oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene, die jedem der Prosodikmerkmal-Steuerbefehle der S-Ebene entsprechen, zur Spezifizierung und zum Herauslesen einer Kombination der grundlegenden Prosodiksteuerregeln aus der Datenbank 16 verwendet. Zur Beschreibung der Prosodiksteuerung des Textes wurde bei der zweiten Ausführungsform das MSCL-Verfahren verwendet, es können jedoch auch andere Beschreibungsverfahren verwendet werden.
  • Die zweite Ausführungsform basiert auf der Annahme, dass es sich bei Kombinationen von spezifischen prosodischen Merkmalen um Prosodiksteuerregeln handelt. Es ist offensichtlich, dass die zweite Ausführungsform zur Steuerung prosodischer Parameter verschiedenster natürlicher Sprachen wie dem Japanischen verwendet werden kann.
  • Mit dem Editierungsverfahren für synthetische Sprache gemäß der oben beschriebenen zweiten Ausführungsform können nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das Verfahren dann auf einer mit einem Computer verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, gespeichert wird, und es zum Zeitpunkt des Editierungs-/Erzeugungsvorgangs synthetischer Sprache installiert wird.
  • Dritte Ausführungsform
  • Bei dem Fall, bei welchem Prosodikmerkmal-Steuerbefehle über das Text/Befehl-Eingabeteil 11 in 3 durch Verwendung der MSCL-Beschreibung gemäß der vorliegenden Erfindung in einen Text eingefügt werden, wäre es günstig, wenn visuell bestätigt werden könnte, wie die Äußerungsdauer, die Tonhöhenkontur und das Amplitudenmuster der synthetischen Sprache des Textes durch entsprechende Prosodikmerkmal-Steuerbefehle gesteuert werden. Nun erfolgt nachstehend eine Beschreibung eines Beispiels einer Darstellung des durch die Befehle gesteuerten Prosodikmerkmalmusters des Textes und einer Konfiguration zum Erzeugen der Darstellung.
  • Zunächst werden Untersuchungsergebnisse, die das prosodische Merkmal der Äußerungsdauer betreffen, beschrieben. Durch eine Verlängerung der Zeitdauer klingt die Äußerung langsam, wohingegen, wenn die Zeitdauer kurz ist, die Äußerung schnell klingt. Bei den Untersuchungen wurde ein japanisches Wort „Urayamashii" (was „neidisch" bedeutet) verwendet. Mehrere in der Länge variierten Versionen dieses Worts, die durch verschiedenstes Ändern der Zeichenabstände erhalten wurden, wurden Seite-an-Seite geschrieben. Gemischte oder synthetische Klänge oder Äußerungen des Wortes wurden erzeugt, die normale, lange bzw. kurze Zeitdauern besaßen, und 14 Untersuchungskandidaten wurden gebeten, ihre Stimme darüber abzugeben, von welchen Äußerungen sie denken, dass sie welchen in der Länge variierten Versionen des japanischen Wortes entsprechen. Die folgenden Ergebnisse wurden, wie im Wesentlichen vorhergesagt, erhalten.
    Kurze Zeitdauer: Enger Zeichenabstand (88%)
    Lange Zeitdauer: Weiter Zeichenabstand (100%)
  • Als nächstes folgt eine Beschreibung von Untersuchungsergebnissen, die betreffend der prosodischen Merkmale der grundlegenden Frequenz (Tonhöhe) und des Amplitudenwertes (Leistung) erhalten wurden. Neun Variationen derselben japanischen Wortäußerung „Urayamashii", wie sie oben verwendet wurde, wurden mit den nachstehend aufgelisteten Tonhöhen und Leistungen synthetisiert, und 14 Untersuchungskandidaten wurden gebeten, ihre Stimme darüber abzugeben, von welchen der neun Zeichenfolgen (a) bis (i) sie denken, dass sie mit welchen der synthetisierten Äußerungen übereinstimmen würden. Die Ergebnisse sind in der Tabelle 4 gezeigt.
  • Tabelle 4: Prosodische Merkmale und zugehörige Vermerke
    Figure 00170001
  • Als nächstes werden Untersuchungsergebnisse betreffend einer Variation der Intonation beschrieben. Die Intonation repräsentiert den Wert (den dynamischen Bereich) einer Tonhöhenvariation innerhalb eines Wortes. Wenn die Intonation groß ist, klingt die Äußerung „kräftig, positiv" und mit einer kleinen Intonation klingt die Äußerung „schwach, passiv". Es wurden synthetisierte Versionen der japanischen Wortäußerung „Urayamashii" mit normalen, kräftigen und schwachen Intonationen erzeugt, und es wurden Tests zur Einschätzung dazu durchgeführt, welche der synthetisierten Äußerungen zu welcher in 9 gezeigten Zeichenfolge passt. Als Ergebnis kommt man zu folgender Schlussfolgerung.
  • Starke Intonation → Die Zeichenposition wird mit der Tonhöhenstruktur geändert (eine sich verändernde Zeitfolge), wodurch die Inklination (71%) weiter erhöht wird.
  • Schwache Intonation → Die Zeichenpositionen am Anfang und am Ende des Wortes werden erhöht (43%).
  • In den 10A, 10B und 10C sind Beispiele der Darstellung japanischer Sätze gezeigt, die zur Erzeugung synthetischer Sprache eingegeben werden, eine Beschreibung des eingegebenen Textes kombiniert mit darin eingefügten Prosodikmerkmal-Steuerbefehlen der MSCL-Beschreibung und die Anwendung der oben genannten Untersuchungsergebnisse auf die eingefügten Prosodikmerkmal-Steuerbefehle.
  • Der eingegebene japanische Satz von 10A bedeutet „Ich bitte Dich, den Vogel weit von Deinen Händen weggehen zu lassen." Die japanische Aussprache jedes Zeichens ist unter dem jeweiligen Zeichen dargestellt.
  • In 10B stellt [L] einen Äußerungsdauer-Steuerbefehl und die diesem folgende Zeitangabe eine Anwendung dar, dass der gesamte Satz in 8500 ms zu beenden ist. [/-I\] stellt einen Tonhöhenkontur-Steuerbefehl dar, und die Symbole zeigen einen Anstieg (/), eine Abflachung (-), einen Fest punkt/Verankerung (I) und einen Abfall (\) der Tonhöhenkontur. Der dem Tonhöhenkontur-Steuerbefehl folgende Zahlenwert (2) gibt an, dass die Frequenz in einem wechselnden Verhältnis von 20 Hz pro Phonem variiert wird, und es wird angegeben, das die Tonhöhenkontur der Silbe des letzten Zeichens durch die Verankerung „I" gesenkt wird. [#] stellt einen Befehl zum Einfügen einer Pause dar, durch den eine stille Zeitdauer von etwa 1 mora eingefügt wird. [A] stellt einen Amplitudenwert-Steuerbefehl dar, durch welchen der Amplitudenwert um das 1,8-fache größer als zuvor, d. h. bei „konotori" (was „der Vogel" bedeutet) gemacht wird. Diese Befehle sind diejenigen der I-Ebene. Andererseits handelt es sich bei [@naki] um einen Befehl der S-Ebene zur Erzeugung einer Äußerung mit einem Gefühl von Sorge/Bedauern.
  • Nun folgt unter Bezugnahme auf 10C eine Beschreibung eines Beispiels einer Darstellung für den Fall, dass das Beschreibungsschema oder die Notation, die auf den oben genannten Untersuchungen beruhen, auf die in 10B gezeigte Beschreibung angewandt wird. Die eingegebenen japanischen Zeichen sind in horizontaler Richtung angeordnet. Eine Anzeige 1 [-], die sich am Anfang jeder Zeile befindet, gibt die Position der Tonhöhenfrequenz des synthetisierten Ergebnisses vor dem Editierungsvorgang an. D. h. wenn kein Editierungsvorgang betreffend die Tonhöhenfrequenz stattgefunden hat, sind die Zeichen jeder Zeile so angeordnet, dass die Position der Anzeige [-] auf der gleichen Höhe gehalten wird wie diejenige des Zentrums jedes Zeichens. Wenn die Tonhöhenfrequenz geändert wird, so ändert sich die Höhe der Anzeige am Zentrum jedes Zeichens relative zu „-" entsprechend dem Wert der geänderten Tonhöhenfrequenz.
  • Die Punkte „.", die durch die Bezugsziffer 2 unterhalb der Zeichenfolge jeder Zeile angegeben sind, repräsentieren durch ihre Abstände eine durchschnittliche Zeitdauer Tm (die die Länge einer Silbe angibt, d. h. 1 mora im Falle der japanischen Sprache) jedes Zeichens. Falls kein Skalierungsvorgang der Zeitdauer vorgesehen ist, werden jedem Zeichen der angezeigten Zeichenfolge Moras einer Anzahl gegeben, die der Anzahl der Silben in dem Zeichen entspricht. Wird die Äußerungsdauer geändert, ändert sich der angezeigte Zeichenabstand der Zeichenfolge entsprechend. Das Symbol „∘", das mit der Bezugsziffer 3 am Ende jeder Zeile angegeben ist, repräsentiert den Endpunkt jeder Zeile; d. h. dieses Symbol gibt an, dass das Phonem bis zu seiner Position weitergeht.
  • Die drei Zeichen, die mit der Bezugsziffer 4 in der ersten Zeile der 10C angegeben sind, sind so dargestellt, dass sie linear von dem Symbol „-„, das mit der Bezugsziffer 1 angegeben ist, ansteigen, wodurch angegeben wird, dass dies auf dem eingegebenen MSCL-Befehl „ein Anstieg der Tonhöhenkontur um 20 Hz" beruht. In gleicher Weise geben die vier Zeichen, die durch die Bezugsziffer 5 angegeben sind, eine flache Tonhöhenkontur und die zwei Zeichen, die durch die Bezugsziffer 6 angegeben sind, eine abfallende Tonhöhenkontur an.
  • Das Symbol „#", das mit der Bezugsziffer 7 bezeichnet ist, gibt das Einfügen einer Pause an. Die drei mit der Bezugsziffer 8 bezeichneten Zeichen sind größer als die vorhergehenden und die nachfolgenden Zeichen. Dies gibt an, dass sich der Amplitudenwert im Anstieg befindet.
  • Die zwei Mora andauernde Leerstelle in der zweiten Zeile, die mit der Bezugsziffer 9 bezeichnet ist, gibt an, dass das unmittelbar vorhergehende Zeichen unter der Steuerung durch den Zeitdauer-Steuerbefehl über T1 (3 Moras = 2Tm) weitergeht.
  • Die fünf Zeichen in der letzten Zeile, die mit der Bezugsziffer 10 angegeben sind, unterscheiden sich bezüglich der Schriftart von den anderen Zeichen. Dieses Beispiel nutzt nur für die Zeichenfolge 10 eine feinlinige Schriftart, jedoch eine hervorstechende (Gothic) für die anderen Zeichen. Die feinlinige Schriftart gibt die Einführung der Befehle der S-Ebene an. Die Höhe der Zeichen gibt das Ergebnis von Höhenvariationen entsprechend der Befehle der S-Ebene an.
  • 11 zeigt ein Beispiel des vorstehend beschriebenen Verfahrens. Zunächst wird der beispielsweise in 10A gezeigte Satz eingegeben (S1), dann wird der eingegebene Satz auf dem Display angezeigt, dann werden Prosodikmerkmal-Steuerbefehle in den Satz an den Positionen der Zeichen eingefügt, wo die prosodischen Merkmale, die durch die herkömmliche Synthese mittels Regeln zu erhalten sind, korrigiert werden sollen, während der Satz auf dem Display beobachtet wird, wodurch beispielsweise die in 10B dargestellten Informationen erhalten werden, d. h. Informationen zur Synthetiksprache-Steuerungs-Beschreibungssprache (S2).
  • Diese Information, d. h. eine Information, bei der die Prosodikmerkmal-Steuerbefehle in den japanischen Text eingefügt sind, wird in eine die vorliegende Erfindung ausführende Vorrichtung eingegeben (S3).
  • Die eingegebene Information wird durch eine Trenneinrichtung verarbeitet, um diese in den japanischen Text und die Prosodikmerkmal-Steuerbefehle aufzutrennen (S4}. Diese Trennung erfolgt, indem durch Verwendung des MSCL-Beschreibungsschemas und einem Formulierungs-Analyseschema festgestellt wird, ob entsprechende Codes zu den Prosodikmerkmal-Steuerbefehlen oder zu dem japanischen Text gehören.
  • Die abgetrennten Prosodikmerkmal-Steuerbefehle werden analysiert, um Informationen über ihre Eigenschaften, Bezugspositionsinformationen über ihre Position (Zeichen oder Zeichenfolgen) in dem japanischen Text und Informationen zur Abfolge ihrer Ausführung zu erhalten (S5). Falls die Befehle in der Reihenfolge, in der sie erhalten werden, ausgeführt werden, sind Informationen zur Abfolge deren Ausführung nicht notwendig. Dann wird der in Schritt S4 abgetrennte japanische Text einer japanischen Syntaxstrukturanalyse unterzogen, um prosodische Parameter zu erhalten, die auf dem herkömmlichen Synthese-durch-Regeln-Verfahren beruhen (S6).
  • Die auf diese Weise erhaltenen prosodischen Parameter werden durch Verwendung der Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation in Informationen zur Position und Größe der Zeichen umgewandelt (S7). Die auf diese Weise umgewandelte Informationen werden verwendet, um die entsprechenden Zeichen des japanischen Textes, der in Schritt S4(S8) abgetrennt wurde, umzuwandeln; diese werden auf dem Display angezeigt, um eine Darstellung, beispielsweise des in 10C dargestellten japanischen Satzes (außer der Anzeige der Aussprache), bereitzustellen (S9).
  • Die in Schritt S6 erhaltenen prosodischen Parameter werden unter Heranziehung der Prosodikmerkmal-Steuerbefehle und der Positionsinformationen, die beide in Schritt S5 erhalten werden, gesteuert (S 10). Basierend auf den gesteuerten prosodischen Parametern, wird ein Sprachsynthesesignal für den in Schritt S4 abgetrennten japanischen Text erzeugt (S11), und dieses dann als Sprache ausgegeben (S 12). Es ist möglich eine Kontrolle durchzuführen, um zu sehen, ob die beabsichtigte Wiedergabe, d. h. die MSCL-Beschreibung, korrekt durchgeführt wurde, indem man die in Schritt S12 bereitgestellte Sprache anhört während man die in Schritt S9 bereitgestellte Anzeige beobachtet.
  • 12 veranschaulicht in einer Blockdarstellung die funktionale Konfiguration einer Vorrichtung zur Editierung synthetischer Sprache entsprechend der dritten Ausführungsform der vorliegenden Erfindung. Die in MSCL beschriebenen, in 10B dargestellten Daten werden beispielsweise über ein Text/Befehl-Eingabeteil 11 eingegeben. Die eingegeben Daten werden durch das Text/Befehl-Trennungsteil (oder lexikalisches Analyseteil) 12 in japanischen Text und Prosodikmerkmal-Steuerbefehle getrennt. Der japanische Text wird zu dem Satzstruktur-Analyseteil 13 geführt, in welchem prosodische Parameter unter Heranziehung der Datenbank 14 für Regeln zur Sprachsynthese erzeugt werden. Andererseits werden in dem Prosodikmerkmal-Steuerbefehl-Analyseteil (oder Syntaxanalyse-Teil) 15 die abgetrennten Prosodikmerkmal-Steuerbefehle analysiert, um deren Inhalte und Informationen über deren Position in der Zeichenfolge (dem Text) zu entnehmen. Dann werden in dem Prosodikmerkmal-Steuerteil 17 die Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation verwendet, um die prosodischen Parameter aus dem Syntaxstruktur-Analyseteil 13 unter Heranziehung der MSCL-Prosodiksteuerregeln-Datenbank 16 zu modifizieren. Die modifizierten prosodischen Parameter werden verwendet, um das Synthetiksprachsignal für den japanischen Text in dem Synthetiksprache-Erzeugungsteil 18 zu erzeugen; das Synthetiksprachsignal wird als Sprache über den Lautsprecher 19 ausgegeben.
  • Andererseits sind die prosodischen Parameter, die in dem Prosodikmerkmal-Steuerteil 17 modifiziert werden, und Regeln zur Umwandlung der Position und Größe jedes Zeichens des japanischen Textes in Zeichenumwandlungsinformation in der Datenbank 24 gespeichert. Unter Heranziehung der Datenbank 24 werden in einem Zeichenumwandlungsinformations-Erzeugungsteil 25 die modifizierten prosodischen Parameter aus dem Prosodikmerkmal-Steuerteil 17 in die oben genannte Zeichenumwandlungsinformation umgewandelt. In dem Zeichenumwandlungsteil 26 wird die Zeichenumwandlungsinformation verwendet, um jedes Zeichen des japanisches Textes umzuwandeln, und der auf diese Weise umgewandelte japanische Text wird auf einem Display 27 angezeigt.
  • Die Regeln zur Umwandlung der MSCL-Steuerbefehle in Zeicheninformation, auf die vorstehend Bezug genommen wurde, können von einem Nutzer geändert oder modifiziert werden. Das Verhältnis zur Änderung der Zeichenhöhe und die Größe und die Farbe jedes Zeichens kann der Nutzer festlegen. Schwankungen der Tonhöhenfrequenz können durch die Zeichengröße repräsentiert werden. Die Symbole „." Und „-„ können durch eine Nutzeranfrage geändert oder modifiziert werden. Wenn die Vorrichtung gemäß 12 die in gestrichelten Linien angegebene Konfiguration besitzt, bei welcher der japanische Text aus dem Satzstruktur-Analyseteil 13 und das in dem Prosodikmerkmal-Steuerbefehl-Analyseteil 15 erhaltene Analyseergebnis in das Zeichenumwandlungsinforma tions-Erzeugungsteil 25 eingegeben werden, sind in der Datenbank 24 Regeln zur Prosodikmerkmalsteuerung Befehl-zu-Zeichen-Umwandlungsregeln anstatt Prosodikparameter-zu-Zeichen-Umwandlungsregeln gespeichert, und die Prosodikparameter-Steuerbefehle werden beispielsweise genutzt, um die Tonhöhe zu ändern, Informationen zur entsprechenden Änderung der Zeichenhöhe werden dem entsprechenden Zeichen des japanisches Textes zugeführt, und wenn die Prosodikmerkmal-Steuerbefehle benutzt werden, um den Amplitudenwert zu erhöhen, wird dem entsprechenden Teil des japanischen Textes Vergrößerungsinformation zugeführt. Wird im übrigen der japanische Text dem Zeichenumwandlungsteil 26 unberührt zugeführt wird, so erscheint auf dem Display 27 die in 10A dargestellte Anzeige.
  • Es ist bedacht, dass der Zusammenhang zwischen der Größe des angezeigten Zeichens und der Lautstärke der Sprache, die in Verbindung damit wahrgenommen wird, und der Zusammenhang zwischen der Höhe der angezeigten Zeichenposition und der Tonhöhe der Sprache, die in Verbindung damit wahrgenommen wird, nicht nur auf die japanische Sprache, sondern auch auf alle natürlichen Sprachen anwendbar ist. Daher ist klar, dass die dritte Ausführungsform der vorliegenden Erfindung in gleicher Weise für andere verschiedenste natürliche Sprachen neben der japanischen Sprache verwendet werden kann. Falls die Darstellung der Steuerung prosodischer Parameter durch, wie vorstehend beschrieben, die Größe und die Position jedes Zeichens auf individuelle natürliche Sprachen angewandt wird, kann die in der dritten Ausführungsform gezeigte Notation in Kombination mit einer Notation verwendet werden, die für die Zeichenmerkmale jeder Sprache geeignet sind.
  • Mit dem Editierungsverfahren für synthetische Sprache gemäß der in Bezug auf 11 vorstehend beschriebenen dritten Ausführungsform können auf einfache Weise nicht-verbale Informationen zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das auf einer mit einem Computer verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung verbunden ist, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, und das gespeicherte Verfahren zu jedem Vorgang zur Editierung/Erzeugung synthetischer Sprache installiert wird.
  • Die dritte Ausführungsform nutzt das MSCL-Schema, um synthetischer Sprache nicht-verbale Information hinzuzufügen; es ist jedoch auch möglich, ein Verfahren zu verwenden, bei welchem prosodische Merkmale von einer Vorrichtung mit GUI modifiziert werden und bei welchem die prosodischen Parameter, die von dem Sprachsynthesemittel geliefert werden, direkt verarbeitet werden.
  • WIRKUNG DER ERFINDUNG
  • Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der ersten Ausführungsform der vorliegenden Erfindung, wenn die synthetische Sprache durch eine „Synthese-durch-Regeln" unnatürlich oder monoton klingt und daher für einen Nutzer ausdruckslos, kann eine Bedienperson auf einfache Weise zu der Zeichenfolge, deren Prosodik geändert werden muss, gewünschte prosodische Parameter hinzufügen, indem mit dem MSCL-Beschreibungsschema Prosodikmerkmal-Steuerbefehle in den Text eingefügt werden.
  • Durch Verwendung des relativen Steuerschemas ist es nicht notwendig, die gesamte synthetische Sprache zu korrigieren, nur notwendige Korrekturen werden an dem Ergebnis der „Synthese-durch-Regeln" an notwendigen Stellen vorgenommen – dadurch wird eine große Menge an Arbeit, die mit der Synthese von Sprachmitteilungen verbunden ist, eingespart.
  • Da des Weiteren die Prosodikmerkmal-Steuerbefehle, die basierend auf prosodischen Parametern erzeugt werden, die ihrerseits aus der eigentlichen Sprache oder einer Vorrichtung zur Editierung synthetischer Sprache des Typs eines Displays zu erhalten sind, gespeichert und genutzt werden, kann auch ein gewöhnlicher Nutzer auf einfache Weise eine gewünschte Sprachmitteilung synthetisieren ohne ein spezielles Expertenwissen über Phonetik zu benötigen.
  • Da entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der zweiten Ausführungsform der vorliegenden Erfindung Sätze von Prosodikmerkmal-Steuerbefehlen basierend auf Kombinationen mehrerer Arten von Prosodikmustervariationen als Prosodiksteuerregeln in Übereinstimmung mit verschiedensten Arten nicht-verbaler Informationen in der Datenbank gespeichert sind, können dem eingegebenen Text auf einfache Weise verschiedenste nicht-verbale Informationen hinzugefügt werden.
  • Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der dritten Ausführungsform der vorliegenden Erfindung, können die Inhalte einer Manipulation (Editierung) visuell in Abhängigkeit davon überprüft werden, wie Zeichen, die einem Prosodikmerkmal-Steuervorgang unterzogen werden, angeordnet sind – dies ermöglicht wirksamere Korrekturvorgänge. Falls ein langer Satz editiert wird, kann eine zu korrigierende Zeichenfolge leicht aufgefunden werden, ohne dass die gesamte Sprachmitteilung überprüft werden muss.
  • Da das Editierungsverfahren einem Zeichendruckverfahren gemein ist (Common to), wird kein spezielles Druckverfahren benötigt. Daher ist das System zur Editierung synthetischer Sprache sehr einfach.
  • Durch Ausstatten der Displayeinrichtung mit einer Funktion zur Annahme eines Zeigegeräts zum Ändern oder Modifizieren der Zeichenpositionsinformation oder ähnlichem, ist es möglich, den gleichen Effekt zu erzielen wie bei einem Editierungsvorgang, bei dem GUI verwendet wird.
  • Da darüber hinaus die vorliegende Erfindung eine Erleichterung beim Umwandeln konventioneller detaillierter Darstellungen prosodischer Parameter ermöglicht, ist es auch möglich, die Notwendigkeit einer genauen Steuerung zu erfüllen. Die vorliegende Erfindung ermöglicht einem gewöhnlichen Nutzer effektiv eine gewünschte Sprachmitteilung zu erzeugen.
  • Es ist offensichtlich, dass die vorliegende Erfindung nicht nur für die japanische Sprache verwendet werden kann, sondern auch für andere natürliche Sprachen, wie beispielsweise Deutsch, Französisch, Italienisch, Spanisch und Koreanisch.
  • Es ist ersichtlich, dass viele Modifikationen und Variationen ausgeführt werden können, ohne dass diese den Rahmen der neuen Konzepte der vorliegenden Erfindung verlassen.

Claims (9)

  1. Verfahren zum Editieren nicht-verbaler Information einer Sprachmitteilung, die in Übereinstimmung mit einem Text durch Regeln synthetisiert wird, wobei das Verfahren folgende Schritte aufweist: (a) Einfügen eines Prosodikmerkmal-Steuerbefehls einer Semantikebene einer mehrere Ebenen aufweisenden Beschreibungssprache in den Text an der Position eines Zeichens oder einer Zeichenfolge, zu dem/der nicht-verbale Information hinzugefügt werden soll, so dass eine Prosodiksteuerung, die der nicht-verbalen Information entspricht, bewirkt wird, wobei die mehrere Ebenen aufweisende Beschreibungssprache aus der Semantikebene und einer Interpretationsebene und einer Parameterebene aufgebaut ist, wobei die Parameterebene eine Gruppe von steuerbaren prosodischen Parametern ist, die zumindest die Tonhöhe und die Leistung beinhalten, wobei die Interpretationsebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, die auf die prosodischen Parameter der Parameterebene unter vorbestimmten Standardregeln abgebildet werden, wobei die Semantikebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, wovon jeder durch einen Begriff oder ein Wort repräsentiert ist, der oder das für eine beabsichtigte Bedeutung nicht-verbaler Information steht, und dazu verwendet wird, einen Befehlssatz auszuführen, der aus zumindest einem Prosodikmerkmal-Steuerbefehl der Interpretationsebene besteht, und wobei die Beziehung zwischen jedem Prosodikmerkmal-Steuerbefehl der Semantikebene und einem Satz von Prosodikmerkmal-Steuerbefehlen der Interpretationsebene und Prosodiksteuerregeln, die Steuerungsdetails der prosodischen Parameter der Parameterebene durch die Prosodikmerkmal-Steuerbefehle der Interpretationsebene angeben, vorab in einer Prosodiksteuerregel-Datenbank (16) gespeichert sind; (b) Extrahieren einer Prosodikparameterfolge einer durch Regeln synthetisierten Sprache aus dem Text; (c) Steuern, als Antwort auf den in Schritt (a) eingefügten Prosodikmerkmal-Steuerbefehl, desjenigen der prosodischen Parameter der Prosodikparameterfolge, der dem entsprechenden Zeichen oder der entsprechenden Zeichenfolge entspricht, zu dem die nicht-verbale Information hinzugefügt werden soll, unter Heranziehen der Prosodiksteuerregel-Datenbank (16); und (d) Synthetisieren von Sprache aus der Prosodikparameterfolge, die den gesteuerten Prosodikparameter enthält, und zum Ausgeben einer synthetischen Sprachmitteilung.
  2. Verfahren nach Anspruch 1, wobei die Prosodikparametersteuerung in Schritt (c) die Werte der Parameter relativ zu der in Schritt (b) erhaltenen Prosodikparameterfolge ändert.
  3. Verfahren nach Anspruch 1, wobei die Prosodikparametersteuerung in Schritt (c) spezifizierte, absolute Werte der Parameter in Bezug auf die in Schritt (b) erhaltene Prosodikparameterfolge ändert.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Prosodikparametersteuerung in Schritt (c) zumindest eines ausführt, nämlich Spezifizieren des Werts zumindest eines von prosodischen Parametern für die Amplitude, die grundlegende Frequenz und die Dauer der betreffenden Äußerung und Spezifizieren der Form des zeit-veränderlichen Musters jedes prosodischen Parameters.
  5. Das Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt (c) ein Schritt zum Aufspüren der Positionen eines Phonems und einer Silbe ist, die dem Zeichen oder der Zeichenfolge entsprechen, unter Heranziehung eines Wörterbuchs in der Sprache des Textes und zum Verarbeiten dieser in Übereinstimmung mit den Prosodikmerkmal-Steuerbefehlen.
  6. Eine Vorrichtung zum Editieren synthetischer Sprache, aufweisend: ein Text/Prosodikmerkmal-Steuerbefehl-Eingabeteil (11), in das ein Piosodikmerkmal-Steuerbefehl einer Semantikebene einer mehrere Ebenen aufweisenden Beschreibungssprache, der in einen eingegebenen Text eingefügt werden soll, eingegeben wird, wobei die mehrere Ebenen aufweisende Beschreibungssprache aus der Semantikebene, einer Interpretationsebene und einer Parameterebene aufgebaut ist, wobei die Parameterebene eine Gruppe von steuerbaren Prosodischen Parametern ist, die zumindest die Tonhöhe und die Leistung beinhalten, wobei die Interpretationsebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, die auf die prosodischen Parameter der Parameterebene unter vorbestimmten Standardregeln abgebildet werden, und die Semantikebene eine Gruppe von Prosodikmerkmal-Steuerbefehlen ist, wovon jeder durch einen Begriff oder ein Wort repräsentiert ist, der oder das für eine beabsichtigte Bedeutung nicht-verbaler Information steht, und dazu verwendet wird, einen Befehlssatz auszuführen, der aus zumindest einem Prosodikmerkmal-Steuerbefehl der Interpretationsebene besteht, und wobei die Beziehung zwischen jedem Prosodikmerkmal-Steuerbefehl der Semantikebene und einem Satz von Prosodikmerkmal-Steuerbefehlen der Interpretationsebene und Prosodiksteuerregeln, die Steuerungsdetails der prosodischen Parameter der Parameterebene durch die Prosodikmerkmal-Steuerbefehle der Interpretationsebene angeben, vorab in einer Prosodiksteuerregel-Datenbank (16) gespeichert sind; ein Text/Prosodikmerkmal-Steuerbefehl-Trennungsteil (12) zur Trennung des Prosodikmerkmal-Steuerbefehls von dem Text; ein Sprachsyntheseinformations-Umwandlungsteil (13) zur Erzeugung einer Prosodikparameterfolge aus dem abgetrennten Text basierend auf einem „Synthese-durch-Regeln"-Verfahren; ein Prosodikmerkmal-Steuerbefehl-Analyseteil (15) zum Extrahieren von Information aus dem abgetrennten Prosodikmerkmal-Steuerbefehl über dessen Position in dem Text; ein Prosodikmerkmal-Steuerteil (17) zum Steuern und Korrigieren der Prosodikparameterfolge basierend auf der entnommenen Positionsinformation und dem abgetrennten Prosodikmerkmal-Steuerbefehl unter Heranziehung der Prosodiksteuerregel-Datenbank (16); und ein Sprachsyntheseteil (18) zur Erzeugung synthetischer Sprache basierend auf der korrigierten Prosodikparameterfolge aus dem Prosodikparameter-Steuerteil.
  7. Vorrichtung nach Anspruch 6, die des Weiteren aufweist: ein Eingabesprache-Analyseteil (22) zum Analysieien von eingegebener Sprache, die nicht-verbale Information enthält, um prosodische Parameter zu erhalten; ein Prosodikparameter/Prosodikmerkmal-Steuerbefehl-Umwandlungsteil (23) zur Umwandlung der prosodischen Parameter der eingegebenen Sprache in einen Satz von Prosodikparameter-Steuerbefehlen; und wobei die Prosodiksteuerregel-Datenbank (16) den Satz von Prosodikmerkmal-Steuerbefehlen in Übereinstimmung mit der nicht-verbalen Information speichert.
  8. Vorrichtung nach Anspruch 7, die des Weiteren ein Synthetiksprache-Editierungsteil (21) des Anzeigetyps, das mit einem Bildschirm und einem GUI-Mittel ausgestattet ist, aufweist, und wobei das Synthetiksprache-Editierungsteil (21) des Anzeigetyps einen Satz von Prosodikmerkmal-Steuerbefehlen, die der gewünschten nicht-verbalen Information entsprechen, aus der Prosodiksteuerregel-Datenbank (16) ausliest und in das Prosodikparameter/Prosodikmerkmal-Steuerbefehl-Umwandlungsteil (23) einliest, dann den ausgelesenen Satz von Prosodikmerkmal-Steuerbefehlen auf dem Bildschirm anzeigt und den Satz von Prosodikmerkmal-Steuerbefehlen durch das GUI korrigiert, wodurch der entsprechende Satz von Prosodikmerkmal-Steuerbefehlen in der Prosodiksteuerregel-Datenbank erneuert wird.
  9. Ein Aufzeichnungsmedium, das mit einer Maschine lesbar ist, wobei das Medium ein Programm mit Anweisungen trägt, die, wenn sie von der Maschine ausgeführt werden, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 5 ausführen.
DE69821673T 1997-05-21 1998-05-19 Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren Expired - Lifetime DE69821673T2 (de)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP13110997 1997-05-21
JP13110997 1997-05-21
JP24727097 1997-09-11
JP24727097 1997-09-11
JP30843697 1997-11-11
JP30843697 1997-11-11

Publications (2)

Publication Number Publication Date
DE69821673D1 DE69821673D1 (de) 2004-03-25
DE69821673T2 true DE69821673T2 (de) 2005-01-05

Family

ID=27316250

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69821673T Expired - Lifetime DE69821673T2 (de) 1997-05-21 1998-05-19 Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren

Country Status (4)

Country Link
US (2) US6226614B1 (de)
EP (1) EP0880127B1 (de)
CA (1) CA2238067C (de)
DE (1) DE69821673T2 (de)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
DE19841683A1 (de) * 1998-09-11 2000-05-11 Hans Kull Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
EP1045372A3 (de) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Sprachkommunikationsystem
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2002282543A (ja) * 2000-12-28 2002-10-02 Sony Computer Entertainment Inc オブジェクトの音声処理プログラム、オブジェクトの音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体、プログラム実行装置、及びオブジェクトの音声処理方法
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
IL144818A (en) * 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
JP4150198B2 (ja) * 2002-03-15 2008-09-17 ソニー株式会社 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
GB2388286A (en) * 2002-05-01 2003-11-05 Seiko Epson Corp Enhanced speech data for use in a text to speech system
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
JP2004226741A (ja) * 2003-01-23 2004-08-12 Nissan Motor Co Ltd 情報提供装置
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
JP3812848B2 (ja) * 2004-06-04 2006-08-23 松下電器産業株式会社 音声合成装置
DE102004050785A1 (de) * 2004-10-14 2006-05-04 Deutsche Telekom Ag Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems
JP4743686B2 (ja) * 2005-01-19 2011-08-10 京セラ株式会社 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
US7809572B2 (en) * 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
WO2007028871A1 (fr) * 2005-09-07 2007-03-15 France Telecom Systeme de synthese vocale ayant des parametres prosodiques modifiables par un operateur
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP5507260B2 (ja) * 2007-01-25 2014-05-28 エリザ・コーポレーション 発話音声プロンプトを作成するシステム及び技法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
JP5230120B2 (ja) * 2007-05-07 2013-07-10 任天堂株式会社 情報処理システム、情報処理プログラム
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
WO2009044596A1 (ja) * 2007-10-05 2009-04-09 Nec Corporation 音声合成装置、音声合成方法および音声合成プログラム
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
EP3273442B1 (de) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur synthetisierung einer parametrisierten darstellung eines audiosignals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8103511B2 (en) * 2008-05-28 2012-01-24 International Business Machines Corporation Multiple audio file processing method and system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP2010218098A (ja) * 2009-03-16 2010-09-30 Ricoh Co Ltd 情報処理装置、情報処理方法、制御プログラム及び記録媒体
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8856007B1 (en) * 2012-10-09 2014-10-07 Google Inc. Use text to speech techniques to improve understanding when announcing search results
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9542929B2 (en) 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
JP6483578B2 (ja) 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
EP3144929A1 (de) * 2015-09-18 2017-03-22 Deutsche Telekom AG Synthetische erzeugung eines natürlich klingenden sprachsignals
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2018175892A1 (en) * 2017-03-23 2018-09-27 D&M Holdings, Inc. System providing expressive and emotive text-to-speech
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111105780B (zh) * 2019-12-27 2023-03-31 出门问问信息科技有限公司 一种韵律纠正方法、装置以及计算机可读存储介质
GB2596821A (en) 2020-07-07 2022-01-12 Validsoft Ltd Computer-generated speech detection
CN116665643B (zh) * 2022-11-30 2024-03-26 荣耀终端有限公司 韵律标注方法、装置和终端设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2623586B2 (ja) 1987-07-31 1997-06-25 国際電信電話株式会社 音声合成におけるピッチ制御方式
US5559927A (en) 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
EP0762384A2 (de) 1995-09-01 1997-03-12 AT&T IPM Corp. Verfahren und Vorrichtung zur Veränderung von Stimmeigenschaften synthetisch erzeugter Sprache

Also Published As

Publication number Publication date
CA2238067C (en) 2005-09-20
EP0880127A3 (de) 1999-07-07
EP0880127B1 (de) 2004-02-18
EP0880127A2 (de) 1998-11-25
CA2238067A1 (en) 1998-11-21
US6226614B1 (en) 2001-05-01
US6334106B1 (en) 2001-12-25
DE69821673D1 (de) 2004-03-25

Similar Documents

Publication Publication Date Title
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60201262T2 (de) Hierarchische sprachmodelle
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
Jilka The contribution of intonation to the perception of foreign accent
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE10042944A1 (de) Graphem-Phonem-Konvertierung
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
DE60305645T2 (de) System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1344211B1 (de) Vorrichtung und verfahren zur differenzierten sprachausgabe
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
CH689883A5 (de) Anordnung und Verfahren zur Sprachsynthese.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition