DE69233622T2 - Vorrichtung zur Erzeugung von Ansagen - Google Patents

Vorrichtung zur Erzeugung von Ansagen Download PDF

Info

Publication number
DE69233622T2
DE69233622T2 DE69233622T DE69233622T DE69233622T2 DE 69233622 T2 DE69233622 T2 DE 69233622T2 DE 69233622 T DE69233622 T DE 69233622T DE 69233622 T DE69233622 T DE 69233622T DE 69233622 T2 DE69233622 T2 DE 69233622T2
Authority
DE
Germany
Prior art keywords
information
speech
natural
speech information
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69233622T
Other languages
English (en)
Other versions
DE69233622D1 (de
Inventor
Hans Wilhelm c/o Philips Corp. I. P. 52088 Rühl
Peter c/o Philips Corp. I. P. GmbH 52088 Meyer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Priority to DE69233622T priority Critical patent/DE69233622T2/de
Publication of DE69233622D1 publication Critical patent/DE69233622D1/de
Application granted granted Critical
Publication of DE69233622T2 publication Critical patent/DE69233622T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung betrifft eine Einrichtung zum Erzeugen von Ansagen.
  • Eine Vorrichtung dieser Art ist zum Beispiel für Informationssysteme erforderlich, wie sie üblicherweise für Telefonauskunft oder auch Fahrplanauskunftssystemen verwendet werden. Ansagen können dabei aus einem Basissatz, wie zum Beispiel „This is the telephone information ..., please wait", verschiedenen Schlüsselwörtern, zum Beispiel in der Form von verschiedenen Städtenamen, die in den Basissatz an der Position der durch die Punkte gekennzeichneten Leerstelle einsetzbar sind, bestehen. Die Basissätze und die benötigten Schlüsselwörter können beide als natürliche Spreche in einer Speichereinheit gespeichert werden. Dies ist ein komplizierter Vorgang, der einen großen Speicherplatz erfordert, falls zum Beispiel die Anzahl möglicher Schlüsselwörter groß wäre. Darüber hinaus ist es schwierig, die Schlüsselwörter so auszusprechen, dass sie ohne Unstetigkeiten in den Basissatz eingefügt werden können. Wenn nämlich ein spezielles Schlüsselwort mit verschiedenen Basissätzen kombiniert werden müsste oder sogar an unterschiedlichen Positionen in einem einzigen Basissatz, könnte jedes solche Auftreten eine unterschiedliche Aussprache erfordern.
  • Die US 3,928,722 offenbart eine Vorrichtung zum Erzeugen der Audionachricht, die für ein Frage- und Antwortsystem verwendet wird. Eine Audioantwortnachricht ist aus einem festen Wort und einem variablen Wort zusammengesetzt. Das variable Wort ist ein Wort mit variablen Informationen in Abhängigkeit von der Position des variablen Worts in dem Antwortsatz. Zum Aufzeichnen einer Probe der Audiosignalformen das festen Wortes und der Steuersignale, die das feste Wort festlegen, ist ein Speicher niedriger Auslesegeschwindigkeit vorgesehen. Die entsprechenden variablen Wörter werden in einem Hochgeschwindigkeits-Speicher als Sprachelemente oder – segmente aufgezeichnet, die jeweils eine Tonhöhenlänge im Wesentlichen gleich jener der Stimme oder des Lauts des variablen Wortes haben. Zur Zeit des Auslesens der Stimme oder des Lauts oder zur Zeit der Sprachsynthese, wenn die Position der variablen Wörter in der/dem Antwortstimme oder -laut sequentiell aus dem Niedergeschwindigkeits-Speicher ausgelesen wird, wird eine Reihe der Sprachelemente oder -segmente aus dem Speicher hoher Auslesegeschwindigkeit ausgelesen und zwischen die Stimmen oder Laute fester Wörter gesetzt, die aus dem Speicher niedriger Geschwindigkeit ausgelesen werden. Das Erzeugen von Sprachnachrichten enthält ein selektives Umschalten zwischen dem Auslesen aus dem Speicher niedriger Geschwindigkeit und dem aus dem Speicher hoher Geschwindigkeit unter Berufung auf ein Steuersignal von einer Signalverarbeitungseinheit und einer Schaltung zum Kombinieren der von den obigen zwei Speichern ausgelesenen Stimmen- oder Lautsignale, und ein Erzeugen der Stimme oder des Lauts durch Umsetzen dieser kombinierten Signale. Die Vorrichtung speichert auch Tonhöhenmuster-Steuerinformationen für jedes der in einem Hochgeschwindigkeitsspeicher aufgezeichneten variablen Wörter und verwendet diese Tonhöhenmuster-Steuerinformationen, um die Tonhöhe variabler Wörter in Abhängigkeit davon einzustellen, ob sich das variable Wort innerhalb eines Satzes befindet. Dies kann Intonationsunstimmigkeiten zwischen dem variablen Wort und dem Satz, in den es eingefügt wird, reduzieren.
  • Die EP-A-0 405 029 offenbart ein System und ein Verfahren zum Kommunizieren und zum Zusammensetzen von Nachrichten mittels einer in ein Mikrofon gesprochenen Sprachfolge. In das Mikrofon gesprochene Wörter werden analysiert, um ausgewählte Wörter zu erfassen und als Reaktion darauf Nachrichten definierende Signale und/oder Nachrichtenübertragungs-Steuersignale zu erzeugen. Deshalb sehen das offenbarte System und Verfahren eine Einrichten zum Bewirken der Zusammensetzung und automatischen Übertragung von Nachrichten, Nutzen einer ausgewählten Sprachfolge sowohl zum Zusammensetzen als auch zum Steuern der Übertragung von Nachrichten vor. Der Aufbau einer Nachricht kann aus sowohl digitalisierten Sprachsignalen (erzeugt durch Digitalisieren der analogen Sprachsignale, die erzeugt werden, wenn eine die Wörter der Nachricht definierende Sprachfolge in das Mikrofon gesprochen wird) als auch digitalisierten künstlichen Sprachsignalen zusammengesetzt werden. Die digitalisierten künstlichen Sprachsignale werden aus einem Nachrichtenzusammensetzungsspeicher erzeugt, der mehrere Nachrichten oder Teile von Nachrichten wie beispielsweise digitale Sprachsignale von Wörtern, Ausdrücken, Sätzen, Abschnitten oder Seiten von Wörter definierenden alphanumerischen Zeichen oder andere Daten, die wiedergegeben werden können, enthält.
  • In I. Witten, „Making computers talk: an introduction to speech synthesis", 1986, Prentice Hall, Englewood Cliffs, New Jersey, USA, Seiten 53-68, werden Grundüberlegungen hinsichtlich der Sprachsynthese erläutert, speziell hinsichtlich der zu verwendenden Parameter.
  • In NHK Laboratories Note, Nr. 246, Januar 1980, Tokio, JP, Seiten 1-14, Yasuhiro et al., „An ex perimental speech synthesis system with pre-recorded words and phrases for local weather reports", werden Aspekte der Spracherzeugung betreffend ein Systems zur Erstellung lokaler Wetterberichte erläutert.
  • Es ist eine Aufgabe der Erfindung, eine Vorrichtung zum Erzeugen von Ansagen vorzusehen, welche die Erzeugung einer Vielzahl unterschiedlicher Ansagen ohne das Erfordernis eines großen Speicherplatzbedarfs ermöglicht.
  • Demgemäß sieht die Erfindung in einem Aspekt eine Vorrichtung zum Erzeugen von Ansagen vor, mit einer Speichereinheit zum Speichern natürlicher Sprachinformationen, einem Sprachgenerator, der ein Sprachmodell basierend auf Sprachdaten des Sprechers der natürlichen Sprachinformationen enthält, zum Erzeugen künstlicher Sprachinformationen, wobei die Vorrichtung angeordnet ist, um wenigstens einen Basissatz bestehend aus wenigstens einem Sprachblock, der als natürliche Sprachinformationen in der Speichereinheit gespeichert ist, und wenigstens einem Schlüsselwort, das aus den künstlichen Sprachinformationen gebildet wird, zu erzeugen.
  • Die Erfindung basiert auf der Erkenntnis, dass häufig wiederkehrende Basissätze in der Speichereinheit als natürliche Sprachinformationen gespeichert werden können, während Ansagen, die häufig gewechselt werden müssen, mittels eines Sprachgenerators künstlich erzeugt werden können. Die durch den Sprachgenerator erzeugten künstlichen Sprachinformationen können in Dauer, Rhythmus, Betonung und Grundfrequenzverlauf exakt manipuliert werden und lassen sich optimal in die natürlichen Sprachinformationen einfügen. Dies resultiert in einer erheblichen Reduktion des erforderlichen Speicherplatzes, weil nur die Basissätze als natürliche Sprechinformationen gespeichert werden müssen, während die künstlichen Sprachinformationen mittels der Eingabeeinheit individuell und aktuell eingegeben werden können. Ein weiterer Vorteil besteht darin, dass die Anzahl von Wörtern, die aus den künstlichen Sprachinformationen gebildet werden, nicht beschränkt ist.
  • Ein Ansagesystem, das zum Beispiel für Telefonansagedienste, usw. verwendet werden kann, erhält man dadurch, dass die Vorrichtung zum Erzeugen mindestens eines Basissatzes bestehend aus Sprachblöcken, die in der Speichereinheit als natürliche Sprachinformationen gespeichert sind, und aus Schlüsselwörtern, die aus den künstlichen Sprachinformationen gebildet werden und die zwischen einzelne Sprachblöcke eingefügt werden können, konzipiert wird.
  • Eine einfache Kombination der natürlichen und der künstlichen Sprachinformationen wird dadurch gewährleistet, dass die natürlichen Sprachinformationen in der Speichereinheit in codierter Form gespeichert sind, wobei die durch den Sprachgenerator erzeugten künstlichen Sprachinformationen entsprechend dem Code der natürlichen Sprachinformationen codiert sind.
  • Wenn in der Speichereinheit Informationen über den Grundfrequenzverlauf der natürlichen Sprachinformationen gespeichert sind, können diese Informationen durch den Sprachgenerator zum Erzeugen der in die natürlichen Sprachinformationen einzufügenden künstlichen Sprachinformationen berücksichtigt werden. Als Ergebnis kann der Grundfrequenzverlauf der künstlichen Sprachinformationen so konzipiert werden, dass an den Übergängen zwischen natürlichen und künstlichen Sprachinformationen keine Unstetigkeiten auftreten.
  • Die zum Ausgeben der Ansagen erforderlichen Einrichtungen sind begrenzt, wenn zum Ausgeben der Ansagen eine Ausgabeeinheit mit einem Ausgabespeicher und einem Digital/Analog-Umsetzer vorgesehen ist.
  • Eine einfache Ausgabesteuerung ist gewährleistet, wenn die Ausgabeeinheit durch die Eingabeeinheit gesteuert werden kann.
  • Die Verständlichkeit und Natürlichkeit der Ansagen wird wesentlich verbessert, wenn die natürlichen Sprachinformationen von nur einem Sprecher stammen.
  • Die Gesamtverständlichkeit und die Natürlichkeit der Ansagen werden weiter verbessert, wenn der Sprachgenerator ein Sprachmodell enthält, das auf den Sprachdaten des Sprechers der natürlichen Sprachinformationen basiert. Der Eindruck eines Sprecherwechsels wird so vermieden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Weitere Aspekte und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren gezeigten Ausführungsbeispiele im detail beschrieben. Darin zeigen:
  • 1 eine Ausführungsbeispiel einer Vorrichtung zum Erzeugen von Ansagen; und
  • 2 ein Beispiel für die Zusammensetzung von Ansagen aus natürlichen und künstlichen Sprachinformationen.
  • BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSBEISPIELE
  • Die Vorrichtung zum Erzeugen von Ansagen besteht, wie in 1 dargestellt, grundsätzlich aus einer Eingabeeinheit 1, einer Speichereinheit 2, einem Sprachgenerator 3 sowie einem Multiplexer 4. Natürliche Sprachinformationen 11, zum Beispiel in PCM-codierter Form, können in der Speichereinheit 2 gespeichert werden, wobei die natürlichen Sprachinformationen von einem Sprecher zum Beispiel mittels eines Mikrofons eingegeben werden, das an die Eingabeeinheit 1 angeschlossen werden kann. Zum Übertragen solcher natürlicher Sprache hat die Eingabeeinheit 1 einen analogen Audiokanal, einen Analog/PCM-Umsetzer und eine Aktivierungseinrichtung, die nicht gesondert dargestellt sind, die die analoge Eingabe, das Umsetzen bzw. die Speicherung in der Speichereinheit 2 ermöglichen. Darüber hinaus ist eine Datenverwaltung für die so aus natürlicher Sprache aufgebaute Datenbasis in herkömmlicher Weise vorgesehen, beispielsweise indem jede gespeicherte natürliche Spracheinheit oder -nachricht eine geeignete Ziffer oder Kennzeichnung hat, um ein einfaches Wiederfinden zu ermöglichen.
  • In einem weiteren Ausführungsbeispiel kann die natürliche Sprache offline aufgezeichnet worden sein, sodass die Eingabeeinheit keine Analog/PCM-Umsetzung benötigt, sondern nur eine Wiedergewinnungssteuerung für die Speichereinheit 2.
  • Zusätzlich zur obigen Erläuterung arbeitet die Eingabeeinheit 1 zum Steuern des Sprachgenerators 3, zum Beispiel indem sie eine vollständige alphanumerische Tastatur und einen zugehörigen Bildschirm aufweist, um Wortinformationen 12 dem Sprachgenerator 3 zuzuführen, wobei das Wort durch Eintasten der einzelnen Zeichen gebildet wird. In manchen Fällen könnte es günstig sein, dass gewisse oder alle eingegebenen Wörter bereits als Zeichencodeketten gespeichert sind, sodass nur eine Auswahl von der Eingabeeinheit 1 notwendig wäre. Die Speicherung als Zeichencodes benötigt viel weniger Raum als eine Speicherung als Sequenz von PCM-Codes. Nun erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 künstliche Sprachinformationen 14. Über den Multiplexer 4 werden diese künstlichen Sprachinformationen 14 mit den natürlichen Sprachinformationen 13 kombiniert, um so die Ansagen zu bilden. Die Ansagen 15 werden über eine Ausgabeeinheit 5 ausgegeben, die einen Ausgabespeicher 9, einen Analog/Digital-Umsetzer 6, einen Verstärker 7 und einen Lautsprecher 8 aufweist.
  • In der Speichereinheit 2 sind ein oder mehrere so genannte Basissätze in codierter Form gespeichert. Derartige Basissätze bestehen aus einzelnen Sprachblöcken, wobei zwischen einzelnen Sprachblöcken so genannte Schlüsselwörter eingefügt werden können. Die Stellen zum Einfügen werden durch geeignete Daten angegeben, zum Beispiel einen Merker. Diese Merker, die auch zum Multiplexer 4 übertragen werden, steuern dann das Umschalten des Multiplexers 4 von der natürlichen Sprache aus der Speichereinheit 2 zum Sprachgenerator 3. Falls notwendig, kann ein solches Umschalten auch dem menschlichen Operator zurücksignalisiert werden, wie beispielsweise über eine Bildschirmmeldung (Verbindung nicht dargestellt). Diese signalisiert dem Operator, dass er das einzufügende Wort eingeben muss. Am Ende des eingefügten Wortes kann der Operator den Multiplexer 4 zur Speichereinheit 2 zurückschalten, wie beispielsweise durch Betätigung der Eingabetaste. Die Schlüsselwörter können zum Beispiel Namen von Städten oder auch Zahlen sein. Zum Beispiel enthält der Satz „Der Eilzug von S1 nach S2 hat voraussichtlich S3 Minuten Verspätung" die einzelnen Sprachblöcke B1 „Der Eilzug von", B2 „nach", B3 „hat voraussichtlich" und B4 „Minuten Verspätung" sowie verschiedene Städtenamen als die Schlüsselwörter S1 und 32 und eine zahl als das Schlüsselwort S3. Eine Eingabe verschiedener Schlüsselwörter S1, S2, S3 ermöglicht die Erzeugung unterschiedlicher Ansagen 15.
  • Nachfolgend wird der Vorgang zum Erzeugen von Ansagen 15 beschrieben. Über die Eingabeeinheit 1, zum Beispiel eine Tastatur mit einem Bildschirm, wird zunächst ein gewünschter Basissatz aus den in der Speichereinheit 2 gespeicherten Basissätzen ausgewählt. Die Speichereinheit 2 speichert auch Informationen US1, US2, US3 bezüglich des Grundfrequenzverlaufs an den Grenzen der Sprachblöcke B1, B2, B3, B4 und der Schlüsselwörter S1, S2, S3. Über die Eingabeeinheit 1 werden die Schlüsselwörter S1, S2, S3 in beliebig codierter Form, zum Beispiel als normaler Text eingegeben. Die Schlüsselwörter S1, S2, S3 werden als Wortinformationen 12 an den Sprachgenerator weitergegeben, der aus den Schlüsselwörtern S1, S2, S3 die künstlichen Sprachinformationen 14 erzeugt Damit an den Übergängen zwischen natürlicher und künstlicher Sprache Unstetigkeiten vermieden werden, wodurch schwer verständliche und/oder unnatürliche Ansagen 15 bewirkt würden, werden die entsprechenden Parameter während der Erzeugung der künstlichen Sprachinformationen 14 durch die Informationen US1, US2, US3 an den Grundfrequenzverlauf der jeweiligen Sprachblöcke B1, B2, B3, B4 angepasst. Dies verhindert eine Irritation des Zuhörers der Ansagen infolge einer unnatürlichen Betonung, wodurch auch die Akzeptanz der Ansagen verbessert wird. Gesteuert durch die Informationen US1, US2, US3 betreffend den Tonhöhenverlauf, erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 die künstlichen Sprachinformationen 14 in codierter Form. Die künstlichen Sprachinformationen 14 sowie die natürlichen Sprachinformationen 13 werden dem Multiplexer 4 zugeführt, der die aus den natürlichen Sprachinformationen bestehenden Sprachblöcke B1, B2, B3, B4, d.h. den Basissatz, und die aus den künstlichen Sprachinformationen 14 bestehenden Schlüsselwörter S1, S2, S3 kombiniert, um so die Ansagen zu bilden, wie in 2 im Detail dargestellt. Die Darstellung der künstlichen Sprache ist eine geeignete Sequenz von PCM-Codes. Als nächstes werden die Ansagen 15 in den Ausgabespeicher 9 der Ausgabeeinheit 5 geschrieben. Das Ausgangssignal 16 des Ausgabespeichers 9 ist ein PCM-Signal, das durch den Digital/Analog-Umsetzer 8 zunächst in ein analoges Signal 17 umgesetzt wird. Das Analogsignal 17 wird durch den Verstärker 7 verstärkt, um so als ein Ausgabesignal 18 an den Lautsprecher 8 übertragen zu werden.
  • 2 zeigt ein Beispiel von Ansagen. Der obere Teil von 2 zeigt einen Basissatz, der aus Sprachblöcken B1, B2, B3, B4 gebildet ist und der durch Schlüsselwörter S1, S2, S3 ergänzt werden kann. Der untere Teil von 2 zeigt den Grundfrequenzverlauf f als Funktion der Zeit t für den im oberen Teil von 2 gezeigten Beispielsatz „ Der Eilzug von Frankfurt nach Offenbach hat voraussichtlich 10 Minuten Verspätung".
  • Der in 2 gezeigte Basissatz „Der Eilzug von S1 nach S2 hat voraussichtlich S3 Minuten Verspätung" enthält die Sprachblöcke B1, B2, B3, B4, die als natürliche Sprachinformationen 11 in der Speichereinheit 2 (1) gespeichert sind. Die Schlüsselwörter Nürnberg, Frankfurt = S1, Erlangen, Offenbach = S2 und 5, 10 = S3 werden nach Bedarf in den Basissatz eingefügt. Unterschiedliche Ansagen können so erzeugt werden. An den Übergängen zwischen den Sprachblöcken B1, B2, B3, B4 und den Schlüsselwörtern S1, S2, S3 sind zu jedem Basissatz in der Speichereinheit Informationen US1, US2, US3 über den Grundfrequenzverlauf gespeichert Dies wird in 2 mittels Kreisen hervorgehoben. Einerseits wird ein unnatürlicher Eindruck der Ansagen vermieden, und gleichzeitig ist die Verständlichkeit der Ansage wesentlich besser als wenn sie vollständig künstlich erzeugt werden würde.
  • Der Vorteil der Erfindung liegt einerseits im reduzierten Speicheraufwand, da nur die die Basissätze bildenden natürlichen Sprachinformationen 11 gespeichert werden müssen. Außerdem können beliebige Schlüsselwörter mit Hilfe der Eingabeeinheit 1 „editiert" werden, wobei eine einfache Eingabe lediglich über eine Tastatur möglich ist. So ist die Anzahl der Schlüsselwörter nicht beschränkt. Die künstlichen Sprachinformationen 14 können bezüglich Dauer, Rhythmus, Betonung und Grundfrequenzverlauf exakt manipuliert werden, wobei es möglich ist, diese Manipulation mittels der Informationen US1, US2, US3 optimal an die jeweiligen Basissätze anzupassen. Die Gesamtverständlichkeit und Natürlichkeit der Ansagen 15 wird verbessert, wenn der Sprachgenerator 3 ein Sprachmodell enthält, das auf Sprachdaten des Sprechers der natürlichen Sprachinformationen 11 basiert. Hierdurch wird auch der Eindruck eines Sprecherwechsels vermieden.

Claims (8)

  1. Vorrichtung zum Erzeugen von Ansagen (15), mit einer Speichereinheit (2) zum Speichern natürlicher Sprachinformationen, einem Sprachgenerator (3), der ein Sprachmodell basierend auf Sprachdaten des Sprechers der natürlichen Sprachinformationen enthält, zum Erzeugen künstlicher Sprachinformationen, wobei die Vorrichtung angeordnet ist, um wenigstens einen Basissatz bestehend aus wenigstens einem Sprachblock (B1, B2, B3, B4), der als natürliche Sprachinformationen in der Speichereinheit (2) gespeichert ist, und wenigstens einem Schlüsselwort (S1, S2, S3), das aus den künstlichen Sprachinformationen (14) gebildet wird, zu erzeugen.
  2. Vorrichtung zum Erzeugen von Ansagen (15) nach Anspruch 1, dadurch gekennzeichnet, dass eine Eingabeeinheit (1) zum Präsentieren erster und zweiter Steuersignale vorgesehen ist, die Speichereinheit (2) zum wahlweisen Ausgeben der natürlichen Sprachinformation unter der Steuerung der ersten Steuersignale vorgesehen ist, der Sprachgenerator (3) zum Erzeugen künstlicher Sprachinformationen unter Steuerung der zweiten Steuersignale vorgesehen ist, und Multiplexereinrichtungen (4) zum Zusammensetzen der Ansagen durch zeitexklusives Verknüpfen der natürlichen Sprachinformationen und der künstlichen Sprachinformationen vorgesehen sind.
  3. Vorrichtung nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die natürlichen Sprachinformation in der Speichereinheit (2) in codierter Form gespeichert sind, wobei die durch den Sprachgenerator (3) erzeugten künstlichen Sprachinformationen (14) in Übereinstimmung mit dem Code der natürlichen Sprachinformationen codiert werden.
  4. Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Speichereinheit (2) Informationen (US1, US2, US3) bezüglich der Grundfrequenzschwankung der natürlichen Sprachinformationen speichern, die vorgesehen sind, um zum Anpassen von Parametern der künstlichen Sprachinformationen benutzt zu werden, um Unstetigkeiten an den Übergängen zwischen natürlichen und künstlichen Sprachinformationen zu vermeiden.
  5. Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass für die Ausgabe der Ansagen (15) eine Ausgabeeinheit (5) vorgesehen ist, welche einen Ausgabespeicher (9) und einen Digital/Analog-Umsetzer (6) aufweist.
  6. Vorrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Ausgabeeinheit (5) durch die Eingabeeinheit (1) gesteuert werden kann.
  7. Vorrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die natürlichen Sprachinformationen von nur einem Sprecher abgeleitet sind.
  8. Vorrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die natürlichen Sprachinformationen über ein Mikrofon (10) eingegeben werden können, das mit der Eingabeeinheit (1) verbunden werden kann.
DE69233622T 1991-11-19 1992-11-17 Vorrichtung zur Erzeugung von Ansagen Expired - Lifetime DE69233622T2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE69233622T DE69233622T2 (de) 1991-11-19 1992-11-17 Vorrichtung zur Erzeugung von Ansagen

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE4138016A DE4138016A1 (de) 1991-11-19 1991-11-19 Einrichtung zur erzeugung einer ansageinformation
DE4138016 1991-11-19
DE69233622T DE69233622T2 (de) 1991-11-19 1992-11-17 Vorrichtung zur Erzeugung von Ansagen

Publications (2)

Publication Number Publication Date
DE69233622D1 DE69233622D1 (de) 2006-06-01
DE69233622T2 true DE69233622T2 (de) 2007-03-01

Family

ID=6445124

Family Applications (3)

Application Number Title Priority Date Filing Date
DE4138016A Withdrawn DE4138016A1 (de) 1991-11-19 1991-11-19 Einrichtung zur erzeugung einer ansageinformation
DE69233622T Expired - Lifetime DE69233622T2 (de) 1991-11-19 1992-11-17 Vorrichtung zur Erzeugung von Ansagen
DE69232964T Expired - Lifetime DE69232964T2 (de) 1991-11-19 1992-11-17 Informationsansageeinrichtung

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE4138016A Withdrawn DE4138016A1 (de) 1991-11-19 1991-11-19 Einrichtung zur erzeugung einer ansageinformation

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69232964T Expired - Lifetime DE69232964T2 (de) 1991-11-19 1992-11-17 Informationsansageeinrichtung

Country Status (4)

Country Link
US (1) US5621891A (de)
EP (3) EP1265225A1 (de)
JP (1) JPH05232993A (de)
DE (3) DE4138016A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0722559B1 (de) * 1994-08-08 2001-07-18 Mannesmann VDO Aktiengesellschaft Navigationsvorrichtung für ein landfahrzeug mit mitteln zur erzeugung einer frühzeitigen sprachnachricht mit mehreren elementen, sowie fahrzeug damit
FR2733333A1 (fr) * 1995-04-20 1996-10-25 Philips Electronics Nv Appareil d'information routiere muni d'une memoire de messages et d'un generateur de synthese vocale
ES2151658T3 (es) * 1995-06-02 2001-01-01 Koninkl Philips Electronics Nv Dispositivo para la generacion de elementos de palabra codificados en un vehiculo.
JP2000507021A (ja) * 1997-01-09 2000-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置
US6748056B1 (en) 2000-08-11 2004-06-08 Unisys Corporation Coordination of a telephony handset session with an e-mail session in a universal messaging system
JP2003186490A (ja) * 2001-12-21 2003-07-04 Nissan Motor Co Ltd テキスト音声読み上げ装置および情報提供システム
US7149287B1 (en) 2002-01-17 2006-12-12 Snowshore Networks, Inc. Universal voice browser framework
FR2836260B1 (fr) * 2002-02-21 2005-04-08 Sanef Sa Procede de diffusion de messages annoncant au moins un evenement
US8229086B2 (en) 2003-04-01 2012-07-24 Silent Communication Ltd Apparatus, system and method for providing silently selectable audible communication
EP1933300A1 (de) 2006-12-13 2008-06-18 F.Hoffmann-La Roche Ag Sprachausgabegerät und Verfahren zur Sprechtextgenerierung
EP2127337A4 (de) 2007-02-22 2012-01-04 Silent Comm Ltd System und verfahren zur telefonkommunikation
US8494490B2 (en) 2009-05-11 2013-07-23 Silent Communicatin Ltd. Method, circuit, system and application for providing messaging services

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3928722A (en) * 1973-07-16 1975-12-23 Hitachi Ltd Audio message generating apparatus used for query-reply system
JPS5057504A (de) * 1973-09-20 1975-05-20
JPS5140006A (de) * 1974-10-02 1976-04-03 Hitachi Ltd
US4117263A (en) * 1977-11-17 1978-09-26 Bell Telephone Laboratories, Incorporated Announcement generating arrangement utilizing digitally stored speech representations
US4255618A (en) * 1979-04-18 1981-03-10 Gte Automatic Electric Laboratories, Incorporated Digital intercept recorder/announcer system
GB2076616B (en) * 1980-05-27 1984-03-07 Suwa Seikosha Kk Speech synthesizer
US4520499A (en) * 1982-06-25 1985-05-28 Milton Bradley Company Combination speech synthesis and recognition apparatus
US5317671A (en) * 1982-11-18 1994-05-31 Baker Bruce R System for method for producing synthetic plural word messages
US4825385A (en) * 1983-08-22 1989-04-25 Nartron Corporation Speech processor method and apparatus
JP2847699B2 (ja) * 1984-07-04 1999-01-20 三菱電機株式会社 音声合成装置
US4796216A (en) * 1984-08-31 1989-01-03 Texas Instruments Incorporated Linear predictive coding technique with one multiplication step per stage
US5005204A (en) * 1985-07-18 1991-04-02 Raytheon Company Digital sound synthesizer and method
JPH0833744B2 (ja) * 1986-01-09 1996-03-29 株式会社東芝 音声合成装置
US4856066A (en) * 1986-11-06 1989-08-08 Lemelson Jerome H Speech communication system and method
JP2577372B2 (ja) * 1987-02-24 1997-01-29 株式会社東芝 音声合成装置および方法
DE3709523A1 (de) * 1987-03-23 1988-10-13 Bosch Gmbh Robert Rundfunkempfaenger mit mindestens einem verkehrsfunkdecoder
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
JPH032799A (ja) * 1989-05-30 1991-01-09 Meidensha Corp 音声合成装置のピッチパターン結合方式
JPH0333796A (ja) * 1989-06-29 1991-02-14 Matsushita Electric Ind Co Ltd 対話システム

Also Published As

Publication number Publication date
EP0543459A3 (en) 1993-11-03
DE69232964D1 (de) 2003-04-24
EP1265225A1 (de) 2002-12-11
EP0543459A2 (de) 1993-05-26
EP0543459B1 (de) 2003-03-19
DE69232964T2 (de) 2004-02-12
DE4138016A1 (de) 1993-05-27
DE69233622D1 (de) 2006-06-01
US5621891A (en) 1997-04-15
EP1265226B1 (de) 2006-04-26
JPH05232993A (ja) 1993-09-10
EP1265226A1 (de) 2002-12-11

Similar Documents

Publication Publication Date Title
DE4436175B4 (de) Vorrichtung zum Fernzugreifen auf einen Computer ausgehend von einem Telefonhandapparat
DE2159848C2 (de) Textverarbeitungssystem mit einer Anzahl peripherer Diktateingabestellen
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
DE2946856C2 (de) Wortspeichergerät
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE69837428T2 (de) Speichermedium mit elektronischer Schaltung und mit diesem Speichermedium augestatteter Sprachsynthesizer
EP0725382B1 (de) Verfahren und Einrichtung zur Ausgabe von digital kodierten Verkehrsmeldungen mittels synthetisch erzeugter Sprache
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1110203A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE2335818C3 (de) Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen
EP1344211B1 (de) Vorrichtung und verfahren zur differenzierten sprachausgabe
DE3518737C2 (de)
DE4111781A1 (de) Computersystem zur spracherkennung
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
DE4203436A1 (de) Datenreduzierte sprachkommunikation
DE3232835C2 (de)
DE10006937C2 (de) Verfahren für einen Rückverfolgungsmatrixspeicher in einem Sprachwiedererkennungssystem
DE2657430A1 (de) Einrichtung zum synthetisieren der menschlichen sprache
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese
DE3513243C2 (de)
DE2016572A1 (de) Verfahren und Einrichtung zur Sprachsynthese
AT311077B (de) Einrichtung zur Synthetisierung von Audio-Informationen
EP1170723A2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE3808298A1 (de) Schaltungsanordnung zur speicherung eines sprachsignals in einem digitalen sprachspeicher

Legal Events

Date Code Title Description
8364 No opposition during term of opposition