DE19841683A1 - Vorrichtung und Verfahren zur digitalen Sprachbearbeitung - Google Patents
Vorrichtung und Verfahren zur digitalen SprachbearbeitungInfo
- Publication number
- DE19841683A1 DE19841683A1 DE19841683A DE19841683A DE19841683A1 DE 19841683 A1 DE19841683 A1 DE 19841683A1 DE 19841683 A DE19841683 A DE 19841683A DE 19841683 A DE19841683 A DE 19841683A DE 19841683 A1 DE19841683 A1 DE 19841683A1
- Authority
- DE
- Germany
- Prior art keywords
- melody
- generated
- generating
- speech
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims description 17
- 238000013518 transcription Methods 0.000 claims description 16
- 230000035897 transcription Effects 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims 2
- 230000005355 Hall effect Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Vorrichtung zur digitalen Sprachbearbeitung, welche aufweist: eine Satzmelodie-Erzeugungseinrichtung zur Erzeugung einer Satzmelodie für einen Text und eine Editiereinrichtung zum Anzeigen und Modifizieren der erzeugten Satzmelodie.
Description
Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zur digitalen
Sprachbearbeitung bzw. Spracherzeugung. Derzeitige Systeme zur digitalen
Sprachausgabe werden bisher in Umgebungen eingesetzt, in denen eine synthetische
Stimme akzeptabel oder gar erwünscht ist. Die vorliegende Erfindung dagegen betrifft
ein System, das es ermöglicht, natürlich wirkende Sprache synthetisch zu erzeugen.
In derzeitigen Systemen zur digitalen Spracherzeugung werden die Informationen zur
Satzmelodie und zur Betonung automatisch erzeugt wie z. B. beschrieben in EP 0 689 706.
In manchen Systemen ist es möglich, zusätzliche Kommandos in den
Textstrom einzubauen, bevor dieser dem Spracherzeuger übergeben wird, z. B. in EP 0 598 599.
Diese Kommandos werden z. B. als (nicht aussprechbare) Sonderzeichen
eingegeben, wie etwa beschrieben in EP 0 598 598.
Die in den Textstrom eingebauten Kommandos können auch Angaben zur
Charakteristik des Sprechers (d. h. Parameter des Sprechermodells) enthalten. In EP 0 762 384
wird ein System beschrieben, in dem am Bildschirm auf einer graphischen
Benutzeroberfläche diese Sprechercharakteristiken eingegeben werden können.
Die Sprachsynthese erfolgt unter Verwendung von Hilfsinformationen, die in einer
Datenbank gespeichert werden (z. B. als "waveform sequence" in EP 0 831 460). Für
die Aussprache der Wörter, die nicht in der Datenbank gespeichert sind, müssen aber
dennoch Regeln zur Aussprache im Programm vorhanden sein. Die
Zusammensetzung der einzelnen Sequenzen führt zu Verzerrungen und akustischen
Artefakten, wenn keine Massnahmen zu ihrer Unterdrückung getroffen werden.
Dieses Problem (man spricht von "segmentaler Qualität") gilt aber heute als
weitgehend gelöst (vgl. dazu z. B. Volker Kraft: Verkettung natürlichsprachlicher
Bausteine zur Sprachsynthese: Anforderungen, Techniken und Evaluierung.
Fortschr.-Ber.VDI Reihe 10 Nr. 468. VDI-Verlag 1997). Dennoch besteht auch bei
modernen Sprachsynthesesystemen eine Reihe von weiteren Problemen.
Ein Problem in der digitalen Sprachausgabe ist beispielsweise die Mehrsprachen
fähigkeit.
Ein weiteres Problem besteht in der Verbesserung der prosodischen Qualität, d. h. der
Güte der Intonation, man vergleiche hierzu etwa "Volker Kraft: Verkettung
natürlichsprachlicher Bausteine zur Sprachsynthese: Anforderungen, Techniken und
Evaluierung, Fortschr.-Ber.VDI Reihe 10 Nr. 468, VDI-Verlag 1997". Die Schwierigkeit
ist darauf zurückzuführen, daß die Intonation aus der orthographischen
Eingabeinformation nur unzureichend rekonstruiert werden kann. Sie ist auch
abhängig von höheren Ebenen wie Semantik und Pragmatik sowie Sprechersituation
und Sprechertyp.
Allgemein kann gesagt werden, daß die Qualität der heutigen Sprachausgabesysteme
den Anforderungen dort genügen, wo der Zuhörer eine synthetische Stimme erwartet
oder akzeptiert. Vielfach wird jedoch die Qualität synthetischer Sprache als nicht
ausreichend oder als unbefriedigend empfunden.
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein
Verfahren zu digitalen Sprachbearbeitung zu schaffen, das es ermöglicht,
synthetische Sprache von besserer Qualität zu erzeugen.
Es ist ein weiteres Ziel der Erfindung, natürlich wirkende Sprache synthetisch zu
erzeugen. Die Anwendungen reichen von der Erzeugung einfacher Texte für
Multimedia-Applikationen bis hin zu Filmvertonungen (Synchronisation), Hörspielen,
und Hörbüchern
Selbst wenn die synthetisch erzeugte Sprache natürlich wirkt, sind manchmal Eingriffsmöglichkeiten für die Erzeugung dramaturgischer Effekte erforderlich. Eine weitere Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung derartiger Eingriffsmöglichkeiten.
Selbst wenn die synthetisch erzeugte Sprache natürlich wirkt, sind manchmal Eingriffsmöglichkeiten für die Erzeugung dramaturgischer Effekte erforderlich. Eine weitere Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung derartiger Eingriffsmöglichkeiten.
Die vorliegende Erfindung ist in den unabhängigen Ansprüche definiert. Die
abhängigen Ansprüche definieren besondere Ausführungsbeispiele der Erfindung.
Im wesentlichen wird die Aufgabe der Erfindung gelöst, indem die für einen Text
erzeugte Satzmelodie mittels eines Editors modifiziert werden kann.
Besondere Ausführungsformen der Erfindung ermöglichen neben der Editierung der
Satzmelodie eine Editierung weiterer Charakteristiken der synthetisch erzeugten
Sprache.
Ausgangspunkt ist dabei der geschriebene Text. Um aber eine ausreichende
(insbesondere prosodische) Qualität zu erreichen, sowie zur Erzielung
dramaturgischer Effekte werden dem Anwender in einer bevorzugten
Ausführungsform weitreichende Möglichkeiten zum Eingreifen gegeben. Der
Anwender ist in der Funktion des Regisseurs, der die Sprecher auf dem System
definiert und ihnen Sprechrhythmus und Satzmelodie, Aussprache und Betonung
vorgibt.
Vorzugsweise umfaßt die vorliegende Erfindung auch das Erzeugen einer Lautschrift
für einen geschriebenen Text, sowie das Vorsehen der Möglichkeit die erzeugte
Lautschrift zu modifizieren, bzw. die Lautschrift basierend auf modifizierbaren Regeln
zu erzeugen. Dadurch kann beispielsweise ein besonderer Akzent eines Sprechers
generiert werden.
In einem weiteren bevorzugten Ausführungsbeispiel umfaßt die Erfindung eine
Wörterbucheinrichtung, in der die Wörter einer oder mehrerer Sprachen zusammen
mit ihrer Aussprache gespeichert sind. In letzteren Fall ermöglicht dies die
Mehrsprachenfähigkeit, d. h. die Bearbeitung von Texten verschiedener Sprache.
Vorzugsweise erfolgt die Editierung der erzeugten Lautschrift bzw. Satzmelodie
mittels eines leicht bedienbaren Editors, etwa einer grafischen Benutzerschnittstelle.
In einem weiteren bevorzugten Ausführungsbeispiel werden in die Sprachbearbeitung
Sprechermodelle mit einbezogen, die entweder vordefiniert oder vom Benutzer
definiert bzw. modifiziert sein können. Dadurch können Charakteristiken
verschiedener Sprecher realisiert werden, seien es nun Männer- oder
Frauenstimmen, oder aber auch verschiedene Akzente eines Sprechers, etwa ein
bayerischer, schwäbischer oder norddeutscher Akzent.
In einer besonders bevorzugten Ausführungsform besteht die Vorrichtung aus einem
Wörterbuch, in dem zu allen Wörtern auch die Aussprache in Lautschrift gespeichert
sind (wenn nachstehend von Lautschrift die Rede ist, so ist damit eine beliebige
Lautschrift gemeint, wie z. B. die SAMPA-Notation, vgl. z. B. "Multilingual speech
input/output assessment, methodology and standardization, standard computer
compatible transscription, pp 29-31, in Esprit Project 2589 (SAM) Fin. Report
SAM-UCC-037", oder die aus Sprachlehrmitteln bekannte internationale phonetische
Schrift, vgl. z. B. "The Principles of the International Phonetic Association: Adescription
of the International Phonetic Alphabet and the Manner of Using it. International
Phonetic Association, Dept, Phonetics, Univ. College of London"), einem Übersetzer,
der eingegebene Texte in Lautschrift wandelt und eine Satzmelodie erzeugt, einem
Editor, mit dem Texte eingegeben und Sprecher zugeordnet werden können und in
dem sowohl die erzeugte Lautschrift als auch die Satzmelodie angezeigt und
verändert werden kann, einem Eingabemodul, in dem Sprechermodelle definiert
werden können, einem System zur digitalen Spracherzeugung, das aus der Lautschrift
zusammen mit der Satzmelodie gesprochene Sprache repräsentierende Signale bzw.
solche Signale repräsentierende Daten erzeugt und das in der Lage ist, verschiedene
Sprechermodelle zu verarbeiten, einem System von digitalen Filtern und anderen
Geräten (für Hall, Echo usw.) mit dem besondere Effekte erzeugt werden können,
einem Geräusch-Archiv, sowie einem Misch-Gerät, in dem die erzeugten
Sprach-Signale zusammen mit Geräuschen aus dem Archiv zusammen gemischt und
mit Effekten versehen werden können.
Die Erfindung kann entweder hybrid in Soft- und Hardware oder ganz in Software
realisiert werden. Die erzeugten digitalen Sprachsignale können über ein spezielles
Gerät für digital Audio oder über eine PC-Soundkarte ausgegeben werden.
Die vorliegende Erfindung wird nachfolgend anhand mehrerer Ausführungsbeispiele
und der Bezugnahme auf die beiliegende Zeichnung in Detail beschrieben.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zur digitalen Spracherzeugung
gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
Im nachfolgend beschriebenen Ausführungsbeispiel der vorliegenden Erfindung
besteht diese aus mehreren Einzelkomponenten, die mittels einer oder mehrerer
digitaler Rechenanlagen realisiert werden können, und deren Funktionsweise und
Zusammenwirken nachfolgend genauer beschrieben wird.
Das Wörterbuch 100 besteht aus einfachen Tabellen (für jede Sprache eine), in der
die Wörter einer Sprache zusammen mit ihrer Aussprache gespeichert sind. Die
Tabellen können für die Aufnahme zusätzlicher Wörter und ihrer Aussprache beliebig
erweitert werden. Für besondere Zwecke, z. B. für das Erzeugen von Akzenten können
in einer Sprache auch zusätzliche Tabellen mit unterschiedlichen phonetischen
Einträgen erzeugt werden. Den verschiedenen Sprechern wird je eine Tabelle des
Wörterbuches zugeordnet.
Der Übersetzer 110 erzeugt einerseits die phonetische Schrift, indem er die Wörter
des eingegebenen Textes durch ihre phonetischen Entsprechungen im Wörterbuch
ersetzt. Falls im Sprechermodell Modifikatoren, die später genauer beschrieben
werden, hinterlegt sind, so verwendet er sie zur Modifikation der Aussprache.
Zusätzlich erzeugt er die Prosodie unter Verwendung von in der Sprachverarbeitung
bekannten Heuristiken. Solche Heuristiken sind z. B. das Modell von Fujisaki (1992)
oder andere akustische Methoden, dann die perzeptuellen Modelle, z. B. das von
d'Alessandro und Mertens (1995). Diese, aber auch ältere linguistische Modelle sind
z. B. beschrieben in "Thierry Dutoit: An Introduction to Text-to-Speech Synthesis,
Kluwer 1997". Dort finden sich auch Verfahren für die Segmentation (setzen von
Pausen), welche ebenfalls vom Übersetzer erzeugt wird.
Die Wahl der Verfahren ist dabei von eher untergeordneter Bedeutung, da der
Übersetzer lediglich eine Vorgabe der Prosodie erzeugt, welche vom Anwender noch
geändert werden kann.
Mit dem Editor 120 hat der Anwender ein Instrument in der Hand, mit dem er
Aussprache, Intonation, Betonung, Tempo, Lautstärke, Pausen usw. eingeben und
verändern kann.
Zuerst ordnet er den zu verarbeitenden Textabschnitten ein Sprechermodell 130 zu
welch es später bezüglich Aufbau und Funktionsweise noch genauer erläutert wird.
Der Übersetzer reagiert auf diese Zuordnung, indem er die Phonetik und
gegebenenfalls die Prosodie dem Sprechermodell anpaßt und neu generiert. Die
Phonetik wird dem Anwender in Lautschrift angezeigt, die Prosodie z. B. in einer der
Musik entnommenen Symbolik (Notenschrift). Der Anwender hat dann die Möglichkeit,
diese Vorgaben zu verändern, sich einzelne Textabschnitte anzuhören und seine
Eingaben nochmals zu verbessern usw.
Selbstverständlich können im Editor auch die Texte selbst erfaßt werden, falls sie
nicht direkt aus einem anderen Textverarbeitungssystem importiert werden können.
Sprechermodelle 130 sind beispielsweise Parametrisierungen für die
Spracherzeugung. In den Modellen werden die Charakteristiken des menschlichen
Sprechtrakts nachgebildet. Die Funktion der Stimmbänder wird durch einen
Impulsfolge dargestellt, von der nur die Frequenz (pitch) verändert werden kann. Die
übrigen Charakteristiken (Mundhöhle, Nasenraum) des Sprechtrakts werden mit
digitalen Filtern realisiert. Ihre Parameter werden im Sprechermodel hinterlegt. Es
werden Standardmodelle hinterlegt (Kind, junge Dame, alter Mann usw.). Der
Anwender kann aus ihnen zusätzliche Modelle erzeugen, indem er die Parameter
geeignet wählt oder abändert und das Modell abspeichert. Die hier hinterlegten
Parameter werden während der Spracherzeugung, die später genauer erläutert wird,
zusammen mit der Prosodie-Information für die Intonation verwendet.
Dabei können auch Besonderheiten des Sprechers wie z. B. Akzente oder
Sprachfehler eingegeben werden. Diese werden vom Übersetzer zur Modifikation der
Aussprache verwendet. Ein einfaches Beispiel eines solchen Modifikators ist z. B. die
Regel, jeweils (in der Lautschrift) "∫t" durch "st" zu ersetzen (für die Erzeugung des
Akzents eines Hamburgers).
Ein Sprechermodell kann also beispielsweise die Regeln betreffen, nach denen der
Übersetzer die Lautschrift erzeugt, unterschiedliche Sprechermodelle können dabei
nach unterschiedlichen regeln verfahren. Es kann jedoch auch einem bestimmten
Satz von Filterparametern entsprechen, um die Sprachsignale entsprechend der
dadurch vorgegebenen Sprechercharakteristik zu verarbeiten. Selbstverständlich sind
auch beliebige Kombinationen dieser beiden Aspekte eines Sprechermodells denkbar.
Die Aufgabe der Spracherzeugungseinheit 140 besteht darin, aus dem vorgegebenen
Text zusammen mit den vom Übersetzer erzeugten und vom Anwender editierten
phonetischen und prosodischen Zusatzinformationen einen numerischen Datenstrom
zu erzeugen, welcher digitale Sprachsignale repräsentiert. Dieser Datenstrom kann
dann von einem Ausgabegerät 150, etwa einem digitalen Audio-Gerät oder einer
Soundkarte im PC, in analoge Tonsignale, den auszugebenden Text, umgewandelt
werden.
Für die Spracherzeugung kann ein herkömmliches Text-to-Speech Konversions
verfahren angewendet werden, wobei allerdings die Aussprache und die Satzmelodie
bereits erzeugt worden sind. Im allgemeinen unterscheidet man zwischen
regelbasierten und verkettungsbasierten Synthesizern.
Regelbasierte Synthesizer arbeiten mit Regeln für die Generierung der Laute und die
Übergänge dazwischen. Diese Synthesizer arbeiten mit bis zu 60 Parametern, deren
Bestimmung sehr aufwendig ist. Dafür können mit ihnen auch sehr gute Ergebnisse
erzielt werden. Eine Übersicht über derartige Systeme und Hinweise zu weiterer
Literatur findet sich in "Thierry Dutoit: An Introduction to Text-to-Speech Synthesis,
Kluwer 1997".
Verkettungsbasierte Synthesizer sind dagegen einfacher zu handhaben. Sie arbeiten
mit einer Datenbank, welche alle möglichen Lautpaare speichert. Diese können
einfach verkettet werden, wobei allerdings qualitativ gute Systeme hohen
Rechenzeitbedarf haben. Derartige Systeme sind beschrieben in "Thierry Dutoit: An
Introduction to Text-to-Speech Synthesis, Kluwer 1997" und in "Volker Kraft: Ver
kettung natürlichsprachlicher Bausteine zur Sprachsynthese: Anforderungen,
Techniken und Evaluierung. Fortschr.-Ber.VDI Reihe 10 Nr. 468, VDI-Verlag 1997".
Grundsätzlich können beide Systemarten verwendet werden. In den regelbasierten
Synthesizern fließt die prosodische Information direkt in das Regelwerk ein, während
diese in verkettungsbasierten Systemen in geeigneter Weise überlagert wird.
Für die Erzeugung besonderer Effekte 160 werden bekannte Techniken aus der
digitalen Signalverarbeitung eingesetzt, wie z. B. digitale Filter (z. B. Bandpassfilter für
Telefon-Effekt), Hallgeneratoren usw. Diese können auch auf in einem Archiv 170
gespeicherte Geräusche angewendet werden.
Im Archiv 170 sind Geräusche wie z. B. Straßenlärm, Eisenbahn, Kindergeschrei,
Meereswogen, Hintergrundmusik usw. gespeichert. Das Archiv kann mit eigenen
Geräuschen beliebig erweitert werden. Das Archiv kann einfach eine Sammlung von
Dateien mit digitalisierten Geräuschen sein, es kann aber auch eine Datenbank sein,
in der die Geräusche als Blobs (binary large objects) untergebracht sind.
In der Misch-Einrichtung 180 werden die erzeugten Sprachsignale mit den
Hintergrundgeräuschen zusammengebaut. Die Lautstarke aller Signale kann dabei
vor dem Zusammensetzten reguliert werden. Zudem ist es möglich, jedes Signal
einzeln oder alle zusammen mit Effekten zu versehen.
Das Ergebnis des so erzeugten Signals kann an ein geeignetes Gerät für digitales
Audio 150, etwa eine Soundkarte eines PC, übergeben und so akustisch überprüft
bzw. ausgegeben werden. Zudem ist eine (nicht gezeigte) Speichereinrichtung
vorgesehen, um das Signal abzuspeichern, damit es später in geeigneter Weise auf
das Zielmedium übertragen werden kann.
Als Misch-Einrichtung kann ein klassisch in Hardware realisiertes Gerät verwendet
werden, oder es kann in Software realisiert und in das gesamte Programm
eingebunden werden.
Für den Fachmann ergeben sich leicht Modifikationen des oben geschriebenen
Ausführungsbeispiels. So kann beispielsweise in einem weiteren Ausführungsbeispiel
der vorliegenden Erfindung das Ausgabegerät 150 durch einen weiteren Computer
ersetzt sein, der mittels einer Netzwerkverbindung an die Mischeinrichtung 180
angekoppelt ist. So kann beispielsweise über ein Computernetz, etwa das Internet,
das erzeugte Sprachsignal auf einen anderen Computer übertragen werden.
In einem weiteren Ausführungsbeispiel kann auch das von der Spracherzeugungs
einrichtung 140 erzeugte Sprachsignal direkt an das Ausgabegerät 150 übertragen
werden, ohne den Umweg über die Mischeinrichtung 180. Weitere vergleichbare
Modifikationen ergeben sich für den Fachmann auf zwanglose Weise.
Claims (21)
1. Vorrichtung zur digitalen Sprachbearbeitung, welche aufweist:
eine Satzmelodie-Erzeugungseinrichtung zur Erzeugung einer Satzmelodie für einen Text; und
eine Editiereinrichtung zum Anzeigen und Modifizieren der erzeugten Satzmelodie.
eine Satzmelodie-Erzeugungseinrichtung zur Erzeugung einer Satzmelodie für einen Text; und
eine Editiereinrichtung zum Anzeigen und Modifizieren der erzeugten Satzmelodie.
2. Vorrichtung nach Anspruch 1, welche ferner aufweist:
eine Übersetzungseinrichtung zur Übersetzung des Textes in eine Lautschrift; wobei die Editiereinrichtung ferner aufweist:
eine Einrichtung zum Anzeigen und Modifizieren der erzeugten Lautschrift.
eine Übersetzungseinrichtung zur Übersetzung des Textes in eine Lautschrift; wobei die Editiereinrichtung ferner aufweist:
eine Einrichtung zum Anzeigen und Modifizieren der erzeugten Lautschrift.
3. Vorrichtung nach Anspruch 1 oder 2, bei der
die Satzmelodie-Erzeugungseinrichtung und/oder die Übersetzungs
einrichtung die Satzmelodie und/oder die Lautschrift basierend auf bzw. in
Abhängigkeit von einem bestimmten Sprechermodell erzeugen.
4. Vorrichtung nach einem der Ansprüche 1 bis 3, welche ferner
aufweist:
eine Einrichtung zur Auswahl und/oder Modifikation eines oder mehrerer Sprechermodelle.
eine Einrichtung zur Auswahl und/oder Modifikation eines oder mehrerer Sprechermodelle.
5. Vorrichtung nach Anspruch 4, bei der die Einrichtung zur Modifikation
von Sprechermodellen aufweist:
eine Einrichtung zur Modifikation von Lautschriftelementen zur Erzeugung von Akzenten.
eine Einrichtung zur Modifikation von Lautschriftelementen zur Erzeugung von Akzenten.
6. Vorrichtung zur Erzeugung digitaler Sprache, welche aufweist:
eine Vorrichtung zur digitalen Sprachbearbeitung nach einem der Ansprüche 1 bis 5; und
eine Einrichtung zur Erzeugung von Sprachsignalen basierend auf der gegebenenfalls mittels der Editiereinrichtung modifizierten Lautschrift und/oder Satzmelodie.
eine Vorrichtung zur digitalen Sprachbearbeitung nach einem der Ansprüche 1 bis 5; und
eine Einrichtung zur Erzeugung von Sprachsignalen basierend auf der gegebenenfalls mittels der Editiereinrichtung modifizierten Lautschrift und/oder Satzmelodie.
7. Vorrichtung nach Anspruch 6, bei der die Sprachsignal-Er
zeugungseinrichtung ferner aufweist:
eine Sprechermodell-Verarbeitungseinrichtung zur Erzeugung der Sprachsignale basierend auf bzw. in Abhängigkeit von einem bestimmten Sprechermodell.
eine Sprechermodell-Verarbeitungseinrichtung zur Erzeugung der Sprachsignale basierend auf bzw. in Abhängigkeit von einem bestimmten Sprechermodell.
8. Vorrichtung nach Anspruch 7, bei der die Sprechermodell-Ver
arbeitungseinrichtung eines oder mehrere der folgenden Merkale aufweist:
ein digitales Filtersystem;
eine Einrichtung zur Übernahme eines Satzes von Filterparametern, der ein bestimmtes Sprechermodell repräsentiert.
ein digitales Filtersystem;
eine Einrichtung zur Übernahme eines Satzes von Filterparametern, der ein bestimmtes Sprechermodell repräsentiert.
9. Vorrichtung nach Anspruch 7 oder 8, bei der die Sprechermodell-Ver
arbeitungseinrichtung ferner aufweist:
eine Einrichtung Auswahl und/oder Modifikation eines Sprechermodells.
eine Einrichtung Auswahl und/oder Modifikation eines Sprechermodells.
10. Vorrichtung nach einem der Ansprüche 6 bis 9, welche ferner
aufweist:
eine Effekt-Einrichtung zur Generierung von Toneffekten.
eine Effekt-Einrichtung zur Generierung von Toneffekten.
11. Vorrichtung nach Anspruch 10, wobei die Effekt-Einrichtung eines
oder mehrere der folgenden Merkmale aufweist:
eine digitale Filtereinrichtung zur Modifikation der erzeugten Sprachsignale und/oder
einen Hallgenerator zur Erzeugung eines Hall-Effekts.
eine digitale Filtereinrichtung zur Modifikation der erzeugten Sprachsignale und/oder
einen Hallgenerator zur Erzeugung eines Hall-Effekts.
12. Vorrichtung nach einem der Ansprüche 6 bis 11 welche ferner
aufweist:
eine Archiv-Einrichtung zur Speicherung von Geräuschen; und
eine Mischeinrichtung zur Mischung der erzeugten Sprachsignale mit in der Archiv-Einrichtung gespeicherten Geräuschen.
eine Archiv-Einrichtung zur Speicherung von Geräuschen; und
eine Mischeinrichtung zur Mischung der erzeugten Sprachsignale mit in der Archiv-Einrichtung gespeicherten Geräuschen.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, welche
ferner aufweist:
eine grafische Benutzerschnittstelle zur Editierung der erzeugten Lautschrift und/oder Satzmelodie.
eine grafische Benutzerschnittstelle zur Editierung der erzeugten Lautschrift und/oder Satzmelodie.
14. Vorrichtung nach einem der vorhergehenden Ansprüche, welche
ferner aufweist:
eine Einrichtung zur Modifikation von Sprechrhythmus und/oder Aussprache und/oder Betonung.
eine Einrichtung zur Modifikation von Sprechrhythmus und/oder Aussprache und/oder Betonung.
15. Vorrichtung nach einem der vorhergehenden Ansprüche, welche
ferner aufweist:
eine Anzeigeeinrichtung, welche die Satzmelodie mittels einer Symbolschrift anzeigt.
eine Anzeigeeinrichtung, welche die Satzmelodie mittels einer Symbolschrift anzeigt.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, welche
ferner aufweist:
eine Wörterbuch-Einrichtung, in der die Wörter einer oder mehrerer Sprachen zusammen mit ihrer Aussprache gespeichert sind.
eine Wörterbuch-Einrichtung, in der die Wörter einer oder mehrerer Sprachen zusammen mit ihrer Aussprache gespeichert sind.
17. Vorrichtung nach Anspruch 16, bei der in der Wörterbuch-Einrichtung
für mindestens einen Wörterbucheintrag unterschiedliche phonetische Einträge
gespeichert sind.
18. Vorrichtung nach einem der Ansprüche 6 bis 17, welche ferner
aufweist:
eine Einrichtung zur Umsetzung der digitalen Sprachsignale in akustische Signale.
eine Einrichtung zur Umsetzung der digitalen Sprachsignale in akustische Signale.
19. Verfahren zur digitalen Sprachbearbeitung, welches folgende Schritte
aufweist:
Erzeugung einer Satzmelodie für einen Text;
Anzeigen der erzeugten Satzmelodie; und
Editieren der erzeugten und angezeigten Satzmelodie.
Erzeugung einer Satzmelodie für einen Text;
Anzeigen der erzeugten Satzmelodie; und
Editieren der erzeugten und angezeigten Satzmelodie.
20. Verfahren nach Anspruch 19, welches ferner folgenden Schritt
aufweist:
Verwenden einer Vorrichtung gemäß einem der Ansprüche 1 bis 18 zur Erzeugung digitaler Sprache.
Verwenden einer Vorrichtung gemäß einem der Ansprüche 1 bis 18 zur Erzeugung digitaler Sprache.
21. Computerprogramprodukt, welches aufweist:
ein Medium, insbesondere ein Datenträger, zur Speicherung und/oder Übertragung von digitalen von einem Computer lesbaren Daten, wobei die gespeicherten und/oder übertragenen Daten folgendes aufweisen:
eine Abfolge von einem Computer ausführbarer Befehle, welche diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 19 oder 20 auszuführen.
ein Medium, insbesondere ein Datenträger, zur Speicherung und/oder Übertragung von digitalen von einem Computer lesbaren Daten, wobei die gespeicherten und/oder übertragenen Daten folgendes aufweisen:
eine Abfolge von einem Computer ausführbarer Befehle, welche diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 19 oder 20 auszuführen.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19841683A DE19841683A1 (de) | 1998-09-11 | 1998-09-11 | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
CA002343071A CA2343071A1 (en) | 1998-09-11 | 1999-09-10 | Device and method for digital voice processing |
JP2000570766A JP2002525663A (ja) | 1998-09-11 | 1999-09-10 | ディジタル音声処理装置及び方法 |
AU60813/99A AU769036B2 (en) | 1998-09-11 | 1999-09-10 | Device and method for digital voice processing |
AT99947314T ATE222393T1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
EP99947314A EP1110203B1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
PCT/EP1999/006712 WO2000016310A1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
DE59902365T DE59902365D1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19841683A DE19841683A1 (de) | 1998-09-11 | 1998-09-11 | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19841683A1 true DE19841683A1 (de) | 2000-05-11 |
Family
ID=7880683
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19841683A Withdrawn DE19841683A1 (de) | 1998-09-11 | 1998-09-11 | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
DE59902365T Expired - Fee Related DE59902365D1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59902365T Expired - Fee Related DE59902365D1 (de) | 1998-09-11 | 1999-09-10 | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP1110203B1 (de) |
JP (1) | JP2002525663A (de) |
AT (1) | ATE222393T1 (de) |
AU (1) | AU769036B2 (de) |
CA (1) | CA2343071A1 (de) |
DE (2) | DE19841683A1 (de) |
WO (1) | WO2000016310A1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10117367A1 (de) * | 2001-04-06 | 2002-10-17 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
US8566880B2 (en) | 2008-07-22 | 2013-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for providing a television sequence using database and user inputs |
US10424288B2 (en) | 2017-03-31 | 2019-09-24 | Wipro Limited | System and method for rendering textual messages using customized natural voice |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318593A (ja) * | 2001-04-20 | 2002-10-31 | Sony Corp | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 |
AT6920U1 (de) | 2002-02-14 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen |
CA2557079A1 (en) | 2004-03-05 | 2005-09-22 | Lessac Technologies, Inc. | Prosodic speech text codes and their use in computerized speech systems |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4443857A (en) * | 1980-11-07 | 1984-04-17 | Thomson-Csf | Process for detecting the melody frequency in a speech signal and a device for implementing same |
US4596032A (en) * | 1981-12-14 | 1986-06-17 | Canon Kabushiki Kaisha | Electronic equipment with time-based correction means that maintains the frequency of the corrected signal substantially unchanged |
US4613985A (en) * | 1979-12-28 | 1986-09-23 | Sharp Kabushiki Kaisha | Speech synthesizer with function of developing melodies |
DE3590157C2 (de) * | 1984-04-18 | 1991-12-19 | Golden Enterprises, Melbourne, Fla., Us | |
DE19503419A1 (de) * | 1995-02-03 | 1996-08-08 | Bosch Gmbh Robert | Verfahren und Einrichtung zur Ausgabe von digital codierten Verkehrsmeldungen mittels synthetisch erzeugter Sprache |
US5659663A (en) * | 1995-03-10 | 1997-08-19 | Winbond Electronics Corp. | Integrated automatically synchronized speech/melody synthesizer with programmable mixing capability |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5559927A (en) * | 1992-08-19 | 1996-09-24 | Clynes; Manfred | Computer system producing emotionally-expressive speech messages |
US5956685A (en) * | 1994-09-12 | 1999-09-21 | Arcadia, Inc. | Sound characteristic converter, sound-label association apparatus and method therefor |
JP3066452B2 (ja) * | 1994-09-12 | 2000-07-17 | 株式会社アルカディア | 音特性変換装置、音・ラベル対応付け装置およびこれらの方法 |
EP0762384A2 (de) * | 1995-09-01 | 1997-03-12 | AT&T IPM Corp. | Verfahren und Vorrichtung zur Veränderung von Stimmeigenschaften synthetisch erzeugter Sprache |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
JP3616250B2 (ja) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
-
1998
- 1998-09-11 DE DE19841683A patent/DE19841683A1/de not_active Withdrawn
-
1999
- 1999-09-10 AU AU60813/99A patent/AU769036B2/en not_active Ceased
- 1999-09-10 WO PCT/EP1999/006712 patent/WO2000016310A1/de active IP Right Grant
- 1999-09-10 CA CA002343071A patent/CA2343071A1/en not_active Abandoned
- 1999-09-10 EP EP99947314A patent/EP1110203B1/de not_active Expired - Lifetime
- 1999-09-10 DE DE59902365T patent/DE59902365D1/de not_active Expired - Fee Related
- 1999-09-10 JP JP2000570766A patent/JP2002525663A/ja not_active Withdrawn
- 1999-09-10 AT AT99947314T patent/ATE222393T1/de not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4613985A (en) * | 1979-12-28 | 1986-09-23 | Sharp Kabushiki Kaisha | Speech synthesizer with function of developing melodies |
US4443857A (en) * | 1980-11-07 | 1984-04-17 | Thomson-Csf | Process for detecting the melody frequency in a speech signal and a device for implementing same |
US4596032A (en) * | 1981-12-14 | 1986-06-17 | Canon Kabushiki Kaisha | Electronic equipment with time-based correction means that maintains the frequency of the corrected signal substantially unchanged |
DE3590157C2 (de) * | 1984-04-18 | 1991-12-19 | Golden Enterprises, Melbourne, Fla., Us | |
DE19503419A1 (de) * | 1995-02-03 | 1996-08-08 | Bosch Gmbh Robert | Verfahren und Einrichtung zur Ausgabe von digital codierten Verkehrsmeldungen mittels synthetisch erzeugter Sprache |
US5659663A (en) * | 1995-03-10 | 1997-08-19 | Winbond Electronics Corp. | Integrated automatically synchronized speech/melody synthesizer with programmable mixing capability |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10117367A1 (de) * | 2001-04-06 | 2002-10-17 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
DE10117367B4 (de) * | 2001-04-06 | 2005-08-18 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
US7664645B2 (en) | 2004-03-12 | 2010-02-16 | Svox Ag | Individualization of voice output by matching synthesized voice target voice |
US8566880B2 (en) | 2008-07-22 | 2013-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for providing a television sequence using database and user inputs |
US10424288B2 (en) | 2017-03-31 | 2019-09-24 | Wipro Limited | System and method for rendering textual messages using customized natural voice |
Also Published As
Publication number | Publication date |
---|---|
JP2002525663A (ja) | 2002-08-13 |
EP1110203B1 (de) | 2002-08-14 |
AU6081399A (en) | 2000-04-03 |
DE59902365D1 (de) | 2002-09-19 |
CA2343071A1 (en) | 2000-03-23 |
WO2000016310A1 (de) | 2000-03-23 |
EP1110203A1 (de) | 2001-06-27 |
AU769036B2 (en) | 2004-01-15 |
ATE222393T1 (de) | 2002-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
Jilka | The contribution of intonation to the perception of foreign accent | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE3856146T2 (de) | Sprachsynthese | |
JPH0833744B2 (ja) | 音声合成装置 | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
Schröder | Can emotions be synthesized without controlling voice quality | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
EP1344211B1 (de) | Vorrichtung und verfahren zur differenzierten sprachausgabe | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
EP3144929A1 (de) | Synthetische erzeugung eines natürlich klingenden sprachsignals | |
EP1212748A1 (de) | Digitales sprachsyntheseverfahren mit intonationsnachbildung | |
Murray | Emotion in concatenated speech | |
JP2573587B2 (ja) | ピッチパタン生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: KULL, HANS, MT DUNEED VIC, AU |
|
8139 | Disposal/non-payment of the annual fee |