DE69932819T2 - Intelligente text-sprache-umsetzung - Google Patents
Intelligente text-sprache-umsetzung Download PDFInfo
- Publication number
- DE69932819T2 DE69932819T2 DE69932819T DE69932819T DE69932819T2 DE 69932819 T2 DE69932819 T2 DE 69932819T2 DE 69932819 T DE69932819 T DE 69932819T DE 69932819 T DE69932819 T DE 69932819T DE 69932819 T2 DE69932819 T2 DE 69932819T2
- Authority
- DE
- Germany
- Prior art keywords
- text
- input text
- speech
- semantics
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 238000009877 rendering Methods 0.000 claims abstract description 9
- 230000001131 transforming effect Effects 0.000 claims abstract 3
- 239000003607 modifier Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 206010048865 Hypoacusis Diseases 0.000 claims description 2
- 230000001771 impaired effect Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 3
- 238000013459 approach Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 241001417516 Haemulidae Species 0.000 description 2
- 241000220010 Rhode Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 241000251323 Matthiola oxyceras Species 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Surgical Instruments (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Description
- Die vorliegende Erfindung betrifft allgemein die Synthese von Text zu gesprochener Sprache und insbesondere die intelligente Synthese von Text zu gesprochener Sprache.
- Wir nehmen viele Informationen über das Hören auf, insbesondere, wenn unsere visuelle Aufmerksamkeit anderen Aufgaben gilt, beispielsweise dem Fahren. Das Radio ist eine gute Quelle akustisch dargebotener Berichte oder anderer Veröffentlichungen, und für einige Menschen wird diese Informationsquelle sehr wichtig. Einer Studie zufolge besitzt jede Familie in den Vereinigten Staaten im Durchschnitt fünf Radiogeräte. Obgleich das Radio unentbehrlich geworden sein mag, bieten die von den Radiosendern angebotenen Programme nicht notwendigerweise das, woran der Einzelne im Moment interessiert ist.
- Auf dem Markt werden vorgelesene Texte oder Audio-Texte, beispielsweise Romane, angeboten. Solche Aufzeichnungen stehen jedoch offenbar nur für ein bestimmtes Marktsegment zur Verfügung. So gibt es offenbar keine Audio-Unterlagen für Informationen, die nur kurze Zeit von Interesse sind wie beispielsweise Nachrichten, Wettervorhersagen oder Sportergebnisse. Einige Informationen, z.B. Börsennotierungen, sind nur für eine sehr kurze Zeitspanne von Wert, und es machte keinen Sinn, solche Audio-Dokumente zu produzieren.
- Eine große Zahl von Audio-Unterlagen kann durch das automatische Übertragen von Text in eine gesprochene Ausgabe hergestellt werden. Allgemeine Beschreibungen solcher Synthesesysteme, die Text in gesprochene Sprache synthetisieren, sind beispielsweise in den folgenden Veröffentlichungen zu finden:
- 1. Multilingual Text-to-Speech Synthesis, The Bell Labs Approach, geschrieben von Richard Sproat und veröffentlicht von Kluwer Academic Publishers im Jahre 1998.
- 2. IBM Via Voice
- Solche Systeme führen üblicherweise eine direkte Übertragung vom Wort zum Laut durch. Das gesprochene Ergebnis hört sich im allgemeinen nicht sehr natürlich an, und bei diesen Systemen kommt es vor, dass Fehler gemacht werden. Das kann daran liegen, dass solchen Systemen nicht „bewußt" ist, was gelesen wird.
- Die Art, wie wir lesen, berücksichtigt den Inhalt des Textes. Wenn wir beispielsweise den wichtigsten Satz eines Nachrichtenbeitrags lesen, betonen wir ihn üblicherweise. Da die bestehenden Systeme jedoch offenbar den Sinn des Textes, den sie transformieren, überhaupt nicht berücksichtigen, neigen sie dazu, die eingegebenen Texte mit gleichbleibender Geschwindigkeit, gleicher Tonhöhe und Lautstärke zu übertragen. Das ist einer der Gründe, warum die gesprochenen Ausgangsprodukte bestehender Systeme üblicherweise monoton und langweilig sind. Die Art, wie wir lesen, sollte auch unseren Hörer berücksichtigen. Wenn unser Hörer sehbehindert ist und wir ein Objekt beschreiben, dann sollten wir das Objekt mit mehr Einzelheiten beschreiben. Außerdem sollte die Art unseres Sprechens ebenfalls die Hardware berücksichtigen, die ein Hörer zum Zuhören zur Verfügung hat. Soll die verlesene Botschaft beispielsweise in einem Raum mit hohem Geräuschpegel gehört werden, dann müsste lauter gesprochen werden.
- Aus dem oben Gesagten sollte deutlich geworden sein, dass es immer noch keine Einrichtung für eine intelligente Synthese von schriftlichem Text in gesprochene Sprache gibt, die beispielsweise sowohl den Inhalt des Textes als auch den Hörer eines gesprochenen Textes berücksichtigt oder an die Hardware anpasst, die der Hörer des Textes verwendet.
- In US-A-5761640 wird ein System beschrieben, bei dem Text dadurch bearbeitet wird, dass Felder erkannt werden; der in jedem der Felder enthaltene Text wird normiert, um Abkürzungen zu korrigieren; Akronyme werden erkannt und für die Sprachsynthese vorbereitet und zu buchstabierende Texte werden entsprechend markiert. Diese Bearbeitungstechnik formatiert Texte lediglich, indem Abkürzungen ersetzt und Akronyme buchstabiert werden, so dass eine Synthetisiereinrichtung, die Text in gesprochener Sprache generiert, den eingegebenen Text richtig auslesen kann. Auf ähnliche Weise lehrt WO-A-9622594 das Formatieren einge gebenen Textes, damit er von einer Einrichtung, die Text zu gesprochener Sprache synthetisiert, gelesen werden kann.
- Ein Aspekt der vorliegenden Erfindung schafft ein Verfahren, mit dem nach Anspruch 1 gesprochene Sprache aus einem eingegebenen Text synthetisiert werden kann. Gemäß einem weiteren Aspekt der vorliegenden Erfindung schafft die vorliegende Erfindung gemäß Anspruch 25 eine Datenverarbeitungseinrichtung zum Synthetisieren von gesprochener Sprache aus eingegebenem Text.
- Bevorzugte Ausführungsformen der vorliegenden Erfindung schaffen Verfahren und Einrichtungen zum intelligenten Synthetisieren von gesprochener Sprache aus Texten. Unterschiedliche wichtige, bisher jedoch ignorierte Faktoren in der vorliegenden Erfindung verbessern die erzeugte Sprache. Die erfindungsgemäße Sprach-Synthetisiereinrichtung kann die Semantik des eingegebenen Textes berücksichtigen. Wenn beispielsweise ein Mann sprechen sollte, wird eine männliche Stimme eingesetzt. Die Synthetisiereinrichtung kann das Benutzerprofil der Person berücksichtigen, die dem eingegebenen Text zuhört. Die Synthetisiereinrichtung kann ebenfalls die Hardware einbeziehen, die der Nutzer verwendet, um den eingegebenen Text zu hören. Die Synthetisiereinrichtung Text-zu-gesprochener Sprache ist also viel intelligenter als die auf dem Markt erhältlichen Einrichtungen. Es gibt mehrere Wege, die Erfindung zu implementieren. In einer Ausführungsform enthält die Synthetisiereinrichtung einen Umsetzer, eine Modifiziereinrichtung, eine Text-zu-Sprache-Software-Maschine und eine Sprach-Hardware. Der Umsetzer analysiert den eingegebenen Text und transformiert ihn in einen formatierten Text. Dann modifiziert die Modifiziereinrichtung diesen formatierten Text so, dass er die Anforderungen der Text-zu-Sprache-Software-Maschine erfüllt, deren Ausgabedaten der Sprach-Hardware zugeführt werden, um die gesprochene Sprachausgabe zu erzeugen. Der eingegebene Text weist eine Anzahl von Eigenschaften auf. Er gehört zu einer Klasse, die mindestens ein spezifisches Muster aufweist. Dieses Muster kann beispielsweise darin bestehen, dass die wichtigsten Absätze einer Art von Artikeln der erste und der letzte Absatz sind, wie dies bei einem Zeitungsartikel der Fall ist. Auch der formatierte Text weist mehrere Charakteristika auf. Er kann von der Text-zu-Sprache-Software-Maschine unabhängig sein, er kann beispielsweise in Extensible Markup Language (XML) geschrieben sein.
- Bei einer Ausführungsform basiert das Erzeugen des formatierten Textes auf der Semantik mindestens eines Wortes des Textes. Die Semantik kann von einem Autor bestimmt werden – einem Menschen. Bei einer weiteren Vorgehensweise wird die Semantik durch das Zuordnen (Mapping) der Wörter zu einer Datenbasis erzeugt. Besteht das Wort beispielsweise aus dem Namen einer Firma, dann kann die Datenbasis eine zusätzliche Information über die Firma liefern, beispielsweise den Aktienpreis zu einer bestimmten Zeit. Bei einem weiteren Lösungsweg wird die Semantik durch eine Inferenzmaschine erkannt. Wenn beispielsweise die Wörter „Mr. Clinton" sind, geht die Inferenzmaschine aufgrund einiger eingespeicherter Regeln davon aus, dass sich die Wörter auf eine männliche Person beziehen. Dann kann eine männliche Stimme für die Wiedergabe eingesetzt werden.
- Bei einer weiteren Ausführungsform basiert die Transformation, die den formatierten Text erzeugt, auf mindestens einer Charakteristik des der synthetisierten Sprache zuhörenden Hörers. Bei noch einer weiteren Ausführungsform hängt die Transformation des zu generierenden formatierten Textes von mindestens einer Charakteristik der Hardware ab, die der Nutzer beim Hören zu der synthetisierten Sprache verwendet. Die oben beschriebenen Ausführungsformen können vermischt und aufeinander abgestimmt ausgeführt sein. So kann sich die Transformation beispielsweise auf die Semantik mindestens eines Wortes des Textes und einer Charakteristik des Nutzers gründen, der der synthetisierten Sprache zuhört.
- Basierend auf den oben beschriebenen Lösungswegen können mehrere Eigenschaften der sprachlichen Ausgangswiedergabe bestimmt werden. Dazu können Lautstärke, Tonhöhe, Geschlecht der Stimme, Ton, Pausen zwischen einander folgenden Wörtern und andere besondere Betonungen eines Wortes gehören. Diese spezielle Betonung kann irgendeine Art von Laut sein, die auf der Semantik beruht, jedoch nicht auf der syntaktischen Bedeutung des Wortes. Beispiele für den eingespielten Laut können ein tiefer Seufzer, ein Grunzen oder schweres Atmen sein. Diese Ausdrücke auf Lautbasis können einen großen Bedeutungsinhalt übermitteln. Gerade so, wie ein Bild tausend Worte ersetzt, schafft ein geeigneter Laut oder ein betonendes Geräusch eine zusätzliche Bedeutung, die für jeden Kommunikationsvorgang sehr befruchtend sein kann.
- Der formatierte Text kann weiter modifiziert werden, um den Anforderungen der Text-zu-Sprache-Software-Maschine angepasst zu werden. Bei einer Ausführungsform wird diese Modifikation durch Tags ausgeführt, wobei ein Tag ein von der Maschine interpretierter Befehl sein kann und nicht ein von der Maschine ausgesprochenes Wort ist. Der modifizierte Text wird dann der Sprach-Hardware zugeleitet, die die Sprachausgabe erzeugt.
- Es wird darauf hingewiesen, dass die in der Beschreibung verwendete Sprache hauptsächlich ihrer Lesbarkeit und Instruktionsfähigkeit halber ausgewählt wurde und möglicherweise nicht zur genauen Darstellung oder Umschreibung des erfindungsgemäßen Inhalts. Die in der Beschreibung beschriebenen Merkmale und Vorteile umfassen außerdem nicht den ganzen Inhalt der Erfindung. Weitere Aspekte und Vorteile der vorliegenden Erfindung ergeben sich für Fachleute aus der Beschreibung, die an Hand von Beispielen die Grundsätze der Erfindung darstellt.
- Kurzbeschreibung der Zeichnungen
-
1 zeigt eine Ausführungsform zur Implementierung der vorliegenden Erfindung. -
2 zeigt drei Lösungswege, um ein Stück Eingabetext nach der vorliegenden Erfindung in formatierten Text umzuwandeln. -
3 zeigt drei Lösungswege, um ein Stück Eingabetext auf der Basis der Semantik mindestens eines Wortes nach vorliegenden Erfindung umzuwandeln. -
4 zeigt eine Anzahl von Charakteristika der gesprochenen Sprachausgabe, die nach der vorliegenden Erfindung bestimmt werden können. - Ähnliche Elemente sind in allen
1 bis4 mit den gleichen Bezugszeichen versehen. Ausführungsformen der Erfindung werden nachfolgend mit Bezug auf die1 bis4 beschrieben. Fachleuten auf diesem Gebiet wird jedoch ohne weiteres klar sein, dass die folgende detaillierte Beschreibung auf der Basis dieser Figuren lediglich Beispiele liefert, da die Erfindung sich über diese begrenzten Ausführungsformen hinaus erstreckt. - Detaillierte Beschreibung der Erfindung
- In
1 ist eine Ausführungsform100 dargestellt, um die vorliegende Erfindung in einem Datenbearbeitungssystem zu implementieren. Zuerst sucht eine Ladevorrichtung102 ein Stück vorher in das System eingegebenen Eingabetextes104 heraus. Der Eingabetext104 kann sich in einem Speichermedium befinden. Dann analysiert ein Umsetzer106 den Eingabetext104 und wandelt ihn in einen formatierten Text108 um. Eine Modifiziereinrichtung110 modifiziert diesen formatierten Text108 weiter, um ihn den Anforderungen eine Software-Maschine114 , die den Text in gesprochene Sprache synthetisiert, und einer Hardware-Maschine116 anzupassen, die die Sprachausgabe generiert. - Der Eingabetext
104 gehört zu einer Klasse von Texten mit mindestens einer spezifischen Eigenschaft. Beispielweise sind bei manchen Artikeln der erste und der letzte Absatz die wichtigsten Textteile, z.B. bei Zeitungen. Ein weiteres Bespiel ist ein Wetterbericht, wie er im nachfolgenden Beispiel 1 dargestellt wird. - Der formatierte Text
108 weist ebenfalls mehrere charakteristische Eigenschaften auf. Er kann die Software-Maschine114 , die Text in gesprochene Sprache synthetisiert, unberücksichtigt lassen. Mit anderen Worten, der formatierte Text108 kann in einer Sprache geschrieben sein, die auf mehreren verschiedenen Plattformen transparent ausgeführt ist. Der formatierte Text108 kann dann weiter durch die Modifiziereinrichtung110 modifiziert werden, damit er von der den Text in gesprochene Sprache synthetisierenden Software-Maschine114 bearbeitet werden kann. - In einer Ausführungsform ist der formatierte Text
108 in Extensible Markup Language (XML) geschrieben, die ein Datenformat für strukturierten Dokumentenaustausch im Internet ist. XML ist ein Standardverfahren zum Markieren von Dokumenten. Man kann die Grammatik definieren, um ein bestimmtes Dokument mit Tags und ihren Attributen zu markieren. Eine allgemeine Beschreibung der XML ist im Internet mit einer URL unter http://www.w3.org/XML in einem Artikel mit dem Titel „Extensible Markup Language (XML)" zu finden. - In einer weiteren Ausführungsform enthält der formatierte Text
108 Tags, die spezifische Aktionen definieren und von nachfolgend angeordneten Maschinen implementiert werden können, die jene Tags interpretieren. Auf der Basis des XML-Beispiels kann ein XML-tauglicher Browser die XML-Tags interpretieren und die von den Tags spezifizierten Aktionen auf entsprechende Weise ausführen. Die Aktionen können verschiedene Effekte zur Audio-Hintergrundaufbereitung (Audio Rendering Effects) enthalten wie beispielsweise Hintergrundmusik, Spezialeffekte in Form von Lauten und dem Kontext entsprechende Geräusche. Wenn beispielsweise der Eingabetext104 vom Wiener Walzer handelt, kann ein Wiener Walzer von Johann Strauss als Hintergrundmusik übertragen werden, während der Text gelesen wird. - Andere Markup Languages können ebenfalls für die vorliegende Erfindung angewendet werden wie beispielsweise:
- (I) Standard Generalized Markup Language (SGML), wie sie beispielsweise in The SGML Handbook von Charles Goldfarb beschrieben wird, veröffentlicht bei Clarendon Press, Oxford, 1990.
- (II) Spoken Text Markup Language (STML), wie sie beispielsweise in SSML: A Speech Synthesis Markup Language von Paul Taylor und Amy Isard beschrieben wird, veröffentlicht in Speech Communication 21, 1996.
- (III) A Markup Language for Text-to-Speech Synthesis, geschrieben von Richard Sproat, Paul Taylor, Michael Tanenblatt und Amy Isard, veröffentlicht in den Protokollen der 5. Europäischen Konferenz über Sprachkommunikation und Technologie, Rhodes, im Jahr 1997.
-
2 zeigt drei Lösungswege, um einen eingegebenen Text104 in einen formatierten108 zu transformieren. Ein Lösungsweg betrachtet die Semantik152 des Eingabetextes104 . Ein Grund für das Fehlen der Ausdruckstärke einer menschlichen Stimme bei synthetisierter Sprache liegt darin begründet, dass die Synthetisiereinrichtung den Zusammenhang des Gelesenen nicht versteht. Sie ist nicht quellenorientiert. Mit anderen Worten, sie berücksichtigt nicht die Textquelle. Wenn man sich vorstellt, darüber vorzulesen, dass irgend jemand weint, dann ist die Stimmführung wahrscheinlich anders als bei einem Text, in dem jemand lacht. Eine Synthetisiereinrichtung, die die beiden Passagen auf eine gleichartige Weise vorliest, würde eine falsche Botschaft übermitteln. Bei einem anderen Lösungsweg wird die Person in Betracht gezogen, die die Sprachausgabe118 hört. Eine Möglichkeit, dieses Ziel zu erreichen, ist die Kenntnis vom Hörerprofil154 . Bei einem dritten Lösungsweg wird die vom Hörer für die Sprachausgabe118 verwendete Hardware einbezogen. -
3 zeigt drei Lösungswege, um ein Stück eingegebenen Textes104 auf der Basis der Semantik152 mindestens eines Wortes im Text zu transformieren. Bei einem Lösungsweg bestimmt eine Person175 die Semantik152 . Zum Beispiel trägt die Person an strategischen Stellen im Text ihre Eingaben ein, die angeben, wie die verschiedenen Wörter vorzugsweise zu lesen sind. Wenn die Person wünscht, dass der Satz „Sie liebt mich!" lauter gelesen wird, dann würde sie einen geeignetes Befehlszeichen am Ende des Satzes in den formatierten Text108 einsetzen. Die Person wandelt den Eingabetext104 nach ihren Wünschen um. - Bei einem anderen Lösungsweg wird die Transformation automatisch vom Umsetzer
106 durchgeführt. Dies geschieht über ein Abbilden (mapping) einiger Schlüsselworte in der Datenbasis177 . In einer Ausführungsform wird zuerst die Syntax des Textes analysiert, um spezifische Wörter im Text zu identifizieren, beispielsweise Eigennamen. Diese Wörter werden in einer bestehenden Datenbasis177 abgebildet, um zusätzliche Information zu erhalten. Wenn beispielsweise der Eigenname Microsoft ist, kann das Wort einer Datenbasis177 zugeordnet werden, die unterschiedliche Informationen über Microsoft liefert, beispielsweise den derzeitigen Aktienpreis. - Bei einer weiteren Ausführungsform wird das Auslegen der Semantik von einer Inferenzmaschine
179 durchgeführt. Basierend auf Informationen aus dem Text bestimmt die Inferenzmaschine179 die geeigneten Aktionen. Zum Beispiel kann die Inferenzmaschine179 eine syntaktische Analyse der natürlichen Sprache durchführen und ein statistisches oder regelgebundenes Parsing/Textverstehen. Die Regeln können von fachlichen Experten auf dem Gebiet aufgestellt werden. Der statistische Lösungsweg kann Informationen aus Trainingsbeispielen heranziehen. Mit solchen Parsing-/Verstehenstechniken können Wörter interpretiert werden, um nachfolgende Aktionen festzulegen. Den Fachleuten sollten die Möglichkeiten der Durchführung von syntaktischer Analyse natürlicher Sprache und von statistischem oder regelgebundenem Parsing/Verständnis geläufig sein. Solche Techniken werden in der vorliegenden Beschreibung der Erfindung nicht weiter ausgeführt. - In
4 werden mehrere charakteristische Eigenschaften der Sprachausgabe118 dargestellt, die mit der vorliegenden Erfindung bestimmt werden können. Solche Bestimmungsangaben werden in den Eingabetext104 zum Generieren des formatierten Textes108 eingefügt. In einer Ausführungsform können die Charakteristika als prosodische Charakteristika klassifiziert werden und enthalten die Lautstärke202 , die Tonhöhe204 und den Ton208 . Andere Eigenschaften der Stimme der Sprachausgabe118 umfassen das Geschlecht der Stimme206 und das angenommene Alter207 . Die Wartezeit210 zwischen einem Wort und dem folgenden kann ebenfalls modifiziert werden. Nach der Phrase „vollständige Stille" wird beispielsweise von der Synthetisiereinrichtung eine Sekunde lang nichts generiert. - Ein weiteres charakteristisches Merkmal enthält die einem Wort gegebene besondere Betonung
212 . Eine besondere Betonung kann aus irgendeinem Laut oder Geräusch bestehen, das auf der Semantik des Wortes beruht. Beispiele für eine solche Art von Geräusch können ein tiefer Seufzer sein, ein Grunzen oder ein tiefes Luftholen. Diese auf Geräuschen basierenden Ausdrücke214 können viele Informationen übermitteln. So kann zum Beispiel ein Seufzer nach dem Satz „er raucht eine Zigarette" Entspannung signalisieren. - Ein weiteres Ausgabemerkmal, das bestimmt werden kann, ist das Grundtempo
216 der Sprachausgabe118 . Dabei handelt es sich um die fundamentale Geschwindigkeit beim Vorlesen eines Textstückes, die üblicherweise kein konstanter Wert für den gesamten Text ist. Wie jedoch beispielsweise mit dem Spektrogramm eines Sprachausschnitts dargestellt wird, kann die prinzipielle Frequenzkomponente anhand statistischer Analyse angenommen werden. Eine solche Analyse sollte Fachleuten geläufig sein und wird hier nicht näher beschrieben. - Der formatierte Text
108 wird weiter modifiziert, um den Anforderungen einer Software-Maschine114 zu genügen, die Text in gesprochene Sprache synthetisiert. In einer Ausführungsform geschieht diese Modifikation durch Tags. Dabei kann ein Tag ein auf die Maschine zugeschnittener Befehl sein und nicht ein von der Maschine ausgesprochenes Wort. Der modifizierte Text112 wird dann der Sprach-Software und der Hardware zugeführt, um die Sprachausgabe118 zu generieren. - In einer weiteren Ausführungsform basiert die Umsetzung zur Generierung des formatierten Textes
108 auf einer Charakteristik des der Sprachausgabe118 zuhörenden Nutzers. Dies kann auf der Grundlage des Nutzerprofils154 erreicht werden. Wenn beispielsweise der Nutzer ein Vorstandsmitglied einer Firma ist, hat diese Person wahrscheinlich nicht sehr viel Zeit. Dann werden lediglich die zum Verständnis erforderlichen Informationen mitgeteilt. Wenn diese Person die Temperaturen in San Jose erfahren möchte, dann werden ihr nicht sowohl die hohen und niedrigen als auch die durchschnittlichen Temperaturen mitgeteilt, sondern die Synthetisiereinrichtung gibt nur die Durchschnittstemperatur an – "Die Temperatur in San Jose ist 63 Grad". In einem weiteren Beispiel ist der Nutzer schwerhörig und die Lautstärke der Sprachausgabe118 sollte erhöht sein. - In noch einer weiteren Ausführungsform hängt die Umsetzung zur Generierung des formatierten Textes
108 von der Hardware-Maschine116 , der Sprech-Hardware ab, die der Nutzer verwendet, um der Sprachausgabe118 zuzuhören. Wenn beispielsweise die Sprachausgabe von einer Person über ein Telefon in einem Raum mit lauter Umgebung empfangen wird, sollte die Lautstärke des gesprochenen Textes118 größer sein. In diesem Beispiel kann das Telefon mit dem Raum als Hardware-Maschine116 angesehen werden. - In den oben beschriebenen Ausführungsformen, die auf der Semantik
152 , dem Nutzerprofil154 und der Hardware-Maschine116 basieren, können die Formen der Ausführungen gemischt und aneinander angepasst werden. So kann beispielsweise die Umsetzung auf der Semantik152 mindestens eines Wortes des Textes und dem Profil des Nutzers basieren, der der Sprachausgabe118 zuhört. - Die oben angegebenen Ausführungsformen beschreiben den Umsetzer
106 und die Modifiziereinrichtung110 . In einem Ausführungsbeispiel wird der Eingabetext104 nur von dem Umsetzer106 verändert, wobei der formatierte Text108 auf eine Software- und Hardware-Maschine116 , die Text in gesprochene Sprache synthetisiert, zugeschnitten ist. In einer weiteren Ausführungsform wird der formatierte Text108 auf eine spezifische Hardware-Maschine116 , die Text in gesprochene Sprache synthetisiert, zugeschnitten, ohne dass eine Text-zu-Sprache Software-Maschine erforderlich ist. In einer weiteren Ausführungsform ist eine Maschine, die Text in gesprochene Sprache synthetisiert, mit einem Umsetzer 106 gekoppelt, um die Sprachausgabe118 zu generieren. - Beispiele
- Die folgenden beiden Beispiele sind den Internetseiten vom 11. März 1998 entnommen. Es werden der Originaltext und der XML-formatierte Text dargestellt. Die relevanten Informationen sind den Internetseiten mit einem den Kundenwünschen entsprechenden Parser und Umsetzer extrahiert worden. Die endgültige, mit Tags versehene Text-Sprach-Eingabe wurde mit der Syntax generiert, die von Microsoft Speech SDK vorgeschlagen wird.
-
- TTS-Eingabe-Tags:
-
- Wettervorhersage für San Jose, \pau=100\ Kalifornien. \pau=500\ Heute ist es überwiegend bewölkt \wav=mcloudy.wav\. Die Temperaturen liegen zwischen 74 und 45 Grad \Prn=Fahrenheit=farenhight\. \pau=500\ Morgen wird es teilweise bewölkt sein \wav=pcloudy.wav\, mit Temperaturen zwischen 68 und 48 Grad \Prn=Fahrenheit=farenhight\.
-
- Wir haben dem Satz von Tags der Microsoft-Speech-SDK den Kunden-Tag \wav\ hinzugefügt. \wav\ zeigt an, daß eine Laut-Datei eingemischt werden soll, wenn dieser Tag auftritt. Die Transformationsregeln des XML-Formats zu den Tag-Daten lassen hier ausdrücklich Informationen aus. Die derzeitige Temperatur und die Informationen der weiteren Vorhersage werden in diesem Beispiel nicht angesagt.
-
- Benutzung der Formatierregeln: (a) Markiere alle Standardelemente eines Artikels wie Schlagzeile, Verfasser, usw. (b) Identifiziere die Syntaxstruktur des Textes (z.B. Nebensätze), (c) finde Zitierungen, (d) finde Verben, die die Vorkommnisse betonen, und (e) markiere Phrasen, die außergewöhnliche Eigenschaften der Vorkommnisse unterstreichen.
- TTS-Eingabe-Tags:
-
- \wav=ping.wav\\Vce=Language=English,Gender=male,Sytle=Business\ Viele ohne Strom im mittleren Westen; im Süden kälter \pau=1000\
-
- \wav=dong.wav\Chikago\pau=500\- \Vce=Language=English,Gender=female,Sytle=Business\ Temperaturen \Betonung\ stürzten am Dienstag im Gefolge eines späten Winterschneesturms ab, \pau=100\ was die Stromversorgung von hunderttausenden Einwohnern im mittleren Westen zusammenbrechen ließ und zu Überflutungen im Südosten führte.
-
- \Vce=Language=English,Accent=Midwest,Gender=male,Age=40\ \quot\ Viele Landschaften haben Schneenotstand ausgerufen, \pau=100\ was bedeutet, dass die Einwohner von den Straßen fernbleiben sollten, \quot\\Rst\ sagte Indiana-Katastrophenmanagement-Sprecher Alden Taylor. \Vce=Language=English,Accent=Midwest,Gender=male,Age=40\ \quot\ Es sind so viele Autos auf den Straßen steckengeblieben, daß es für die Pflüge schwer ist, durchzukommen.\quot\Rst\
- Weitere Ausführungsformen der Erfindung ergeben sich für den Fachmann aus der Beschreibung oder bei der Benutzung der Erfindung. Die Beschreibung und die Beispiele sind nur exemplarisch zu betrachten, wobei der Umfang der Erfindung durch die folgenden Ansprüche angezeigt wird.
Claims (26)
- Verfahren zur Sprachsynthese aus einem Eingabetext (
104 ), bei dem das Verfahren die Schritte der Wiedergewinnung des in ein Computersystem eingegebenen Eingabetextes und der Transformation (106 ) des Eingabetextes auf der Basis der Semantik von mindestens einem Wort des Eingabetextes zum Erzeugen eines formatierten Textes (108 ) für die Sprachsynthese enthält, wobei der Transformationsschritt automatisch ist und von dem Kontext des Eingabetextes abhängt und wobei der Transformationsschritt abhängig von der Semantik des mindestens einen Wortes die Addition eines Audio-Rendering-Effektes zu dem Eingabetext einschließt, dadurch gekennzeichnet, dass der Audio-Rendering-Effekt aus Hintergrundmusik, einem nichtsprachlichen Spezialeffekt-Laut oder einem kontextgemäßen nichtsprachlichen Laut besteht und dass der formatierte Text im Hinblick auf die Anforderungen der Text-zu-Sprache-Software-Maschine modifiziert wird. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der formatierte Text (
108 ) nicht auszusprechende Tags enthält, die in Übereinstimmung mit der Semantik des Eingabetextes bestimmt werden, wobei die Tags (a) mindestens einen Tag enthalten, der eine von der Text-zu-Sprache-Software-Maschine (114 ) bei der Ausgabe des Textes benutzte Sprechcharakteristik definiert, und (b) einen Tag, der einen Audio-Rendering-Effekt definiert. - Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Ausgabe der Text-zu-Sprache-Software-Maschine (
114 ) einer Hardware-Maschine (116 ) zugeführt wird, die Sprache synthetisiert. - Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass eine Datenbasis-Mapping-Technik benutzt wird, bei der mindestens ein Wort des Eingabetextes zu einem oder mehreren Eingaben der Datenbasis abgebildet wird.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Inferenzmaschine auf der Basis mindestens eines Wortes des Eingabetextes eine Aktion ableitet.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der formatierte Text unabhängig von der Text-zu-Sprache-Software-Maschine ist.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Eingabetext zu einer Klasse gehört, die mindestens ein spezifisches Muster aufweist.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der formatierte Text im XML-Format geschrieben ist.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Lautstärke des mindestens einen Wortes des Eingabetextes, wenn es synthetisiert wird, in Bezug auf die Semantik bestimmt wird.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Tonhöhe des mindestens einen Wortes des Eingabetextes, wenn es synthetisiert wird, in Bezug auf die Semantik bestimmt wird.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Geschlecht einer synthetisierten Stimme, die mindestens ein Wort des Eingabetextes ausspricht, in Bezug auf die Semantik bestimmt wird.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das angenommene Alter einer synthetisierten Stimme, die mindestens ein Wort des Eingabetextes ausspricht, in Bezug auf die Semantik bestimmt wird.
- Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die prosodische Charakteristik einer synthetisierten Stimme, die mindestens ein Wort des Eingabetextes ausspricht, in Bezug auf die Semantik bestimmt wird.
- Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die prosodische Charakteristik Lautstärke, Tonhöhe und Ton enthält.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zwischen dem Vortrag mindestens eines Wortes des Eingabetextes und einem nachfolgenden Wort eine Periode der Stille existiert, deren Länge durch die Semantik bestimmt wird.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine synthetisierte Stimme mindestens ein Wort des Eingabetextes mit besonderer Betonung spricht, wobei diese besondere Betonung einen Laut auf der Basis der Semantik enthält.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine synthetisierte Stimme mindestens ein Wort des Eingabetextes mit einer Geschwindigkeit spricht, die auf der Basis der Semantik bestimmt wird.
- Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Inferenzmaschine den Eingabetext unter Benutzung der natürlichen Sprachanalyse und der statistischen Sprachanalyse analysiert.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Modifizierungsschritt den Schritt des Markierens des formatierten Textes mit einem Tag einschließt, wobei ein Tag ein für die Text-zu-Sprache-Software-Maschine maßgeschneiderter Befehl ist.
- Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Transformationsschritt auch von mindestens einer Charakteristik eines Benutzerprofils eines Benutzers abhängt, der der synthetisierten Sprache zuhört.
- Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass mindestens eine Charakteristik des Benutzerprofils die eines Benutzers ist, der schwerhörig ist.
- Verfahren nach Anspruch 20 oder 21, dadurch gekennzeichnet, dass mindestens eine Charakteristik des Benutzerprofils die eines Benutzers ist, der sehbehindert ist.
- Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Transformationsschritt auch von mindestens einer Charakteristik einer Hardware-Maschine abhängt, die der Benutzer beim Zuhören der synthetisierten Sprache benutzt.
- Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Semantik unter Benutzung mindestens einer Inferenzmaschine und/oder einer Datenbasis-Mapping-Technik erzeugt wird.
- Datenverarbeitungseinrichtung zur Sprachsynthese aus einem Eingabetext (
104 ), die eine Einrichtung zur Wiedergewinnung des in die Datenverarbeitungseinrichtung eingegebenen Eingabetextes und einen Umsetzer enthält, der zur automatischen Transformation (106 ) des Eingabetextes auf der Basis der Semantik von mindestens einem Wort des Eingabetextes und auf der Basis des Kontextes des Eingabetextes zum Erzeugen eines formatierten Textes (108 ) ausgebildet ist, wobei der Umsetzer dazu ausgebildet ist, dass er automatisch abhängig von der Semantik des mindestens einen Wortes einen Audio-Rendering-Effekt zu dem Eingabetext addiert, dadurch gekennzeichnet, dass der Audio-Rendering-Effekt aus Hintergrundmusik, einem nichtsprachlichen Spezialeffekt-Laut oder einem kontextgemäßen nichtsprachlichen Laut besteht und dass eine Modifiziereinrichtung so ausgebildet ist, dass sie den formatierten Text im Hinblick auf die Anforderungen der Text-zu-Sprache-Software-Maschine (114 ) modifiziert. - Datenverarbeitungseinrichtung nach Anspruch 25, dadurch gekennzeichnet, dass der formatierte Text (
108 ) nicht auszusprechende Tags enthält, die in Übereinstimmung mit der Semantik des Eingabetextes bestimmt werden, wobei die Tags (a) mindestens einen Tag enthalten, der eine von der Text-zu-Sprache-Software-Maschine (114 ,116 ) bei der Ausgabe des Textes benutzte Sprechcharakteristik definiert, und (b) einen Tag, der einen Audio-Rendering-Effekt definiert.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US98669 | 1998-06-17 | ||
US09/098,669 US6446040B1 (en) | 1998-06-17 | 1998-06-17 | Intelligent text-to-speech synthesis |
PCT/US1999/013329 WO1999066496A1 (en) | 1998-06-17 | 1999-06-14 | Intelligent text-to-speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69932819D1 DE69932819D1 (de) | 2006-09-28 |
DE69932819T2 true DE69932819T2 (de) | 2007-08-16 |
Family
ID=22270397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69932819T Expired - Lifetime DE69932819T2 (de) | 1998-06-17 | 1999-06-14 | Intelligente text-sprache-umsetzung |
Country Status (9)
Country | Link |
---|---|
US (1) | US6446040B1 (de) |
EP (1) | EP1086450B1 (de) |
JP (1) | JP2002518711A (de) |
KR (1) | KR100759581B1 (de) |
AT (1) | ATE336775T1 (de) |
AU (1) | AU4681699A (de) |
BR (1) | BR9911315B1 (de) |
DE (1) | DE69932819T2 (de) |
WO (1) | WO1999066496A1 (de) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19908137A1 (de) * | 1998-10-16 | 2000-06-15 | Volkswagen Ag | Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog |
JP2001014306A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US6912691B1 (en) * | 1999-09-03 | 2005-06-28 | Cisco Technology, Inc. | Delivering voice portal services using an XML voice-enabled web server |
US6578000B1 (en) * | 1999-09-03 | 2003-06-10 | Cisco Technology, Inc. | Browser-based arrangement for developing voice enabled web applications using extensible markup language documents |
US7801766B2 (en) | 2000-03-31 | 2010-09-21 | You Technology Brand Services, Inc. | Method, system, and computer readable medium for facilitating a transaction between a customer, a merchant and an associate |
US6308154B1 (en) * | 2000-04-13 | 2001-10-23 | Rockwell Electronic Commerce Corp. | Method of natural language communication using a mark-up language |
US6823311B2 (en) * | 2000-06-29 | 2004-11-23 | Fujitsu Limited | Data processing system for vocalizing web content |
US6510413B1 (en) * | 2000-06-29 | 2003-01-21 | Intel Corporation | Distributed synthetic speech generation |
US6963831B1 (en) * | 2000-10-25 | 2005-11-08 | International Business Machines Corporation | Including statistical NLU models within a statistical parser |
JP2002221980A (ja) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
KR20030002999A (ko) * | 2001-06-30 | 2003-01-09 | 주식회사 케이티 | 스크립트 생성기법을 이용한 음성인식 시스템 시험장치 및그 방법 |
KR100450319B1 (ko) * | 2001-12-24 | 2004-10-01 | 한국전자통신연구원 | 가상 환경에서 참여자간의 의사전달 장치 및 방법 |
JP4150198B2 (ja) * | 2002-03-15 | 2008-09-17 | ソニー株式会社 | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
US7577568B2 (en) * | 2003-06-10 | 2009-08-18 | At&T Intellctual Property Ii, L.P. | Methods and system for creating voice files using a VoiceXML application |
US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
US7530015B2 (en) * | 2003-06-25 | 2009-05-05 | Microsoft Corporation | XSD inference |
US8826137B2 (en) | 2003-08-14 | 2014-09-02 | Freedom Scientific, Inc. | Screen reader having concurrent communication of non-textual information |
US8886538B2 (en) * | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US8489769B2 (en) * | 2003-10-02 | 2013-07-16 | Accenture Global Services Limited | Intelligent collaborative expression in support of socialization of devices |
GB0327991D0 (en) * | 2003-12-03 | 2004-01-07 | Ibm | Interactive voice response method and apparatus |
US20050177369A1 (en) * | 2004-02-11 | 2005-08-11 | Kirill Stoimenov | Method and system for intuitive text-to-speech synthesis customization |
CA2557079A1 (en) * | 2004-03-05 | 2005-09-22 | Lessac Technologies, Inc. | Prosodic speech text codes and their use in computerized speech systems |
US7472065B2 (en) * | 2004-06-04 | 2008-12-30 | International Business Machines Corporation | Generating paralinguistic phenomena via markup in text-to-speech synthesis |
CN101044549A (zh) * | 2004-10-18 | 2007-09-26 | 皇家飞利浦电子股份有限公司 | 向用户通知媒体内容项目的类别的数据处理设备和方法 |
WO2006128480A1 (en) * | 2005-05-31 | 2006-12-07 | Telecom Italia S.P.A. | Method and system for providing speech synthsis on user terminals over a communications network |
US8977636B2 (en) | 2005-08-19 | 2015-03-10 | International Business Machines Corporation | Synthesizing aggregate data of disparate data types into data of a uniform data type |
US7958131B2 (en) | 2005-08-19 | 2011-06-07 | International Business Machines Corporation | Method for data management and data rendering for disparate data types |
JP4640046B2 (ja) | 2005-08-30 | 2011-03-02 | 株式会社日立製作所 | デジタルコンテンツ再生装置 |
US8266220B2 (en) | 2005-09-14 | 2012-09-11 | International Business Machines Corporation | Email management and rendering |
US8577682B2 (en) * | 2005-10-27 | 2013-11-05 | Nuance Communications, Inc. | System and method to use text-to-speech to prompt whether text-to-speech output should be added during installation of a program on a computer system normally controlled through a user interactive display |
US8694319B2 (en) * | 2005-11-03 | 2014-04-08 | International Business Machines Corporation | Dynamic prosody adjustment for voice-rendering synthesized data |
US8326629B2 (en) * | 2005-11-22 | 2012-12-04 | Nuance Communications, Inc. | Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
US8271107B2 (en) | 2006-01-13 | 2012-09-18 | International Business Machines Corporation | Controlling audio operation for data management and data rendering |
US8209180B2 (en) * | 2006-02-08 | 2012-06-26 | Nec Corporation | Speech synthesizing device, speech synthesizing method, and program |
US9135339B2 (en) | 2006-02-13 | 2015-09-15 | International Business Machines Corporation | Invoking an audio hyperlink |
US9087507B2 (en) * | 2006-09-15 | 2015-07-21 | Yahoo! Inc. | Aural skimming and scrolling |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
DE102006056286B4 (de) * | 2006-11-29 | 2014-09-11 | Audi Ag | Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
WO2008102413A1 (ja) * | 2007-02-22 | 2008-08-28 | Fujitsu Limited | 音楽再生装置および音楽再生方法 |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US20090083035A1 (en) * | 2007-09-25 | 2009-03-26 | Ritchie Winson Huang | Text pre-processing for text-to-speech generation |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
KR20090085376A (ko) * | 2008-02-04 | 2009-08-07 | 삼성전자주식회사 | 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치 |
JP2009265279A (ja) | 2008-04-23 | 2009-11-12 | Sony Ericsson Mobilecommunications Japan Inc | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム |
US8265936B2 (en) * | 2008-06-03 | 2012-09-11 | International Business Machines Corporation | Methods and system for creating and editing an XML-based speech synthesis document |
CN101605307A (zh) * | 2008-06-12 | 2009-12-16 | 深圳富泰宏精密工业有限公司 | 文本短信语音播放系统及方法 |
US8165881B2 (en) * | 2008-08-29 | 2012-04-24 | Honda Motor Co., Ltd. | System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle |
US20100057465A1 (en) * | 2008-09-03 | 2010-03-04 | David Michael Kirsch | Variable text-to-speech for automotive application |
US8219899B2 (en) * | 2008-09-22 | 2012-07-10 | International Business Machines Corporation | Verbal description method and system |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
TWI405184B (zh) * | 2009-11-19 | 2013-08-11 | Univ Nat Cheng Kung | 嵌入式作業系統平台之隨讀隨聽電子書手持裝置 |
US8447610B2 (en) | 2010-02-12 | 2013-05-21 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US8571870B2 (en) * | 2010-02-12 | 2013-10-29 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US9032042B2 (en) | 2011-06-27 | 2015-05-12 | Microsoft Technology Licensing, Llc | Audio presentation of condensed spatial contextual information |
US8958569B2 (en) | 2011-12-17 | 2015-02-17 | Microsoft Technology Licensing, Llc | Selective spatial audio communication |
TWI574254B (zh) * | 2012-01-20 | 2017-03-11 | 華碩電腦股份有限公司 | 用於電子系統的語音合成方法及裝置 |
US8862985B2 (en) | 2012-06-08 | 2014-10-14 | Freedom Scientific, Inc. | Screen reader with customizable web page output |
US9575960B1 (en) * | 2012-09-17 | 2017-02-21 | Amazon Technologies, Inc. | Auditory enhancement using word analysis |
US8856007B1 (en) | 2012-10-09 | 2014-10-07 | Google Inc. | Use text to speech techniques to improve understanding when announcing search results |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10176798B2 (en) | 2015-08-28 | 2019-01-08 | Intel Corporation | Facilitating dynamic and intelligent conversion of text into real user speech |
RU2632424C2 (ru) | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
CN105632484B (zh) * | 2016-02-19 | 2019-04-09 | 云知声(上海)智能科技有限公司 | 语音合成数据库停顿信息自动标注方法及系统 |
GB201810621D0 (en) * | 2018-06-28 | 2018-08-15 | Univ London Queen Mary | Generation of audio data |
CN112334973B (zh) * | 2018-07-19 | 2024-04-26 | 杜比国际公司 | 用于创建基于对象的音频内容的方法和系统 |
US11195511B2 (en) * | 2018-07-19 | 2021-12-07 | Dolby Laboratories Licensing Corporation | Method and system for creating object-based audio content |
CN111429877B (zh) * | 2020-03-03 | 2023-04-07 | 云知声智能科技股份有限公司 | 歌曲处理方法及装置 |
US12008289B2 (en) | 2021-07-07 | 2024-06-11 | Honeywell International Inc. | Methods and systems for transcription playback with variable emphasis |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029214A (en) | 1986-08-11 | 1991-07-02 | Hollander James F | Electronic speech control apparatus and methods |
JPH0529214A (ja) * | 1991-07-18 | 1993-02-05 | Sharp Corp | 半導体基板の製造方法 |
EP0542628B1 (de) * | 1991-11-12 | 2001-10-10 | Fujitsu Limited | Vorrichtung zur Sprachsynthese |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5561736A (en) * | 1993-06-04 | 1996-10-01 | International Business Machines Corporation | Three dimensional speech synthesis |
US5572625A (en) * | 1993-10-22 | 1996-11-05 | Cornell Research Foundation, Inc. | Method for generating audio renderings of digitized works having highly technical content |
JP2770747B2 (ja) | 1994-08-18 | 1998-07-02 | 日本電気株式会社 | 音声合成装置 |
US5634084A (en) | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
US5761640A (en) | 1995-12-18 | 1998-06-02 | Nynex Science & Technology, Inc. | Name and address processor |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
EP0841625A1 (de) | 1996-11-08 | 1998-05-13 | Softmark Limited | Eingabe- und Ausgabekommunikation in einem Datenverarbeitungssystem |
US5860604A (en) * | 1996-11-19 | 1999-01-19 | Doug Slenk | Motorized fertilizer spreader |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6246672B1 (en) * | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
-
1998
- 1998-06-17 US US09/098,669 patent/US6446040B1/en not_active Expired - Lifetime
-
1999
- 1999-06-14 AU AU46816/99A patent/AU4681699A/en not_active Abandoned
- 1999-06-14 AT AT99930238T patent/ATE336775T1/de not_active IP Right Cessation
- 1999-06-14 DE DE69932819T patent/DE69932819T2/de not_active Expired - Lifetime
- 1999-06-14 WO PCT/US1999/013329 patent/WO1999066496A1/en active IP Right Grant
- 1999-06-14 JP JP2000555243A patent/JP2002518711A/ja active Pending
- 1999-06-14 EP EP99930238A patent/EP1086450B1/de not_active Expired - Lifetime
- 1999-06-14 KR KR1020007014411A patent/KR100759581B1/ko not_active IP Right Cessation
- 1999-06-14 BR BRPI9911315-5A patent/BR9911315B1/pt not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP2002518711A (ja) | 2002-06-25 |
AU4681699A (en) | 2000-01-05 |
WO1999066496A8 (en) | 2006-11-02 |
EP1086450B1 (de) | 2006-08-16 |
BR9911315B1 (pt) | 2012-12-25 |
ATE336775T1 (de) | 2006-09-15 |
US6446040B1 (en) | 2002-09-03 |
BR9911315A (pt) | 2002-01-15 |
DE69932819D1 (de) | 2006-09-28 |
KR100759581B1 (ko) | 2007-09-18 |
KR20010071517A (ko) | 2001-07-28 |
WO1999066496A1 (en) | 1999-12-23 |
EP1086450A1 (de) | 2001-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69932819T2 (de) | Intelligente text-sprache-umsetzung | |
DE69521244T2 (de) | System zur Text-Sprache-Umsetzung | |
Sampson et al. | Corpus linguistics: Readings in a widening discipline | |
Maekawa et al. | Spontaneous Speech Corpus of Japanese. | |
Allen et al. | A linguistic ‘time capsule’: the Newcastle Electronic Corpus of Tyneside English | |
Hartford et al. | Models of discourse in the letter of complaint | |
Bautista | An overview of the Philippine component of the International Corpus of English (ICE-PHI) | |
Maekawa et al. | Corpus of Spontaneous Japanese: design, annotation and XML representation | |
Rocker | Variation in finite verb placement in heritage Iowa low German: the role of prosodic integration and information structure | |
Tsonos et al. | Prosodic mapping of text font based on the dimensional theory of emotions: a case study on style and size | |
Meyer | What transcriptions of authentic discourse can reveal about interpreting | |
Reed | Inter-and intra-regional variation in intonation: An analysis of rising pitch accents and rootedness | |
Eklund | A comparative study of disfluencies in four Swedish travel dialogue corpora | |
Berglund | Exploiting a large spoken corpus: an end-user's way to the BNC | |
Olaiwola | Decoding encoded Yorùbá nomenclature: An exercise of linguistic competence and performance | |
Nycz et al. | On the Pronunciation Dictionaries of Contemporary German: The Concepts of Phonetic Standard and Differences in Specific Phonetic Issues | |
Jannedy et al. | /oy/as an identity marker of Hood German in Berlin | |
Cieri et al. | Annotation graphs and servers and multi-modal resources: Infrastructure for interdisciplinary education, research and development | |
Price | Allegations” and “Controversy”: Are the Americans invading our intonational space | |
Barry | Transcription as speech-to-text data transformation | |
Dewi | Theme and Rheme in Mandailing Songs Texts by Odang and Masdani | |
Bloom Ström et al. | Zeitschrift für Sprachwissenschaft: Verum in Xhosa and Zulu (Nguni) | |
Al-Hamzi | Expanding The Lexicon in Yemeni Arabic: A Study of (Non) Morphological Arabic Language | |
Laugesen | Towards an ‘Australian voice’: AG Mitchell and debates over Australian speech, 1940–1960 | |
Braun et al. | The Distribution and Prosodic Realization of Verb Forms in German Infant-Directed Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |