DE69607928T2 - Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme - Google Patents

Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme

Info

Publication number
DE69607928T2
DE69607928T2 DE69607928T DE69607928T DE69607928T2 DE 69607928 T2 DE69607928 T2 DE 69607928T2 DE 69607928 T DE69607928 T DE 69607928T DE 69607928 T DE69607928 T DE 69607928T DE 69607928 T2 DE69607928 T2 DE 69607928T2
Authority
DE
Germany
Prior art keywords
diphone
diphones
identifiers
processing
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69607928T
Other languages
English (en)
Other versions
DE69607928D1 (de
Inventor
Pierre Collier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69607928D1 publication Critical patent/DE69607928D1/de
Publication of DE69607928T2 publication Critical patent/DE69607928T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

    Verfahren und Vorrichtung zur Bereitstellung und Verwendung von Diphonen für mehrsprachige Text-nach-Sprache-Systeme BEREICH DER ERFINDUNG
  • Die Erfindung betrifft ein Verfahren zum Vorbereiten von Diphonen zur Text-in-Sprache-Generierung durch selektives Aussprechen einer Menge selektierter Diphone, Verarbeiten jedes solchen Diphons für dauernde Speicherung und Speichern jedes verarbeiteten Diphons in einer einzeln adressierbaren Speicherstelle. Diphone haben sich als hervorragendes Medium für die Sprachzerlegung und -darstellung erwiesen. Beispielsweise lehren die Patente US 4.813.074 von Marcus und US 5.109.418 von Van Hemert, beide von der vorliegenden Anmeldering, die Extraktion von Segmentgrenzen aus gesprochenem Text. Diese Verfahren können ausgezeichnet zur Bildung eines Diphons aus einem Paar aufeinanderfolgender segmentierter Elemente zuvor bestimmter Längen vor und nach der Grenze verwendet werden. Eine Menge derartiger Diphone ermöglicht ihrerseits, Sprache in robuster Weise zu repräsentieren. Insbesondere anschließende Sprachwiedergabe ist elementar, weil keine komplexen Regeln zur Realisierung der gemeinsamen Artikulierung zwischen aneinander anschließenden Phonemen notwendig sind. Sobald sie generiert worden sind, werden die Diphone in einem herkömmlichen Speicher für späteren Gebrauch gespeichert. Die englische Sprache kann mit einem Repertoire von 1500 Diphonen ziemlich gut repräsentiert werden. Die Druckschrift Proceedings of Speech '88, Seiten 55-59 offenbart ein mehrsprachiges Sprachsynthessystem, das in einem Text-in-Sprache-System verwendet wird. Die Hardware-Realisierung nutzt zwei Diphon-Wörterbücher, die jeweils in 2 ROM's gespeichert worden sind. Der vorliegende Erfinder ist auf die Notwendigkeit gestoßen, Sprache mehrsprachig darzustellen und hat insbesondere gefunden, das die notwendige Speicherung auf 1500 Stellen für jede Sprache extrem aufwendig ist, insbesondere in einer Umgebung, wo minimale Kosten Grundbedingung sind. Solche Umgebungen haben bisher ohne Sprachwiedergabe gearbeitet oder mit nur einer einzigen Sprache, oder mit Wiedergabeverfahren niedriger Qualität, bei denen Speicherkosten häufig unbedeutend sind.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Der vorliegenden Erfindung liegt unter anderem als Aufgabe zugrunde, ein Verfahren gemäß dem Oberbegriff zu verschaffen, das es ermöglicht, ein Diphon-Repertoire für mehrsprachige Sprachwiedergabe zu erzeugen, das die Speicherkapazitätsanforderungen mildert. Gemäß einem ihrer Aspekte ist die Erfindung jetzt gekennzeichnet durch Zuweisen jedes Diphons innerhalb einer solchen von einer einzelnen Person gesprochenen Menge auf Homophoniebasis an eine oder mehrere verschiedene Sprachen zum Verringern der Speicheranforderungen durch Teilen selektiver Diphone innerhalb mehr als einer Sprache. Sechs der europäischen Hauptsprachen können beispielsweise gemeinsam durch eine Menge aus nur etwa 3000 Diphonen repräsentiert werden. Dies ist eine Verringerung um einen Faktor drei gegenüber der sechsfachen Vergrößerung, die eine sechsfache Wiederholung der 1500 Diphone jeder speziellen einzelnen Sprache erfordern würde. Der Erfindung liegt der kombinierte Gedanke zugrunde, dass erstens viele Sprachen, insbesondere europäische Sprachen, identische oder nahezu identische Kombinationen aufeinanderfolgender Laute haben und zweitens, dass manche Personen imstande sind, solche Kombinationen in einer Weise auszusprechen, die für mehrere spezielle Sprachen geeignet wäre, selbst, wenn die betreffende Person die Sprache nicht beherrscht. Häufig sind solche Personen mehrsprachig. Faktisch wäre es nur notwendig, eine einzelne Kombination von zwei Lauten zur Zufriedenheit einer anderen Person, die die 'neue' Sprache beherrscht, korrekt auszusprechen. Die mehr oder weniger identische Aussprache eines speziellen Diphons in verschiedenen Sprachen braucht nicht auf Übereinstimmung in der Orthographie zu beruhen. Andererseits braucht identische Orthographie nicht mit identischer Aussprache einherzugehen.
  • Das Obige bedeutet, dass die wiederverwendbaren Diphone immer von der gleichen Stimme erzeugt werden. Andererseits wäre es vollständig unakzeptabel, wenn Sprache aus einer Sequenz von Diphonen konstruiert wird, die unterschiedlichen Ursprung haben, da sie von mehreren Personen generiert worden sind. Die Speicherung selbst kann software-gesteuert ergolgen: dies kann in Form von Sprachsegmenten geschehen, die durch eine geeignete Wellenform repräsentiert werden, oder eher durch parametrisierte Daten. Der Anwendungsbereich der Erfindung kann unterschiedlich sein, wie z. B. Verkehrsinformationssysteme, öffentliche Transportabfragesysteme und verschiedene andere.
  • Vorteilhafterweise werden bestimmte Diphone mit Verarbeitungskennzeichnern gespeichert, die Verarbeitungsoperationen an dem betreffenden Diphon innerhalb sol cher verschiedenen dieses Diphon teilenden Sprachen unterscheiden. Derartige zusätzliche Verarbeitungskennzeichner erlauben es, die Speicheranforderungen weiter zu verringern. Auf diese Weise können auch Diphone, die besonders begrenzte Unterschiede aufweisen, unter verschiedenen Sprachen geteilt werden. Solche Unterschiede können die Dauer von Vokalen, Aspiration oder Vokalqualität enthalten.
  • Die Erfindung bezieht sich auch auf ein Verfahren für Text-in-Sprache- Transformieren und eine Einrichtung hierfür. Ein spezieller Vorteil der Erfindung ist die einfache Weise, in der Exonyme in einen gesprochenen Text eingefügt werden können. Dies kann beispielsweise erreicht werden, indem Sprachkennungen am Anfang und am Ende des Exonyms eingefügt werden. Weitere vorteilhafte Aspekte der Erfindung werden in den Unteransprüchen genannt.
  • KURZE BEZEICHNUNG DER ZEICHNUNG
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
  • Fig. 1 einen Ablaufplan der Diphonvorbereitung;
  • Fig. 2 ein Gerät für die Text-in-Sprache-Transformation.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Fig. 1 zeigt einen Ablaufplan der Diphonvorbereitung. In Block 20 bereiten das System und Benutzer die Aufgabe vor. Geeignete Speicherungs- und Verarbeitungsmöglichkeiten werden zugewiesen und eine Diphonliste wird aufgestellt. In Block 22 wird das erste Diphon einer einzelnen Person angeboten, die alle Diphone der endgültigen Menge ausspricht. Die Präsentation kann in visueller oder hörbarer Form erfolgen. In Block 24 wird das erste Diphon von der einzelnen Person ausgesprochen. In Block 26 wird der Laut auf korrekte Aussprache überprüft. Dies kann in subjektiver Weise durch einen oder mehrere Rezensenten erfolgen oder auch mit einer Art Maschinenvergleich mit Wiedergaben des gleichen Diphons durch eine Standardstimme. Die Aussprache kann isoliert erfolgen, als Sequenz bewusst identischer Diphone oder auf andere geeignete Weise. Bei Mehrfachäußerungen kann von dem Rezensenten die 'beste' gewählt werden. Wenn die Aussprache als ungenügend betrachtet wird, geht das System zurück zu Block 24 und fordert eine andere Aussprache des gleichen Diphons an. Der Dialog kann durch visuelle oder hörbare Stimuli in einer für Mensch-Maschine-Dialoge im Allgemeinen bekannten Weise unterstützt werden. Der Einfachheit halber ist dies nicht weiter ausgeführt worden.
  • Wenn die Aussprache als genügend betrachtet wird, wird in Block 28 der Laut verarbeitet, z. B. im Zeitbereich beschnitten, hinsichtlich des Volumens standardisiert, gefiltert, nötigenfalls in eine Parametermenge transformiert und in herkömmlicher Weise gespeichert. Für die endgültige Speicherung muss dieser Speicher direkten Zugriff haben, aber zu diesem Zeitpunkt ist das noch nicht notwendig. In diesem Fall muss eine Diphonkennung hinzugefügt werden. In Block 30 detektiert das System, ob es fertig ist. Falls nicht, kehrt es für das nächste Diphon zum Block 22 zurück. Falls ja, werden in Block 32 die Aktivitäten beendet, wie z. B. durch Ausgeben der Ergebnisse, d. h. jetzt eine kompakte Menge aus Diphonen, die zum Ausgeben von Sprache in mehr als einer Sprache geeignet ist. Ebenso kann die Ausgabe sich auf eine zunehmende Menge aus Diphonen beziehen, um eine n-Sprachenmenge zu einer n+1-Sprachenmenge zu erweitern.
  • Für bestimmte Anwendungen können die gespeicherten Diphone Verarbeitungskennzeichner haben, die Verarbeitungsoperationen an dem betreffenden Diphon innerhalb solcher verschiedener, dieses Diphon teilenden Sprachen unterscheiden. Beispiele hierfür sollen im Weiteren besprochen werden.
  • Fig. 2 ist ein Blockschaltbild eines Gerätes für die Text-in-Sprache- Transformation. Block 48 repräsentiert die Speicherung der mehrsprachigen Menge, beispielsweise in Halbleitertechnologie realisiert. In der Ausführungsform wird die Einrichtung für vier verschiedene Sprachen verwendet, wie mit den Blöcken 40-46 symbolisiert wird. Der Diphonblock 40 bezieht sich auf die Sprache A, Block 42 auf die Sprache B, Block 44 auf die Sprache C und Block 46 bezieht sich auf die Sprache D. Bei der prinzipiellen Speicherung bezieht sich daher der oberste Block auf die Sprachen A und B, der zweite Block auf die Sprachen A, C, und D, und so weiter. In dem Beispiel bezieht sich nur das zweitletzte Diphon auf die Sprache C, ein einziges Diphon bezieht sich auf alle vier Sprachen und die anderen auf verschiedene andere Kombinationen. Die Verteilung hängt von der Menge an Sprachen ab und kann in gewissem Maße frei gewählt werden. Im Allgemeinen ist die Anzahl verschiedener Diphone eine Frage der Wahl. In verschiedenen Fällen kann ein spezielles Diphon innerhalb mehrerer Sprachen erneut verwendet werden, aber die Verwendung eines einmaligen Diphons für jede Sprache würde eine gewisse Verbesserung geben. Das Gesamtergebnis ist eine Frage eines Kompromisses.
  • Block 56 repräsentiert die Eingabe einer Kette aus Diphoncodes. Diese können mit einer Dauer, Aspiration, Prosodie oder einer anderen Verarbeitungskennzeichnerangabe zusammenhängen, die für das gleiche Diphon nicht einmalig zu sein brauchen, weder wenn es in verschiedenen Sprachen noch an unterschiedlichen Positionen in einem Satz vorkommt. An sich ist Unterscheidung von Prosodie gegenüber der Position in einem Satz in der früheren, nicht vorveröffentlichten europäischen Patentanmeldung EP-A-0774152 offenbart worden. Die obengenannte Offenlegung speichert jedoch gleichartige Sprach- Items für eine einzige Sprache auf verschiedene Weise. Die vorliegende Erfindung arbeitet anders herum, indem die Speicherung unter verschiedenen Sprachen geteilt wird. Ebenso können Prosodiesteuersignale die Diphonkette begleiten. Die Leitung 52 überträgt den Adressencode zur Speicherorganisation 48. Letzteres kann stellengebunden oder inhaltadressiert sein, wie z. B. alphabetisch. Die Klammer 50 symbolisiert den Auslesemechanismus des reinen Speichers. Block 58 ist der Ausgabemechanismus des Speichers, wie z. B. ein Verstärker oder Halteschaltkreis, der von der Leitung 54 gesteuert wird, wie z. B. von einem Synchronisationssignal. Block 60 bewirkt die Transformation des Diphons für anschließende Wiedergabe, wie z. B. durch Fensterdarstellung in einer Sequenz aus Diphonen, oder durch Übersetzen eines parametrisierten Diphons in den 'realen' Laut. Block 62 ist der Audioausgabemechanismus, wie z. B. eine Kombination aus Ausgangsverstärker und Lautsprecher. Das Item 64 symbolisiert die Audioausgabe, die persönlich oder eine allgemeine Ansage sein kann. Falls notwendig, kann eine Sprecherverifikation verwendet werden, um sicher zu sein, dass alle so ausgegebenen Diphone tatsächlich von einem einzigen Sprecher stammen.
  • WEITERE BETRACHTUNGEN
  • Eine Bezugsschrift zur Wiedergabe von Sprache in einer Mehr-Sprachen- Umgebung kann in R. Collier, Mutti-Language Intonation Synthesis, Journal of Phonetics 19 (1991), 61-73 gefunden werden.
  • Weiterhin hat die Verarbeitung der Diphone zwei Aspekte. Erstens gibt es die Verarbeitung auf dem Niveau der Äußerung, d. h. die Diphone werden verkettet und anschließend werden Sprachtonhöhe und Rhythmus hinzugefügt. Zweitens gibt es die Verarbeitung auf dem Niveau des Diphons selbst, bevor es in eine Äußerung eingegeben wird. Die letztgenannte Art der Verarbeitung sollte zu einer weiteren Verringerung der Speicheranforderungen führen. Es folgen einige Beispiele:
  • 1. Das englische Wort 'mean', das niederländische Wort 'Mien' (Mädchenname), und das französische Wort 'mine' (mine, wie z. B. zur Kohleproduktion) teilen den Vokal, wobei der einzige Unterschied für eine nahezu perfekte Aussprache seine Dauer ist, die im Englischen am längsten und im Französischen am kürzesten ist. Der Leitgedanke ist daher, die gleiche Kombination gespeicherter Diphone (mi + in) zu verwenden, aber die Speicherung des ersten Diphons führt unterschiedliche Dauerangaben für jede jeweilige Sprache mit sich, die im Bereich von 200-80 Millisekunden liegen können.
  • 2. Selbst in der gleichen Sprache kann ein spezielles Diphon auf unterschiedliche Weise wiederzugeben sein. Das englische Wort 'pin' hat beispielsweise Aspiration beim Laut 'p', was das Wort 'spin' nicht hat. Das gleiche Diphon (pi) kann in anderen Sprachen verwendet werden, entweder mit oder ohne Aspiration. Eine spezielle Weise, die Speicheranforderungen zu reduzieren, ist, das Diphon als Wellenform mit Aspiration zu speichern und Markierungsangaben am Anfang und am Ende des Aspirationslautes einzufügen. Notwendigenfalls kann auf die Aspiration dann verzichtet sein. In beiden der obigen Fälle gelten die Verarbeitungskennzeichner in unterschiedlicher Weise für den Zeitbereich.
  • 3. Wenn die Diphone eher als parametrische Information gespeichert sind, kann die Verarbeitung differentiell im Spektralbereich erfolgen. In dem niederländischen Wort 'idee' (Idee) hat der zweite Vokal mehr oder weniger den Charakter eines Diphthong. Im Französischen hat das Wort 'idee' diese Eigenschaft nicht. An sich kann das Ausleihen des 'Diphthong'-Charakters durch an sich bekannte Formantenmanipulation erfolgen. Die niederländische Repräsentation des betreffenden Diphons kann jetzt mit einem Verarbeitungskennzeichner assoziiert werden, der diese Manipulation steuert, wobei dadurch die Speicherung nur eines Diphons notwendig ist. In ähnlicher Weise kann der Diphthongaspekt unterschiedliche Intensitätsgradationen haben, wie z. B. im Fall bei 'dose' (englisch: Dosis), 'dozen' (niederländisch: Kartons), und 'dose' (französisch: Dosis). Es ist wohlbekannt, dass die Anzahl relevanter Formanten klein ist, und ihre Frequenzen können als einzelnen Größe gespeichert werden oder als Steigung zwischen zwei verschiedenen Größen. In dem LPC- basierten Ansatz kann die spektrale Manipulation mit Manipulation im Zeitbereich kombiniert werden.
  • 4. Selbst ohne diese differenzierenden Verarbeitungoperationen bleibt der Ansatz der Erfindung jedoch gültig, entweder mit einer geringfügig geringeren Lautqualität oder mit einer etwas größeren Speicherung. Die folgenden Beispiele werden gegeben, wobei phonetische Standardkonventionen verwendet worden sind. Der Einfachheit halber sind Wörter verwendet worden, die in den verschiedenen Sprachen (nahezu) die gleiche Textrepräsentation haben. Jedoch gilt das gleiche Prinzip der Wiederverwendbarkeit, wenn die Wörter nur teilweise phonetisch übereinstimmen.
  • Im Obigen gibt # am Anfang bzw. Endes des betreffenden Wortes Lautlosigkeit an. In beiden Sprachen ergibt die Kombination der Diphone 1+2+3+4+5 das Wort 'spIn'.
  • Die Sequenz 6+7+8 gibt das Wort 'phik' (peak, Pik) in englisch bzw. deutsch wieder.
  • Die Sequenz 9+10+11 gibt das Wort 'ide' (deutsch 'Idee', französisch 'idee') wieder, die Sequenz 9+10+12 gibt das Wort 'idei' wieder (niederländisch 'idee', mit einem leichten Diphthongaspekt).
  • Die Sequenz 13+14+15+16+17+18 gibt die Basis des niederländischen Wortes 'fataal' (fatal), deutsch 'fatal' oder französisch 'fatal'. Für jede Sprache erhalten die beiden Vokale ihre jeweilige Länge eingestellt. Falls notwendig, werden die beiden letzten Diphone nur für deutsch mit einer etwas 'dünneren' Aussprache des "I" ein weiteres Mal gespeichert (mit einem Sternchen * angedeutet), weil dies mit differenzierter Verarbeitung für diese Sprache schwierig zu erreichen ist.

Claims (6)

1. Verfahren zum Vorbereiten von Diphonen zur Text-in-Sprache-Generierung durch selektives Aussprechen einer Menge selektierter Diphone, Verarbeiten jedes solchen Diphons für dauernde Speicherung und Speichern jedes verarbeiteten Diphons in einer einzeln adressierbaren Speicherstelle, gekennzeichnet durch Zuweisen jedes Diphons innerhalb einer solchen von einer einzelnen Person gesprochenen Menge auf Homophoniebasis an eine oder mehrere verschiedene Sprachen zum Verringern der Speicheranforderungen durch Teilen selektiver Diphone unter mehr als einer Sprache.
2. Verfahren nach Anspruch 1, wobei bestimmte Diphone mit Verarbeitungskennzeichnern gespeichert werden, die Verarbeitungsoperationen an dem betreffenden Diphon innerhalb solcher verschiedenen dieses Diphon teilenden Sprachen unterscheiden.
3. Verfahren für mehrsprachiges Text-in-Sprache-Transformieren durch Empfangen des genannten Textes als Kette von Diphonkennungen, Lesezugriff jeder Kennung auf eine Diphon-Speicherstelle und Umsetzen jeder so ausgelesenen Diphoninformation in einem Code-Laut-Umwandler in ein zugehöriges Laut-Item, dadurch gekennzeichnet, dass derartige Diphone gemäß dem Verfahren der Ansprüche 1 oder 2 generiert worden sind und selektive Stellen innerhalb dieser Stellen jeweils auf eine zugehörige Vielzahl von Diphonkennungen ansprechen, die einer Vielzahl von Sprachen zugeordnet sind.
4. Verfahren nach Anspruch 3, weiterhin Zugreifen auf gewisse Diphone, die mit Verarbeitungskennzeichnern gespeichert sind zum Unterscheiden von Verarbeitungsoperationen an dem betreffenden Diphon innerhalb solcher verschiedenen dieses Diphon teilenden Sprachen, und wobei zur Sprachwiedergabe in einer speziellen Sprache nur Kennzeichner für diese spezielle Sprache berücksichtigt werden.
5. Einrichtung für mehrsprachiges Text-in-Sprache-Transformieren mit Eingabemitteln zum Empfangen von Text als Kette aus Diphonkennungen, Lesezugriffmitteln zum Zugreifen jeder Kennung auf eine zugehörige Diphonspeicherstelle und von den genannten Speichermitteln gespeisten Umwandlungsmitteln zum Umwandeln jeder so ausgelesenen Diphoninformation in einem Code-Laut-Wandler in ein zugehöriges Laut-Item, dadurch gekennzeichnet, dass derartige Diphone gemäß dem Verfahren der Ansprüche 1 oder 2 generiert worden sind und selektive Stellen innerhalb dieser Stellen jeweils auf eine zugehörige Vielzahl von Diphonkennungen ansprechen, die unter einer Vielzahl von Sprachen geteilt werden.
6. Einrichtung nach Anspruch 5, weiterhin mit Verarbeitungsmitteln zum Zugreifen auf Diphone, die mit Verarbeitungskennzeichnern gespeichert sind zum Unterscheiden von Verarbeitungsoperationen an dem betreffenden Diphon innerhalb solcher verschiedenen dieses Diphon teilenden Sprachen, und wobei zur Sprachwiedergabe in einer speziellen Sprache solch Verarbeitungsmittel nur auf Kennzeichner für diese spezielle Sprache anspricht.
DE69607928T 1995-08-14 1996-08-02 Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme Expired - Lifetime DE69607928T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95202202 1995-08-14
PCT/IB1996/000770 WO1997007499A2 (en) 1995-08-14 1996-08-02 A method and device for preparing and using diphones for multilingual text-to-speech generating

Publications (2)

Publication Number Publication Date
DE69607928D1 DE69607928D1 (de) 2000-05-31
DE69607928T2 true DE69607928T2 (de) 2000-10-05

Family

ID=8220565

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69607928T Expired - Lifetime DE69607928T2 (de) 1995-08-14 1996-08-02 Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme

Country Status (5)

Country Link
US (1) US5897617A (de)
EP (1) EP0786132B1 (de)
JP (1) JPH10510065A (de)
DE (1) DE69607928T2 (de)
WO (1) WO1997007499A2 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2242065C (en) 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
DE19963812A1 (de) 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
EP1319227B1 (de) * 2000-09-15 2007-03-14 Lernout & Hauspie Speech Products N.V. Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
US20020128906A1 (en) * 2001-03-09 2002-09-12 Stephen Belth Marketing system
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US7596499B2 (en) 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
US8103666B1 (en) 2008-08-19 2012-01-24 Miller Frank W Variable audio/visual data incorporation system and method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8500377A (nl) * 1985-02-12 1986-09-01 Philips Nv Werkwijze en inrichting voor het segmenteren van spraak.
NL8503304A (nl) * 1985-11-29 1987-06-16 Philips Nv Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal.
ES2047494T3 (es) * 1986-10-03 1994-03-01 British Telecomm Sistema de traduccion de lenguas.
US5153913A (en) * 1987-10-09 1992-10-06 Sound Entertainment, Inc. Generating speech from digitally stored coarticulated speech segments
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
KR960706671A (ko) * 1994-10-14 1996-12-09 존 엠. 클락 3세 하나의 프로그램을 사용하여 유한 세트의 센텐스(sentence) 및 넘버(number)를 합성시키는 방법 및 음성 합성 장치(SPEECH SYNTHESIS APPARATUS AND METHOD FOR SYNTHESIZING A FINITE SET OF SENTENCES AND NUMBERS USING ONE PROGRAM)
EP0774152B1 (de) * 1995-06-02 2000-08-23 Koninklijke Philips Electronics N.V. Vorrichtung zur erzeugung kodierter sprachelemente in einem fahrzeug

Also Published As

Publication number Publication date
EP0786132A2 (de) 1997-07-30
WO1997007499A2 (en) 1997-02-27
US5897617A (en) 1999-04-27
WO1997007499A3 (en) 1997-04-03
DE69607928D1 (de) 2000-05-31
EP0786132B1 (de) 2000-04-26
JPH10510065A (ja) 1998-09-29

Similar Documents

Publication Publication Date Title
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE60000138T2 (de) Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE69521244T2 (de) System zur Text-Sprache-Umsetzung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69710525T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69607928T2 (de) Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP1435087B1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB