DE112004000187T5

DE112004000187T5 - Verfahren und Vorrichtung der prosodischen Simulations-Synthese

Info

Publication number: DE112004000187T5
Application number: DE112004000187T
Authority: DE
Inventors: Jordan Gloucester Cohen; Igor Natick Zlokarnik; Daniel L. Boston Roth
Original assignee: Voice Signal Technologies Inc
Current assignee: Nuance Communications Inc
Priority date: 2003-01-24
Filing date: 2004-01-21
Publication date: 2005-12-01
Also published as: CN1742321B; US20040148172A1; US8768701B2; WO2004068466A1; JP2006517037A; CN1742321A

Abstract

Verfahren zur Spracherzeugung, umfassend:
Erhalten einer gesprochener Äußerung;
Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung;
Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen;
künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und
Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf stimmenaktivierte Kommunikationssysteme.
Hintergrund
Viele Mobiltelefone (hier gemeint umfassend mindestens Datenverarbeitungs- und Kommunikationsvorrichtungen, die Telefonie- oder Stimmkommunikationsfunktionen ausführen) sind mit stimmunterstützenden Schnittstellmerkmalen ausgestattet, die es einem Benutzer ermöglichen, auf eine Funktion durch Sprechen eines Ausdrucks zuzugreifen, um die Funktion aufzurufen. Ein bekanntes Beispiel ist das Wählen mit der Stimme, wobei ein Benutzer einen Namen oder einen anderen vorgespeicherten Ausdruck in das Telefon spricht und das Telefon durch Wählen der dem Namen zugehörigen Nummer reagiert.
Um zu überprüfen, ob die zu wählende Nummer oder die aufzurufende Funktion tatsächlich die durch den Benutzer Gewünschte ist, kann ein Mobiltelefon eine Bestätigungsnachricht dem Benutzer anzeigen, so daß dem Benutzer ermöglicht wird, fortzufahren, wenn alles in Ordnung ist, oder die Funktion abzubrechen, wenn diese inkorrekt ist. Akustische und/oder sichtbare Benutzerschnittstellen existieren zum Interagieren mit Mobiltelefonvorrichtungen. Akustische Bestätigungen und Benutzerschnittstellen ermöglichen mehr einen Freihandbetrieb im Vergleich zu sichtbaren Bestätigungen und Schnittstellen, so wie dies von einem Fahrer benötigt wird, der seine oder ihre Augen auf der Straße halten will, anstatt auf die Telefonvorrichtung zu schauen.
Eine Spracherkennung kommt in einem Mobiltelefon zum Einsatz, um eine Phrase, ein Wort, einen Ton (im allgemeinen hierin nachfolgend als Äuße rungen bezeichnet) zu erkennen, die durch den Telefonbenutzer ausgesprochen werden. Eine Spracherkennung wird daher manchmal in Telefonbuchanwendungen verwendet. Bei einem Beispiel reagiert ein Telefon auf einen erkannten, ausgesprochenen Namen mit einer akustischen Bestätigung, die durch den Lautsprecherausgang des Telefons erstellt wird. Der Benutzer akzeptiert das Erkennungsergebnis oder weist das Erkennungsergebnis des Telefons beim Hören der Wiedergabe zurück.
In der menschlichen Sprache weist jede Äußerung bestimmte Eigenschaften auf, die quantifiziert werden können, so genannte prosodische Parameter, die bestimmen, wie die Äußerung sich anhört. Normalerweise werden diese betrachtet: Tonhöhe oder Klang, der Zeitablauf der Sprachelemente und die Betonung, die gewöhnlich als Kraft dargestellt wird. Spracherkennungssysteme verwenden andere Merkmale der Sprache, so wie die Stimmgebietsform, die nicht prosodisch sind, aber die helfen, zu bestimmen, was gesagt wurde. Menschliche Zuhörer sind erfahren, Spracheigenschaften basierend zum Teil auf prosodischen Parametern der Sprache zu erkennen. Menschliche Sprecher verwenden auch Prosodie in der Sprache, um eine allumfassende Kommunikation zu unterstützen und deren Sprache von der von anderen Sprechern zu unterscheiden. Menschen sind somit naturgemäß auf Prosodie empfindsam und können einfach den Unterschied zwischen "realer" menschlicher Sprache und "künstlich erzeugter" Sprache unterscheiden, die durch eine Maschine (Spracherzeuger) erzeugt wurde. Tatsächlich kann eine künstlich erzeugte Sprache, die dürftige prosodische Regeln verwendet, für das menschliche Ohr unverständlich sein.
Zusammenfassung
Im allgemeinen, bieten Aspekte der vorliegenden Erfindung Verfahren und Systeme zum künstlichen Erzeugen von hörbaren Phrasen (Wörtern), die ein Aufnehmen von gesprochenen Äußerungen, die ein Wort sein können, und ein Extrahieren sowohl von prosodischen als auch nicht-prosodischen Informati onen (Parametern) von diesem, ein Erkennen des Worts und ein anschließendes Anwenden der prosodischen Parametern auf eine künstlich erzeugte (nominale) Version des Wortes enthalten, um eine prosodische Simulations-Phrase zu erzeugen, die der gesprochenen Äußerung und dem nominalen Wort entspricht.
Ein Aspekt der vorliegenden Erfindung betrifft ein Verfahren zur künstlichen Spracherzeugung, enthaltend ein Empfangen einer gesprochenen Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erzeugen eines nominalen Worts entsprechend dem erkannten Wort; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und der prosodischen Parameter.
Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein System zur künstlichen Spracherzeugung, enthaltend eine Audioeingabevorrichtung, die eine gesprochene Äußerung empfängt; einen Tonhöhendetektor, der eine Tonhöhe der gesprochenen Äußerung detektiert; einen Signalprozessor, der einen prosodischen Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, entsprechend dem erkannten Wort; und einen prosodischer Simulation-Erzeuger, der das nominale Wort und den prosodischen Parameter empfängt und ein prosodisches Simulations-Wort erzeugt.
Ein noch weiterer Aspekt der vorliegenden Erfindung betrifft ein computerlesbares Medium mit gespeicherten Anweisungen zur Ausführung auf einem Prozessor, enthaltend Anweisungen zum Empfangen einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Anwei sungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
Diese und weitere Aspekte der Erfindung stellen eine verbesserte künstliche Spracherzeugung zur Verfügung, besonders in kleinen Mobilvorrichtungen wie Mobiltelefonen mit sprachaktivierten Befehlen und Benutzerschnittstellen. In einer Beziehung wird eine bessere künstliche Erzeugung von hörbaren Bestätigungsmitteilungen ermöglicht, wobei die hörbaren Bestätigungsmitteilungen prosodische Eigenschaften ähnlich derer des Benutzers aufweisen. Eine bessere künstliche Spracherzeugung klingt natürlicher und ist für Menschen verständlicher. Daher verbessert die vorliegende Erfindung die Nützlichkeit und Verständlichkeit von hörbaren Benutzerschnittstellen.
Zahlreiche Merkmale und Vorteile der Erfindung werden durch die folgende Beschreibung und Ansprüche ersichtlich.
Kurze Beschreibung der Figuren
Für ein besseres Verständnis der Eigenschaft und der Ziele der vorliegenden Erfindung wird auf die folgende detaillierte Beschreibung in Verbindung mit den beigefügten Figuren Bezug genommen, in denen dieselben Bezugszeichen verwendet werden, um dasselbe oder ähnliche Teile zu kennzeichnen, wobei:
1 ein Blockschaltbild einer Mobiltelefonvorrichtung mit einem Sprachschnittstellensystem ist;
2 ein Blockschaltbild eines Verfahren zum künstlichen Erzeugen von Sprache unter Verwendung eines Ganzwort-Modells ist; und
3 ein Blockschaltbild eines Verfahrens zum künstlichen Erzeugen von Sprache unter Verwendung eines Modells auf Phonem-Niveau ist.
Detaillierte Beschreibung
Wie oben kurz beschrieben, enthält menschliche Sprache nicht nur substantielle Inhalte (woraus Wörter und Klänge gemacht werden), sondern auch Informationen über den Weg, wie Wörter und Klänge erzeugt werden. Im allgemeinen beschreibt ein Satz von Parametern (prosodische Parameter) mindestens teilweise, wie ein gesprochenes Wort oder eine Äußerung ausgesprochen wird und wie es/sie klingt. Beispiele von prosodischen Parametern sind Tonhöhe, Kraft und Zeitablauf. Eine bessere Verwendung eines prosodischen Inhalts kann eine natürlichere und verständlichere künstlich erzeugte Sprache erzeugen, ein Merkmal, das nützlich in modernen Kommunikationssystemen wie Mobiltelefonen ist, welche künstlich erzeugte Audioschnittstellen verwenden.
Eine Telefonvorrichtung nach der vorliegenden Erfindung verwendet einen Spracherzeugungsschaltkreis, eine Logik und ausführbare Codeanweisungen, um ein hörbares Signal zu erzeugen, das durch den Lautsprecherausgang bereitgestellt wird. Durch Extrahieren und Verwenden von prosodischen Merkmalen von gesprochenen Wörtern eines Benutzers zur künstlichen Erzeugung und Herstellen eines hörbaren Ausgangs erzeugt die Telefonvorrichtung künstlich realistisch klingende Sprache von hoher Qualität, die wie die Benutzerstimme klingt. Eine spezifische Anwendung liegt in der Verbesserung der Qualität und der Verständlichkeit von künstlich erzeugten Sprachnachrichten, die verwendet werden, um gesprochene Befehle eines Mobiltelefonbenutzers zu bestätigen.
1 ist ein Blockschaltbild einer Mobiltelefonvorrichtung 10 mit einer Stimmbenutzerschnittstelle. Das System enthält einen Eingang, einen Ausgang, verarbeitende Bauteile und Speicherbauteile.
Eine Audioeingabevorrichtung 1000 empfängt eine gesprochene Äußerung. Die Audioeingabevorrichtung ist ein Mikrofon, und genauer ist es dasselbe Mikrofon, das verwendet wird, um über die Mobiltelefonvorrichtung 10 zu kommunizieren.
Die Audioeingabevorrichtung 1000 stellt das empfangene Audioeingangssignal einem Tonhöhendetektor 2100 und einem Signalprozessor 2200 vom Typ Mel Frequency Cepstral Compact (MFCC) zur Verfügung, der sowohl prosodische als auch nicht-prosodische Parameterinformationen von dem empfangenen Audiosignal extrahiert.
Eine Dekodier/Spracherkennungs-Vorrichtung 2300 erkennt die gesprochene Äußerung und stellt ein erkanntes Wort einem künstlichen Spracherzeuger 2400 zur Verfügung. Das erkannte Wort wird auch einer Vorrichtung mit sichtbarer Anzeige (nicht dargestellt) zur Verfügung gestellt.
Der Spracherzeuger 2400 erzeugt künstlich eine nominale (Vorgaben) Form des erkannten Worts unter Verwendung von Regeln, die in das System vorprogrammiert wurden und die nicht von den prosodischen Parametern der gesprochenen Äußerung abhängen.
Um ein prosodisches Simulations-Wort zu erzeugen, wirkt ein prosodischer Simulations-Erzeuger 2600 auf das nominal künstlich erzeugte Wort ein und fügt die Tonhöhe, den Zeitablauf oder andere prosodische Parameter dem nominal künstlich erzeugten Wort zu. Der prosodische Simulations-Erzeuger 2600 paßt die Länge des prosodischen Simulations-Wortes durch Dehnen oder Stauchen des Worts hinsichtlich der Zeit an. Bei dem Ganz-Wort-Modell nach 2 agieren der Anfang und das Ende des ganzen Worts als zeitliche Referenzpunkte, wobei bei dem Modell auf Phonem-Niveau die individuellen Phoneme als zeitliche Referenzpunkte agieren.
Sobald die prosodische Simulations-Phrase erzeugt ist, wird sie in eine Form geeignet zur hörbaren Ausgabe umgewandelt. Der Audioumwandler 2700 empfängt die prosodische Simulations-Phrase und führt die notwendige Umwandlung in ein elektrisches Signal aus, das durch die Audioausgangsvorrichtung 2800 wiedergegeben wird.
Das in 1 dargestellte Ausführungsbeispiel implementiert alles bis auf die Eingabe-/Ausgabebauteile und die Speicherbauteile in einem Prozessor 20. Natürlich kann mehr als ein Prozessor verwendet werden, um dasselbe Ergebnis zu erzielen. Dies schließt Ausführungsbeispiele ein, die mehrere besondere Prozessoren, wie Digitalsignalprozessoren (DSPs), verwenden.
Eine Speichervorrichtung 30 ist ein Speicherbauteil, das ein maschinenlesbares Medium enthält, das programmierte Softwareanweisungen aufweist. Die Maschine ist ein Datenprozessor, der die Anweisungen liest und ausführt. Die Anweisungen werden in dem Prozessor 20 oder dessen Komponenten abgearbeitet, um die Funktionen des Systems auszuführen. Ein Betriebssystem ist auf dem System installiert, das eine Abarbeitung der gespeicherten Anweisungen zum Ausführen der Stimmerkennung, eine Verarbeitung, eine Extraktion prosodischer Parameter, künstliche Spracherzeugung und Erzeugung von Simulations-Wörtern ermöglicht. Die Speichervorrichtung 30 wird durch die Softwareanweisungen, die hierin beschrieben sind, sowie durch andere Programmanweisungen, die zu anderen Programmen gehören, beansprucht. Beispielsweise können Programmanweisungen zum Steuern des Klingeltons, der Anzeigegrafiken und anderer Merkmale der Mobiltelefonvorrichtung in dem diesen Anweisungen zugeeilten Speicherraum innerhalb der Speichervorrichtung 30 angeordnet sein.
2 ist ein Blockschaltbild eines Verfahrens zum Erzeugen von künstlichen Äußerungen durch Verwenden von prosodischen Informationen, die von gesprochenen Wörtern erhalten werden. Die funktionalen Blöcke des Schalt bilds entsprechen physischen Bauteilen, wie in 1 dargestellt, die die Funktionen der funktionalen Blöcke ausführen. Eine Äußerung wird in Datenübertragungsblöcke eingeteilt. Die Länge der Datenübertragungsblöcke beeinflußt die Qualität der künstlichen Spracherzeugung. Das Ausführungsbeispiel, das in 2 dargestellt ist, verarbeitet Äußerungen auf einer Datenübertragungsblock-zu-Datenblockübertragungsblock-Basis, wobei ein Datenübertragungsblock ein vordefiniertes Zeitsegment ist. Für Sprachanwendungen kann eine Länge eines Datenübertragungsblocks, die zu lang ist, zu Ungenauigkeiten und Spracherzeugung von geringer Qualität führen, während eine Länge eines Datenübertragungsblocks, die zu kurz ist, mehr Datenverarbeitungsaufwand (Verarbeiten, Speicher etc.) erfordert. Bei den beschriebenen Ausführungsbeispielen ist die Länge des Datenübertragungsblocks ungefähr 10 bis 20 Millisekunden in Dauer.
Eine Eingabevorrichtung, wie ein Mikrofon, fängt eine gesprochene Äußerung 102 (beispielsweise die Phrase "NACH HAUSE ANRUFEN") bei Schritt 100 auf. Die gesprochene Äußerung 102 entspricht einem Vorgang, der durch die Mobiltelefonvorrichtung durchzuführen ist, nämlich hier Anrufen des Telefons des Benutzers zu Hause. Bei diesem Beispiel sucht und wählt das Telefon die Telefonnummer (ZU HAUSE), deren Name ausgesprochen wurde.
Das System analysiert die gesprochene Äußerung 102 nach deren prosodischen Parametern und extrahiert die Werte hinsichtlich der prosodischen Parameter. Das System extrahiert beispielsweise die Tonhöhe der gesprochenen Äußerung. Die Tonhöhe bezieht sich im allgemeinen auf den Gesamtfrequenzinhalt der Stimme. Der Schritt 110 beschreibt die Tonhöhendetektion.
Das System extrahiert auch den spektralen Inhalt, beispielsweise die Mel Cepstra, und den Kraftinhalt der ausgesprochenen Äußerung bei Schritt 102 bei Schritt 120. Ein MFCC-Analysator mißt das MFCC-Cepstrum der ausge sprochenen Äußerung 102. Der MFCC-Analysator gibt die Datenübertragungsblöcke der prosodischen Parameter bei Schritt 122 aus.
Ein Dekodierer oder eine Spracherkennungsmaschine dekodiert oder erkennt die ausgesprochene Äußerung bei Schritt 130. Der Dekodierer verwendet Hardware und Software, um ein erkanntes Wort von einem Satz von möglichen bekannten Wörtern auszuwählen. Der Dekodierer erkennt ein erkanntes Wort, entsprechend der ausgesprochenen Äußerung, und stellt das Wort als ein Textausgang 132 zur Verfügung, um visuell das Ergebnis der Dekodierung anzuzeigen. Eine Anzeigevorrichtung des Mobiltelefons zeigt den Textausgang 132 dem Benutzer.
Der Dekodierer liefert auch das erkannte Wort 134 einem künstlichen Spracherzeuger, der das erkannte Wort und einen Satz von vorgegebenen programmierten (nominal) Erzeugungsregeln verwendet, um Datenübertragungsblöcke für künstlich erzeugte Nominalwörter bei Schritt 140 zu erzeugen. Bei diesem Ausführungsbeispiel verwendet der Dekodierer ein Ganz-Wort-Modell und die künstliche Erzeugung findet auf Wortniveau statt.
Ein prosodischer Simulations-Erzeuger erzeugt die prosodische Simulations-Phrase unter Verwendung der nominalen künstlich erzeugten Datenübertragungsblöcke 142 des erkannten Worts, der aufgefangenen prosodischen Parameter, die in der Tonhöhe pro Datenübertragungsblock 112 bereitgestellt werden, und den tatsächlichen Datenübertragungsblöcken 124. Der prosodische Simulations-Erzeuger wendet die prosodischen Parameter auf die nominalen Datenübertragungsblöcke 142 auf einer Datenübertragungsblock-nach-Datenübertragungsblock-Basis an. Desweiteren gleicht der prosodische Simulations-Erzeuger bei Schritt 150 zeitlich das erzeugte Simulations-Wort mit dem nominalen Wort auf einem Ganz-Wort-Niveau ab. In anderen Worten ausgedrückt wird das erkannte Wort 134 zeitlich mit dem entsprechenden aufgefangenen gesprochenen Wort durch den Zwang abgeglichen, daß die Start- und Endpunkte des nominalen Worts denen des gesprochenen Worts entsprechen.
Der prosodische Simulations-Erzeuger wendet die aufgefangenen prosodischen Parameter, wie die Tonhöhe, auf das nominale Wort an, wobei die Prosodie der ausgesprochenen Äußerung 102 nachgeahmt wird. Der prosodische Simulations-Erzeuger stellt auch die Länge der erzeugten Phrase durch Dehnung oder Stauchung der Phrase ein, um die gewünschte Länge zu erhalten. Die Dehnung oder Stauchung der prosodischen Simulations-Phrase wird durch Hinzufügung bzw. Entfernung von Datenübertragungsblöcken zur bzw. von der Phrase ausgeführt, um die Phrasenlänge derjenigen der gesprochenen Äußerung anzupassen. Das Ergebnis ist eine künstlich erzeugte prosodische Simulations-Phrase, die, wegen derer Prosodie, dem original gesprochenen Wort in dessen Inhalt und Klang ähnelt.
Ein Audioumwandler erhält die erzeugte prosodische Simulations-Phrase und wandelt die nominalen Datenübertragungsblöcke mit dem angewandten eigentlichen Zeitablauf und der Tonhöhe 152 in ein Audiosignal um, das mit dem Lautsprecher des Mobiltelefons wiedergegeben wird (Schritt 160). Der Lautsprecher ist derselbe Lautsprecher, über den der Benutzer den normalen Telefonkommunikationsausgang hört.
Das Endergebnis des Verfahrens, das oben beschrieben ist, ist eine natürlich klingende hörbare Phrase, die der original gesprochenen Äußerung 102 ähnelt. Die künstlich erstellte Simulations-Phrase wird als eine hörbare Bestätigungsnachricht verwendet, die dem Benutzer des Mobiltelefons wiedergegeben wird, um den auszuführenden Befehl oder den zu wählenden Namen zu bestätigen.
3 stellt ein Verfahren unter Verwendung eines Modells auf Phonem-Niveau dar, entsprechend der Worte auf einem feineren Detailniveau künst lich erzeugt werden, als es bei dem Ganz-Wort-Modell getan wird. Gewöhnlich sind Phoneme akustische Sprachkomponenten. Eine gesprochene Sprache weist einen Satz von Phonemen auf, die verwendet werden, um die Klänge einer gesprochenen Sprache zu bilden. Beispielsweise enthält "HOME" [ZU HAUSE] drei Laute: "H", "O" und "M". Es ist möglich, die Qualität und Genauigkeit der künstlichen Spracherzeugung zu verbessern, wenn die Sprache auf einem Phonem-Niveau anstatt auf einem Ganz-Wort-Niveau behandelt wird.
Eine Eingabevorrichtung, so wie ein Mikrofon, fängt eine gesprochene Äußerung bei Schritt 100 auf, wie vorher beschrieben. Ein Signalprozessor oder mehrere Signalprozessoren und ein Tonhöhendetektor extrahieren prosodische Parameter (Tonhöhe, Kraft und/oder Zeitablauf) von der gesprochenen Äußerung 102. Der Tonhöhendetektor detektiert die Tonhöhe der gesprochenen Äußerung bei Schritt 110, und ein MFCC-Analysator extrahiert die Mel Cepstra und die Zeitablaufparameter bei Schritt 220. Einiges der Zeitablaufsinformation kann von einem Dekodierer stammen, der Teil eines Spracherkennungssystems sein kann.
Ein Dekodierer erkennt die Sprache bei Schritt 230. Der Dekodierer gibt ein ausgewähltes erkanntes Wort 232 an eine sichtbare Anzeigeeinheit aus und gibt auch individuelle Phoneme 234 und die Abgleichsinformationen des erkannten Worts an einen phonetischen Spracherzeuger. Der Dekodierer stellt eine Abgleichsinformation 236 zur Verwendung bei der Erzeugung einer prosodischen Simulations-Phrase später zur Verfügung.
Ein phonetischer Spracherzeuger nimmt die Phoneme und den Abgleichsausgang von dem Dekodierschritt 230 und führt eine künstliche Erzeugung des erkannten Worts bei Schritt 240 auf Phonem-Niveau aus. Der Spracherzeuger gibt Datenübertragungsblöcke von der phonetischen Erzeugung 242 aus.
Ein Parameter-Nachschlage-Schritt 250 basiert auf nominalen Datenübertragungsblockphonemen und stellt nominale Datenübertragungsblöcke und nominale Abgleichinformationen 252 zur Verfügung.
Ein prosodischer Simulations-Erzeuger empfängt die nominalen Datenübertragungsblöcke bei Schritt 260 sowie die aufgefangen tatsächlichen Datenübertragungsblöcke 224, die Abgleichinformationen 236, die Daten 212 der Tonhöhe pro Datenübertragungsblock und die nominalen Datenübertragungsblöcke mit nominalem Abgleich 252 zur Verfügung. Der prosodische Simulations-Erzeuger gibt einen Satz von nominalen Datenübertragungsblöcken aus, die den Zeitablauf, die Kraft und die Tonhöhe aufweisen, die von der eingegebenen gesprochenen Phrase 102 abgeleitet sind. Die ist die prosodische Simulations-Phrase 262.
Wie für das frühere Ausführungsbeispiel nach 2 beschrieben, wird die nominale Auswahl unter Verwendung der extrahierten prosodischen Parameter künstlich erzeugt, die von dem gesprochenen Wort erhalten wurden. Jedoch werden bei diesem Ausführungsbeispiel die einzelnen Phoneme als zeitliche Indexierpunkte oder Grenzmarkierungen verwendet, die das Verfahren zum Abgleich des Nominalen mit dem Gesprochenen beschreibt, anstatt der Zeitabgleich des nominalen Worts zu dem gesprochenen Wort. Mit anderen Worten ausgedrückt gleicht das Ausführungsbeispiel nach 3 die Phoneme innerhalb der Wörter sowie die Worte selbst ab, wodurch dem gesamten Zeitableichsverfahren größere Einschränkungen auferlegt werden.
Wie vorher beschrieben, wandelt ein Audioumwandler das prosodische Simulations-Wort 262 in ein Audiosignal in Schritt 270 um. Eine Audioausgangsvorrichtung liefert ein hörbares Signal an den Benutzer des Telefons bei Schritt 280. Ein Digital-Analog-Wandler wandelt das digitale Signal des prosodischen Simulations-Worts in ein Signal um, das auf dem Lautsprecher der Telefonvorrichtung wiedergegeben werden kann.
Die oben beschriebenen Konzepte sind nicht auf die Verwendungen beschränkt, die in den bereitgestellten erläuterten Ausführungsbeispielen vorgetragen sind, sondern sie können auf andere Systeme und Umstände ausgedehnt werden. Beispielsweise kann die Anwendung von solchen Methoden und Vorrichtungen auf jede stimm-angetriebene elektronische Vorrichtung ausgedehnt werden, einschließlich persönliche Kalender, Spielzeuge, Fahrzeugnavigationsvorrichtungen, Heimelektronik, Hausapparate und Rechnervorrichtungen im allgemeinen.
Das vorliegende System und die Verfahren sind auch nicht nur auf Worte begrenzt, sondern auf jedes Teil eines Worts oder jede Kombination von Wörtern, Phrasen, Sätzen, hörbaren Gesten etc. in jeder gesprochenen Sprache [anwendbar]. Daher beziehen wir uns auf jede dieser vorgenannten als Äußerungen.
Diese Konzepte können in Kombination mit anderen Schnittstellen menschlicher Geräte verwendet werden. Beispielsweise stellt das Mobiltelefon nicht nur dessen Benutzer hörbare und/oder sichtbare Rückmeldungen zur Verfügung, um einen Befehl oder eine zu wählenden Nummer zu bestätigen, sondern es kann auch Aktionen seitens des Benutzers erfordern, um solche Befehle zu erzielen. Es kann erforderlich sein, daß der Benutzer einen Bestätigungsknopf an seinem Mobiltelefon drückt, um Einverständnis mit dem erkannten und künstlichen erzeugten Wort anzuzeigen, oder es kann erforderlich sein, daß der Benutzer "JA" oder "OK" sagt, um eine endgültige Annahme einer künstlich erzeugten hörbaren Nachricht zu geben.
Bei Durchsicht der vorliegenden Beschreibung und Ausführungsbeispiele wird der Fachmann verstehen, daß Modifikationen und ähnliche Ersetzungen ausgeführt werden können, um die Erfindung auszuführen, ohne das Wesen der Erfindung zu verlassen. Somit wird die Erfindung nicht durch die oben explizit beschriebenen Ausführungsbeispiele beschränkt, sondern dies soll durch den Bereich der Ansprüche ausgelegt werden, die folgen.
Es wird beansprucht:
Zusammenfassung
Verfahren und Vorrichtung zur künstlichen Erzeugung hörbarer Phrasen (Wörter), die ein Aufnehmen einer gesprochenen Äußerung, die ein Wort sein kann, und Extrahieren prosodischer Parameter von dieser und anschließendes Anwenden der prosodischen Parameter auf ein künstlich erzeugtes (nominales) Wort umfaßt, um ein prosodisches Simulations-Wort entsprechend der gesprochenen Äußerung und dem nominalen Wort zu erzeugen.

Claims

Verfahren zur Spracherzeugung, umfassend: Erhalten einer gesprochener Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.
Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Tonhöhe enthalten.
Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter einen Zeitablauf enthalten.
Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Kraft enthalten.
Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen der gesprochenen Äußerung und des nominalen Wortes.
Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen von Phonemen der gesprochenen Äußerung und Phonemen des nominalen Worts.
Verfahren nach Anspruch 1, des weiteren umfassend ein Umwandeln des prosodischen Simulations-Wortes in ein entsprechendes Audiosignal.
Verfahren nach Anspruch 1, in dem die gesprochene Äußerung durch eine Telefoneingabevorrichtung erhalten wird und das prosodische Simulations-Wort durch eine Telefonausgabevorrichtung bereitgestellt wird.
System zur Spracherzeugung, umfassend: eine Audioeingabevorrichtung, die eine gesprochene Äußerung erhält; einen Signalprozessor, der einen prosodischen Parameter oder mehrere prosodische Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, das dem erkannten Wort entspricht; und einen prosodischen Simulations-Erzeuger, der das nominale Wort und den einen prosodischen Parameter oder die mehreren prosodischen Parameter erhält und ein prosodisches Simulations-Wort erzeugt.
System nach Anspruch 8, wobei der Dekodierer eine Spracherkennungsvorrichtung umfaßt.
System nach Anspruch 8, wobei das System an einer Mobiltelefonvorrichtung angeordnet ist.
System nach Anspruch 8, des weiteren umfassend eine Speichervorrichtung, die ausführbare Anweisungen für eine Sprachanalyse und -verarbeitung enthält.
Ein computerlesbares Medium enthaltend gespeicherte Anweisungen zur Ausführung auf einem Prozessor, enthaltend: Anweisungen zum Erhalt einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters von der gesprochenen Äußerung; Anweisungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
Computerlesbares Medium nach Anspruch 12, wobei das Medium innerhalb eines Mobiltelefonapparats angeordnet ist und in Verbindung mit einer Benutzerschnittstelle in Betrieb ist.