DE112004000187T5 - Verfahren und Vorrichtung der prosodischen Simulations-Synthese - Google Patents

Verfahren und Vorrichtung der prosodischen Simulations-Synthese Download PDF

Info

Publication number
DE112004000187T5
DE112004000187T5 DE112004000187T DE112004000187T DE112004000187T5 DE 112004000187 T5 DE112004000187 T5 DE 112004000187T5 DE 112004000187 T DE112004000187 T DE 112004000187T DE 112004000187 T DE112004000187 T DE 112004000187T DE 112004000187 T5 DE112004000187 T5 DE 112004000187T5
Authority
DE
Germany
Prior art keywords
prosodic
word
spoken utterance
nominal
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112004000187T
Other languages
English (en)
Inventor
Jordan Gloucester Cohen
Igor Natick Zlokarnik
Daniel L. Boston Roth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Voice Signal Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Signal Technologies Inc filed Critical Voice Signal Technologies Inc
Publication of DE112004000187T5 publication Critical patent/DE112004000187T5/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zur Spracherzeugung, umfassend:
Erhalten einer gesprochener Äußerung;
Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung;
Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen;
künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und
Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf stimmenaktivierte Kommunikationssysteme.
  • Hintergrund
  • Viele Mobiltelefone (hier gemeint umfassend mindestens Datenverarbeitungs- und Kommunikationsvorrichtungen, die Telefonie- oder Stimmkommunikationsfunktionen ausführen) sind mit stimmunterstützenden Schnittstellmerkmalen ausgestattet, die es einem Benutzer ermöglichen, auf eine Funktion durch Sprechen eines Ausdrucks zuzugreifen, um die Funktion aufzurufen. Ein bekanntes Beispiel ist das Wählen mit der Stimme, wobei ein Benutzer einen Namen oder einen anderen vorgespeicherten Ausdruck in das Telefon spricht und das Telefon durch Wählen der dem Namen zugehörigen Nummer reagiert.
  • Um zu überprüfen, ob die zu wählende Nummer oder die aufzurufende Funktion tatsächlich die durch den Benutzer Gewünschte ist, kann ein Mobiltelefon eine Bestätigungsnachricht dem Benutzer anzeigen, so daß dem Benutzer ermöglicht wird, fortzufahren, wenn alles in Ordnung ist, oder die Funktion abzubrechen, wenn diese inkorrekt ist. Akustische und/oder sichtbare Benutzerschnittstellen existieren zum Interagieren mit Mobiltelefonvorrichtungen. Akustische Bestätigungen und Benutzerschnittstellen ermöglichen mehr einen Freihandbetrieb im Vergleich zu sichtbaren Bestätigungen und Schnittstellen, so wie dies von einem Fahrer benötigt wird, der seine oder ihre Augen auf der Straße halten will, anstatt auf die Telefonvorrichtung zu schauen.
  • Eine Spracherkennung kommt in einem Mobiltelefon zum Einsatz, um eine Phrase, ein Wort, einen Ton (im allgemeinen hierin nachfolgend als Äuße rungen bezeichnet) zu erkennen, die durch den Telefonbenutzer ausgesprochen werden. Eine Spracherkennung wird daher manchmal in Telefonbuchanwendungen verwendet. Bei einem Beispiel reagiert ein Telefon auf einen erkannten, ausgesprochenen Namen mit einer akustischen Bestätigung, die durch den Lautsprecherausgang des Telefons erstellt wird. Der Benutzer akzeptiert das Erkennungsergebnis oder weist das Erkennungsergebnis des Telefons beim Hören der Wiedergabe zurück.
  • In der menschlichen Sprache weist jede Äußerung bestimmte Eigenschaften auf, die quantifiziert werden können, so genannte prosodische Parameter, die bestimmen, wie die Äußerung sich anhört. Normalerweise werden diese betrachtet: Tonhöhe oder Klang, der Zeitablauf der Sprachelemente und die Betonung, die gewöhnlich als Kraft dargestellt wird. Spracherkennungssysteme verwenden andere Merkmale der Sprache, so wie die Stimmgebietsform, die nicht prosodisch sind, aber die helfen, zu bestimmen, was gesagt wurde. Menschliche Zuhörer sind erfahren, Spracheigenschaften basierend zum Teil auf prosodischen Parametern der Sprache zu erkennen. Menschliche Sprecher verwenden auch Prosodie in der Sprache, um eine allumfassende Kommunikation zu unterstützen und deren Sprache von der von anderen Sprechern zu unterscheiden. Menschen sind somit naturgemäß auf Prosodie empfindsam und können einfach den Unterschied zwischen "realer" menschlicher Sprache und "künstlich erzeugter" Sprache unterscheiden, die durch eine Maschine (Spracherzeuger) erzeugt wurde. Tatsächlich kann eine künstlich erzeugte Sprache, die dürftige prosodische Regeln verwendet, für das menschliche Ohr unverständlich sein.
  • Zusammenfassung
  • Im allgemeinen, bieten Aspekte der vorliegenden Erfindung Verfahren und Systeme zum künstlichen Erzeugen von hörbaren Phrasen (Wörtern), die ein Aufnehmen von gesprochenen Äußerungen, die ein Wort sein können, und ein Extrahieren sowohl von prosodischen als auch nicht-prosodischen Informati onen (Parametern) von diesem, ein Erkennen des Worts und ein anschließendes Anwenden der prosodischen Parametern auf eine künstlich erzeugte (nominale) Version des Wortes enthalten, um eine prosodische Simulations-Phrase zu erzeugen, die der gesprochenen Äußerung und dem nominalen Wort entspricht.
  • Ein Aspekt der vorliegenden Erfindung betrifft ein Verfahren zur künstlichen Spracherzeugung, enthaltend ein Empfangen einer gesprochenen Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erzeugen eines nominalen Worts entsprechend dem erkannten Wort; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und der prosodischen Parameter.
  • Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein System zur künstlichen Spracherzeugung, enthaltend eine Audioeingabevorrichtung, die eine gesprochene Äußerung empfängt; einen Tonhöhendetektor, der eine Tonhöhe der gesprochenen Äußerung detektiert; einen Signalprozessor, der einen prosodischen Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, entsprechend dem erkannten Wort; und einen prosodischer Simulation-Erzeuger, der das nominale Wort und den prosodischen Parameter empfängt und ein prosodisches Simulations-Wort erzeugt.
  • Ein noch weiterer Aspekt der vorliegenden Erfindung betrifft ein computerlesbares Medium mit gespeicherten Anweisungen zur Ausführung auf einem Prozessor, enthaltend Anweisungen zum Empfangen einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Anwei sungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
  • Diese und weitere Aspekte der Erfindung stellen eine verbesserte künstliche Spracherzeugung zur Verfügung, besonders in kleinen Mobilvorrichtungen wie Mobiltelefonen mit sprachaktivierten Befehlen und Benutzerschnittstellen. In einer Beziehung wird eine bessere künstliche Erzeugung von hörbaren Bestätigungsmitteilungen ermöglicht, wobei die hörbaren Bestätigungsmitteilungen prosodische Eigenschaften ähnlich derer des Benutzers aufweisen. Eine bessere künstliche Spracherzeugung klingt natürlicher und ist für Menschen verständlicher. Daher verbessert die vorliegende Erfindung die Nützlichkeit und Verständlichkeit von hörbaren Benutzerschnittstellen.
  • Zahlreiche Merkmale und Vorteile der Erfindung werden durch die folgende Beschreibung und Ansprüche ersichtlich.
  • Kurze Beschreibung der Figuren
  • Für ein besseres Verständnis der Eigenschaft und der Ziele der vorliegenden Erfindung wird auf die folgende detaillierte Beschreibung in Verbindung mit den beigefügten Figuren Bezug genommen, in denen dieselben Bezugszeichen verwendet werden, um dasselbe oder ähnliche Teile zu kennzeichnen, wobei:
  • 1 ein Blockschaltbild einer Mobiltelefonvorrichtung mit einem Sprachschnittstellensystem ist;
  • 2 ein Blockschaltbild eines Verfahren zum künstlichen Erzeugen von Sprache unter Verwendung eines Ganzwort-Modells ist; und
  • 3 ein Blockschaltbild eines Verfahrens zum künstlichen Erzeugen von Sprache unter Verwendung eines Modells auf Phonem-Niveau ist.
  • Detaillierte Beschreibung
  • Wie oben kurz beschrieben, enthält menschliche Sprache nicht nur substantielle Inhalte (woraus Wörter und Klänge gemacht werden), sondern auch Informationen über den Weg, wie Wörter und Klänge erzeugt werden. Im allgemeinen beschreibt ein Satz von Parametern (prosodische Parameter) mindestens teilweise, wie ein gesprochenes Wort oder eine Äußerung ausgesprochen wird und wie es/sie klingt. Beispiele von prosodischen Parametern sind Tonhöhe, Kraft und Zeitablauf. Eine bessere Verwendung eines prosodischen Inhalts kann eine natürlichere und verständlichere künstlich erzeugte Sprache erzeugen, ein Merkmal, das nützlich in modernen Kommunikationssystemen wie Mobiltelefonen ist, welche künstlich erzeugte Audioschnittstellen verwenden.
  • Eine Telefonvorrichtung nach der vorliegenden Erfindung verwendet einen Spracherzeugungsschaltkreis, eine Logik und ausführbare Codeanweisungen, um ein hörbares Signal zu erzeugen, das durch den Lautsprecherausgang bereitgestellt wird. Durch Extrahieren und Verwenden von prosodischen Merkmalen von gesprochenen Wörtern eines Benutzers zur künstlichen Erzeugung und Herstellen eines hörbaren Ausgangs erzeugt die Telefonvorrichtung künstlich realistisch klingende Sprache von hoher Qualität, die wie die Benutzerstimme klingt. Eine spezifische Anwendung liegt in der Verbesserung der Qualität und der Verständlichkeit von künstlich erzeugten Sprachnachrichten, die verwendet werden, um gesprochene Befehle eines Mobiltelefonbenutzers zu bestätigen.
  • 1 ist ein Blockschaltbild einer Mobiltelefonvorrichtung 10 mit einer Stimmbenutzerschnittstelle. Das System enthält einen Eingang, einen Ausgang, verarbeitende Bauteile und Speicherbauteile.
  • Eine Audioeingabevorrichtung 1000 empfängt eine gesprochene Äußerung. Die Audioeingabevorrichtung ist ein Mikrofon, und genauer ist es dasselbe Mikrofon, das verwendet wird, um über die Mobiltelefonvorrichtung 10 zu kommunizieren.
  • Die Audioeingabevorrichtung 1000 stellt das empfangene Audioeingangssignal einem Tonhöhendetektor 2100 und einem Signalprozessor 2200 vom Typ Mel Frequency Cepstral Compact (MFCC) zur Verfügung, der sowohl prosodische als auch nicht-prosodische Parameterinformationen von dem empfangenen Audiosignal extrahiert.
  • Eine Dekodier/Spracherkennungs-Vorrichtung 2300 erkennt die gesprochene Äußerung und stellt ein erkanntes Wort einem künstlichen Spracherzeuger 2400 zur Verfügung. Das erkannte Wort wird auch einer Vorrichtung mit sichtbarer Anzeige (nicht dargestellt) zur Verfügung gestellt.
  • Der Spracherzeuger 2400 erzeugt künstlich eine nominale (Vorgaben) Form des erkannten Worts unter Verwendung von Regeln, die in das System vorprogrammiert wurden und die nicht von den prosodischen Parametern der gesprochenen Äußerung abhängen.
  • Um ein prosodisches Simulations-Wort zu erzeugen, wirkt ein prosodischer Simulations-Erzeuger 2600 auf das nominal künstlich erzeugte Wort ein und fügt die Tonhöhe, den Zeitablauf oder andere prosodische Parameter dem nominal künstlich erzeugten Wort zu. Der prosodische Simulations-Erzeuger 2600 paßt die Länge des prosodischen Simulations-Wortes durch Dehnen oder Stauchen des Worts hinsichtlich der Zeit an. Bei dem Ganz-Wort-Modell nach 2 agieren der Anfang und das Ende des ganzen Worts als zeitliche Referenzpunkte, wobei bei dem Modell auf Phonem-Niveau die individuellen Phoneme als zeitliche Referenzpunkte agieren.
  • Sobald die prosodische Simulations-Phrase erzeugt ist, wird sie in eine Form geeignet zur hörbaren Ausgabe umgewandelt. Der Audioumwandler 2700 empfängt die prosodische Simulations-Phrase und führt die notwendige Umwandlung in ein elektrisches Signal aus, das durch die Audioausgangsvorrichtung 2800 wiedergegeben wird.
  • Das in 1 dargestellte Ausführungsbeispiel implementiert alles bis auf die Eingabe-/Ausgabebauteile und die Speicherbauteile in einem Prozessor 20. Natürlich kann mehr als ein Prozessor verwendet werden, um dasselbe Ergebnis zu erzielen. Dies schließt Ausführungsbeispiele ein, die mehrere besondere Prozessoren, wie Digitalsignalprozessoren (DSPs), verwenden.
  • Eine Speichervorrichtung 30 ist ein Speicherbauteil, das ein maschinenlesbares Medium enthält, das programmierte Softwareanweisungen aufweist. Die Maschine ist ein Datenprozessor, der die Anweisungen liest und ausführt. Die Anweisungen werden in dem Prozessor 20 oder dessen Komponenten abgearbeitet, um die Funktionen des Systems auszuführen. Ein Betriebssystem ist auf dem System installiert, das eine Abarbeitung der gespeicherten Anweisungen zum Ausführen der Stimmerkennung, eine Verarbeitung, eine Extraktion prosodischer Parameter, künstliche Spracherzeugung und Erzeugung von Simulations-Wörtern ermöglicht. Die Speichervorrichtung 30 wird durch die Softwareanweisungen, die hierin beschrieben sind, sowie durch andere Programmanweisungen, die zu anderen Programmen gehören, beansprucht. Beispielsweise können Programmanweisungen zum Steuern des Klingeltons, der Anzeigegrafiken und anderer Merkmale der Mobiltelefonvorrichtung in dem diesen Anweisungen zugeeilten Speicherraum innerhalb der Speichervorrichtung 30 angeordnet sein.
  • 2 ist ein Blockschaltbild eines Verfahrens zum Erzeugen von künstlichen Äußerungen durch Verwenden von prosodischen Informationen, die von gesprochenen Wörtern erhalten werden. Die funktionalen Blöcke des Schalt bilds entsprechen physischen Bauteilen, wie in 1 dargestellt, die die Funktionen der funktionalen Blöcke ausführen. Eine Äußerung wird in Datenübertragungsblöcke eingeteilt. Die Länge der Datenübertragungsblöcke beeinflußt die Qualität der künstlichen Spracherzeugung. Das Ausführungsbeispiel, das in 2 dargestellt ist, verarbeitet Äußerungen auf einer Datenübertragungsblock-zu-Datenblockübertragungsblock-Basis, wobei ein Datenübertragungsblock ein vordefiniertes Zeitsegment ist. Für Sprachanwendungen kann eine Länge eines Datenübertragungsblocks, die zu lang ist, zu Ungenauigkeiten und Spracherzeugung von geringer Qualität führen, während eine Länge eines Datenübertragungsblocks, die zu kurz ist, mehr Datenverarbeitungsaufwand (Verarbeiten, Speicher etc.) erfordert. Bei den beschriebenen Ausführungsbeispielen ist die Länge des Datenübertragungsblocks ungefähr 10 bis 20 Millisekunden in Dauer.
  • Eine Eingabevorrichtung, wie ein Mikrofon, fängt eine gesprochene Äußerung 102 (beispielsweise die Phrase "NACH HAUSE ANRUFEN") bei Schritt 100 auf. Die gesprochene Äußerung 102 entspricht einem Vorgang, der durch die Mobiltelefonvorrichtung durchzuführen ist, nämlich hier Anrufen des Telefons des Benutzers zu Hause. Bei diesem Beispiel sucht und wählt das Telefon die Telefonnummer (ZU HAUSE), deren Name ausgesprochen wurde.
  • Das System analysiert die gesprochene Äußerung 102 nach deren prosodischen Parametern und extrahiert die Werte hinsichtlich der prosodischen Parameter. Das System extrahiert beispielsweise die Tonhöhe der gesprochenen Äußerung. Die Tonhöhe bezieht sich im allgemeinen auf den Gesamtfrequenzinhalt der Stimme. Der Schritt 110 beschreibt die Tonhöhendetektion.
  • Das System extrahiert auch den spektralen Inhalt, beispielsweise die Mel Cepstra, und den Kraftinhalt der ausgesprochenen Äußerung bei Schritt 102 bei Schritt 120. Ein MFCC-Analysator mißt das MFCC-Cepstrum der ausge sprochenen Äußerung 102. Der MFCC-Analysator gibt die Datenübertragungsblöcke der prosodischen Parameter bei Schritt 122 aus.
  • Ein Dekodierer oder eine Spracherkennungsmaschine dekodiert oder erkennt die ausgesprochene Äußerung bei Schritt 130. Der Dekodierer verwendet Hardware und Software, um ein erkanntes Wort von einem Satz von möglichen bekannten Wörtern auszuwählen. Der Dekodierer erkennt ein erkanntes Wort, entsprechend der ausgesprochenen Äußerung, und stellt das Wort als ein Textausgang 132 zur Verfügung, um visuell das Ergebnis der Dekodierung anzuzeigen. Eine Anzeigevorrichtung des Mobiltelefons zeigt den Textausgang 132 dem Benutzer.
  • Der Dekodierer liefert auch das erkannte Wort 134 einem künstlichen Spracherzeuger, der das erkannte Wort und einen Satz von vorgegebenen programmierten (nominal) Erzeugungsregeln verwendet, um Datenübertragungsblöcke für künstlich erzeugte Nominalwörter bei Schritt 140 zu erzeugen. Bei diesem Ausführungsbeispiel verwendet der Dekodierer ein Ganz-Wort-Modell und die künstliche Erzeugung findet auf Wortniveau statt.
  • Ein prosodischer Simulations-Erzeuger erzeugt die prosodische Simulations-Phrase unter Verwendung der nominalen künstlich erzeugten Datenübertragungsblöcke 142 des erkannten Worts, der aufgefangenen prosodischen Parameter, die in der Tonhöhe pro Datenübertragungsblock 112 bereitgestellt werden, und den tatsächlichen Datenübertragungsblöcken 124. Der prosodische Simulations-Erzeuger wendet die prosodischen Parameter auf die nominalen Datenübertragungsblöcke 142 auf einer Datenübertragungsblock-nach-Datenübertragungsblock-Basis an. Desweiteren gleicht der prosodische Simulations-Erzeuger bei Schritt 150 zeitlich das erzeugte Simulations-Wort mit dem nominalen Wort auf einem Ganz-Wort-Niveau ab. In anderen Worten ausgedrückt wird das erkannte Wort 134 zeitlich mit dem entsprechenden aufgefangenen gesprochenen Wort durch den Zwang abgeglichen, daß die Start- und Endpunkte des nominalen Worts denen des gesprochenen Worts entsprechen.
  • Der prosodische Simulations-Erzeuger wendet die aufgefangenen prosodischen Parameter, wie die Tonhöhe, auf das nominale Wort an, wobei die Prosodie der ausgesprochenen Äußerung 102 nachgeahmt wird. Der prosodische Simulations-Erzeuger stellt auch die Länge der erzeugten Phrase durch Dehnung oder Stauchung der Phrase ein, um die gewünschte Länge zu erhalten. Die Dehnung oder Stauchung der prosodischen Simulations-Phrase wird durch Hinzufügung bzw. Entfernung von Datenübertragungsblöcken zur bzw. von der Phrase ausgeführt, um die Phrasenlänge derjenigen der gesprochenen Äußerung anzupassen. Das Ergebnis ist eine künstlich erzeugte prosodische Simulations-Phrase, die, wegen derer Prosodie, dem original gesprochenen Wort in dessen Inhalt und Klang ähnelt.
  • Ein Audioumwandler erhält die erzeugte prosodische Simulations-Phrase und wandelt die nominalen Datenübertragungsblöcke mit dem angewandten eigentlichen Zeitablauf und der Tonhöhe 152 in ein Audiosignal um, das mit dem Lautsprecher des Mobiltelefons wiedergegeben wird (Schritt 160). Der Lautsprecher ist derselbe Lautsprecher, über den der Benutzer den normalen Telefonkommunikationsausgang hört.
  • Das Endergebnis des Verfahrens, das oben beschrieben ist, ist eine natürlich klingende hörbare Phrase, die der original gesprochenen Äußerung 102 ähnelt. Die künstlich erstellte Simulations-Phrase wird als eine hörbare Bestätigungsnachricht verwendet, die dem Benutzer des Mobiltelefons wiedergegeben wird, um den auszuführenden Befehl oder den zu wählenden Namen zu bestätigen.
  • 3 stellt ein Verfahren unter Verwendung eines Modells auf Phonem-Niveau dar, entsprechend der Worte auf einem feineren Detailniveau künst lich erzeugt werden, als es bei dem Ganz-Wort-Modell getan wird. Gewöhnlich sind Phoneme akustische Sprachkomponenten. Eine gesprochene Sprache weist einen Satz von Phonemen auf, die verwendet werden, um die Klänge einer gesprochenen Sprache zu bilden. Beispielsweise enthält "HOME" [ZU HAUSE] drei Laute: "H", "O" und "M". Es ist möglich, die Qualität und Genauigkeit der künstlichen Spracherzeugung zu verbessern, wenn die Sprache auf einem Phonem-Niveau anstatt auf einem Ganz-Wort-Niveau behandelt wird.
  • Eine Eingabevorrichtung, so wie ein Mikrofon, fängt eine gesprochene Äußerung bei Schritt 100 auf, wie vorher beschrieben. Ein Signalprozessor oder mehrere Signalprozessoren und ein Tonhöhendetektor extrahieren prosodische Parameter (Tonhöhe, Kraft und/oder Zeitablauf) von der gesprochenen Äußerung 102. Der Tonhöhendetektor detektiert die Tonhöhe der gesprochenen Äußerung bei Schritt 110, und ein MFCC-Analysator extrahiert die Mel Cepstra und die Zeitablaufparameter bei Schritt 220. Einiges der Zeitablaufsinformation kann von einem Dekodierer stammen, der Teil eines Spracherkennungssystems sein kann.
  • Ein Dekodierer erkennt die Sprache bei Schritt 230. Der Dekodierer gibt ein ausgewähltes erkanntes Wort 232 an eine sichtbare Anzeigeeinheit aus und gibt auch individuelle Phoneme 234 und die Abgleichsinformationen des erkannten Worts an einen phonetischen Spracherzeuger. Der Dekodierer stellt eine Abgleichsinformation 236 zur Verwendung bei der Erzeugung einer prosodischen Simulations-Phrase später zur Verfügung.
  • Ein phonetischer Spracherzeuger nimmt die Phoneme und den Abgleichsausgang von dem Dekodierschritt 230 und führt eine künstliche Erzeugung des erkannten Worts bei Schritt 240 auf Phonem-Niveau aus. Der Spracherzeuger gibt Datenübertragungsblöcke von der phonetischen Erzeugung 242 aus.
  • Ein Parameter-Nachschlage-Schritt 250 basiert auf nominalen Datenübertragungsblockphonemen und stellt nominale Datenübertragungsblöcke und nominale Abgleichinformationen 252 zur Verfügung.
  • Ein prosodischer Simulations-Erzeuger empfängt die nominalen Datenübertragungsblöcke bei Schritt 260 sowie die aufgefangen tatsächlichen Datenübertragungsblöcke 224, die Abgleichinformationen 236, die Daten 212 der Tonhöhe pro Datenübertragungsblock und die nominalen Datenübertragungsblöcke mit nominalem Abgleich 252 zur Verfügung. Der prosodische Simulations-Erzeuger gibt einen Satz von nominalen Datenübertragungsblöcken aus, die den Zeitablauf, die Kraft und die Tonhöhe aufweisen, die von der eingegebenen gesprochenen Phrase 102 abgeleitet sind. Die ist die prosodische Simulations-Phrase 262.
  • Wie für das frühere Ausführungsbeispiel nach 2 beschrieben, wird die nominale Auswahl unter Verwendung der extrahierten prosodischen Parameter künstlich erzeugt, die von dem gesprochenen Wort erhalten wurden. Jedoch werden bei diesem Ausführungsbeispiel die einzelnen Phoneme als zeitliche Indexierpunkte oder Grenzmarkierungen verwendet, die das Verfahren zum Abgleich des Nominalen mit dem Gesprochenen beschreibt, anstatt der Zeitabgleich des nominalen Worts zu dem gesprochenen Wort. Mit anderen Worten ausgedrückt gleicht das Ausführungsbeispiel nach 3 die Phoneme innerhalb der Wörter sowie die Worte selbst ab, wodurch dem gesamten Zeitableichsverfahren größere Einschränkungen auferlegt werden.
  • Wie vorher beschrieben, wandelt ein Audioumwandler das prosodische Simulations-Wort 262 in ein Audiosignal in Schritt 270 um. Eine Audioausgangsvorrichtung liefert ein hörbares Signal an den Benutzer des Telefons bei Schritt 280. Ein Digital-Analog-Wandler wandelt das digitale Signal des prosodischen Simulations-Worts in ein Signal um, das auf dem Lautsprecher der Telefonvorrichtung wiedergegeben werden kann.
  • Die oben beschriebenen Konzepte sind nicht auf die Verwendungen beschränkt, die in den bereitgestellten erläuterten Ausführungsbeispielen vorgetragen sind, sondern sie können auf andere Systeme und Umstände ausgedehnt werden. Beispielsweise kann die Anwendung von solchen Methoden und Vorrichtungen auf jede stimm-angetriebene elektronische Vorrichtung ausgedehnt werden, einschließlich persönliche Kalender, Spielzeuge, Fahrzeugnavigationsvorrichtungen, Heimelektronik, Hausapparate und Rechnervorrichtungen im allgemeinen.
  • Das vorliegende System und die Verfahren sind auch nicht nur auf Worte begrenzt, sondern auf jedes Teil eines Worts oder jede Kombination von Wörtern, Phrasen, Sätzen, hörbaren Gesten etc. in jeder gesprochenen Sprache [anwendbar]. Daher beziehen wir uns auf jede dieser vorgenannten als Äußerungen.
  • Diese Konzepte können in Kombination mit anderen Schnittstellen menschlicher Geräte verwendet werden. Beispielsweise stellt das Mobiltelefon nicht nur dessen Benutzer hörbare und/oder sichtbare Rückmeldungen zur Verfügung, um einen Befehl oder eine zu wählenden Nummer zu bestätigen, sondern es kann auch Aktionen seitens des Benutzers erfordern, um solche Befehle zu erzielen. Es kann erforderlich sein, daß der Benutzer einen Bestätigungsknopf an seinem Mobiltelefon drückt, um Einverständnis mit dem erkannten und künstlichen erzeugten Wort anzuzeigen, oder es kann erforderlich sein, daß der Benutzer "JA" oder "OK" sagt, um eine endgültige Annahme einer künstlich erzeugten hörbaren Nachricht zu geben.
  • Bei Durchsicht der vorliegenden Beschreibung und Ausführungsbeispiele wird der Fachmann verstehen, daß Modifikationen und ähnliche Ersetzungen ausgeführt werden können, um die Erfindung auszuführen, ohne das Wesen der Erfindung zu verlassen. Somit wird die Erfindung nicht durch die oben explizit beschriebenen Ausführungsbeispiele beschränkt, sondern dies soll durch den Bereich der Ansprüche ausgelegt werden, die folgen.
  • Es wird beansprucht:
  • Zusammenfassung
  • Verfahren und Vorrichtung zur künstlichen Erzeugung hörbarer Phrasen (Wörter), die ein Aufnehmen einer gesprochenen Äußerung, die ein Wort sein kann, und Extrahieren prosodischer Parameter von dieser und anschließendes Anwenden der prosodischen Parameter auf ein künstlich erzeugtes (nominales) Wort umfaßt, um ein prosodisches Simulations-Wort entsprechend der gesprochenen Äußerung und dem nominalen Wort zu erzeugen.

Claims (14)

  1. Verfahren zur Spracherzeugung, umfassend: Erhalten einer gesprochener Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.
  2. Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Tonhöhe enthalten.
  3. Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter einen Zeitablauf enthalten.
  4. Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Kraft enthalten.
  5. Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen der gesprochenen Äußerung und des nominalen Wortes.
  6. Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen von Phonemen der gesprochenen Äußerung und Phonemen des nominalen Worts.
  7. Verfahren nach Anspruch 1, des weiteren umfassend ein Umwandeln des prosodischen Simulations-Wortes in ein entsprechendes Audiosignal.
  8. Verfahren nach Anspruch 1, in dem die gesprochene Äußerung durch eine Telefoneingabevorrichtung erhalten wird und das prosodische Simulations-Wort durch eine Telefonausgabevorrichtung bereitgestellt wird.
  9. System zur Spracherzeugung, umfassend: eine Audioeingabevorrichtung, die eine gesprochene Äußerung erhält; einen Signalprozessor, der einen prosodischen Parameter oder mehrere prosodische Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, das dem erkannten Wort entspricht; und einen prosodischen Simulations-Erzeuger, der das nominale Wort und den einen prosodischen Parameter oder die mehreren prosodischen Parameter erhält und ein prosodisches Simulations-Wort erzeugt.
  10. System nach Anspruch 8, wobei der Dekodierer eine Spracherkennungsvorrichtung umfaßt.
  11. System nach Anspruch 8, wobei das System an einer Mobiltelefonvorrichtung angeordnet ist.
  12. System nach Anspruch 8, des weiteren umfassend eine Speichervorrichtung, die ausführbare Anweisungen für eine Sprachanalyse und -verarbeitung enthält.
  13. Ein computerlesbares Medium enthaltend gespeicherte Anweisungen zur Ausführung auf einem Prozessor, enthaltend: Anweisungen zum Erhalt einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters von der gesprochenen Äußerung; Anweisungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
  14. Computerlesbares Medium nach Anspruch 12, wobei das Medium innerhalb eines Mobiltelefonapparats angeordnet ist und in Verbindung mit einer Benutzerschnittstelle in Betrieb ist.
DE112004000187T 2003-01-24 2004-01-21 Verfahren und Vorrichtung der prosodischen Simulations-Synthese Ceased DE112004000187T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US44226703P 2003-01-24 2003-01-24
US60/442,267 2003-01-24
US10/657,421 US8768701B2 (en) 2003-01-24 2003-09-08 Prosodic mimic method and apparatus
US10/657,421 2003-09-08
PCT/US2004/001520 WO2004068466A1 (en) 2003-01-24 2004-01-21 Prosodic mimic synthesis method and apparatus

Publications (1)

Publication Number Publication Date
DE112004000187T5 true DE112004000187T5 (de) 2005-12-01

Family

ID=32738387

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112004000187T Ceased DE112004000187T5 (de) 2003-01-24 2004-01-21 Verfahren und Vorrichtung der prosodischen Simulations-Synthese

Country Status (5)

Country Link
US (1) US8768701B2 (de)
JP (1) JP2006517037A (de)
CN (1) CN1742321B (de)
DE (1) DE112004000187T5 (de)
WO (1) WO2004068466A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
KR100690243B1 (ko) * 2006-06-07 2007-03-12 삼성전자주식회사 휴대 단말기의 카메라 제어 장치 및 방법
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
EP3007165B1 (de) * 2013-05-31 2018-08-01 Yamaha Corporation Technologie zum antworten auf bemerkungen unter verwendung von sprachsynthese
JP5954348B2 (ja) * 2013-05-31 2016-07-20 ヤマハ株式会社 音声合成装置および音声合成方法
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
US10586079B2 (en) 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
DE102016125606A1 (de) * 2016-12-23 2018-06-28 Miele & Cie. Kg Verfahren und Vorrichtung zum Betreiben eines Haushaltgeräts und Haushaltgerät
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
US20190051302A1 (en) * 2018-09-24 2019-02-14 Intel Corporation Technologies for contextual natural language generation in a vehicle
CN113516963B (zh) * 2020-04-09 2023-11-10 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2729487B2 (ja) 1988-07-20 1998-03-18 ライオン株式会社 集塵材
JPH0511794A (ja) * 1991-07-01 1993-01-22 Ricoh Co Ltd 音声合成装置
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JPH0878778A (ja) * 1994-09-07 1996-03-22 Mitsubishi Electric Corp 半導体レーザ装置,及びその製造方法
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP3278595B2 (ja) * 1997-10-07 2002-04-30 埼玉日本電気株式会社 携帯電話
DE19751123C1 (de) 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2000231396A (ja) * 1999-02-09 2000-08-22 Matsushita Electric Ind Co Ltd セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP4367808B2 (ja) * 1999-12-03 2009-11-18 富士通株式会社 音声データ圧縮・解凍装置及び方法
JP4509273B2 (ja) * 1999-12-22 2010-07-21 ヤマハ株式会社 音声変換装置及び音声変換方法
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
EP1262954A1 (de) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Verfahren und Vorrichtung zur mündlichen Eingabe von Ziffern oder Befehlen
US6711543B2 (en) * 2001-05-30 2004-03-23 Cameronsound, Inc. Language independent and voice operated information management system
EP1271469A1 (de) 2001-06-22 2003-01-02 Sony International (Europe) GmbH Verfahren zur Erzeugung von Persönlichkeitsmustern und zur Sprachsynthese
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
WO2004027685A2 (en) * 2002-09-19 2004-04-01 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US7124082B2 (en) * 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example

Also Published As

Publication number Publication date
CN1742321A (zh) 2006-03-01
US8768701B2 (en) 2014-07-01
CN1742321B (zh) 2010-08-18
JP2006517037A (ja) 2006-07-13
WO2004068466A1 (en) 2004-08-12
US20040148172A1 (en) 2004-07-29

Similar Documents

Publication Publication Date Title
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
CN103903627B (zh) 一种语音数据的传输方法及装置
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69514382T2 (de) Spracherkennung
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE112005000924T5 (de) Stimme über Short Message Service
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
EP3074974B1 (de) Hörhilfevorrichtung mit grundfrequenzmodifizierung
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69512961T2 (de) Spracherkennung auf Grundlage von &#34;HMMs&#34;
CN112820268A (zh) 个性化语音转换训练方法、装置、计算机设备及存储介质
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112010005706B4 (de) Spracherkennungsvorrichtung
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
WO2000016310A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law

Ref document number: 112004000187

Country of ref document: DE

Date of ref document: 20051201

Kind code of ref document: P

R016 Response to examination communication
R082 Change of representative

Representative=s name: PATENTANWAELTE FREISCHEM, DE

R081 Change of applicant/patentee

Owner name: NUANCE COMMUNICATIONS, INC., US

Free format text: FORMER OWNER: VOICE SIGNAL TECHNOLOGIES INC., WOBURN, US

Effective date: 20130118

Owner name: NUANCE COMMUNICATIONS, INC., BURLINGTON, US

Free format text: FORMER OWNER: VOICE SIGNAL TECHNOLOGIES INC., WOBURN, MASS., US

Effective date: 20130118

R082 Change of representative

Representative=s name: PATENTANWAELTE FREISCHEM, DE

Effective date: 20130118

Representative=s name: FREISCHEM & PARTNER PATENTANWAELTE MBB, DE

Effective date: 20130118

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final

Effective date: 20131015