DE112004000187T5 - Verfahren und Vorrichtung der prosodischen Simulations-Synthese - Google Patents
Verfahren und Vorrichtung der prosodischen Simulations-Synthese Download PDFInfo
- Publication number
- DE112004000187T5 DE112004000187T5 DE112004000187T DE112004000187T DE112004000187T5 DE 112004000187 T5 DE112004000187 T5 DE 112004000187T5 DE 112004000187 T DE112004000187 T DE 112004000187T DE 112004000187 T DE112004000187 T DE 112004000187T DE 112004000187 T5 DE112004000187 T5 DE 112004000187T5
- Authority
- DE
- Germany
- Prior art keywords
- prosodic
- word
- spoken utterance
- nominal
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 title 1
- 238000003786 synthesis reaction Methods 0.000 title 1
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims 2
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000012790 confirmation Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Erhalten einer gesprochener Äußerung;
Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung;
Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen;
künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und
Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.
Description
- Technisches Gebiet
- Die vorliegende Erfindung bezieht sich auf stimmenaktivierte Kommunikationssysteme.
- Hintergrund
- Viele Mobiltelefone (hier gemeint umfassend mindestens Datenverarbeitungs- und Kommunikationsvorrichtungen, die Telefonie- oder Stimmkommunikationsfunktionen ausführen) sind mit stimmunterstützenden Schnittstellmerkmalen ausgestattet, die es einem Benutzer ermöglichen, auf eine Funktion durch Sprechen eines Ausdrucks zuzugreifen, um die Funktion aufzurufen. Ein bekanntes Beispiel ist das Wählen mit der Stimme, wobei ein Benutzer einen Namen oder einen anderen vorgespeicherten Ausdruck in das Telefon spricht und das Telefon durch Wählen der dem Namen zugehörigen Nummer reagiert.
- Um zu überprüfen, ob die zu wählende Nummer oder die aufzurufende Funktion tatsächlich die durch den Benutzer Gewünschte ist, kann ein Mobiltelefon eine Bestätigungsnachricht dem Benutzer anzeigen, so daß dem Benutzer ermöglicht wird, fortzufahren, wenn alles in Ordnung ist, oder die Funktion abzubrechen, wenn diese inkorrekt ist. Akustische und/oder sichtbare Benutzerschnittstellen existieren zum Interagieren mit Mobiltelefonvorrichtungen. Akustische Bestätigungen und Benutzerschnittstellen ermöglichen mehr einen Freihandbetrieb im Vergleich zu sichtbaren Bestätigungen und Schnittstellen, so wie dies von einem Fahrer benötigt wird, der seine oder ihre Augen auf der Straße halten will, anstatt auf die Telefonvorrichtung zu schauen.
- Eine Spracherkennung kommt in einem Mobiltelefon zum Einsatz, um eine Phrase, ein Wort, einen Ton (im allgemeinen hierin nachfolgend als Äuße rungen bezeichnet) zu erkennen, die durch den Telefonbenutzer ausgesprochen werden. Eine Spracherkennung wird daher manchmal in Telefonbuchanwendungen verwendet. Bei einem Beispiel reagiert ein Telefon auf einen erkannten, ausgesprochenen Namen mit einer akustischen Bestätigung, die durch den Lautsprecherausgang des Telefons erstellt wird. Der Benutzer akzeptiert das Erkennungsergebnis oder weist das Erkennungsergebnis des Telefons beim Hören der Wiedergabe zurück.
- In der menschlichen Sprache weist jede Äußerung bestimmte Eigenschaften auf, die quantifiziert werden können, so genannte prosodische Parameter, die bestimmen, wie die Äußerung sich anhört. Normalerweise werden diese betrachtet: Tonhöhe oder Klang, der Zeitablauf der Sprachelemente und die Betonung, die gewöhnlich als Kraft dargestellt wird. Spracherkennungssysteme verwenden andere Merkmale der Sprache, so wie die Stimmgebietsform, die nicht prosodisch sind, aber die helfen, zu bestimmen, was gesagt wurde. Menschliche Zuhörer sind erfahren, Spracheigenschaften basierend zum Teil auf prosodischen Parametern der Sprache zu erkennen. Menschliche Sprecher verwenden auch Prosodie in der Sprache, um eine allumfassende Kommunikation zu unterstützen und deren Sprache von der von anderen Sprechern zu unterscheiden. Menschen sind somit naturgemäß auf Prosodie empfindsam und können einfach den Unterschied zwischen "realer" menschlicher Sprache und "künstlich erzeugter" Sprache unterscheiden, die durch eine Maschine (Spracherzeuger) erzeugt wurde. Tatsächlich kann eine künstlich erzeugte Sprache, die dürftige prosodische Regeln verwendet, für das menschliche Ohr unverständlich sein.
- Zusammenfassung
- Im allgemeinen, bieten Aspekte der vorliegenden Erfindung Verfahren und Systeme zum künstlichen Erzeugen von hörbaren Phrasen (Wörtern), die ein Aufnehmen von gesprochenen Äußerungen, die ein Wort sein können, und ein Extrahieren sowohl von prosodischen als auch nicht-prosodischen Informati onen (Parametern) von diesem, ein Erkennen des Worts und ein anschließendes Anwenden der prosodischen Parametern auf eine künstlich erzeugte (nominale) Version des Wortes enthalten, um eine prosodische Simulations-Phrase zu erzeugen, die der gesprochenen Äußerung und dem nominalen Wort entspricht.
- Ein Aspekt der vorliegenden Erfindung betrifft ein Verfahren zur künstlichen Spracherzeugung, enthaltend ein Empfangen einer gesprochenen Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erzeugen eines nominalen Worts entsprechend dem erkannten Wort; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und der prosodischen Parameter.
- Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein System zur künstlichen Spracherzeugung, enthaltend eine Audioeingabevorrichtung, die eine gesprochene Äußerung empfängt; einen Tonhöhendetektor, der eine Tonhöhe der gesprochenen Äußerung detektiert; einen Signalprozessor, der einen prosodischen Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, entsprechend dem erkannten Wort; und einen prosodischer Simulation-Erzeuger, der das nominale Wort und den prosodischen Parameter empfängt und ein prosodisches Simulations-Wort erzeugt.
- Ein noch weiterer Aspekt der vorliegenden Erfindung betrifft ein computerlesbares Medium mit gespeicherten Anweisungen zur Ausführung auf einem Prozessor, enthaltend Anweisungen zum Empfangen einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Anwei sungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
- Diese und weitere Aspekte der Erfindung stellen eine verbesserte künstliche Spracherzeugung zur Verfügung, besonders in kleinen Mobilvorrichtungen wie Mobiltelefonen mit sprachaktivierten Befehlen und Benutzerschnittstellen. In einer Beziehung wird eine bessere künstliche Erzeugung von hörbaren Bestätigungsmitteilungen ermöglicht, wobei die hörbaren Bestätigungsmitteilungen prosodische Eigenschaften ähnlich derer des Benutzers aufweisen. Eine bessere künstliche Spracherzeugung klingt natürlicher und ist für Menschen verständlicher. Daher verbessert die vorliegende Erfindung die Nützlichkeit und Verständlichkeit von hörbaren Benutzerschnittstellen.
- Zahlreiche Merkmale und Vorteile der Erfindung werden durch die folgende Beschreibung und Ansprüche ersichtlich.
- Kurze Beschreibung der Figuren
- Für ein besseres Verständnis der Eigenschaft und der Ziele der vorliegenden Erfindung wird auf die folgende detaillierte Beschreibung in Verbindung mit den beigefügten Figuren Bezug genommen, in denen dieselben Bezugszeichen verwendet werden, um dasselbe oder ähnliche Teile zu kennzeichnen, wobei:
-
1 ein Blockschaltbild einer Mobiltelefonvorrichtung mit einem Sprachschnittstellensystem ist; -
2 ein Blockschaltbild eines Verfahren zum künstlichen Erzeugen von Sprache unter Verwendung eines Ganzwort-Modells ist; und -
3 ein Blockschaltbild eines Verfahrens zum künstlichen Erzeugen von Sprache unter Verwendung eines Modells auf Phonem-Niveau ist. - Detaillierte Beschreibung
- Wie oben kurz beschrieben, enthält menschliche Sprache nicht nur substantielle Inhalte (woraus Wörter und Klänge gemacht werden), sondern auch Informationen über den Weg, wie Wörter und Klänge erzeugt werden. Im allgemeinen beschreibt ein Satz von Parametern (prosodische Parameter) mindestens teilweise, wie ein gesprochenes Wort oder eine Äußerung ausgesprochen wird und wie es/sie klingt. Beispiele von prosodischen Parametern sind Tonhöhe, Kraft und Zeitablauf. Eine bessere Verwendung eines prosodischen Inhalts kann eine natürlichere und verständlichere künstlich erzeugte Sprache erzeugen, ein Merkmal, das nützlich in modernen Kommunikationssystemen wie Mobiltelefonen ist, welche künstlich erzeugte Audioschnittstellen verwenden.
- Eine Telefonvorrichtung nach der vorliegenden Erfindung verwendet einen Spracherzeugungsschaltkreis, eine Logik und ausführbare Codeanweisungen, um ein hörbares Signal zu erzeugen, das durch den Lautsprecherausgang bereitgestellt wird. Durch Extrahieren und Verwenden von prosodischen Merkmalen von gesprochenen Wörtern eines Benutzers zur künstlichen Erzeugung und Herstellen eines hörbaren Ausgangs erzeugt die Telefonvorrichtung künstlich realistisch klingende Sprache von hoher Qualität, die wie die Benutzerstimme klingt. Eine spezifische Anwendung liegt in der Verbesserung der Qualität und der Verständlichkeit von künstlich erzeugten Sprachnachrichten, die verwendet werden, um gesprochene Befehle eines Mobiltelefonbenutzers zu bestätigen.
-
1 ist ein Blockschaltbild einer Mobiltelefonvorrichtung10 mit einer Stimmbenutzerschnittstelle. Das System enthält einen Eingang, einen Ausgang, verarbeitende Bauteile und Speicherbauteile. - Eine Audioeingabevorrichtung
1000 empfängt eine gesprochene Äußerung. Die Audioeingabevorrichtung ist ein Mikrofon, und genauer ist es dasselbe Mikrofon, das verwendet wird, um über die Mobiltelefonvorrichtung10 zu kommunizieren. - Die Audioeingabevorrichtung
1000 stellt das empfangene Audioeingangssignal einem Tonhöhendetektor2100 und einem Signalprozessor2200 vom Typ Mel Frequency Cepstral Compact (MFCC) zur Verfügung, der sowohl prosodische als auch nicht-prosodische Parameterinformationen von dem empfangenen Audiosignal extrahiert. - Eine Dekodier/Spracherkennungs-Vorrichtung
2300 erkennt die gesprochene Äußerung und stellt ein erkanntes Wort einem künstlichen Spracherzeuger2400 zur Verfügung. Das erkannte Wort wird auch einer Vorrichtung mit sichtbarer Anzeige (nicht dargestellt) zur Verfügung gestellt. - Der Spracherzeuger
2400 erzeugt künstlich eine nominale (Vorgaben) Form des erkannten Worts unter Verwendung von Regeln, die in das System vorprogrammiert wurden und die nicht von den prosodischen Parametern der gesprochenen Äußerung abhängen. - Um ein prosodisches Simulations-Wort zu erzeugen, wirkt ein prosodischer Simulations-Erzeuger
2600 auf das nominal künstlich erzeugte Wort ein und fügt die Tonhöhe, den Zeitablauf oder andere prosodische Parameter dem nominal künstlich erzeugten Wort zu. Der prosodische Simulations-Erzeuger2600 paßt die Länge des prosodischen Simulations-Wortes durch Dehnen oder Stauchen des Worts hinsichtlich der Zeit an. Bei dem Ganz-Wort-Modell nach2 agieren der Anfang und das Ende des ganzen Worts als zeitliche Referenzpunkte, wobei bei dem Modell auf Phonem-Niveau die individuellen Phoneme als zeitliche Referenzpunkte agieren. - Sobald die prosodische Simulations-Phrase erzeugt ist, wird sie in eine Form geeignet zur hörbaren Ausgabe umgewandelt. Der Audioumwandler
2700 empfängt die prosodische Simulations-Phrase und führt die notwendige Umwandlung in ein elektrisches Signal aus, das durch die Audioausgangsvorrichtung2800 wiedergegeben wird. - Das in
1 dargestellte Ausführungsbeispiel implementiert alles bis auf die Eingabe-/Ausgabebauteile und die Speicherbauteile in einem Prozessor20 . Natürlich kann mehr als ein Prozessor verwendet werden, um dasselbe Ergebnis zu erzielen. Dies schließt Ausführungsbeispiele ein, die mehrere besondere Prozessoren, wie Digitalsignalprozessoren (DSPs), verwenden. - Eine Speichervorrichtung
30 ist ein Speicherbauteil, das ein maschinenlesbares Medium enthält, das programmierte Softwareanweisungen aufweist. Die Maschine ist ein Datenprozessor, der die Anweisungen liest und ausführt. Die Anweisungen werden in dem Prozessor20 oder dessen Komponenten abgearbeitet, um die Funktionen des Systems auszuführen. Ein Betriebssystem ist auf dem System installiert, das eine Abarbeitung der gespeicherten Anweisungen zum Ausführen der Stimmerkennung, eine Verarbeitung, eine Extraktion prosodischer Parameter, künstliche Spracherzeugung und Erzeugung von Simulations-Wörtern ermöglicht. Die Speichervorrichtung30 wird durch die Softwareanweisungen, die hierin beschrieben sind, sowie durch andere Programmanweisungen, die zu anderen Programmen gehören, beansprucht. Beispielsweise können Programmanweisungen zum Steuern des Klingeltons, der Anzeigegrafiken und anderer Merkmale der Mobiltelefonvorrichtung in dem diesen Anweisungen zugeeilten Speicherraum innerhalb der Speichervorrichtung30 angeordnet sein. -
2 ist ein Blockschaltbild eines Verfahrens zum Erzeugen von künstlichen Äußerungen durch Verwenden von prosodischen Informationen, die von gesprochenen Wörtern erhalten werden. Die funktionalen Blöcke des Schalt bilds entsprechen physischen Bauteilen, wie in1 dargestellt, die die Funktionen der funktionalen Blöcke ausführen. Eine Äußerung wird in Datenübertragungsblöcke eingeteilt. Die Länge der Datenübertragungsblöcke beeinflußt die Qualität der künstlichen Spracherzeugung. Das Ausführungsbeispiel, das in2 dargestellt ist, verarbeitet Äußerungen auf einer Datenübertragungsblock-zu-Datenblockübertragungsblock-Basis, wobei ein Datenübertragungsblock ein vordefiniertes Zeitsegment ist. Für Sprachanwendungen kann eine Länge eines Datenübertragungsblocks, die zu lang ist, zu Ungenauigkeiten und Spracherzeugung von geringer Qualität führen, während eine Länge eines Datenübertragungsblocks, die zu kurz ist, mehr Datenverarbeitungsaufwand (Verarbeiten, Speicher etc.) erfordert. Bei den beschriebenen Ausführungsbeispielen ist die Länge des Datenübertragungsblocks ungefähr 10 bis 20 Millisekunden in Dauer. - Eine Eingabevorrichtung, wie ein Mikrofon, fängt eine gesprochene Äußerung
102 (beispielsweise die Phrase "NACH HAUSE ANRUFEN") bei Schritt100 auf. Die gesprochene Äußerung102 entspricht einem Vorgang, der durch die Mobiltelefonvorrichtung durchzuführen ist, nämlich hier Anrufen des Telefons des Benutzers zu Hause. Bei diesem Beispiel sucht und wählt das Telefon die Telefonnummer (ZU HAUSE), deren Name ausgesprochen wurde. - Das System analysiert die gesprochene Äußerung
102 nach deren prosodischen Parametern und extrahiert die Werte hinsichtlich der prosodischen Parameter. Das System extrahiert beispielsweise die Tonhöhe der gesprochenen Äußerung. Die Tonhöhe bezieht sich im allgemeinen auf den Gesamtfrequenzinhalt der Stimme. Der Schritt110 beschreibt die Tonhöhendetektion. - Das System extrahiert auch den spektralen Inhalt, beispielsweise die Mel Cepstra, und den Kraftinhalt der ausgesprochenen Äußerung bei Schritt
102 bei Schritt120 . Ein MFCC-Analysator mißt das MFCC-Cepstrum der ausge sprochenen Äußerung102 . Der MFCC-Analysator gibt die Datenübertragungsblöcke der prosodischen Parameter bei Schritt122 aus. - Ein Dekodierer oder eine Spracherkennungsmaschine dekodiert oder erkennt die ausgesprochene Äußerung bei Schritt
130 . Der Dekodierer verwendet Hardware und Software, um ein erkanntes Wort von einem Satz von möglichen bekannten Wörtern auszuwählen. Der Dekodierer erkennt ein erkanntes Wort, entsprechend der ausgesprochenen Äußerung, und stellt das Wort als ein Textausgang132 zur Verfügung, um visuell das Ergebnis der Dekodierung anzuzeigen. Eine Anzeigevorrichtung des Mobiltelefons zeigt den Textausgang132 dem Benutzer. - Der Dekodierer liefert auch das erkannte Wort
134 einem künstlichen Spracherzeuger, der das erkannte Wort und einen Satz von vorgegebenen programmierten (nominal) Erzeugungsregeln verwendet, um Datenübertragungsblöcke für künstlich erzeugte Nominalwörter bei Schritt140 zu erzeugen. Bei diesem Ausführungsbeispiel verwendet der Dekodierer ein Ganz-Wort-Modell und die künstliche Erzeugung findet auf Wortniveau statt. - Ein prosodischer Simulations-Erzeuger erzeugt die prosodische Simulations-Phrase unter Verwendung der nominalen künstlich erzeugten Datenübertragungsblöcke
142 des erkannten Worts, der aufgefangenen prosodischen Parameter, die in der Tonhöhe pro Datenübertragungsblock112 bereitgestellt werden, und den tatsächlichen Datenübertragungsblöcken124 . Der prosodische Simulations-Erzeuger wendet die prosodischen Parameter auf die nominalen Datenübertragungsblöcke142 auf einer Datenübertragungsblock-nach-Datenübertragungsblock-Basis an. Desweiteren gleicht der prosodische Simulations-Erzeuger bei Schritt150 zeitlich das erzeugte Simulations-Wort mit dem nominalen Wort auf einem Ganz-Wort-Niveau ab. In anderen Worten ausgedrückt wird das erkannte Wort134 zeitlich mit dem entsprechenden aufgefangenen gesprochenen Wort durch den Zwang abgeglichen, daß die Start- und Endpunkte des nominalen Worts denen des gesprochenen Worts entsprechen. - Der prosodische Simulations-Erzeuger wendet die aufgefangenen prosodischen Parameter, wie die Tonhöhe, auf das nominale Wort an, wobei die Prosodie der ausgesprochenen Äußerung
102 nachgeahmt wird. Der prosodische Simulations-Erzeuger stellt auch die Länge der erzeugten Phrase durch Dehnung oder Stauchung der Phrase ein, um die gewünschte Länge zu erhalten. Die Dehnung oder Stauchung der prosodischen Simulations-Phrase wird durch Hinzufügung bzw. Entfernung von Datenübertragungsblöcken zur bzw. von der Phrase ausgeführt, um die Phrasenlänge derjenigen der gesprochenen Äußerung anzupassen. Das Ergebnis ist eine künstlich erzeugte prosodische Simulations-Phrase, die, wegen derer Prosodie, dem original gesprochenen Wort in dessen Inhalt und Klang ähnelt. - Ein Audioumwandler erhält die erzeugte prosodische Simulations-Phrase und wandelt die nominalen Datenübertragungsblöcke mit dem angewandten eigentlichen Zeitablauf und der Tonhöhe
152 in ein Audiosignal um, das mit dem Lautsprecher des Mobiltelefons wiedergegeben wird (Schritt160 ). Der Lautsprecher ist derselbe Lautsprecher, über den der Benutzer den normalen Telefonkommunikationsausgang hört. - Das Endergebnis des Verfahrens, das oben beschrieben ist, ist eine natürlich klingende hörbare Phrase, die der original gesprochenen Äußerung
102 ähnelt. Die künstlich erstellte Simulations-Phrase wird als eine hörbare Bestätigungsnachricht verwendet, die dem Benutzer des Mobiltelefons wiedergegeben wird, um den auszuführenden Befehl oder den zu wählenden Namen zu bestätigen. -
3 stellt ein Verfahren unter Verwendung eines Modells auf Phonem-Niveau dar, entsprechend der Worte auf einem feineren Detailniveau künst lich erzeugt werden, als es bei dem Ganz-Wort-Modell getan wird. Gewöhnlich sind Phoneme akustische Sprachkomponenten. Eine gesprochene Sprache weist einen Satz von Phonemen auf, die verwendet werden, um die Klänge einer gesprochenen Sprache zu bilden. Beispielsweise enthält "HOME" [ZU HAUSE] drei Laute: "H", "O" und "M". Es ist möglich, die Qualität und Genauigkeit der künstlichen Spracherzeugung zu verbessern, wenn die Sprache auf einem Phonem-Niveau anstatt auf einem Ganz-Wort-Niveau behandelt wird. - Eine Eingabevorrichtung, so wie ein Mikrofon, fängt eine gesprochene Äußerung bei Schritt
100 auf, wie vorher beschrieben. Ein Signalprozessor oder mehrere Signalprozessoren und ein Tonhöhendetektor extrahieren prosodische Parameter (Tonhöhe, Kraft und/oder Zeitablauf) von der gesprochenen Äußerung102 . Der Tonhöhendetektor detektiert die Tonhöhe der gesprochenen Äußerung bei Schritt110 , und ein MFCC-Analysator extrahiert die Mel Cepstra und die Zeitablaufparameter bei Schritt220 . Einiges der Zeitablaufsinformation kann von einem Dekodierer stammen, der Teil eines Spracherkennungssystems sein kann. - Ein Dekodierer erkennt die Sprache bei Schritt
230 . Der Dekodierer gibt ein ausgewähltes erkanntes Wort232 an eine sichtbare Anzeigeeinheit aus und gibt auch individuelle Phoneme234 und die Abgleichsinformationen des erkannten Worts an einen phonetischen Spracherzeuger. Der Dekodierer stellt eine Abgleichsinformation236 zur Verwendung bei der Erzeugung einer prosodischen Simulations-Phrase später zur Verfügung. - Ein phonetischer Spracherzeuger nimmt die Phoneme und den Abgleichsausgang von dem Dekodierschritt
230 und führt eine künstliche Erzeugung des erkannten Worts bei Schritt240 auf Phonem-Niveau aus. Der Spracherzeuger gibt Datenübertragungsblöcke von der phonetischen Erzeugung242 aus. - Ein Parameter-Nachschlage-Schritt
250 basiert auf nominalen Datenübertragungsblockphonemen und stellt nominale Datenübertragungsblöcke und nominale Abgleichinformationen252 zur Verfügung. - Ein prosodischer Simulations-Erzeuger empfängt die nominalen Datenübertragungsblöcke bei Schritt
260 sowie die aufgefangen tatsächlichen Datenübertragungsblöcke224 , die Abgleichinformationen236 , die Daten212 der Tonhöhe pro Datenübertragungsblock und die nominalen Datenübertragungsblöcke mit nominalem Abgleich252 zur Verfügung. Der prosodische Simulations-Erzeuger gibt einen Satz von nominalen Datenübertragungsblöcken aus, die den Zeitablauf, die Kraft und die Tonhöhe aufweisen, die von der eingegebenen gesprochenen Phrase102 abgeleitet sind. Die ist die prosodische Simulations-Phrase262 . - Wie für das frühere Ausführungsbeispiel nach
2 beschrieben, wird die nominale Auswahl unter Verwendung der extrahierten prosodischen Parameter künstlich erzeugt, die von dem gesprochenen Wort erhalten wurden. Jedoch werden bei diesem Ausführungsbeispiel die einzelnen Phoneme als zeitliche Indexierpunkte oder Grenzmarkierungen verwendet, die das Verfahren zum Abgleich des Nominalen mit dem Gesprochenen beschreibt, anstatt der Zeitabgleich des nominalen Worts zu dem gesprochenen Wort. Mit anderen Worten ausgedrückt gleicht das Ausführungsbeispiel nach3 die Phoneme innerhalb der Wörter sowie die Worte selbst ab, wodurch dem gesamten Zeitableichsverfahren größere Einschränkungen auferlegt werden. - Wie vorher beschrieben, wandelt ein Audioumwandler das prosodische Simulations-Wort
262 in ein Audiosignal in Schritt270 um. Eine Audioausgangsvorrichtung liefert ein hörbares Signal an den Benutzer des Telefons bei Schritt280 . Ein Digital-Analog-Wandler wandelt das digitale Signal des prosodischen Simulations-Worts in ein Signal um, das auf dem Lautsprecher der Telefonvorrichtung wiedergegeben werden kann. - Die oben beschriebenen Konzepte sind nicht auf die Verwendungen beschränkt, die in den bereitgestellten erläuterten Ausführungsbeispielen vorgetragen sind, sondern sie können auf andere Systeme und Umstände ausgedehnt werden. Beispielsweise kann die Anwendung von solchen Methoden und Vorrichtungen auf jede stimm-angetriebene elektronische Vorrichtung ausgedehnt werden, einschließlich persönliche Kalender, Spielzeuge, Fahrzeugnavigationsvorrichtungen, Heimelektronik, Hausapparate und Rechnervorrichtungen im allgemeinen.
- Das vorliegende System und die Verfahren sind auch nicht nur auf Worte begrenzt, sondern auf jedes Teil eines Worts oder jede Kombination von Wörtern, Phrasen, Sätzen, hörbaren Gesten etc. in jeder gesprochenen Sprache [anwendbar]. Daher beziehen wir uns auf jede dieser vorgenannten als Äußerungen.
- Diese Konzepte können in Kombination mit anderen Schnittstellen menschlicher Geräte verwendet werden. Beispielsweise stellt das Mobiltelefon nicht nur dessen Benutzer hörbare und/oder sichtbare Rückmeldungen zur Verfügung, um einen Befehl oder eine zu wählenden Nummer zu bestätigen, sondern es kann auch Aktionen seitens des Benutzers erfordern, um solche Befehle zu erzielen. Es kann erforderlich sein, daß der Benutzer einen Bestätigungsknopf an seinem Mobiltelefon drückt, um Einverständnis mit dem erkannten und künstlichen erzeugten Wort anzuzeigen, oder es kann erforderlich sein, daß der Benutzer "JA" oder "OK" sagt, um eine endgültige Annahme einer künstlich erzeugten hörbaren Nachricht zu geben.
- Bei Durchsicht der vorliegenden Beschreibung und Ausführungsbeispiele wird der Fachmann verstehen, daß Modifikationen und ähnliche Ersetzungen ausgeführt werden können, um die Erfindung auszuführen, ohne das Wesen der Erfindung zu verlassen. Somit wird die Erfindung nicht durch die oben explizit beschriebenen Ausführungsbeispiele beschränkt, sondern dies soll durch den Bereich der Ansprüche ausgelegt werden, die folgen.
- Es wird beansprucht:
- Zusammenfassung
- Verfahren und Vorrichtung zur künstlichen Erzeugung hörbarer Phrasen (Wörter), die ein Aufnehmen einer gesprochenen Äußerung, die ein Wort sein kann, und Extrahieren prosodischer Parameter von dieser und anschließendes Anwenden der prosodischen Parameter auf ein künstlich erzeugtes (nominales) Wort umfaßt, um ein prosodisches Simulations-Wort entsprechend der gesprochenen Äußerung und dem nominalen Wort zu erzeugen.
Claims (14)
- Verfahren zur Spracherzeugung, umfassend: Erhalten einer gesprochener Äußerung; Extrahieren eines prosodischen Parameters oder mehrerer prosodischer Parameter von der gesprochenen Äußerung; Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; künstliches Erstellen eines nominalen Wortes, das dem erkannten Wort entspricht; und Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des einen prosodischen Parameters oder der mehreren prosodischen Parameter.
- Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Tonhöhe enthalten.
- Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter einen Zeitablauf enthalten.
- Verfahren nach Anspruch 1, bei dem der eine prosodische Parameter oder die mehreren prosodischen Parameter eine Kraft enthalten.
- Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen der gesprochenen Äußerung und des nominalen Wortes.
- Verfahren nach Anspruch 1, des weiteren umfassend ein zeitliches Anpassen von Phonemen der gesprochenen Äußerung und Phonemen des nominalen Worts.
- Verfahren nach Anspruch 1, des weiteren umfassend ein Umwandeln des prosodischen Simulations-Wortes in ein entsprechendes Audiosignal.
- Verfahren nach Anspruch 1, in dem die gesprochene Äußerung durch eine Telefoneingabevorrichtung erhalten wird und das prosodische Simulations-Wort durch eine Telefonausgabevorrichtung bereitgestellt wird.
- System zur Spracherzeugung, umfassend: eine Audioeingabevorrichtung, die eine gesprochene Äußerung erhält; einen Signalprozessor, der einen prosodischen Parameter oder mehrere prosodische Parameter der gesprochenen Äußerung bestimmt; einen Dekodierer, der die gesprochene Äußerung erkennt und ein entsprechendes erkanntes Wort bereitstellt; einen Spracherzeuger, der ein nominales Wort künstlich erzeugt, das dem erkannten Wort entspricht; und einen prosodischen Simulations-Erzeuger, der das nominale Wort und den einen prosodischen Parameter oder die mehreren prosodischen Parameter erhält und ein prosodisches Simulations-Wort erzeugt.
- System nach Anspruch 8, wobei der Dekodierer eine Spracherkennungsvorrichtung umfaßt.
- System nach Anspruch 8, wobei das System an einer Mobiltelefonvorrichtung angeordnet ist.
- System nach Anspruch 8, des weiteren umfassend eine Speichervorrichtung, die ausführbare Anweisungen für eine Sprachanalyse und -verarbeitung enthält.
- Ein computerlesbares Medium enthaltend gespeicherte Anweisungen zur Ausführung auf einem Prozessor, enthaltend: Anweisungen zum Erhalt einer gesprochenen Äußerung; Anweisungen zum Extrahieren eines prosodischen Parameters von der gesprochenen Äußerung; Anweisungen zum Dekodieren der gesprochenen Äußerung, um ein erkanntes Wort bereitzustellen; Anweisungen zum künstlichen Erzeugen eines nominalen Worts, das dem erkannten Wort entspricht; und Anweisungen zum Erzeugen eines prosodischen Simulations-Worts unter Verwendung des nominalen Worts und des prosodischen Parameters.
- Computerlesbares Medium nach Anspruch 12, wobei das Medium innerhalb eines Mobiltelefonapparats angeordnet ist und in Verbindung mit einer Benutzerschnittstelle in Betrieb ist.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US44226703P | 2003-01-24 | 2003-01-24 | |
US60/442,267 | 2003-01-24 | ||
US10/657,421 US8768701B2 (en) | 2003-01-24 | 2003-09-08 | Prosodic mimic method and apparatus |
US10/657,421 | 2003-09-08 | ||
PCT/US2004/001520 WO2004068466A1 (en) | 2003-01-24 | 2004-01-21 | Prosodic mimic synthesis method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112004000187T5 true DE112004000187T5 (de) | 2005-12-01 |
Family
ID=32738387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112004000187T Ceased DE112004000187T5 (de) | 2003-01-24 | 2004-01-21 | Verfahren und Vorrichtung der prosodischen Simulations-Synthese |
Country Status (5)
Country | Link |
---|---|
US (1) | US8768701B2 (de) |
JP (1) | JP2006517037A (de) |
CN (1) | CN1742321B (de) |
DE (1) | DE112004000187T5 (de) |
WO (1) | WO2004068466A1 (de) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
JP4483450B2 (ja) * | 2004-07-22 | 2010-06-16 | 株式会社デンソー | 音声案内装置、音声案内方法およびナビゲーション装置 |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
TWI277947B (en) * | 2005-09-14 | 2007-04-01 | Delta Electronics Inc | Interactive speech correcting method |
KR100690243B1 (ko) * | 2006-06-07 | 2007-03-12 | 삼성전자주식회사 | 휴대 단말기의 카메라 제어 장치 및 방법 |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
EP3007165B1 (de) * | 2013-05-31 | 2018-08-01 | Yamaha Corporation | Technologie zum antworten auf bemerkungen unter verwendung von sprachsynthese |
JP5954348B2 (ja) * | 2013-05-31 | 2016-07-20 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
JP6446993B2 (ja) * | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
US10339925B1 (en) * | 2016-09-26 | 2019-07-02 | Amazon Technologies, Inc. | Generation of automated message responses |
US10586079B2 (en) | 2016-12-23 | 2020-03-10 | Soundhound, Inc. | Parametric adaptation of voice synthesis |
DE102016125606A1 (de) * | 2016-12-23 | 2018-06-28 | Miele & Cie. Kg | Verfahren und Vorrichtung zum Betreiben eines Haushaltgeräts und Haushaltgerät |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US20190051302A1 (en) * | 2018-09-24 | 2019-02-14 | Intel Corporation | Technologies for contextual natural language generation in a vehicle |
CN113516963B (zh) * | 2020-04-09 | 2023-11-10 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2729487B2 (ja) | 1988-07-20 | 1998-03-18 | ライオン株式会社 | 集塵材 |
JPH0511794A (ja) * | 1991-07-01 | 1993-01-22 | Ricoh Co Ltd | 音声合成装置 |
US5796916A (en) * | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
JPH0878778A (ja) * | 1994-09-07 | 1996-03-22 | Mitsubishi Electric Corp | 半導体レーザ装置,及びその製造方法 |
US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
JPH09152884A (ja) * | 1995-11-30 | 1997-06-10 | Fujitsu Ten Ltd | 音声合成装置 |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
JPH11143483A (ja) * | 1997-08-15 | 1999-05-28 | Hiroshi Kurita | 音声発生システム |
JP3278595B2 (ja) * | 1997-10-07 | 2002-04-30 | 埼玉日本電気株式会社 | 携帯電話 |
DE19751123C1 (de) | 1997-11-19 | 1999-06-17 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
JPH11175082A (ja) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | 音声対話装置及び音声対話用音声合成方法 |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
JP2000066694A (ja) * | 1998-08-21 | 2000-03-03 | Sanyo Electric Co Ltd | 音声合成装置および音声合成方法 |
JP2000231396A (ja) * | 1999-02-09 | 2000-08-22 | Matsushita Electric Ind Co Ltd | セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置 |
JP4367808B2 (ja) * | 1999-12-03 | 2009-11-18 | 富士通株式会社 | 音声データ圧縮・解凍装置及び方法 |
JP4509273B2 (ja) * | 1999-12-22 | 2010-07-21 | ヤマハ株式会社 | 音声変換装置及び音声変換方法 |
JP4296714B2 (ja) * | 2000-10-11 | 2009-07-15 | ソニー株式会社 | ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム |
JP4867076B2 (ja) * | 2001-03-28 | 2012-02-01 | 日本電気株式会社 | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法 |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
EP1262954A1 (de) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren und Vorrichtung zur mündlichen Eingabe von Ziffern oder Befehlen |
US6711543B2 (en) * | 2001-05-30 | 2004-03-23 | Cameronsound, Inc. | Language independent and voice operated information management system |
EP1271469A1 (de) | 2001-06-22 | 2003-01-02 | Sony International (Europe) GmbH | Verfahren zur Erzeugung von Persönlichkeitsmustern und zur Sprachsynthese |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
ATE310302T1 (de) * | 2001-09-28 | 2005-12-15 | Cit Alcatel | Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit |
WO2004027685A2 (en) * | 2002-09-19 | 2004-04-01 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
US7124082B2 (en) * | 2002-10-11 | 2006-10-17 | Twisted Innovations | Phonetic speech-to-text-to-speech system and method |
WO2004049304A1 (ja) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | 音声合成方法および音声合成装置 |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
US8886538B2 (en) * | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
-
2003
- 2003-09-08 US US10/657,421 patent/US8768701B2/en active Active
-
2004
- 2004-01-21 DE DE112004000187T patent/DE112004000187T5/de not_active Ceased
- 2004-01-21 JP JP2006502907A patent/JP2006517037A/ja active Pending
- 2004-01-21 WO PCT/US2004/001520 patent/WO2004068466A1/en active Application Filing
- 2004-01-21 CN CN2004800026542A patent/CN1742321B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1742321A (zh) | 2006-03-01 |
US8768701B2 (en) | 2014-07-01 |
CN1742321B (zh) | 2010-08-18 |
JP2006517037A (ja) | 2006-07-13 |
WO2004068466A1 (en) | 2004-08-12 |
US20040148172A1 (en) | 2004-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
CN103903627B (zh) | 一种语音数据的传输方法及装置 | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69514382T2 (de) | Spracherkennung | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE112005000924T5 (de) | Stimme über Short Message Service | |
EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
EP3074974B1 (de) | Hörhilfevorrichtung mit grundfrequenzmodifizierung | |
DE60108104T2 (de) | Verfahren zur Sprecheridentifikation | |
DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
CN112820268A (zh) | 个性化语音转换训练方法、装置、计算机设备及存储介质 | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE112010005706B4 (de) | Spracherkennungsvorrichtung | |
DE60014583T2 (de) | Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
WO2000016310A1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
EP1704561A1 (de) | Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law |
Ref document number: 112004000187 Country of ref document: DE Date of ref document: 20051201 Kind code of ref document: P |
|
R016 | Response to examination communication | ||
R082 | Change of representative |
Representative=s name: PATENTANWAELTE FREISCHEM, DE |
|
R081 | Change of applicant/patentee |
Owner name: NUANCE COMMUNICATIONS, INC., US Free format text: FORMER OWNER: VOICE SIGNAL TECHNOLOGIES INC., WOBURN, US Effective date: 20130118 Owner name: NUANCE COMMUNICATIONS, INC., BURLINGTON, US Free format text: FORMER OWNER: VOICE SIGNAL TECHNOLOGIES INC., WOBURN, MASS., US Effective date: 20130118 |
|
R082 | Change of representative |
Representative=s name: PATENTANWAELTE FREISCHEM, DE Effective date: 20130118 Representative=s name: FREISCHEM & PARTNER PATENTANWAELTE MBB, DE Effective date: 20130118 |
|
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |
Effective date: 20131015 |