DE69922872T2 - Automatischer Hotelportier mit Spracherkennung - Google Patents
Automatischer Hotelportier mit Spracherkennung Download PDFInfo
- Publication number
- DE69922872T2 DE69922872T2 DE69922872T DE69922872T DE69922872T2 DE 69922872 T2 DE69922872 T2 DE 69922872T2 DE 69922872 T DE69922872 T DE 69922872T DE 69922872 T DE69922872 T DE 69922872T DE 69922872 T2 DE69922872 T2 DE 69922872T2
- Authority
- DE
- Germany
- Prior art keywords
- hotel
- name
- guest
- telephone
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 235000020004 porter Nutrition 0.000 title 1
- 238000012549 training Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000003066 decision tree Methods 0.000 description 13
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
- Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein automatisches Hotelbetreuungssystem und insbesondere auf ein automatisches Hotelbetreuungssystem, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren und außerdem, um eine Hotelgastdatenbank zu verwalten.
- Automatische Betreuungssysteme werden im Allgemeinen in Office-typischen Umgebungen implementiert. Im Allgemeinen arbeiten die automatischen Betreuungssysteme mit einem phonetisch basierten Erkenner, um Rufweiterleitungsfunktionen in Verbindung mit einer privaten Nebenstellenanlage (PBX) zu realisieren. Ein Beispiel eines bekannten automatischen Antwortsystems ist in der EP-A-0568979 offenbart.
- Die WO-A-9926232 bezieht sich auf ein Gerät und ein Verfahren, um einen sprachbasierten Wählvorgang für Telekomunikationsendgeräte zu ermöglichen. Akustisch eingegebene Namen werden zu einem Spracherkennungssystem weitergeleitet, um dort mit vorbestimmten Wortmodellen verglichen zu werden, die durch einen Graphem-Phonem-Konverter erzeugt wurden. Sobald eine Erkennung erfolgt, wird eine Telekomunikationsverbindung automatisch herbeigeführt, mit einer Telefonnummer, die dem Namen entspricht.
- In Spracherkennungsanwendungen sind phonetische Transkriptionen für jedes Wort im Wörterbuch notwendig, um die Modelle für die Spracherkenner vor deren Benutzung aufzubauen. Traditionell werden phonetische Transkriptionen manuell durch einen Lexikographen erzeugt, der genaue Kenntnisse von Nuancen der phonetischen Aussprache einer entsprechenden Sprache, die berücksichtigt werden soll, besitzt. Die Entwicklung einer guten phonetischen Transkription für jedes Wort in einem Wörterbuch ist zeitintensiv und bedarf einer sehr hohen Kenntnis und Fähigkeit. Weiterhin ergibt sich, dass ein Wörterbuch, das in einem automatischen Betreuungssystem verwendet wird, hinsichtlich der Berücksichtigung von Nachnamen nicht vollständig sein kann. Auch wenn phonetische Transkriptionen für jeden Nachnamen in einer relativ statischen Office-typischen Umgebung für jede Person erzeugt werden können, ist dieser Ansatz nicht verwendbar für die Implementierung eines automatischen Betreuungssystems in einem sich immer wieder verändernden Anwendungsbereich, so wie zum Beispiel bei Nachnamen in einer Hotelgastdatenbank.
- Eine Vielzahl der Arbeitskräfte und der spezialisierten Ausarbeitung zur Erzeugung eines phonetischen Transkriptionssystems sind überflüssig, wenn ein Lexikontrainingssystem verwendet wird, um automatisch die Modelle für einen Spracherkenner eines automatischen Betreuungssystems zu bilden.
- Das Lexikontrainingssystem der vorliegenden Erfindung erweitert bekannte Erkennungssysteme dahingehend, dass Wörter erkannt werden, wie Nachnamen oder geographische Regionen, die momentan nicht in existierenden Wörterbüchern zu finden sind. Ein robuster und zuverlässiger Phonetisierer, der eine Vielzahl von Aussprachen von einer geschriebenen Form eines Namens erzeugt, ist ein wichtiger Aspekt dieses Lexikontrainingssystems. Sobald die Aussprache eines Nachnamens bekannt ist, ist es möglich, ein sprecherunabhängiges Sprachmodell zu verwenden, um einen Spracherkenner automatisch zu trainieren und/oder zu aktualisieren, der in einem automatischen Betreuungssystem verwendet wird.
- Entsprechend verwendet das automatische Betreuungssystem der vorliegenden Erfindung, wie es in den Ansprüchen 1 bis 11 verwendet wird, die oben genannten Prinzipien und ist somit ideal geeignet für die Verwendung in einem Hotelregistrations- und Telefonsystem. Das automatische Hotelbetreuungssystem stellt Rufweiterleitungsfunktionen mit weiteren Leistungen für Hotelgäste zur Verfügung, ohne dass es mit einem Hotelvermittler verbunden werden muss. Ein Hotelregistrierungssystem empfängt und speichert die buchstabierten Namen der Hotelgäste und weist jedem Gast einen zugeordneten Telefonnebenanschluss zu. Ein Lexikontrainingssystem ist mit dem Hotelregistrierungssystem zur Erzeugung der Aussprache von jedem buchstabierten Namen verbunden, dies erfolgt durch die Konvertierung der Zeichen, die diesen Namen bestimmen, in Wort-Phonem Daten. Diese Wort-Phonem Daten sind wiederum in einem Lexikon gespeichert, das durch das Spracherkennungssystem verwendet wird. Ein automatischer Betreuer ist mit dem Spracherkennungssystem verbunden, um den gesprochenen Namen eines Hotelgastes, der über einen der Telefonnebenanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, um diesen dazu zu verwenden, um den zugeordneten Telefonnebenanschluss vom Hotelregistrierungssystem zu erlangen. Daraufhin veranlasst das automatische Betreuungssystem die Telefonanlage einen Ruf abzugeben mit der Telefonextension, die verlangt wurde, als Antwort auf die Eingabe eines gesprochenen Namens über eine der anderen Telefonextensionen.
- Die vorliegende Erfindung wird weiter unten mit Bezug zu beispielhaften Ausführungsformen und den beigefügten Zeichnungen beschrieben, wobei:
-
1 ein Blockdiagramm einer bevorzugten Ausführungsform eines automatischen Hotelbetreuungssystems der vorliegenden Erfindung ist; -
2 ein Diagramm ist, das die Komponenten des Lexikontrainingssystems, das in dem automatischen Hotelbetreuunssystem der vorliegenden Erfindung verwendet wird, zeigt; -
3 ein Blockdiagramm ist, das die Komponente des Phonetisierers, der in dem automatischen Hotelbetreuungssystem der vorliegenden Erfindung verwendet wird, zeigt; -
4 ein Entscheidungsbaum ist, der einen ausschließlich buchstabenorientierten Baum zeigt, der durch den Phonetisierer verwendet wird; und -
5 zeigt einen Entscheidungsbaum, der einen gemischten Baum zeigt, der durch den Phonetisierer verwendet wird. - Die folgende Beschreibung der vorliegenden Erfindung ist im Wesentlichen beispielhaft und es wird in keiner Weise beabsichtigt, die Erfindung oder ihre Verwendung dahingehend zu limitieren. Vielmehr hat die folgende Beschreibung, die sich zwar auf ein automatisches Hotelbetreuungssystem bezieht, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren, die Absicht, einen Fachmann auf diesem Gebiet dahingehend zu unterrichten, dass er ein automatisches Betreuungssystem für eine Vielzahl von Sprachbearbeitungsanwendungen verwenden kann.
- Ein automatisches Hotelbetreuungssystem
10 wird in1 beschrieben, um Hotelgästen zusätzliche Dienstleistungen durch eine Spracherkennung bereitzustellen, ohne dass eine Person eine Vermittlung vornimmt. Sobald ein Hotelgast eincheckt, gibt er oder sie typischerweise ihren Namen, ihre Adresse, Auscheckdatum und andere Registrierungsinformationen dem Hotelempfang an. Um das automatische Hotelbetreuungssystem10 zu unterstützen können zusätzliche Informationen wie die Nationalität oder der Dialekt, die vom Hotelgast preisgegeben wurden, angegeben werden. Diese Informationen werden genauso wie die zugeordnete Hotelgastnummer durch ein konventionelles Hotelregistrierungssystem14 , durch einen Computer12 oder andere Benutzerinterfaces aufgenommen und in einer Hotelgastdatenbank20 abgelegt. - Sobald die Gastinformationen aufgenommen wurden, transformiert ein Lexikontrainingssystem
30 automatisch die geschriebene Form des Gastnamens in eine oder mehrere phonetische Aussprachen des Namens. Unter Verwendung der bekannten Aussprache des Namens des Gastes ist es dann für das Lexikontrainingssystem30 möglich ein sprecherunabhängiges Spracherkennungsmodell aufzubauen, das durch einen Spracherkenner22 verwendet wird. Dieses Spracherkennungsmodell wird dann in einem Lexikon32 gespeichert, auf das dann durch den Spracherkenner22 zugegriffen wird. Die spezifische phonetische Aussprache des Namens jedes Hotelgastes kann automatisch im Lexikon32 aktualisiert werden, sobald der Gast eincheckt oder aus dem Hotel auscheckt. - Durch die Verwendung der Spracherkennung kann eine automatische Vermittlung
50 eine Sprachwahl durch den Namen bereitstellen, wodurch eine Verbindung zu einem anderen Hotelgastzimmer erfolgen kann, ohne dass dessen Zimmernummer bekannt ist. Ein Ruf der durch ein Hoteltelefon16 über die Telefonanlage des Hotels erfolgt (in der Regel eine PBX)18 wird durch eine automatische Vermittlung50 in Empfang genommen, die wiederum die Rufweiterleitungsfunktion zur Verfügung stellt. Der gesprochene Name eines Hotelgastes wird durch den Spracherkenner22 erkannt, der das aktualisierte Lexikon32 verwendet. Die automatische Vermittlung50 bildet den gesprochenen Namen auf die beigefügte Durchwahl ab, durch die Verwendung des Hotelgastnamens, um die Telefondurchwahl von der Hotelgastdatenbank20 zu erlangen. Abschließend veranlasst die automatische Vermittlung50 das Vermittlungssystem18 die erlangte Telefondurchwahl anzurufen und hierdurch den verlangten Ruf sauber weiterzuleiten. Für den Fachmann auf diesem Gebiet liegt es nahe, dass in dem Falle, dass die phonetisch basierte Spracherkennung zu keinem Ergebnis gelangt, die automatische Vermittlung der vorliegenden Verbindung dann in Verbindung mit einem Erkenner für buchstabierte Namen verbindet oder mit ei nem konventionellen Assistentenmodul für Directories bzw. Namenseinträge. Eine letzte Möglichkeit besteht darin, dass die automatische Vermittlung den Verbindungswunsch des Gastes mit einem menschlichen Operator des Hotels verbindet. Zusätzlich unterstützt die automatische Vermittlung50 auch eine Sprachwahl zu anderen Hoteldiensten und Durchwahlen (im Allgemeinen zur Rezeption oder zum Hotelrestaurant). - Für die Verbesserung des Aufenthalts des Gastes im Hotel kann das Vermittlungssystem
10 der vorliegenden Erfindung ebenfalls anderen Hoteldiensten einen Zugriff vermitteln. So kann zum Beispiel die phonetische Aussprache des Gastes verwendet werden, um eine Nachricht in einem Voice-Mail-System26 durch einen Sprachsynthesizer24 anpassen zu lassen. Die so angepasste Nachricht wird abgespielt, wenn der Gast nicht in seinem Zimmer ist, um den Ruf zu empfangen. Weiterhin kann die Nationalität des Gastes verwendet werden, um einen Weckruf in der Sprache des Gastes zu erzeugen. Es ist ebenfalls vorgesehen, dass das automatische Vermittlungssystem der vorliegenden Erfindung mit anderen Hotelsystemen28 über ein Interface verbunden wird. - Die
2 zeigt das Lexikontrainingssystem30 in detaillierter Form. Im Allgemeinen erzeugt ein Lexikontrainingssystem Aussprachen von buchstabierten Namen durch die Konvertierung der Buchstaben, die den Namen in Wort-Phonem Daten buchstabieren, wobei diese erzeugten Aussprachen verwendet werden, um den Spracherkenner22 zu trainieren. Ein robuster und zuverlässiger Phonetisierer ist notwendig, um ein Lexikontrainingssystem30 zu implementieren. Wie durch das Hotelregistrierungssystem14 aufgenommen, wird die buchstabierte Form des Namens des Gastes als Input für den Phonetisierer34 verwendet. - Eine beispielhafte Ausführungsform des Phonetisierers
34 wird in3 gezeigt, um die Prinzipien der Erzeugung von multiplen Aussprachen zu illustrieren, die auf der buchstabierten Form des Namens des Hotelgastes basieren. Vor diesem bestanden die meisten Versuche der buchstabierten Wort-zu-Aussprachetranskription darin, nur die Buchstaben als solche zu verwenden. Diese Techniken ließen jedoch viel zu wünschen übrig. So hat zum Beispiel ein lediglich auf Buchstaben basierender Aussprachegenerator große Schwierigkeiten, das Wort Bibel richtig auszusprechen. Basierend auf der Sequenz der Buchstaben würde das nur auf Buchstaben basierende System mit einer hohen Wahrscheinlichkeit das Wort „Bib-l" aussprechen, was einem Vorschulkind entspricht, das gerade das Wort Bibel lernt bzw. dessen Aussprache. Der Fehler von konventionellen Systemen liegt darin begründet, dass inhärente Mehrdeutigkeiten durch die unterschiedlichen Ausspracheregeln, die durch viele Sprachen vorgegeben sind, nur schwer lösbar sind. Die englische Sprache zum Beispiel weist Hunderte von unterschiedlichen Ausspracheregeln auf, was es sehr schwierig und sehr teuer zu berechnen macht, dem Problem mit einer Wort-zu-Wort basierenden Vorgehensweise nahe zu rücken. - Hieraus ergibt sich, dass der Phonetisierer
34 zwei Stufen verwendet, die erste Stufe verwendet eine Menge von nur buchstabenorientierten Entscheidungsbäumen72 und die zweite Stufe verwendet eine Menge von gemischten Entscheidungsbäumen74 . Eine Eingabesequenz76 , wie zum Beispiel die Sequenz der Buchstaben B-I-B-L-E, wird in einen dynamisch programmierten Phonem-Sequenz-Generator78 gefüttert. Der Sequenzgenerator verwendet den nur buchstabenorientierten Baum72 , um eine Liste von Aussprachen80 zu generieren, diese referenzieren mögliche Aussprachekandidaten der buchstabierten Wort-Input-Sequenz. - Der Sequenzgenerator untersucht sequenziell jeden Buchstaben in der Sequenz unter Anwendung des Entscheidungsbaumes der mit den Buchstaben verbunden ist, um eine Phonemaussprache auszuwählen für diesen Buchstaben, wobei die Entscheidung auf Wahrscheinlichkeitsdaten basiert, die im ausschließlich aus Buchstaben bestehenden Baum enthalten sind. In der bevorzugten Ausführungsform umfasst die Menge von nur mit Buchstaben versehenen Entscheidungsbäumen einen Entscheidungsbaum für jeden Buchstaben im Alphabet. Die
4 zeigt ein Beispiel für einen buchstabenorientierten Entscheidungsbaum für den Buchstaben E. Der Entscheidungsbaum umfasst eine Vielzahl von internen Knoten (dargestellt als Ovale in der Figur) und eine Mehrzahl von Blattknoten (dargestellt als Rechtecke in der Figur). Jeder interne Knoten ist mit einer Ja- oder Nein-Frage versehen. Ja- oder Nein-Fragen können entweder mit Ja oder Nein beantwortet werden. In den Bäumen die lediglich Buchstaben aufweisen, sind diese Fragen auf den gegebenen Buchstaben (in diesem Fall der Buchstabe E) und seine benachbarten Buchstaben gerichtet, die ihm in der Eingabesequenz folgen. Wie aus4 deutlich wird, verzweigt jeder interne Knoten nach links oder rechts, abhängig davon, ob die ihm zugeordnete Frage mit Ja oder Nein beantwortet wurde. - Abkürzungen werden in
4 wie folgt verwendet: Zahlen in Anführungszeichen, wie zum Beispiel „+1" oder „–1" beziehen sich auf die Positionen der Buchstabierung relativ zum aktuellen Buchstaben. So bedeutet zum Beispiel „+1L=='R'?": „Ist der Buchstabe nach dem aktuellen Buchstaben (der in diesem Falle der Buchstabe E ist) ein R?". Die Abkürzungen CONS und VOW repräsentieren Klassen von Buchstaben, nämlich Konsonanten und Vokale. Das Fehlen eines benachbarten Buchstabens oder eines Null-Buchstabens wird durch das Symbol – repräsentiert, das als Füller oder Platzhalter verwendet wird zur Ausrichtung bestimmter Buchstaben mit korrespondierenden Phonemaussprachen. Das Symbol # beschreibt eine Wortgrenze. - Die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen, was dazu führt, dass mögliche Phonemaussprachen mit numerischen Werten versehen werden, die die Wahrscheinlichkeit repräsentieren, dass das entsprechende Phonem die korrekte Aussprache des vorgegebenen Buchstabens darstellt. Zum Beispiel bedeutet die Schreibweise „iy=>0,51" „die Wahrscheinlichkeit des Phonems 'iy' in diesem Blatt ist 0,51". Das Nullphonem, zum Beispiel Stumm, wird repräsentiert durch das Symbol '–'.
- Der Sequenzgenerator
78 (3 ) benutzt den lediglich buchstabenorientierten Entscheidungsbaum72 , um eine oder mehrere Aussprachehypothesen zu konstruieren, die in der Liste80 gespeichert sind. In einer bevorzugten Ausführungsform wird jeder Aussprache ein numerischer Wert zugeordnet, der erlangt wird durch die Kombination der Wahrscheinlichkeitswerte der ausgewählten individuellen Phoneme unter Verwendung des Entscheidungsbaumes72 . Wortaussprachen können bewertet werden durch die Erzeugung einer Matrix von möglichen Kombinationen, um dann durch die Verwendung einer dynamischen Programmierung die besten Kandidaten auszuwählen. Alternativ können die n-besten Kandidaten ausgewählt werden durch die Verwendung einer Substitutionstechnik, die zuerst den wahrscheinlichsten Wortkandidaten wählt und dann solche Wortkandidaten durch eine iterative Substitution generiert, was man im Folgenden sehen kann. - Die Aussprache mit dem höchsten Wahrscheinlichkeitswert wird ausgewählt, indem zuerst die entsprechenden Werte der am höchsten bewerteten Phoneme miteinander multipliziert werden (diese wurden durch die Untersuchung der Wortknoten bestimmt), um dann diese Auswahl als den wahrscheinlichsten Kandidat oder als den zuerst besten Wortkandidaten zu verwenden. Zusätzliche (n-best) Kandidaten können dann durch die Untersuchung der Phonemdaten in den Blattknoten ausgewählt werden, um dann wieder das Phonem, das vorher nicht ausgewählt wurde, zu identi fizieren, das die kleinste Differenz von einem anfänglich ausgewählten Phonem aufweist. Dieses minimalunterschiedliche Phonem wird dann ersetzt und anstatt des ursprünglich ausgewählten, um dadurch den zweitbesten Wortkandidaten zu erzeugen. Der vorher genannte Prozess kann iterativ wiederholt werden bis die gewünschte Anzahl von n-besten Kandidaten ausgewählt wurde. Liste
80 kann in einer absteigenden Bewertungsrichtung sortiert werden, so dass die Aussprache des Besten durch die buchstabenorientierten Analyse in der Liste als erster auftaucht. - Wie oben bereits ausgeführt wurde, erzeugt eine Nurbuchstabenorientierte Analyse oftmals schlechte Ergebnisse. Dies ergibt sich daraus, dass die buchstabenorientierte Analyse keine Möglichkeit hat, festzustellen, welches Phonem jeder Buchstabe durch die folgenden Buchstaben erzeugen wird. Hieraus ergibt sich, dass eine Nur-buchstabenorientierte Analyse eine Aussprache mit einem hohen Wert erzeugt, die tatsächlich nicht in einer natürlichen Sprache auftauchen würde. Hieraus ergibt sich, dass der richtige Name, Achilles, zu einer Aussprache führt, die die beiden LL's phonetisiert: ah-k-ich-l-l-iy-z. In der natürlichen Sprache ist das zweite L im Allgemeinen als stumm anzusehen: ah-k-ich-l-iy-z. Der Sequenzgenerator der Bäume, die nur buchstabenorientiert sind, hat keinerlei Mechanismen, um Wortaussprachen zu erkennen, die niemals in der natürlichen Sprache auftreten würden.
- Die zweite Stufe des Phonetisierers
34 richtet sich an das oben genannte Problem. Ein gemischter Baumwertschätzer82 verwendet die Menge der gemischten Entscheidungsbäume74 , um die Überlebensfähigkeit jeder Aussprache in der Liste80 abzuschätzen. Der Bewertungsabschätzer arbeitet, indem jeder Buchstabe in der Eingabesequenz zusammen mit den Phonemen, die jedem Buchstaben durch den Sequenzgenerator78 zugeordnet wurden, untersucht werden. Wie die Menge der Bäume mit lediglich Buchstaben, hat die Menge der gemischten Bäume einen gemischten Baum für jeden Buchstaben des Alphabetes. Ein exemplarischer gemischter Baum wird in5 gezeigt. Wie der Baum der lediglich Buchstaben aufweist, hat der gemischte Baum auch interne Knoten und Blattknoten. Die internen Knoten sind als Ovale dargestellt und die Blattknoten sind als Rechtecke in5 dargestellt. Die internen Knoten sind jeweils mit einer Ja-Nein Frage versehen und die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen. Auch wenn die Struktur des gemischten Baums der eines Baumes mit lediglich Buchstaben ähnelt, so besteht doch ein wichtiger Unterschied. Die internen Knoten des gemischten Baumes können zwei unterschiedliche Klassen von Fragen aufweisen. Ein interner Knoten kann eine Frage bezüglich eines gegebenen Buchstabens umfassen sowie bezüglich der benachbarten Buchstaben in der Klasse oder er kann eine Frage bezüglich des Phonems aufweisen, das dem Buchstaben zugeordnet ist und bzgl. der benachbarten Phoneme, die der Sequenz entsprechen. Der Entscheidungsbaum ist somit gemischt und umfasst somit eine gemischte Klasse von Fragen. - Die Abkürzungen, die in
5 verwendet werden, ähneln denen aus4 , weisen jedoch einige zusätzliche Abkürzungen auf. Das Symbol L repräsentiert eine Frage über einen Buchstaben und seine benachbarten Buchstaben. Das Symbol P repräsentiert eine Frage über ein Phonem und seine benachbarten Phoneme. Zum Beispiel bedeutet die Frage „+1L=='D'?" „Ist der Buchstabe in der +1 Position ein 'D'?". Die Abkürzung CONS und SYL sind Phonemklassen, nämlich Konsonanten und silbisch. So ist zum Beispiel die Frage „+1P==CONS?" gleichzustellen mit der Frage „Ist das Phonem in der +1 Position ein Konsonant?", die Zahlen in den Blattknoten sind Phonemwahrscheinlichkeiten wie sie es in den Bäumen mit lediglich Buchstaben sind. - Der gemischte Baumverwertungsabschätzer wertet erneut jede der Aussprachen in der Liste
80 basierend auf den gemischten Baum fragen und unter Verwendung der Wahrscheinlichkeitsdaten in den Blattknoten des gemischten Baums. Falls gewünscht, können die Listen der Aussprachen zusammen mit den entsprechenden Bewertungen wie in Liste84 gespeichert werden. Falls gewünscht, kann die Liste84 in absteigender Folge sortiert werden, so dass die erste Aussprache eine mit der höchsten Bewertung ist. - In vielen Fällen unterscheidet sich die Aussprache, die die höchstbewertete Position in der Liste
84 belegt, von der Aussprache, die die höchste Bewertungsposition in der Liste80 aufweist. Dies ergibt sich daraus, dass der gemischte Baumbewertungsabschätzer, der die gemischten Bäume74 verwendet, solche Aussprachen herausfiltert, die nicht selbstkonsistente Phonemsequenzen aufweisen oder Aussprachen darstellen, die nicht in der natürlichen Sprache auftreten würden. Wie bereits oben ausgeführt wurde, stellen Phonetisierer34 , wie sie in3 dargestellt werden, nur eine mögliche Ausführungsform dar. - Die Aussprachen der Liste
84 können verwendet werden für Aussprachewörterbücher, die sowohl für die Spracherkennung als auch für Sprachsyntheseanwendungen verwendet werden können. Falls gewünscht, kann ein Selektormodul36 den Zugriff auf Liste84 aufweisen, um eine oder mehrere der Aussprachen in der Liste zu erhalten. Im Allgemeinen wählt der Selektor86 die Aussprache mit dem höchsten Punktwert und stellt diese als Ausgabeaussprache88 zur Verfügung. In einem Spracherkennungskontext wird das Aussprachewörterbuch während der Spracherkennungstrainingsphase verwendet, um Aussprachen für Wörter wie zum Beispiel Hotelgastnamen zur Verfügung zu stellen, die noch nicht im Erkennungslexikon gefunden wurden. - Wie auf das Lexikontrainingssystem
30 angewandt wurde, können die n-besten Aussprachen38 für jeden buchstabierten Gastnamen als Input für einen Modelltrainer46 , wie in2 darge stellt wird, dienen. In der bevorzugten Ausführungsform der vorliegenden Erfindung kann ein Hidden Markov Modell (HMM) als Basis für den Modelltrainer46 verwendet werden. Ein HMM Modell, das jedem Gastnamen zugeordnet wird, wird in einem Lexikon32 gespeichert, um durch den Spracherkenner22 verwendet zu werden. Der Modelltrainer46 ist ein Modul, das HMM Modelle baut, indem die kontextabhängigen Phonemmodelle, die einer oder mehreren generierten Aussprachen entspricht, miteinander verknüpft werden. Auch wenn diese Ausführungsform eines automatischen Betreuungssystems eine Spracherkennung auf dem Phonemlevel durchführt, so kann ein Fachmann auf diesem Gebiet erkennen, dass ein Spracherkenner22 auch auf anderen Erkennungsleveln (das heißt Wortleveln) implementiert werden kann. - Das Lexikontrainingssystem
30 kann optional auch einen Aussprache-Extraktor40 implementieren, der eine oder mehrere aufgereihte Aussprachen als Output44 erzeugt, die als Input für einen Modelltrainer46 dienen. Zum Zeitpunkt der Registrierung oder zu anderen folgenden Zeiten während des Aufenthalts eines Gastes im Hotel kann der gesprochene Name des Hotelgastes durch das Telefon16 oder andere Audioempfangsgeräte festgehalten werden. Der gesprochene Name stellt dann die bevorzugte Aussprache des Gastnamens dar, und kann somit durch den Modelltrainer46 verwendet werden. So kann zum Beispiel der gesprochene Namen in eine digitale Form konvertiert werden, der dann wiederum verwendet wird, um eine oder mehrere Aussprachen von den n-besten Aussprachen38 zu wählen, die dem Namen des Gastes entsprechen. Um dies zu erreichen, kann der Modelltrainer46 eine dynamische Grammatik aufbauen, durch Verwendung der n-besten Aussprache38 und dann eine Erkennung der gesprochenen Sprache als Input durchführen unter Verwendung der dynamischen Grammatik, um eine oder mehrere ausgerichtete Aussprachen44 zu wählen. - Für Sprachsyntheseapplikationen, können die n-besten Aussprachen
38 eines für jeden Gastnamen verwendet werden, um einen Phonemklang zu erzeugen für das zusammengefügte Playback. Im Zusammenhang mit einem automatischen Hotelbetreuungssystem10 kann der Sprachsynthesizer24 eine richtige Aussprache des Namens des Gastes eines Hotels bereitstellen, so dass der Angestellte (im Allgemeinen die Person an der Rezeption oder am Empfang), der mit dem Gast in Interaktion steht, diesen richtig ausspricht. Es wird ebenfalls beabsichtigt, dass der Sprachsyntheziser24 verwendet werden kann, um die Features eines E-Mail-Lesesystems oder einer anderen Text-zu-Sprache Anwendung zu erweitern. - Das automatische Betreuungssystem
10 umfasst ein automatisches Betreuungsmodul, ein Lexikontrainingssystem30 , einen Spracherkenner22 und einen Sprachsyntheziser24 , die jeweils einzeln oder zusammen mit anderen Hotelsystemen zusammengepackt werden können. Um die Implementierung zu vereinfachen und die Kosten zu minimieren, sollte das automatische Betreuungssystem10 spezifisch designt sein, um mit anderen existierenden Hotelsystemen ein Interface zu bilden, wie zum Beispiel das Hotelregistrierungssystem, das Hotelabrechnungssystem und das Finanzbuchsystem, die Hoteltelefonanlage und so weiter. Eine minimale Anpassung sollte notwendig sein, um diese Typen von Interfaces bereitzustellen. So soll zum Beispiel anstatt der Modifikation einer existierenden Hotelgastdatenbank zur Integration der Aussprache, der Nationalität und so weiter, in eine existierende Datenstruktur das automatische Betreuungssystem10 besser die Hotelgastinformation über ein Interface auf der Basis des Betriebsystems erlangt werden, zum Beispiel durch Bildschirmcapture zur Registrierungszeit oder durch API, die für das Hotelregistrierungssystem14 definiert wurde. - Das vorher genannte offenbart und beschreibt im Wesentlichen exemplarisch die Ausführungsform der vorliegenden Erfindung.
- Eine Person, die mit dem Stand der Technik vertraut ist, wird schnell durch die Ausführungen und die beigefügten Zeichnungen und die Ansprüche erkennen, dass eine Vielzahl von Änderungen und Modifikationen und Variationen durchgeführt werden können, ohne sich aus dem Schutzumfang der vorliegenden Erfindung, wie er durch die beigefügten Ansprüche definiert wurde, herauszubewegen.
- Die vorliegende Erfindung stellt ebenfalls ein Computerprogramm zur Verfügung, das einen computerinterpretierbaren Code umfasst, der wenn er auf einem Computer ausgeführt wird einen technischen Effekt der vorliegenden Erfindung erzeugt. Weiterhin stellt die vorliegende Erfindung ein Computerprogrammprodukt zur Verfügung, das ein computerlesbares Speichermedium umfasst, das einen Code gespeichert hat, der, wenn er ausgeführt wird, auf einem Computer die technischen Effekte der vorliegenden Erfindung umsetzt.
Claims (11)
- Ein automatisches Hotelbetreuungssystem um Zimmer-zu-Zimmer Anrufe über eine Telefonanlage, das eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Namen eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, und um den besagten Hotelgastnamen zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Datenbanksystem zu bestimmen, – das besagte Rufrouting System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlassen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochenen Namens von einem der besagten Telefonanschlüsse.
- Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 1, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Datenbanksystem verbunden ist, um Buchstaben, die einen Hotelgastnamen buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
- Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 2, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Namens eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Hotelgastnamens auszuwählen.
- Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2 oder 3, wobei das besagte Hotelgastdatenbanksystem Buchstaben speichert, die den Namen eines ersten Hotelservices buchstabieren, dem ein erster Telefonanschluss zugeordnet ist, so dass das automatische Hotelbetreuungssystem eine Rufeinleitung zu dem besagten ersten Telefonanschluss durchführt, als Reaktion auf die Eingabe eines gesprochenen Namens, der dem besagten ersten Hotelservice zugeordnet ist.
- Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2, 3 oder 4, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Namens, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Zimmer-zu-Zimmer Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Namen des besagten Hotelgastes zu erkennen.
- Ein automatisches Hotelbetreuungssystem um Anschluss-zu-Anschluss Anrufe über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Identifikator eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um die besagten Identifikatoren als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Wörtern, indem die Buchstaben, die den Identifikator buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting-System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Identifikator eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Systembenutzer Identifikator umzuwandeln, und um den besagten Systembenutzer Identifikator zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Hotelgastdatenbanksystem zu bestimmen, – das besagte Rufrouting-System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlas sen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochen Identifikators von einem der besagten Telefonanschlüsse.
- Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 6, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Telefondatenbanksystem verbunden ist, um Buchstaben, die den besagten Identifikator eines Hotelgastes buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Identifikatoren zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Identifikatoren ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
- Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 7, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Identifikators eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Identifikators auszuwählen.
- Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7 oder 8, wobei der besagte Identifikator weiterhin als zumindest einer von einem Namen und einer Umgebung definiert ist, die mit der zugeordneten Telefonnummer in Verbindung zu bringen ist.
- Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7, 8 oder 9, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Identifikators, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Anschluss-zu-Anschluss Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Identifikator des besagten Hotelgastes zu erkennen.
- Ein automatisches Hotelbetreuungssystem für eine synthetische Sprachausgabe eines Hotelgastnamens über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und zum Speichern von Informationen, die jedem Gast zuordenbar sind; – ein synthetisches Sprachausgabesystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Datenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – einen virtuellen Betreuer, der mit dem besagten Hotelgastdatenbanksystem und dem besagten synthetischen Sprachausgabesystem verbunden ist, um den buchstabierten Namen eines Hotelgasts, der durch einen Systembenutzer des Hotelgastdatenbanksystems eingegeben wurde, in eine synthetische Aussprache des besagten buchstabierten Namens durch die Verwendung der Wortphoneminformationen umzuwandeln; – der besagte virtuelle Betreuer ist mit einer Telefonanlage verbunden, um die besagte synthetische Aussprache zu einem der besagen Systembenutzer über einen der besagten Telefonanschlüsse bereitzustellen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/070,399 US6314165B1 (en) | 1998-04-30 | 1998-04-30 | Automated hotel attendant using speech recognition |
US70399 | 1998-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69922872D1 DE69922872D1 (de) | 2005-02-03 |
DE69922872T2 true DE69922872T2 (de) | 2005-12-29 |
Family
ID=22095067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69922872T Expired - Fee Related DE69922872T2 (de) | 1998-04-30 | 1999-04-26 | Automatischer Hotelportier mit Spracherkennung |
Country Status (7)
Country | Link |
---|---|
US (1) | US6314165B1 (de) |
EP (1) | EP0953967B1 (de) |
JP (1) | JP3135233B2 (de) |
KR (1) | KR100574768B1 (de) |
CN (1) | CN1116770C (de) |
DE (1) | DE69922872T2 (de) |
TW (1) | TW424221B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013216427A1 (de) * | 2013-08-20 | 2015-03-12 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6425131B2 (en) * | 1998-12-30 | 2002-07-23 | At&T Corp. | Method and apparatus for internet co-browsing over cable television and controlled through computer telephony |
US8250620B1 (en) * | 1998-12-30 | 2012-08-21 | At&T Intellectual Property Ii, L.P. | System and method for sharing information between a concierge and guest |
JP2002024412A (ja) * | 2000-07-03 | 2002-01-25 | Toshimitsu Kagawa | 宿泊室の設備操作システム |
JP2002032491A (ja) * | 2000-07-19 | 2002-01-31 | Toshimitsu Kagawa | 宿泊客に対する情報提供システム |
DE60128372T2 (de) * | 2000-07-31 | 2008-01-10 | Eliza Corp., Beverly | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
EP1215661A1 (de) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
EP1220200B1 (de) * | 2000-12-18 | 2003-09-24 | Siemens Aktiengesellschaft | Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät |
US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
US6967947B1 (en) * | 2001-03-29 | 2005-11-22 | At&T Corp. | Method and system for providing controllable enhanced call service features at mobile locations |
US6763102B1 (en) * | 2001-04-05 | 2004-07-13 | At&T Corp. | Method for handling incoming calls directed to a virtual communication service subscriber via a guest PBX |
US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
US6996519B2 (en) * | 2001-09-28 | 2006-02-07 | Sri International | Method and apparatus for performing relational speech recognition |
US7533020B2 (en) * | 2001-09-28 | 2009-05-12 | Nuance Communications, Inc. | Method and apparatus for performing relational speech recognition |
EP1302928A1 (de) * | 2001-10-16 | 2003-04-16 | Siemens Aktiengesellschaft | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner |
MY141150A (en) * | 2001-11-02 | 2010-03-15 | Panasonic Corp | Channel selecting apparatus utilizing speech recognition, and controling method thereof |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
US20040156493A1 (en) * | 2003-02-06 | 2004-08-12 | Comverse, Ltd. | Method and apparatus for providing a central telephony service for a calling party at the called party telephone |
AU2004200809B2 (en) * | 2003-03-07 | 2006-05-11 | Samsung Electronics Co., Ltd. | Method and system for providing data services to mobile communication terminals and mobile communication terminal therefor |
US7756726B2 (en) * | 2003-09-25 | 2010-07-13 | International Business Machines Corporation | Secured medical sign-in |
US7660715B1 (en) * | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
CN100592385C (zh) * | 2004-08-06 | 2010-02-24 | 摩托罗拉公司 | 用于对多语言的姓名进行语音识别的方法和系统 |
US8923838B1 (en) | 2004-08-19 | 2014-12-30 | Nuance Communications, Inc. | System, method and computer program product for activating a cellular phone account |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US7983401B1 (en) | 2006-08-15 | 2011-07-19 | At&T Mobility Ii Llc | Customized provision of automated menu options |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
US9386154B2 (en) * | 2007-12-21 | 2016-07-05 | Nuance Communications, Inc. | System, method and software program for enabling communications between customer service agents and users of communication devices |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8391464B1 (en) | 2010-06-24 | 2013-03-05 | Nuance Communications, Inc. | Customer service system, method, and software program product for responding to queries using natural language understanding |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
CN103474063B (zh) * | 2013-08-06 | 2015-12-23 | 福建华映显示科技有限公司 | 语音辨识系统以及方法 |
GB201320334D0 (en) * | 2013-11-18 | 2014-01-01 | Microsoft Corp | Identifying a contact |
WO2015073766A1 (en) * | 2013-11-18 | 2015-05-21 | Microsoft Technology Licensing, Llc | Identifying a contact |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9519827B2 (en) * | 2014-12-24 | 2016-12-13 | International Business Machines Corporation | Personalized, automated receptionist |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20210295048A1 (en) * | 2017-01-24 | 2021-09-23 | Tienovix, Llc | System and method for augmented reality guidance for use of equipment systems |
US20210327304A1 (en) * | 2017-01-24 | 2021-10-21 | Tienovix, Llc | System and method for augmented reality guidance for use of equpment systems |
EP3574504A1 (de) * | 2017-01-24 | 2019-12-04 | Tietronix Software, Inc. | System und verfahren zur dreidimensionalen führung mit erweiterter realität für medizinische ausrüstung |
US20210327303A1 (en) * | 2017-01-24 | 2021-10-21 | Tienovix, Llc | System and method for augmented reality guidance for use of equipment systems |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10580098B2 (en) * | 2017-05-29 | 2020-03-03 | Virtual OnQ Systems, LLC | Voice activated hotel room monitor |
FR3066848B1 (fr) * | 2017-05-29 | 2021-07-02 | Virtual Onq Systems Llc | Supervision de chambre d'hotel activee par la voix |
CN108932946B (zh) * | 2018-06-29 | 2020-03-13 | 百度在线网络技术(北京)有限公司 | 客需服务的语音交互方法和装置 |
US11844654B2 (en) | 2019-08-19 | 2023-12-19 | Caption Health, Inc. | Mid-procedure view change for ultrasound diagnostics |
CN110491374A (zh) * | 2019-08-27 | 2019-11-22 | 北京明日汇科技管理有限公司 | 基于神经网络的酒店服务语音交互识别方法及装置 |
KR102222597B1 (ko) * | 2020-02-03 | 2021-03-05 | (주)라이언로켓 | 콜미 서비스를 위한 음성 합성 장치 및 방법 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62140593A (ja) * | 1985-12-13 | 1987-06-24 | Nec Corp | 外線呼自動内線転送装置 |
JPS62166642A (ja) * | 1986-01-20 | 1987-07-23 | Fujitsu Ltd | 電話転送方式 |
JPH0353649A (ja) * | 1989-07-21 | 1991-03-07 | Toshiba Corp | 電話交換装置 |
JPH0420158A (ja) * | 1990-05-15 | 1992-01-23 | Mitsubishi Electric Corp | 構内交換装置 |
US5212730A (en) | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
EP0562138A1 (de) | 1992-03-25 | 1993-09-29 | International Business Machines Corporation | Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung |
JP3144595B2 (ja) | 1992-05-08 | 2001-03-12 | ソニー株式会社 | 音声アダプタ |
JPH0818670A (ja) * | 1994-07-04 | 1996-01-19 | Mitsubishi Denki Bill Techno Service Kk | 構内交換機 |
DE69635015T2 (de) * | 1995-11-17 | 2006-03-30 | At & T Corp. | Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl |
US5799065A (en) * | 1996-05-06 | 1998-08-25 | Matsushita Electric Industrial Co., Ltd. | Call routing device employing continuous speech |
US5752230A (en) | 1996-08-20 | 1998-05-12 | Ncr Corporation | Method and apparatus for identifying names with a speech recognition program |
US5930336A (en) * | 1996-09-30 | 1999-07-27 | Matsushita Electric Industrial Co., Ltd. | Voice dialing server for branch exchange telephone systems |
US6092044A (en) * | 1997-03-28 | 2000-07-18 | Dragon Systems, Inc. | Pronunciation generation in speech recognition |
DE19751123C1 (de) * | 1997-11-19 | 1999-06-17 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
US6230131B1 (en) * | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6029132A (en) * | 1998-04-30 | 2000-02-22 | Matsushita Electric Industrial Co. | Method for letter-to-sound in text-to-speech synthesis |
US6016471A (en) * | 1998-04-29 | 2000-01-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
-
1998
- 1998-04-30 US US09/070,399 patent/US6314165B1/en not_active Expired - Lifetime
-
1999
- 1999-04-26 TW TW088106631A patent/TW424221B/zh not_active IP Right Cessation
- 1999-04-26 EP EP99303197A patent/EP0953967B1/de not_active Expired - Lifetime
- 1999-04-26 DE DE69922872T patent/DE69922872T2/de not_active Expired - Fee Related
- 1999-04-27 JP JP11119834A patent/JP3135233B2/ja not_active Expired - Fee Related
- 1999-04-29 KR KR1019990015389A patent/KR100574768B1/ko not_active IP Right Cessation
- 1999-04-29 CN CN99106311A patent/CN1116770C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013216427A1 (de) * | 2013-08-20 | 2015-03-12 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
DE102013216427B4 (de) | 2013-08-20 | 2023-02-02 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
Also Published As
Publication number | Publication date |
---|---|
JP2000032140A (ja) | 2000-01-28 |
CN1246023A (zh) | 2000-03-01 |
EP0953967B1 (de) | 2004-12-29 |
CN1116770C (zh) | 2003-07-30 |
TW424221B (en) | 2001-03-01 |
EP0953967A3 (de) | 2000-06-28 |
JP3135233B2 (ja) | 2001-02-13 |
KR100574768B1 (ko) | 2006-04-28 |
KR19990083596A (ko) | 1999-11-25 |
DE69922872D1 (de) | 2005-02-03 |
US6314165B1 (en) | 2001-11-06 |
EP0953967A2 (de) | 1999-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
DE69525178T2 (de) | Ansagedienste mit spracheingabe | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE60200857T2 (de) | Erzeugung einer künstlichen Sprache | |
DE69633883T2 (de) | Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE69726499T2 (de) | Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
EP1336955B1 (de) | Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
WO1998010413A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
EP1950672A1 (de) | Verfahren und Datenverarbeitungssystem zum gesteuerten Abfragen strukturiert gespeicherter Informationen | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE60220763T2 (de) | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE19751123C1 (de) | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen | |
DE19532114C2 (de) | Sprachdialog-System zur automatisierten Ausgabe von Informationen | |
EP1282897A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE10011178A1 (de) | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis | |
DE60017435T2 (de) | Sprachegesteuerte anrufverfahren und entsprechende anbieter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |