DE69922872T2 - Automatischer Hotelportier mit Spracherkennung - Google Patents

Automatischer Hotelportier mit Spracherkennung Download PDF

Info

Publication number
DE69922872T2
DE69922872T2 DE69922872T DE69922872T DE69922872T2 DE 69922872 T2 DE69922872 T2 DE 69922872T2 DE 69922872 T DE69922872 T DE 69922872T DE 69922872 T DE69922872 T DE 69922872T DE 69922872 T2 DE69922872 T2 DE 69922872T2
Authority
DE
Germany
Prior art keywords
hotel
name
guest
telephone
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69922872T
Other languages
English (en)
Other versions
DE69922872D1 (de
Inventor
Jean-Claude Santa Barbara Junqua
Matteo Santa Barbara Contolini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69922872D1 publication Critical patent/DE69922872D1/de
Publication of DE69922872T2 publication Critical patent/DE69922872T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein automatisches Hotelbetreuungssystem und insbesondere auf ein automatisches Hotelbetreuungssystem, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren und außerdem, um eine Hotelgastdatenbank zu verwalten.
  • Automatische Betreuungssysteme werden im Allgemeinen in Office-typischen Umgebungen implementiert. Im Allgemeinen arbeiten die automatischen Betreuungssysteme mit einem phonetisch basierten Erkenner, um Rufweiterleitungsfunktionen in Verbindung mit einer privaten Nebenstellenanlage (PBX) zu realisieren. Ein Beispiel eines bekannten automatischen Antwortsystems ist in der EP-A-0568979 offenbart.
  • Die WO-A-9926232 bezieht sich auf ein Gerät und ein Verfahren, um einen sprachbasierten Wählvorgang für Telekomunikationsendgeräte zu ermöglichen. Akustisch eingegebene Namen werden zu einem Spracherkennungssystem weitergeleitet, um dort mit vorbestimmten Wortmodellen verglichen zu werden, die durch einen Graphem-Phonem-Konverter erzeugt wurden. Sobald eine Erkennung erfolgt, wird eine Telekomunikationsverbindung automatisch herbeigeführt, mit einer Telefonnummer, die dem Namen entspricht.
  • In Spracherkennungsanwendungen sind phonetische Transkriptionen für jedes Wort im Wörterbuch notwendig, um die Modelle für die Spracherkenner vor deren Benutzung aufzubauen. Traditionell werden phonetische Transkriptionen manuell durch einen Lexikographen erzeugt, der genaue Kenntnisse von Nuancen der phonetischen Aussprache einer entsprechenden Sprache, die berücksichtigt werden soll, besitzt. Die Entwicklung einer guten phonetischen Transkription für jedes Wort in einem Wörterbuch ist zeitintensiv und bedarf einer sehr hohen Kenntnis und Fähigkeit. Weiterhin ergibt sich, dass ein Wörterbuch, das in einem automatischen Betreuungssystem verwendet wird, hinsichtlich der Berücksichtigung von Nachnamen nicht vollständig sein kann. Auch wenn phonetische Transkriptionen für jeden Nachnamen in einer relativ statischen Office-typischen Umgebung für jede Person erzeugt werden können, ist dieser Ansatz nicht verwendbar für die Implementierung eines automatischen Betreuungssystems in einem sich immer wieder verändernden Anwendungsbereich, so wie zum Beispiel bei Nachnamen in einer Hotelgastdatenbank.
  • Eine Vielzahl der Arbeitskräfte und der spezialisierten Ausarbeitung zur Erzeugung eines phonetischen Transkriptionssystems sind überflüssig, wenn ein Lexikontrainingssystem verwendet wird, um automatisch die Modelle für einen Spracherkenner eines automatischen Betreuungssystems zu bilden.
  • Das Lexikontrainingssystem der vorliegenden Erfindung erweitert bekannte Erkennungssysteme dahingehend, dass Wörter erkannt werden, wie Nachnamen oder geographische Regionen, die momentan nicht in existierenden Wörterbüchern zu finden sind. Ein robuster und zuverlässiger Phonetisierer, der eine Vielzahl von Aussprachen von einer geschriebenen Form eines Namens erzeugt, ist ein wichtiger Aspekt dieses Lexikontrainingssystems. Sobald die Aussprache eines Nachnamens bekannt ist, ist es möglich, ein sprecherunabhängiges Sprachmodell zu verwenden, um einen Spracherkenner automatisch zu trainieren und/oder zu aktualisieren, der in einem automatischen Betreuungssystem verwendet wird.
  • Entsprechend verwendet das automatische Betreuungssystem der vorliegenden Erfindung, wie es in den Ansprüchen 1 bis 11 verwendet wird, die oben genannten Prinzipien und ist somit ideal geeignet für die Verwendung in einem Hotelregistrations- und Telefonsystem. Das automatische Hotelbetreuungssystem stellt Rufweiterleitungsfunktionen mit weiteren Leistungen für Hotelgäste zur Verfügung, ohne dass es mit einem Hotelvermittler verbunden werden muss. Ein Hotelregistrierungssystem empfängt und speichert die buchstabierten Namen der Hotelgäste und weist jedem Gast einen zugeordneten Telefonnebenanschluss zu. Ein Lexikontrainingssystem ist mit dem Hotelregistrierungssystem zur Erzeugung der Aussprache von jedem buchstabierten Namen verbunden, dies erfolgt durch die Konvertierung der Zeichen, die diesen Namen bestimmen, in Wort-Phonem Daten. Diese Wort-Phonem Daten sind wiederum in einem Lexikon gespeichert, das durch das Spracherkennungssystem verwendet wird. Ein automatischer Betreuer ist mit dem Spracherkennungssystem verbunden, um den gesprochenen Namen eines Hotelgastes, der über einen der Telefonnebenanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, um diesen dazu zu verwenden, um den zugeordneten Telefonnebenanschluss vom Hotelregistrierungssystem zu erlangen. Daraufhin veranlasst das automatische Betreuungssystem die Telefonanlage einen Ruf abzugeben mit der Telefonextension, die verlangt wurde, als Antwort auf die Eingabe eines gesprochenen Namens über eine der anderen Telefonextensionen.
  • Die vorliegende Erfindung wird weiter unten mit Bezug zu beispielhaften Ausführungsformen und den beigefügten Zeichnungen beschrieben, wobei:
  • 1 ein Blockdiagramm einer bevorzugten Ausführungsform eines automatischen Hotelbetreuungssystems der vorliegenden Erfindung ist;
  • 2 ein Diagramm ist, das die Komponenten des Lexikontrainingssystems, das in dem automatischen Hotelbetreuunssystem der vorliegenden Erfindung verwendet wird, zeigt;
  • 3 ein Blockdiagramm ist, das die Komponente des Phonetisierers, der in dem automatischen Hotelbetreuungssystem der vorliegenden Erfindung verwendet wird, zeigt;
  • 4 ein Entscheidungsbaum ist, der einen ausschließlich buchstabenorientierten Baum zeigt, der durch den Phonetisierer verwendet wird; und
  • 5 zeigt einen Entscheidungsbaum, der einen gemischten Baum zeigt, der durch den Phonetisierer verwendet wird.
  • Die folgende Beschreibung der vorliegenden Erfindung ist im Wesentlichen beispielhaft und es wird in keiner Weise beabsichtigt, die Erfindung oder ihre Verwendung dahingehend zu limitieren. Vielmehr hat die folgende Beschreibung, die sich zwar auf ein automatisches Hotelbetreuungssystem bezieht, das ein Lexikontrainingssystem verwendet, um automatisch einen Spracherkenner zu trainieren, die Absicht, einen Fachmann auf diesem Gebiet dahingehend zu unterrichten, dass er ein automatisches Betreuungssystem für eine Vielzahl von Sprachbearbeitungsanwendungen verwenden kann.
  • Ein automatisches Hotelbetreuungssystem 10 wird in 1 beschrieben, um Hotelgästen zusätzliche Dienstleistungen durch eine Spracherkennung bereitzustellen, ohne dass eine Person eine Vermittlung vornimmt. Sobald ein Hotelgast eincheckt, gibt er oder sie typischerweise ihren Namen, ihre Adresse, Auscheckdatum und andere Registrierungsinformationen dem Hotelempfang an. Um das automatische Hotelbetreuungssystem 10 zu unterstützen können zusätzliche Informationen wie die Nationalität oder der Dialekt, die vom Hotelgast preisgegeben wurden, angegeben werden. Diese Informationen werden genauso wie die zugeordnete Hotelgastnummer durch ein konventionelles Hotelregistrierungssystem 14, durch einen Computer 12 oder andere Benutzerinterfaces aufgenommen und in einer Hotelgastdatenbank 20 abgelegt.
  • Sobald die Gastinformationen aufgenommen wurden, transformiert ein Lexikontrainingssystem 30 automatisch die geschriebene Form des Gastnamens in eine oder mehrere phonetische Aussprachen des Namens. Unter Verwendung der bekannten Aussprache des Namens des Gastes ist es dann für das Lexikontrainingssystem 30 möglich ein sprecherunabhängiges Spracherkennungsmodell aufzubauen, das durch einen Spracherkenner 22 verwendet wird. Dieses Spracherkennungsmodell wird dann in einem Lexikon 32 gespeichert, auf das dann durch den Spracherkenner 22 zugegriffen wird. Die spezifische phonetische Aussprache des Namens jedes Hotelgastes kann automatisch im Lexikon 32 aktualisiert werden, sobald der Gast eincheckt oder aus dem Hotel auscheckt.
  • Durch die Verwendung der Spracherkennung kann eine automatische Vermittlung 50 eine Sprachwahl durch den Namen bereitstellen, wodurch eine Verbindung zu einem anderen Hotelgastzimmer erfolgen kann, ohne dass dessen Zimmernummer bekannt ist. Ein Ruf der durch ein Hoteltelefon 16 über die Telefonanlage des Hotels erfolgt (in der Regel eine PBX) 18 wird durch eine automatische Vermittlung 50 in Empfang genommen, die wiederum die Rufweiterleitungsfunktion zur Verfügung stellt. Der gesprochene Name eines Hotelgastes wird durch den Spracherkenner 22 erkannt, der das aktualisierte Lexikon 32 verwendet. Die automatische Vermittlung 50 bildet den gesprochenen Namen auf die beigefügte Durchwahl ab, durch die Verwendung des Hotelgastnamens, um die Telefondurchwahl von der Hotelgastdatenbank 20 zu erlangen. Abschließend veranlasst die automatische Vermittlung 50 das Vermittlungssystem 18 die erlangte Telefondurchwahl anzurufen und hierdurch den verlangten Ruf sauber weiterzuleiten. Für den Fachmann auf diesem Gebiet liegt es nahe, dass in dem Falle, dass die phonetisch basierte Spracherkennung zu keinem Ergebnis gelangt, die automatische Vermittlung der vorliegenden Verbindung dann in Verbindung mit einem Erkenner für buchstabierte Namen verbindet oder mit ei nem konventionellen Assistentenmodul für Directories bzw. Namenseinträge. Eine letzte Möglichkeit besteht darin, dass die automatische Vermittlung den Verbindungswunsch des Gastes mit einem menschlichen Operator des Hotels verbindet. Zusätzlich unterstützt die automatische Vermittlung 50 auch eine Sprachwahl zu anderen Hoteldiensten und Durchwahlen (im Allgemeinen zur Rezeption oder zum Hotelrestaurant).
  • Für die Verbesserung des Aufenthalts des Gastes im Hotel kann das Vermittlungssystem 10 der vorliegenden Erfindung ebenfalls anderen Hoteldiensten einen Zugriff vermitteln. So kann zum Beispiel die phonetische Aussprache des Gastes verwendet werden, um eine Nachricht in einem Voice-Mail-System 26 durch einen Sprachsynthesizer 24 anpassen zu lassen. Die so angepasste Nachricht wird abgespielt, wenn der Gast nicht in seinem Zimmer ist, um den Ruf zu empfangen. Weiterhin kann die Nationalität des Gastes verwendet werden, um einen Weckruf in der Sprache des Gastes zu erzeugen. Es ist ebenfalls vorgesehen, dass das automatische Vermittlungssystem der vorliegenden Erfindung mit anderen Hotelsystemen 28 über ein Interface verbunden wird.
  • Die 2 zeigt das Lexikontrainingssystem 30 in detaillierter Form. Im Allgemeinen erzeugt ein Lexikontrainingssystem Aussprachen von buchstabierten Namen durch die Konvertierung der Buchstaben, die den Namen in Wort-Phonem Daten buchstabieren, wobei diese erzeugten Aussprachen verwendet werden, um den Spracherkenner 22 zu trainieren. Ein robuster und zuverlässiger Phonetisierer ist notwendig, um ein Lexikontrainingssystem 30 zu implementieren. Wie durch das Hotelregistrierungssystem 14 aufgenommen, wird die buchstabierte Form des Namens des Gastes als Input für den Phonetisierer 34 verwendet.
  • Eine beispielhafte Ausführungsform des Phonetisierers 34 wird in 3 gezeigt, um die Prinzipien der Erzeugung von multiplen Aussprachen zu illustrieren, die auf der buchstabierten Form des Namens des Hotelgastes basieren. Vor diesem bestanden die meisten Versuche der buchstabierten Wort-zu-Aussprachetranskription darin, nur die Buchstaben als solche zu verwenden. Diese Techniken ließen jedoch viel zu wünschen übrig. So hat zum Beispiel ein lediglich auf Buchstaben basierender Aussprachegenerator große Schwierigkeiten, das Wort Bibel richtig auszusprechen. Basierend auf der Sequenz der Buchstaben würde das nur auf Buchstaben basierende System mit einer hohen Wahrscheinlichkeit das Wort „Bib-l" aussprechen, was einem Vorschulkind entspricht, das gerade das Wort Bibel lernt bzw. dessen Aussprache. Der Fehler von konventionellen Systemen liegt darin begründet, dass inhärente Mehrdeutigkeiten durch die unterschiedlichen Ausspracheregeln, die durch viele Sprachen vorgegeben sind, nur schwer lösbar sind. Die englische Sprache zum Beispiel weist Hunderte von unterschiedlichen Ausspracheregeln auf, was es sehr schwierig und sehr teuer zu berechnen macht, dem Problem mit einer Wort-zu-Wort basierenden Vorgehensweise nahe zu rücken.
  • Hieraus ergibt sich, dass der Phonetisierer 34 zwei Stufen verwendet, die erste Stufe verwendet eine Menge von nur buchstabenorientierten Entscheidungsbäumen 72 und die zweite Stufe verwendet eine Menge von gemischten Entscheidungsbäumen 74. Eine Eingabesequenz 76, wie zum Beispiel die Sequenz der Buchstaben B-I-B-L-E, wird in einen dynamisch programmierten Phonem-Sequenz-Generator 78 gefüttert. Der Sequenzgenerator verwendet den nur buchstabenorientierten Baum 72, um eine Liste von Aussprachen 80 zu generieren, diese referenzieren mögliche Aussprachekandidaten der buchstabierten Wort-Input-Sequenz.
  • Der Sequenzgenerator untersucht sequenziell jeden Buchstaben in der Sequenz unter Anwendung des Entscheidungsbaumes der mit den Buchstaben verbunden ist, um eine Phonemaussprache auszuwählen für diesen Buchstaben, wobei die Entscheidung auf Wahrscheinlichkeitsdaten basiert, die im ausschließlich aus Buchstaben bestehenden Baum enthalten sind. In der bevorzugten Ausführungsform umfasst die Menge von nur mit Buchstaben versehenen Entscheidungsbäumen einen Entscheidungsbaum für jeden Buchstaben im Alphabet. Die 4 zeigt ein Beispiel für einen buchstabenorientierten Entscheidungsbaum für den Buchstaben E. Der Entscheidungsbaum umfasst eine Vielzahl von internen Knoten (dargestellt als Ovale in der Figur) und eine Mehrzahl von Blattknoten (dargestellt als Rechtecke in der Figur). Jeder interne Knoten ist mit einer Ja- oder Nein-Frage versehen. Ja- oder Nein-Fragen können entweder mit Ja oder Nein beantwortet werden. In den Bäumen die lediglich Buchstaben aufweisen, sind diese Fragen auf den gegebenen Buchstaben (in diesem Fall der Buchstabe E) und seine benachbarten Buchstaben gerichtet, die ihm in der Eingabesequenz folgen. Wie aus 4 deutlich wird, verzweigt jeder interne Knoten nach links oder rechts, abhängig davon, ob die ihm zugeordnete Frage mit Ja oder Nein beantwortet wurde.
  • Abkürzungen werden in 4 wie folgt verwendet: Zahlen in Anführungszeichen, wie zum Beispiel „+1" oder „–1" beziehen sich auf die Positionen der Buchstabierung relativ zum aktuellen Buchstaben. So bedeutet zum Beispiel „+1L=='R'?": „Ist der Buchstabe nach dem aktuellen Buchstaben (der in diesem Falle der Buchstabe E ist) ein R?". Die Abkürzungen CONS und VOW repräsentieren Klassen von Buchstaben, nämlich Konsonanten und Vokale. Das Fehlen eines benachbarten Buchstabens oder eines Null-Buchstabens wird durch das Symbol – repräsentiert, das als Füller oder Platzhalter verwendet wird zur Ausrichtung bestimmter Buchstaben mit korrespondierenden Phonemaussprachen. Das Symbol # beschreibt eine Wortgrenze.
  • Die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen, was dazu führt, dass mögliche Phonemaussprachen mit numerischen Werten versehen werden, die die Wahrscheinlichkeit repräsentieren, dass das entsprechende Phonem die korrekte Aussprache des vorgegebenen Buchstabens darstellt. Zum Beispiel bedeutet die Schreibweise „iy=>0,51" „die Wahrscheinlichkeit des Phonems 'iy' in diesem Blatt ist 0,51". Das Nullphonem, zum Beispiel Stumm, wird repräsentiert durch das Symbol '–'.
  • Der Sequenzgenerator 78 (3) benutzt den lediglich buchstabenorientierten Entscheidungsbaum 72, um eine oder mehrere Aussprachehypothesen zu konstruieren, die in der Liste 80 gespeichert sind. In einer bevorzugten Ausführungsform wird jeder Aussprache ein numerischer Wert zugeordnet, der erlangt wird durch die Kombination der Wahrscheinlichkeitswerte der ausgewählten individuellen Phoneme unter Verwendung des Entscheidungsbaumes 72. Wortaussprachen können bewertet werden durch die Erzeugung einer Matrix von möglichen Kombinationen, um dann durch die Verwendung einer dynamischen Programmierung die besten Kandidaten auszuwählen. Alternativ können die n-besten Kandidaten ausgewählt werden durch die Verwendung einer Substitutionstechnik, die zuerst den wahrscheinlichsten Wortkandidaten wählt und dann solche Wortkandidaten durch eine iterative Substitution generiert, was man im Folgenden sehen kann.
  • Die Aussprache mit dem höchsten Wahrscheinlichkeitswert wird ausgewählt, indem zuerst die entsprechenden Werte der am höchsten bewerteten Phoneme miteinander multipliziert werden (diese wurden durch die Untersuchung der Wortknoten bestimmt), um dann diese Auswahl als den wahrscheinlichsten Kandidat oder als den zuerst besten Wortkandidaten zu verwenden. Zusätzliche (n-best) Kandidaten können dann durch die Untersuchung der Phonemdaten in den Blattknoten ausgewählt werden, um dann wieder das Phonem, das vorher nicht ausgewählt wurde, zu identi fizieren, das die kleinste Differenz von einem anfänglich ausgewählten Phonem aufweist. Dieses minimalunterschiedliche Phonem wird dann ersetzt und anstatt des ursprünglich ausgewählten, um dadurch den zweitbesten Wortkandidaten zu erzeugen. Der vorher genannte Prozess kann iterativ wiederholt werden bis die gewünschte Anzahl von n-besten Kandidaten ausgewählt wurde. Liste 80 kann in einer absteigenden Bewertungsrichtung sortiert werden, so dass die Aussprache des Besten durch die buchstabenorientierten Analyse in der Liste als erster auftaucht.
  • Wie oben bereits ausgeführt wurde, erzeugt eine Nurbuchstabenorientierte Analyse oftmals schlechte Ergebnisse. Dies ergibt sich daraus, dass die buchstabenorientierte Analyse keine Möglichkeit hat, festzustellen, welches Phonem jeder Buchstabe durch die folgenden Buchstaben erzeugen wird. Hieraus ergibt sich, dass eine Nur-buchstabenorientierte Analyse eine Aussprache mit einem hohen Wert erzeugt, die tatsächlich nicht in einer natürlichen Sprache auftauchen würde. Hieraus ergibt sich, dass der richtige Name, Achilles, zu einer Aussprache führt, die die beiden LL's phonetisiert: ah-k-ich-l-l-iy-z. In der natürlichen Sprache ist das zweite L im Allgemeinen als stumm anzusehen: ah-k-ich-l-iy-z. Der Sequenzgenerator der Bäume, die nur buchstabenorientiert sind, hat keinerlei Mechanismen, um Wortaussprachen zu erkennen, die niemals in der natürlichen Sprache auftreten würden.
  • Die zweite Stufe des Phonetisierers 34 richtet sich an das oben genannte Problem. Ein gemischter Baumwertschätzer 82 verwendet die Menge der gemischten Entscheidungsbäume 74, um die Überlebensfähigkeit jeder Aussprache in der Liste 80 abzuschätzen. Der Bewertungsabschätzer arbeitet, indem jeder Buchstabe in der Eingabesequenz zusammen mit den Phonemen, die jedem Buchstaben durch den Sequenzgenerator 78 zugeordnet wurden, untersucht werden. Wie die Menge der Bäume mit lediglich Buchstaben, hat die Menge der gemischten Bäume einen gemischten Baum für jeden Buchstaben des Alphabetes. Ein exemplarischer gemischter Baum wird in 5 gezeigt. Wie der Baum der lediglich Buchstaben aufweist, hat der gemischte Baum auch interne Knoten und Blattknoten. Die internen Knoten sind als Ovale dargestellt und die Blattknoten sind als Rechtecke in 5 dargestellt. Die internen Knoten sind jeweils mit einer Ja-Nein Frage versehen und die Blattknoten sind mit Wahrscheinlichkeitsdaten versehen. Auch wenn die Struktur des gemischten Baums der eines Baumes mit lediglich Buchstaben ähnelt, so besteht doch ein wichtiger Unterschied. Die internen Knoten des gemischten Baumes können zwei unterschiedliche Klassen von Fragen aufweisen. Ein interner Knoten kann eine Frage bezüglich eines gegebenen Buchstabens umfassen sowie bezüglich der benachbarten Buchstaben in der Klasse oder er kann eine Frage bezüglich des Phonems aufweisen, das dem Buchstaben zugeordnet ist und bzgl. der benachbarten Phoneme, die der Sequenz entsprechen. Der Entscheidungsbaum ist somit gemischt und umfasst somit eine gemischte Klasse von Fragen.
  • Die Abkürzungen, die in 5 verwendet werden, ähneln denen aus 4, weisen jedoch einige zusätzliche Abkürzungen auf. Das Symbol L repräsentiert eine Frage über einen Buchstaben und seine benachbarten Buchstaben. Das Symbol P repräsentiert eine Frage über ein Phonem und seine benachbarten Phoneme. Zum Beispiel bedeutet die Frage „+1L=='D'?" „Ist der Buchstabe in der +1 Position ein 'D'?". Die Abkürzung CONS und SYL sind Phonemklassen, nämlich Konsonanten und silbisch. So ist zum Beispiel die Frage „+1P==CONS?" gleichzustellen mit der Frage „Ist das Phonem in der +1 Position ein Konsonant?", die Zahlen in den Blattknoten sind Phonemwahrscheinlichkeiten wie sie es in den Bäumen mit lediglich Buchstaben sind.
  • Der gemischte Baumverwertungsabschätzer wertet erneut jede der Aussprachen in der Liste 80 basierend auf den gemischten Baum fragen und unter Verwendung der Wahrscheinlichkeitsdaten in den Blattknoten des gemischten Baums. Falls gewünscht, können die Listen der Aussprachen zusammen mit den entsprechenden Bewertungen wie in Liste 84 gespeichert werden. Falls gewünscht, kann die Liste 84 in absteigender Folge sortiert werden, so dass die erste Aussprache eine mit der höchsten Bewertung ist.
  • In vielen Fällen unterscheidet sich die Aussprache, die die höchstbewertete Position in der Liste 84 belegt, von der Aussprache, die die höchste Bewertungsposition in der Liste 80 aufweist. Dies ergibt sich daraus, dass der gemischte Baumbewertungsabschätzer, der die gemischten Bäume 74 verwendet, solche Aussprachen herausfiltert, die nicht selbstkonsistente Phonemsequenzen aufweisen oder Aussprachen darstellen, die nicht in der natürlichen Sprache auftreten würden. Wie bereits oben ausgeführt wurde, stellen Phonetisierer 34, wie sie in 3 dargestellt werden, nur eine mögliche Ausführungsform dar.
  • Die Aussprachen der Liste 84 können verwendet werden für Aussprachewörterbücher, die sowohl für die Spracherkennung als auch für Sprachsyntheseanwendungen verwendet werden können. Falls gewünscht, kann ein Selektormodul 36 den Zugriff auf Liste 84 aufweisen, um eine oder mehrere der Aussprachen in der Liste zu erhalten. Im Allgemeinen wählt der Selektor 86 die Aussprache mit dem höchsten Punktwert und stellt diese als Ausgabeaussprache 88 zur Verfügung. In einem Spracherkennungskontext wird das Aussprachewörterbuch während der Spracherkennungstrainingsphase verwendet, um Aussprachen für Wörter wie zum Beispiel Hotelgastnamen zur Verfügung zu stellen, die noch nicht im Erkennungslexikon gefunden wurden.
  • Wie auf das Lexikontrainingssystem 30 angewandt wurde, können die n-besten Aussprachen 38 für jeden buchstabierten Gastnamen als Input für einen Modelltrainer 46, wie in 2 darge stellt wird, dienen. In der bevorzugten Ausführungsform der vorliegenden Erfindung kann ein Hidden Markov Modell (HMM) als Basis für den Modelltrainer 46 verwendet werden. Ein HMM Modell, das jedem Gastnamen zugeordnet wird, wird in einem Lexikon 32 gespeichert, um durch den Spracherkenner 22 verwendet zu werden. Der Modelltrainer 46 ist ein Modul, das HMM Modelle baut, indem die kontextabhängigen Phonemmodelle, die einer oder mehreren generierten Aussprachen entspricht, miteinander verknüpft werden. Auch wenn diese Ausführungsform eines automatischen Betreuungssystems eine Spracherkennung auf dem Phonemlevel durchführt, so kann ein Fachmann auf diesem Gebiet erkennen, dass ein Spracherkenner 22 auch auf anderen Erkennungsleveln (das heißt Wortleveln) implementiert werden kann.
  • Das Lexikontrainingssystem 30 kann optional auch einen Aussprache-Extraktor 40 implementieren, der eine oder mehrere aufgereihte Aussprachen als Output 44 erzeugt, die als Input für einen Modelltrainer 46 dienen. Zum Zeitpunkt der Registrierung oder zu anderen folgenden Zeiten während des Aufenthalts eines Gastes im Hotel kann der gesprochene Name des Hotelgastes durch das Telefon 16 oder andere Audioempfangsgeräte festgehalten werden. Der gesprochene Name stellt dann die bevorzugte Aussprache des Gastnamens dar, und kann somit durch den Modelltrainer 46 verwendet werden. So kann zum Beispiel der gesprochene Namen in eine digitale Form konvertiert werden, der dann wiederum verwendet wird, um eine oder mehrere Aussprachen von den n-besten Aussprachen 38 zu wählen, die dem Namen des Gastes entsprechen. Um dies zu erreichen, kann der Modelltrainer 46 eine dynamische Grammatik aufbauen, durch Verwendung der n-besten Aussprache 38 und dann eine Erkennung der gesprochenen Sprache als Input durchführen unter Verwendung der dynamischen Grammatik, um eine oder mehrere ausgerichtete Aussprachen 44 zu wählen.
  • Für Sprachsyntheseapplikationen, können die n-besten Aussprachen 38 eines für jeden Gastnamen verwendet werden, um einen Phonemklang zu erzeugen für das zusammengefügte Playback. Im Zusammenhang mit einem automatischen Hotelbetreuungssystem 10 kann der Sprachsynthesizer 24 eine richtige Aussprache des Namens des Gastes eines Hotels bereitstellen, so dass der Angestellte (im Allgemeinen die Person an der Rezeption oder am Empfang), der mit dem Gast in Interaktion steht, diesen richtig ausspricht. Es wird ebenfalls beabsichtigt, dass der Sprachsyntheziser 24 verwendet werden kann, um die Features eines E-Mail-Lesesystems oder einer anderen Text-zu-Sprache Anwendung zu erweitern.
  • Das automatische Betreuungssystem 10 umfasst ein automatisches Betreuungsmodul, ein Lexikontrainingssystem 30, einen Spracherkenner 22 und einen Sprachsyntheziser 24, die jeweils einzeln oder zusammen mit anderen Hotelsystemen zusammengepackt werden können. Um die Implementierung zu vereinfachen und die Kosten zu minimieren, sollte das automatische Betreuungssystem 10 spezifisch designt sein, um mit anderen existierenden Hotelsystemen ein Interface zu bilden, wie zum Beispiel das Hotelregistrierungssystem, das Hotelabrechnungssystem und das Finanzbuchsystem, die Hoteltelefonanlage und so weiter. Eine minimale Anpassung sollte notwendig sein, um diese Typen von Interfaces bereitzustellen. So soll zum Beispiel anstatt der Modifikation einer existierenden Hotelgastdatenbank zur Integration der Aussprache, der Nationalität und so weiter, in eine existierende Datenstruktur das automatische Betreuungssystem 10 besser die Hotelgastinformation über ein Interface auf der Basis des Betriebsystems erlangt werden, zum Beispiel durch Bildschirmcapture zur Registrierungszeit oder durch API, die für das Hotelregistrierungssystem 14 definiert wurde.
  • Das vorher genannte offenbart und beschreibt im Wesentlichen exemplarisch die Ausführungsform der vorliegenden Erfindung.
  • Eine Person, die mit dem Stand der Technik vertraut ist, wird schnell durch die Ausführungen und die beigefügten Zeichnungen und die Ansprüche erkennen, dass eine Vielzahl von Änderungen und Modifikationen und Variationen durchgeführt werden können, ohne sich aus dem Schutzumfang der vorliegenden Erfindung, wie er durch die beigefügten Ansprüche definiert wurde, herauszubewegen.
  • Die vorliegende Erfindung stellt ebenfalls ein Computerprogramm zur Verfügung, das einen computerinterpretierbaren Code umfasst, der wenn er auf einem Computer ausgeführt wird einen technischen Effekt der vorliegenden Erfindung erzeugt. Weiterhin stellt die vorliegende Erfindung ein Computerprogrammprodukt zur Verfügung, das ein computerlesbares Speichermedium umfasst, das einen Code gespeichert hat, der, wenn er ausgeführt wird, auf einem Computer die technischen Effekte der vorliegenden Erfindung umsetzt.

Claims (11)

  1. Ein automatisches Hotelbetreuungssystem um Zimmer-zu-Zimmer Anrufe über eine Telefonanlage, das eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Namen eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Hotelgastnamen umzuwandeln, und um den besagten Hotelgastnamen zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Datenbanksystem zu bestimmen, – das besagte Rufrouting System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlassen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochenen Namens von einem der besagten Telefonanschlüsse.
  2. Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 1, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Datenbanksystem verbunden ist, um Buchstaben, die einen Hotelgastnamen buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Hotelgastnamen ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
  3. Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 2, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Namens eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Hotelgastnamens auszuwählen.
  4. Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2 oder 3, wobei das besagte Hotelgastdatenbanksystem Buchstaben speichert, die den Namen eines ersten Hotelservices buchstabieren, dem ein erster Telefonanschluss zugeordnet ist, so dass das automatische Hotelbetreuungssystem eine Rufeinleitung zu dem besagten ersten Telefonanschluss durchführt, als Reaktion auf die Eingabe eines gesprochenen Namens, der dem besagten ersten Hotelservice zugeordnet ist.
  5. Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 1, 2, 3 oder 4, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Namens, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Zimmer-zu-Zimmer Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Namen des besagten Hotelgastes zu erkennen.
  6. Ein automatisches Hotelbetreuungssystem um Anschluss-zu-Anschluss Anrufe über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, zu koordinieren, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Identifikator eines Hotelgastes buchstabieren, und wobei jedem Gast ein zugeordneter Telefonanschluss zuteil wird; – ein Spracherkennungssystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Hotelgastdatenbanksystem verbunden ist, um die besagten Identifikatoren als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Wörtern, indem die Buchstaben, die den Identifikator buchstabieren, in Wortphoneminformationen umgewandelt werden; und – ein Rufrouting-System, das mit dem besagten Erkennungssystem verbunden ist, um einen gesprochenen Identifikator eines Hotelgastes, der über einen der besagten Telefonanschlüsse eingegeben wurde, in einen vordefinierten Systembenutzer Identifikator umzuwandeln, und um den besagten Systembenutzer Identifikator zu verwenden, um den zugeordneten Telefonanschluss von dem besagten Hotelgastdatenbanksystem zu bestimmen, – das besagte Rufrouting-System ist mit der besagten Telefonanlage verbunden, um die besagte Telefonanlage zu veranlas sen, den besagten Telefonanschluss anzurufen, unter Berücksichtigung des Eintrags des besagten gesprochen Identifikators von einem der besagten Telefonanschlüsse.
  7. Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 6, wobei das besagte Lexikontrainingssystem weiterhin umfasst: – einen phonetischen Darsteller, der mit dem besagten Telefondatenbanksystem verbunden ist, um Buchstaben, die den besagten Identifikator eines Hotelgastes buchstabieren, in eine Vielzahl von Aussprachen für jeden der besagten Identifikatoren zu konvertieren; und – einen Modelltrainer, der mit dem besagten phonetischen Darsteller verbunden ist, um von der besagten Vielzahl von Aussprachen für jeden der besagten Identifikatoren ein verstecktes Markov Modell (HMM) zu erzeugen und um das besagte HMM in dem besagten Lexikon für die Verwendung durch das besagte Spracherkennungssystem zu speichern.
  8. Das automatische Hotelbetreuungssystem gemäß dem vorhergehenden Anspruch 7, weiterhin umfassend einen Extrahierer für die Aussprache, der zwischen dem besagten phonetischen Darsteller und dem besagten Modelltrainer angeordnet ist, um zumindest eine ausgerichtete Aussprache zu erzeugen, die dem besagten Modelltrainer als Input dient, wobei der besagte Extrahierer die Aussprache einer gesprochenen Aussprache eines Identifikators eines Hotelgastes erhält und wobei er eingerichtet ist, um zumindest eine von der besagten Vielzahl von Aussprachen von dem besagten phonetischen Darsteller basierend auf der gesprochenen Aussprache des besagten Identifikators auszuwählen.
  9. Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7 oder 8, wobei der besagte Identifikator weiterhin als zumindest einer von einem Namen und einer Umgebung definiert ist, die mit der zugeordneten Telefonnummer in Verbindung zu bringen ist.
  10. Das automatische Hotelbetreuungssystem gemäß den vorhergehenden Ansprüchen 6, 7, 8 oder 9, weiterhin umfassend einen Erkenner für die buchstabierte Eingabe eines Identifikators, der mit dem besagten Rufrouting-System und der besagten Telefonanlage verbunden ist, um die Anschluss-zu-Anschluss Verbindungen zu koordinieren, wenn die Spracherkennung nicht in der Lage ist, den besagten gesprochenen Identifikator des besagten Hotelgastes zu erkennen.
  11. Ein automatisches Hotelbetreuungssystem für eine synthetische Sprachausgabe eines Hotelgastnamens über eine Telefonanlage, die eine Vielzahl von Telefonanschlüssen aufweist, umfassend: – ein Hotelgastdatenbanksystem zum Empfangen und Speichern von Buchstaben, die den Namen eines Hotelgastes buchstabieren, und zum Speichern von Informationen, die jedem Gast zuordenbar sind; – ein synthetisches Sprachausgabesystem mit einem Lexikon, um Wortphoneminformationen zu speichern, das eine Menge von Wörtern den Phonemen zuordnet, die die Worte formen; – ein Lexikontrainingsystem, das mit dem besagten Datenbanksystem verbunden ist, um Hotelgastnamen als Wörter zu dem besagten Lexikon hinzuzufügen, das besagte Trainingssystem erzeugt Aussprachen von buchstabierten Namen, indem die Buchstaben, die den Namen buchstabieren, in Wortphoneminformationen umgewandelt werden; und – einen virtuellen Betreuer, der mit dem besagten Hotelgastdatenbanksystem und dem besagten synthetischen Sprachausgabesystem verbunden ist, um den buchstabierten Namen eines Hotelgasts, der durch einen Systembenutzer des Hotelgastdatenbanksystems eingegeben wurde, in eine synthetische Aussprache des besagten buchstabierten Namens durch die Verwendung der Wortphoneminformationen umzuwandeln; – der besagte virtuelle Betreuer ist mit einer Telefonanlage verbunden, um die besagte synthetische Aussprache zu einem der besagen Systembenutzer über einen der besagten Telefonanschlüsse bereitzustellen.
DE69922872T 1998-04-30 1999-04-26 Automatischer Hotelportier mit Spracherkennung Expired - Fee Related DE69922872T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/070,399 US6314165B1 (en) 1998-04-30 1998-04-30 Automated hotel attendant using speech recognition
US70399 1998-04-30

Publications (2)

Publication Number Publication Date
DE69922872D1 DE69922872D1 (de) 2005-02-03
DE69922872T2 true DE69922872T2 (de) 2005-12-29

Family

ID=22095067

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69922872T Expired - Fee Related DE69922872T2 (de) 1998-04-30 1999-04-26 Automatischer Hotelportier mit Spracherkennung

Country Status (7)

Country Link
US (1) US6314165B1 (de)
EP (1) EP0953967B1 (de)
JP (1) JP3135233B2 (de)
KR (1) KR100574768B1 (de)
CN (1) CN1116770C (de)
DE (1) DE69922872T2 (de)
TW (1) TW424221B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US6425131B2 (en) * 1998-12-30 2002-07-23 At&T Corp. Method and apparatus for internet co-browsing over cable television and controlled through computer telephony
US8250620B1 (en) * 1998-12-30 2012-08-21 At&T Intellectual Property Ii, L.P. System and method for sharing information between a concierge and guest
JP2002024412A (ja) * 2000-07-03 2002-01-25 Toshimitsu Kagawa 宿泊室の設備操作システム
JP2002032491A (ja) * 2000-07-19 2002-01-31 Toshimitsu Kagawa 宿泊客に対する情報提供システム
DE60128372T2 (de) * 2000-07-31 2008-01-10 Eliza Corp., Beverly Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
EP1215661A1 (de) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Sprachgesteuertes tragbares Endgerät
EP1220200B1 (de) * 2000-12-18 2003-09-24 Siemens Aktiengesellschaft Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
US6967947B1 (en) * 2001-03-29 2005-11-22 At&T Corp. Method and system for providing controllable enhanced call service features at mobile locations
US6763102B1 (en) * 2001-04-05 2004-07-13 At&T Corp. Method for handling incoming calls directed to a virtual communication service subscriber via a guest PBX
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US6996519B2 (en) * 2001-09-28 2006-02-07 Sri International Method and apparatus for performing relational speech recognition
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
EP1302928A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
MY141150A (en) * 2001-11-02 2010-03-15 Panasonic Corp Channel selecting apparatus utilizing speech recognition, and controling method thereof
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
US20040156493A1 (en) * 2003-02-06 2004-08-12 Comverse, Ltd. Method and apparatus for providing a central telephony service for a calling party at the called party telephone
AU2004200809B2 (en) * 2003-03-07 2006-05-11 Samsung Electronics Co., Ltd. Method and system for providing data services to mobile communication terminals and mobile communication terminal therefor
US7756726B2 (en) * 2003-09-25 2010-07-13 International Business Machines Corporation Secured medical sign-in
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US7983401B1 (en) 2006-08-15 2011-07-19 At&T Mobility Ii Llc Customized provision of automated menu options
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US9386154B2 (en) * 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识系统以及方法
GB201320334D0 (en) * 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
WO2015073766A1 (en) * 2013-11-18 2015-05-21 Microsoft Technology Licensing, Llc Identifying a contact
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9519827B2 (en) * 2014-12-24 2016-12-13 International Business Machines Corporation Personalized, automated receptionist
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20210295048A1 (en) * 2017-01-24 2021-09-23 Tienovix, Llc System and method for augmented reality guidance for use of equipment systems
US20210327304A1 (en) * 2017-01-24 2021-10-21 Tienovix, Llc System and method for augmented reality guidance for use of equpment systems
EP3574504A1 (de) * 2017-01-24 2019-12-04 Tietronix Software, Inc. System und verfahren zur dreidimensionalen führung mit erweiterter realität für medizinische ausrüstung
US20210327303A1 (en) * 2017-01-24 2021-10-21 Tienovix, Llc System and method for augmented reality guidance for use of equipment systems
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10580098B2 (en) * 2017-05-29 2020-03-03 Virtual OnQ Systems, LLC Voice activated hotel room monitor
FR3066848B1 (fr) * 2017-05-29 2021-07-02 Virtual Onq Systems Llc Supervision de chambre d'hotel activee par la voix
CN108932946B (zh) * 2018-06-29 2020-03-13 百度在线网络技术(北京)有限公司 客需服务的语音交互方法和装置
US11844654B2 (en) 2019-08-19 2023-12-19 Caption Health, Inc. Mid-procedure view change for ultrasound diagnostics
CN110491374A (zh) * 2019-08-27 2019-11-22 北京明日汇科技管理有限公司 基于神经网络的酒店服务语音交互识别方法及装置
KR102222597B1 (ko) * 2020-02-03 2021-03-05 (주)라이언로켓 콜미 서비스를 위한 음성 합성 장치 및 방법

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62140593A (ja) * 1985-12-13 1987-06-24 Nec Corp 外線呼自動内線転送装置
JPS62166642A (ja) * 1986-01-20 1987-07-23 Fujitsu Ltd 電話転送方式
JPH0353649A (ja) * 1989-07-21 1991-03-07 Toshiba Corp 電話交換装置
JPH0420158A (ja) * 1990-05-15 1992-01-23 Mitsubishi Electric Corp 構内交換装置
US5212730A (en) 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
EP0562138A1 (de) 1992-03-25 1993-09-29 International Business Machines Corporation Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung
JP3144595B2 (ja) 1992-05-08 2001-03-12 ソニー株式会社 音声アダプタ
JPH0818670A (ja) * 1994-07-04 1996-01-19 Mitsubishi Denki Bill Techno Service Kk 構内交換機
DE69635015T2 (de) * 1995-11-17 2006-03-30 At & T Corp. Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5752230A (en) 1996-08-20 1998-05-12 Ncr Corporation Method and apparatus for identifying names with a speech recognition program
US5930336A (en) * 1996-09-30 1999-07-27 Matsushita Electric Industrial Co., Ltd. Voice dialing server for branch exchange telephone systems
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6029132A (en) * 1998-04-30 2000-02-22 Matsushita Electric Industrial Co. Method for letter-to-sound in text-to-speech synthesis
US6016471A (en) * 1998-04-29 2000-01-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216427A1 (de) * 2013-08-20 2015-03-12 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
DE102013216427B4 (de) 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung

Also Published As

Publication number Publication date
JP2000032140A (ja) 2000-01-28
CN1246023A (zh) 2000-03-01
EP0953967B1 (de) 2004-12-29
CN1116770C (zh) 2003-07-30
TW424221B (en) 2001-03-01
EP0953967A3 (de) 2000-06-28
JP3135233B2 (ja) 2001-02-13
KR100574768B1 (ko) 2006-04-28
KR19990083596A (ko) 1999-11-25
DE69922872D1 (de) 2005-02-03
US6314165B1 (en) 2001-11-06
EP0953967A2 (de) 1999-11-03

Similar Documents

Publication Publication Date Title
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE69525178T2 (de) Ansagedienste mit spracheingabe
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE60200857T2 (de) Erzeugung einer künstlichen Sprache
DE69633883T2 (de) Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
EP1336955B1 (de) Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
EP1950672A1 (de) Verfahren und Datenverarbeitungssystem zum gesteuerten Abfragen strukturiert gespeicherter Informationen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60220763T2 (de) Automatisches dialogsystem mit einem datenbankbasierten sprachmodell
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
DE19532114C2 (de) Sprachdialog-System zur automatisierten Ausgabe von Informationen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE10011178A1 (de) Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
DE60017435T2 (de) Sprachegesteuerte anrufverfahren und entsprechende anbieter

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee