DE10393076T5 - Verteiltes multimodales Dialogsystem und Verfahren - Google Patents

Verteiltes multimodales Dialogsystem und Verfahren Download PDF

Info

Publication number
DE10393076T5
DE10393076T5 DE10393076T DE10393076T DE10393076T5 DE 10393076 T5 DE10393076 T5 DE 10393076T5 DE 10393076 T DE10393076 T DE 10393076T DE 10393076 T DE10393076 T DE 10393076T DE 10393076 T5 DE10393076 T5 DE 10393076T5
Authority
DE
Germany
Prior art keywords
multimodal
voice
channels
modality
multimodal interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10393076T
Other languages
English (en)
Inventor
Wu Chou
Li Li
Feng Liu
Antoine Saad
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Technology LLC
Original Assignee
Avaya Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Technology LLC filed Critical Avaya Technology LLC
Publication of DE10393076T5 publication Critical patent/DE10393076T5/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/566Grouping or aggregating service requests, e.g. for unified processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/08Protocols for interworking; Protocol conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Machine Translation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

Ein verteiltes multimodales Interaktionssystem umfassend:
eine Anwendungsschnittstelle, die eine multimodale Interaktionsanfrage zur Durchführung einer multimodalen Interaktion über mindestens zwei verschiedene Modalitätskanäle empfängt und
mindestens ein Hybridkonstrukt, der mit multimodalen Servern, die den Modalitäten der Kanäle entsprechen, kommuniziert, um die multimodale Interaktionsanfrage auszuführen.

Description

  • Hintergrund der Erfindung
  • Gebiet der Erfindung
  • Die Erfindung bezieht sich auf Techniken zur Bereitstellung eines verteilten multimodalen Dialogsystems, in welchem multimodale Kommunikations- und/oder Dialogtypen in einen Dialogprozess oder in mehrere parallele Dialogprozesse wie gewünscht integriert werden können.
  • Diskussion des Standes der Technik
  • Voice Extensible Markup Language oder Voice-XML ist ein Standard, der vom World Wide Web-Komitee (W3C) gesetzt wurde und es Nutzern erlaubt mit dem Web über Spracherkennungsanwendungen zusammenzuwirken. Durch Verwendung von Voice-XML kann ein Nutzer das Web oder die Anwendung durch Sprechen bestimmter Befehle über einen Sprach-Browser oder einen Telefonanschluss aufrufen. Der Nutzer wirkt mit dem Web oder der Anwendung durch Eingabe von Befehlen oder Daten zusammen unter Verwendung der natürlichen Stimme des Nutzers. Die Interaktion oder der Dialog zwischen dem Nutzer und dem System erfolgt über einen Einkanal-Sprachkanal. Eine der Annahmen, denen solche Voice-XML-basierten Systeme unterliegen ist, dass eine Verbindung zwischen einem Nutzer und dem System über einen Telefonanschluss einem Einzelmodalitätskommunikationsmodell folgt, bei dem Ereignisse oder Übertragungen zeitlich aufeinander folgend auftreten wie in einem rationalisierten synchronisierten Prozess.
  • Konventionelle Voice-XML-Systeme, die das Einzelmodalitätskommunikationsmodell nutzen sind jedoch nicht für multimodale Interaktionen geeignet, bei denen mehrere Kommunikationsprozesse über verschiedene Übertragungsarten (Modalitätskanäle) wie Sprache, Email, Fax, Web-Formular usw. auftreten müssen. Genauer gesagt ist das Einzelmodalitätskommunikationsmodell der konventionellen Voice-XML-Systeme nicht länger angemessen zur Verwendung bei einer multimodalen Interaktion, weil es einem rationalisierten synchronen Kommunikationsmodell folgt.
  • In einem multimodalen Interaktionssystem sind die folgenden vier Hierarchielevels verschiedener Arten multimodaler Interaktionen, die nicht durch eine einzelne rationalisierte Modalitätskommunikation gemäß dem Stand der Technik bereitgestellt werden können, gewünscht:
    (Level 1) Sequentielle multimodale Interaktion: Obwohl das System mehrere Modalitäten oder Arten der Übertragung erlaubt, ist zu jedem Zeitpunkt nur eine Modalität aktiv, und zwei oder mehr Modalitäten sind nie gleichzeitig aktiv.
    (Level 2) Unkoordinierte simultane multimodale Interaktion: Das System erlaubt eine gleichzeitige Aktivierung von mehr als einer Modalität. Wenn jedoch eine Eingabe von mehr als einer Modalität bereitgestellt werden muss, werden solche Eingaben nicht integriert sondern werden einzeln in zufälliger oder festgelegter Reihenfolge abgearbeitet.
    (Level 3) Koordinierte simultane multimodale Interaktion: Das System erlaubt eine gleichzeitige Aktivierung von mehr als einer Modalität zur Integration und bildet gemeinsame Abläufe basierend auf Zeitstempel oder andere Prozesssynchronisationsinformationen, um mehrere Eingaben von mehreren Modalitäten zu verbinden.
    (Level 4) Gemeinschaftliche auf Informationsüberlagerung basierende multimodale Interaktionen: Zusätzlich zu oben genanntem Level 3 verwendet die durch das System bereitgestellte Interaktion eine gemeinsam genutzte multimodale Umgebung (zum Beispiel White-Board, gemeinsame Webseite und Spielkonsole) zur multimodalen Zusammenarbeit, wodurch ermöglicht wird, gemeinschaftliche Interaktionen gemeinsam zu nutzen und übereinander zu überlagern mit der gemeinsam zusammenwirkenden Umgebung.
  • Jedes höher in der Hierarchie liegende Level stellt eine neue Herausforderung an ein Dialogsystemdesign dar und entfernt sich weiter von der Einzelmodalitätsübertragung eines existierenden Sprachmodells. Daher werden neue Ansätze benötigt, wenn eine multimodale Übertragung gewünscht ist, zum Beispiel wenn eine Interaktion über mehrere Kommunikationsarten gewünscht ist.
  • Darstellung der Erfindung
  • Die vorliegende Erfindung stellt ein Verfahren und ein System bereit, um eine verteilte multimodale Interaktion bereitzustellen, welche die oben genannten Probleme und Begrenzungen des Standes der Technik bewältigen. Das System der vorliegenden Erfindung ist ein Hybrid-Voice-XML-Dialogsystem und umfasst eine Anwendungsschnittstelle, die eine multimodale Interaktionsanfrage zur Durchführung einer multimodalen Interaktion über mindestens zwei unterschiedliche Modalitätskanäle empfängt; und mindestens ein Hybridkonstrukt, der mit multimodalen Servern entsprechend den mehreren Modalitätskanälen kommuniziert, um die multimodale Interaktionsanfrage auszuführen.
  • Vorteile der vorliegenden Erfindung werden durch die nachfolgend gegebene detaillierte Beschreibung ersichtlicher. Es sollte sich jedoch verstehen, dass die detaillierte Beschreibung und die spezifischen Beispiele, obwohl diese bevorzugte Ausführungsformen der Erfindung zeigen, nur zur Veranschaulichung gegeben sind, da verschiedene Änderungen und Modifikationen im Sinne und im Umfang der Erfindung dem Fachmann aus der detaillierten Beschreibung offensichtlich sind.
  • Kurze Beschreibung der Zeichnung
  • Die vorliegende Erfindung wird durch die nachfolgende detaillierte Beschreibung und die beiliegenden Figuren, die nur zur Veranschaulichung gegeben sind und somit die vorliegende Erfindung nicht einschränken, besser verstanden.
  • 1 zeigt ein Funktionsblockschaltbild eines Systems zur Bereitstellung verteilter multimodaler Übertragungen gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 2 zeigt ein detaillierteres Blockschaltbild eines Teils des Systems nach 1 gemäß einer Ausführungsform der vorliegenden Erfindung; und
  • 3 zeigt ein Funktionsblockschaltbild eines Systems zur Bereitstellung verteilter multimodaler Übertragungen gemäß einer Ausführungsform der vorliegenden Erfindung, wobei dieses angepasst ist zur Integrierung von Endzustandsdialog und natürlichem Sprachdialog.
  • Detaillierte Beschreibung der bevorzugten Ausführungsform
  • Die Verwendung des Ausdrucks „Dialog" hierin ist nicht auf Sprachdialog begrenzt sondern ist vorgesehen, einen Dialog oder eine Interaktion zwischen mehreren Dateneinheiten abzudecken, unter Verwendung beliebiger Modalitätskanäle, umfassend Sprache, Email, Fax, Web-Formulare, Dokumente, Web-Chat usw. In den Figuren werden gleiche Bezugszeichen zur Darstellung gleicher oder ähnlicher Teile verwendet.
  • Im Allgemeinen folgt ein verteiltes multimodales Dialogsystem gemäß der vorliegenden Erfindung einer bekannten dreistufigen Client-Server-Architektur. Die erste Lage des Systems ist die physische Betriebsmittelstufe wie ein Telefonserver, Internetprotokoll (IP) Terminal usw. Die zweite Lage des Systems ist die Anwendungsprogrammschnittstellenstufe (API), welche alle physischen Betriebsmittel der ersten Stufe als APIs umhüllt. Diese APIs werden der dritten, Top-Level-Anwendungsstufe für Dialoganwendungen ausgesetzt. Die vorliegende Erfindung richtet sich auf die oberste Anwendungsebene durch Modifizierung derselben, um multimodale Interaktion zu unterstützen. Diese Anordnung erlaubt eine erweiterbare und flexible Umgebung zur Anwendungsentwicklung, so dass jegliche neue Sachverhalte, gegenwärtige und mögliche zukünftige, bearbeitet werden können, ohne beträchtliche Modifizierungen der existierenden Infrastruktur zu erfordern. Sie stellt weiterhin gemeinsam nutzbare übergreifende Mehrfachplattformen mit wieder verwendbaren und verteilten Komponenten bereit, die nicht an spezifische Plattformen gebunden sind. In diesem Prozess kann Voice-XML, obwohl nicht notwendigerweise, als Sprachmodalität genutzt werden, wenn Sprachdialog als eine der mehreren eingebundenen Modalitäten eingebunden ist.
  • 1 zeigt ein Funktionsblockschaltbild eines Dialogsystems 100 zur Bereitstellung verteilter multimodaler Übertragungen gemäß einer Ausführungsform der vorliegenden Erfindung. Wie in 1 gezeigt, verwendet das Dialogsystem 100 Komponenten für multimodale Interaktion, umfassend Hybrid-Voice-XML basierte Dialoganwendungen 10 zur Steuerung multimodaler Interaktionen, einen Voice-XML-Interpreter 20, Anwendungsprogrammschnittstellen (APIs) 60, Sprachtechnologie-Integrationsplattform (Speech Technology Integration Plattform, STIP) Serverbetriebsmittel 62 und eine Mitteilungswarteschlange 64 sowie einen Server wie einen Hyper Text Transfer Protokoll (HTTP) Server 66. Die STIP Serverbetriebsmittel 62, die Nachrichtenwarteschlange 64 und das HTTP 66 empfangen Eingaben 68 von verschiedenen Modalitäten, wie Sprache, Dokumente, Emails, Faxe, Web-Formulare usw. Die Hybrid-Voice-XML basierten Dialoganwendungen 10 sind multimodale Multimediadialoganwendungen, wie multimodale Interaktion für Direktionsassistenz, Kundenbeziehungsmanagement usw. und der Voice-XML-Interpreter 20 ist ein Sprach-Browser wie er aus dem Stand der Technik bekannt ist. Voice-XML-Produkte wie das Voice-XML 2.0 System (Interactive Voice Response 9.0) von Avaya Inc. können diese bekannten Komponenten bereitstellen.
  • Der Betrieb jeder der Komponenten 20, 60, 62, 64 und 66 ist aus dem Stand der Technik bekannt. Zum Beispiel werden die Betriebsmittel, die zur Unterstützung von Sprachdialoginteraktionen benötigt werden, in den STIP Serverbetriebsmitteln 62 bereitgestellt. Solche Betriebsmittel umfassen, sind aber nicht darauf begrenzt, mehrere Anschlüsse automatischer Spracherkennung (automatic speak recognition, ASR), Text-zu-Sprach-Maschine (text-to-speak-engine, TTS) usw. Daher wird ein Sprachbefehl von einem Nutzer, wenn ein Sprachdialog einbezogen ist, durch die STIP Serverbetriebsmittel 62 verarbeitet, das heißt in Textinformation gewandelt. Die verarbeitete Information wird dann (unter der Dialoganwendungssteuerung und Verwaltung, die durch die Dialoganwendung 10 bereitgestellt wird) durch die APIs 60 und den Voice-XML-Interpreter 20 verarbeitet. Die Nachrichtenwarteschlange 64, HTTP 66 und Sockel- oder andere Verbindungen werden verwendet, um eine Schnittstellenübertragungsstufe zu bilden, um mit externen Geräten zu kommunizieren. Diese multimodalen Betriebsmittel werden durch die APIs 60 der Anwendungsstufe des Systems (Plattform) ausgesetzt, um mit dem Voice-XML-Interpreter 20 und den multimodalen Hybrid-Voice-XML Dialoganwendungen 10 zu kommunizieren.
  • Wichtiger ist, dass das Dialogsystem 100 weiterhin einen Webserver 30, ein Hybridkonstrukt 40 und einen (oder mehrere) multimodale(n) Server 50 umfasst. Der Hybridkonstrukt 40 ist ein wichtiger Teil des Dialogsystems 100 und ermöglicht es, dass die Plattform verteilte multimodale Betriebsmittel umfasst, die sich nicht physisch auf der Plattform befinden. In einer anderen Ausführungsform können mehrere Hybridkonstrukte 40 bereitgestellt sein, um Gruppen von mehreren multimodalen Interaktionen entweder parallel oder aufeinander folgend, wie gewünscht, zu verarbeiten. Diese Komponenten des Systems 100, umfassend den (die) Hybridkonstrukte 40, sind als Computersoftware unter Verwendung bekannter Programmiersprachen implementiert.
  • 2 zeigt ein detaillierteres Blockschaltbild, welches den Hybridkonstrukt 40 zeigt. Wie in 2 dargestellt, umfasst der Hybridkonstrukt 40 eine Serverseite 42, die mit dem Webserver 30 zusammenwirkt, eine Vielzahl Synchronisationsmodule 44 und eine Vielzahl von Dialogagenten (DAs) 46, die mit einer Vielzahl von multimodalen Servern 50 kommunizieren. Die Serverseite 42 kann eine bekannte Serverseite wie eine aktive Serverseite (active server page; ASP) oder Java Serverseite (java server page; JSP) sein. Die Synchronisierungsmodule 44 können bekannte Nachrichtenwarteschlangen (zum Beispiel Synchronisationsfäden (sync threads) usw.), verwendet für Synchronisation asynchroner Art wie für Email-Verarbeitung, oder können Funktionsaufrufe sein, die für Synchronisation nicht asynchroner Art bekannt sind, wie zur Sprachverarbeitung.
  • Die multimodalen Server 50 umfassen Server, die geeignet sind zur Kommunikation über unterschiedliche Arten der Kommunikation (Modalitätskanäle). Die multimodalen Server 50 können umfassen, sind aber nicht darauf begrenzt, eine oder mehrere Email-Server, ein oder mehrere Fax-Server, ein oder mehrere Web-Formularserver, einen oder mehrere Stimmserver usw. Die Synchronisierungsmodule 44 und die DAs 46 sind bestimmt, um mit den Multimodalservern 50 zu kommunizieren, so dass die Serverseite 42 Informationen dazu hat, welches Synchronisierungsmodul und/oder DA verwendet werden sollte, um bei einer bestimmten Art des Multimodalservers 50 anzukommen. Die Serverseite 42 speichert diese Information vor und/oder weist diese Information vorab zu.
  • Das Dialogsystem 100 wird wie folgt betrieben.
  • Das System 100 kann verschiedene multiple modale Kommunikationsanfragen entweder gleichzeitig oder aufeinander folgend in zufälliger oder aufeinanderfolgender Meise, wie gewünscht empfangen und verarbeiten. Das System 100 kann zum Beispiel modale Interaktion durchführen unter gleichzeitiger Verwendung dreier Modalitäten (drei Modalitätskanäle)-Stimmkanal, Email-Kanal und Web-Kanal. In diesem Fall kann ein Nutzer die Stimme (Stimmkanal) zur Aktivierung anderer Modalitätsübertragungen wie Email und Web-Kanal nutzen, so dass der Nutzer Dialoghandlungen über die drei (Stimme, Email und Web) Modalitätskanäle in paralleler, aufeinanderfolgender oder zusammenwirkender Ablaufart beginnen kann.
  • Das System 100 kann ebenfalls Kreuzkanal-, Multimedia multimodale Interaktion ermöglichen. Zum Beispiel kann eine Stimminteraktionsantwort, die den Stimmkanal nutzt, in Text umgewandelt werden, durch Verwendung bekannter automatischer Spracherkennungstechniken (zum Beispiel über den ASR des STIP Serverbetriebsmittel 62) und kann an einen Web- oder Email-Kanal über den Webserver 30 für eine Web/Email-Kanalinteraktion übertragen werden. Die Web/Email-Kanalinteraktion kann auch leicht durch Verwendung des TTS der STIP Serverbetriebsmittel 62 für die Stimmkanalinteraktion in Stimme konvertiert werden. Diese multimodalen Interaktionen, umfassend die Kreuzkanal- und Nicht-Kreuzkanalinteraktion können gleichzeitig oder auf andere Art wie vom Nutzer angefordert, oder entsprechend voreingestellter Kriterien auftreten.
  • Obwohl ein Stimmkanal einer der Hauptmodalitätskanäle ist, die oft durch Endnutzer verwendet werden, ist auch multimodale Interaktion möglich, die die Verwendung des Stimmkanals nicht einschließt. In solch einem Fall benötigt das System 100 die Verwendung des Stimmkanales und der den Stimmkanal zugeordneten STIP Serverbetriebsmittel 62 nicht und der Hybridkonstrukt 40 kommuniziert direkt mit den APIs 60.
  • Beim Betrieb des Systems 100 gemäß einem Anwendungsbeispiel, sobald das System 100 eine Vielzahl verschiedener Modalitätsübertragungsanfragen entweder gleichzeitig oder auf andere Art empfängt, werden diese durch ein oder mehrere der STIP Serverbetriebsmittel 62, Nachrichtenwarteschlangen 64, HTTP 66, APIs 60 und Voice-XML Interpreter 20 verarbeitet und die multimodalen Dialoganwendungen 10 werden gestartet, um die Multimodalinteraktionen zu steuern. Wenn eine der Modalitäten dieser Interaktion Stimme einschließt (Stimmkanal), dann werden die STIP Serverbetriebsmittel 62 und der Voice-XML-Interpreter 20 durch Steuerung der Dialoganwendung 10 zusätzlich zu den anderen Komponenten, wie benötigt, verwendet. Auf der anderen Seite, wenn keine der Modalitäten dieser Interaktion Stimme einschließt, werden die Komponenten 20 und 62 nicht benötigt.
  • Die multimodalen Dialoganwendungen 10 können Interaktionsanfragen zum Hybridkonstrukt 40 entweder über die Voice-XML-Interpreter 20 oder durch den Web-Server 30 (zum Beispiel wenn der Stimmkanal nicht verwendet wird) übertragen. Dann wird die Serverseite 42 des Hybridkonstrukts 40 aktiviert, so dass es diese Anfragen in „Nachrichten" formatiert oder packt, die durch die angefragten Multimodalserver 50 verarbeitet werden. Eine „Nachricht" hier ist ein speziell formatiertes informationstragendes Datenpaket und das Formatieren/Packen der Anfrage umfasst das Einbetten der entsprechenden Anfrage in ein spezielles Datenpaket. Die Serverseite 42 sendet diese Nachrichten dann gleichzeitig an die entsprechenden Synchronisationsmodule 44, abhängig von der Information, die anzeigt, welches Synchronisationsmodul 44 bestimmt ist, einen bestimmten Modalitätskanal zu bedienen. Dann können die Synchronisationsmodule 44 zeitweilig die Nachrichten speichern und die Nachrichten an die entsprechenden DAs 46 senden wenn diese bereit sind.
  • Wenn jedes der korrespondierenden DAs 46 die entsprechende Nachricht empfängt, entpackt es die Nachricht, um auf die Anfrage zuzugreifen, übersetzt die Anfrage in ein vorbestimmtes geeignetes Format, das durch den korrespondierenden Multimodalserver 50 erkennbar ist und sendet die Anfrage in dem geeigneten Format an den entsprechenden Server 50 zur Interaktion. Dann empfängt jeder der korrespondierenden Server 50 die Anfrage und erzeugt eine Antwort auf die Anfrage. Nur als Beispiel, wenn ein Nutzer vom System mündlich verlangt, eine Liste der empfangenen Emails zu einem bestimmten Thema zu erhalten, generiert der Multimodalserver 50, der ein Email-Server ist, eine Liste der empfangen Emails über das angefragte Thema als Antwort.
  • Jedes der korrespondierenden DAs 46 empfängt die Antwort von dem korrespondierenden Multimodalserver 50 und wandelt die Antwort in eine XML-Seite unter Verwendung bekannter Techniken zur Erzeugung von XML-Seiten um. Dann übermittelt jedes der korrespondierenden DAs 46 die XML-Seite mit Kanalidentifikations (ID)-Informationen an die Serverseite 42 über die entsprechenden Nachrichtenwarteschlangen 44. Die Kanal-ID-Information identifiziert den Kanaltyp oder Modalitätstyp, der in dem entsprechenden DA 46 verarbeitet wird. Die Kanal-ID-Information identifiziert eine Kanal-ID jeder Modalität, welche jedem DA zugeordnet ist, wie die Serverseitenbetriebsmittel. Sie identifiziert auch den Modalitätstyp, zu welchem der DA zugeordnet ist. Der Modalitätstyp kann vorweg bestimmt sein und die Kanal ID-Nummerierung kann entweder vorab zugeordnet sein oder dynamisch sein, solange die Serverseite 42 einen aktuellen Satz der Kanal ID-Information bereithält.
  • Die Serverseite 42 empfängt alle zurückgesandten Informationen als Antwort auf die multimodale Interaktion von allen zugeordneten DAs 46. Diese Teile der Interaktionsantwortinformation, welche im Format von XML-Seiten dargestellt werden können, werden mit der Kanal-ID-Information und der Art der Modalität zu der diese gehört empfangen. Die Serverseite 42 integriert oder kompiliert dann alle empfangenen Interaktionsantworten in eine gemeinsame Antwort oder ein gemeinsames Ereignis, welches auch die Form einer gemeinsamen XML-Seite haben kann. Dies kann erreicht werden, indem Serverseiten-Skripterstellung oder -Programmierung verwendet wird, um die von den mehreren DAs 46 empfangene Information zu verbinden und zu filtern, oder durch Integration dieser Antworten, um ein gemeinsames multimodales Interaktionsereignis, basierend auf mehrere Eingaben von den verschiedenen Multimodalservern 50, zu bilden. Gemäß einer anderen Ausführungsform kann das gemeinsame Ereignis im Voice-XML-Interpreter 20 gebildet werden.
  • Die verbundene Antwort wird dann an den Nutzer oder eine andere ausgewählte Vorrichtung entsprechend der Anfrage des Nutzers durch bekannte Techniken, zum Beispiel über die APIs 60, Nachrichtenwarteschlangen, HTTP 66, Server des Clients usw., übermittelt werden.
  • Die Serverseite 42 kommuniziert auch mit den Dialoganwendungen 10 (zum Beispiel über den Webserver 30) um neue Anweisungen für eine nachfolgende Interaktion, die die Antwort begleiten kann, zu generieren. Wenn die nachfolgende Interaktion den Stimmkanal einschließt, generiert die Serverseite 42 eine neue Voice-XML-Seite und macht diese dem Voice-XML-Interpreter 20 durch den Webserver 30 zugänglich, in welchem die gewünschte Interaktion durch den Stimmkanal geeignet beschrieben ist, durch Verwendung der entsprechenden Voice-XML-Sprache. Der Voice-XML-Interpreter 20 interpretiert die neue Voice-XML-Seite und instruiert die Plattform, die gewünschte Stimmkanalinteraktion auszuführen. Wenn die folgende Interaktion den Stimmkanal nicht umfasst, wird diese durch andere Komponenten verarbeitet, wie die Nachrichtenwarteschlange 64 und das HTTP 66.
  • Wegen des spezifischen Layouts des Systems 100 oder 100a ist eine der wichtigen Merkmale des Hybridkonstrukts 40, dass dieses als ein verteiltes Multimodalinteraktionsbetriebsmittel ausgelegt sein kann und nicht an eine spezifische Plattform gebunden ist. Sobald es einmal konstruiert ist, kann es zentral gespeichert werden und gemeinsam von verschiedenen Prozessen oder unterschiedlichen Plattformen genutzt werden.
  • Nur als Beispiel, ist nachfolgend eine Anwendung des Systems 100 beschrieben, um eine Email-Verwaltung durchzuführen, wenn zwei Modalitätskanäle verwendet werden. In diesem Beispiel sind die zwei Modalitätskanäle Stimme und Email. Wenn ein Nutzer einen Stimmbefehl spricht, wie „Bitte öffne und lies meine Email", in eine bekannte Client-Einrichtung, wird diese Anfrage vom Stimmkanal am Anwendungs-API 60 verarbeitet, welcher im Gegenzug diese Anfrage an den Voice-XML-Interpreter 20 übermittelt. Der Voice-XML-Interpreter 20 unter Steuerung der Dialoganwendungen 10 erkennt dann, dass die vorliegende Anfrage das Öffnen eines zweiten Modalitätskanals (Email-Kanal) umfasst und übermittelt die Email-Kanalanfrage an den Webserver 30.
  • Die Serverseite 42 wird dann aktiviert und packt die Anfrage mit zugehörigen Informationen (zum Beispiel Email-Account-Name usw.) in eine Nachricht und sendet die Nachricht über das Synchronisationsmodul 44 zu einem ihrer Email-Kanal DAs 46 um diese auszuführen. Der Email-Kanal DA 46 wirkt mit dem entsprechenden Email-Server 50 zusammen und greift auf den angeforderten Email-Inhalt des Email-Servers 50 zu. Wenn der Email-Inhalt durch den Email-Kanal DA 46 entnommen worden ist, als Ergebnis der Email-Kanalinteraktion, wird der entnommene Email-Inhalt an die Serverseite 42 durch das Synchronisationsmodul 44 übermittelt. Die Serverseite 42 generiert im Gegenzug eine Voice-XML-Seite, welche den Email-Inhalt und auch die Anweisungen an den Voice-XML-Interpreter 20, wie der Email-Inhalt durch den Stimmkanal zu lesen ist, als eine nachfolgende Stimmkanalinteraktion enthält. Es ist offensichtlich, dass dieses Beispiel modifiziert oder erweitert werden kann, um Kreuzkanalmultimodalinteraktion bereitzustellen. In solch einem Fall stellt die Serverseite 42, anstelle Instruktionen an den Voice-XML-Interpreter 20, wie der Email-Inhalt durch den Stimmkanal zu lesen ist, bereitzustellen, Anweisungen bereit, eine Email an die vorbestimmte Email-Adresse zu senden, welche den entnommenen Email-Inhalt trägt. Entsprechend können bei Verwendung einer einzelnen Modalität (Stimmkanal in diesem Beispiel) mehrere Modalitätskanäle aktiviert und verwendet werden, um multimodale Interaktionen unterschiedlicher Typen durchzuführen.
  • 3 zeigt ein Diagramm eines Dialogsystems 100a welches dem Dialogsystem 100 nach 1 entspricht das angewendet wurde, um natürlichen Sprachdialog und Endzustandsdialog als zwei Modalitäten gemäß einer Ausführungsform der vorliegenden Erfindung zu integrieren. Natürlicher Sprachdialog und Endzustandsdialog sind zwei unterschiedliche Arten von Dialog. Existierende Voice-XML-Programme sind so konfiguriert, dass diese nur den Endzustandsdialog unterstützen. Endzustandsdialog ist ein begrenzter computererkennbarer Dialog, der bestimmten grammatikalischen Sequenzen oder Regeln folgen muss, damit der Computer diesen erkennt. Auf der anderen Seite ist natürlicher Sprachdialog ein auf natürlicher Weise jeden Tag gesprochener Dialog durch einen Nutzer. Es wird ein komplexeres Computersystem und Programm benötigt, damit Maschinen den natürlichen Sprachdialog erkennen.
  • Gemäß 3 enthält das System 100a Komponenten des Systems 100 wie durch die gleichen Bezugszeichen gekennzeichnet und diese Komponenten werden daher nicht detailliert diskutiert.
  • Das System 100a kann nicht nur mehrere unterschiedliche physische Modalitäten integrieren sondern kann auch unterschiedliche Interaktionen oder Prozesse als spezielle Modalitäten in einer gemeinsamen multimodalen Dialoginteraktion integrieren. In dieser Ausführungsform werden zwei Arten von Stimmdialog (das heißt Endzustandsdialog wie in Voice-XML definiert und natürlicher Sprachdialog, welcher nicht in Voice-XML definiert ist) als zwei unterschiedliche Modalitäten behandelt. Die Interaktion erfolgt über den Stimmkanal, ist aber eine Mischung aus zwei unterschiedlichen Typen (oder Arten) von Dialog. Wenn der natürliche Sprachdialog aufgerufen wird (zum Beispiel durch mündliche Kommunikation des Nutzers), erkennt das System 100a dass ein zweiter Modalitätskanal (natürlicher Sprachdialog) aktiviert werden muss. Diese Anfrage wird für den natürlichen Sprachdialog an den Webserver 30 über den Voice-XML-Interpreter 20 über den gleichen Kanal übermittelt, der auch für den Endzustandsdialog verwendet wird.
  • Die Serverseite 42 eines Hybridkonstrukts 40a packt die Anfrage und sendet diese als Nachricht an einen Aufrufleitwerks-DA für natürliche Sprache (natural language call routing; NLCR DA) 46a. Ein NLCR-Dialogserver 50a empfängt eine Antwort von dem bezeichneten NLCR DA 46a mit nachfolgenden Interaktionsanweisungen. Danach wird eine neue Voice-XML-Seite erzeugt, die den Voice-XML-Interpreter 20 anweist, gemäß dem NLCR DA 46a zu interagieren. Wenn dieser Prozess fortschreitet, wird die Dialogsteuerung vom Voice-XML zum NLCR DA 46a verlagert. Derselbe Sprachkanal und derselbe Voice-XML-Interpreter 20 werden verwendet, um sowohl natürliche Sprachdialog- und Endzustandsdialog-Interaktionen bereitzustellen. Jedoch hat sich die Rolle geändert und der Interpreter 20 arbeitet als abhängiger Prozess (slave process), der gesteuert und abgewickelt wird durch den NLCR DA 46a. Bei einer ähnlichen Ausgestaltung umfasst derselbe Ansatz, angewendet auf andere allgemeine Fälle, mehrere Modalitäten und mehrere Prozesse.
  • Als ein Anwendungsbeispiel können <object>tag-Erweiterungen verwendet werden, um dem Voice-XML-Interpreter 20 zu ermöglichen, die natürlich gesprochene Sprache zu erkennen. Die <object>tag-Erweiterungen sind bekannte Werkzeuge zur Voice-XML-Programmierung, die verwendet werden können, um neue Plattformfunktionen zu einem existierenden Voice-XML-System hinzuzufügen.
  • Das System 100a kann so konfiguriert werden, dass die Endzustandsdialoginteraktion Standard ist zur alternativen Interaktion mit natürlichem Sprachdialog. In diesem Fall würde das System zuerst automatisch den Endzustandsdialoginteraktionsmodus einstellen, bis es feststellt, dass der empfangene Dialog natürlichem Sprachdialog entspricht und die Aktivierung des natürlichen Sprachdialoginteraktionsmodusses erfordert.
  • Es sollte festgehalten werden, dass das System 100a auch in das Dialogsystem 100 nach 1 integriert werden kann, so dass die natürliche Sprachdialoginteraktion eine von vielen möglichen multimodalen Interaktionen durch das System 100 sein kann. Zum Beispiel kann der NLCR DA 46a einer der DAs 46 im System 100 sein und der NLCR Dialogserver 50a kann einer der Multimodalserver 50 im System 100 sein. Es können andere Modifikationen durchgeführt werden, um diese Konfiguration bereitzustellen.
  • Die Komponenten des in den 1 und 3 gezeigten Dialogsystems können sich alle auf der Seite eines Clients oder alle auf der Seite eines Servers befinden oder auf die Seiten des Servers oder Clients verteilt sein. Weiterhin können diese Komponenten mit jeder anderen kommunizieren und/oder mit anderen Geräten über bekannte Netze wie Internet, Intranet, Extranet, verkabelte Netzwerke, drahtlose Netzwerke usw. und über jede Kombination der bekannten Netzwerke kommunizieren.
  • Die vorliegende Erfindung kann unter Verwendung jeder bekannten Hardware und/oder Software implementiert werden. Solche Software kann auf jedem computerlesbaren Medium enthalten sein. Jede bekannte Computerprogrammiersprache kann verwendet werden, um die vorliegende Erfindung zu implementieren.
  • Es ist nahe liegend, dass die so beschriebene Erfindung auf viele verschiedene Arten variiert werden kann. Solche Variationen werden nicht als entfernt liegend vom Sinn und Inhalt der Erfindung betrachtet und all solche Modifikationen, die dem Fachmann nahe liegend sind, sollen im Umfang der folgenden Ansprüche enthalten sein.
  • Zusammenfassung
  • Es werden ein System und ein Verfahren bereitgestellt, um verteilte multimodale Interaktionen bereitzustellen. Das System ist ein Hybridmultimodaldialogsystem, das ein oder mehrere Hybridkonstrukte umfasst, um aufeinanderfolgende und gemeinsame Ereignisse in multimodaler Interaktion zu bilden. Es umfasst eine Anwendungsschnittstelle, die eine multimodale Interaktionsanfrage empfängt, um eine multimodale Interaktion über mindestens zwei unterschiedliche Modalitätskanäle durchzuführen; und mindestens einen Hybridkonstrukt, der mit Multimodalservern entsprechend den mehreren Modalitätskanälen kommuniziert, um die multimodale Interaktionsanfrage auszuführen.
    (1)

Claims (30)

  1. Ein verteiltes multimodales Interaktionssystem umfassend: eine Anwendungsschnittstelle, die eine multimodale Interaktionsanfrage zur Durchführung einer multimodalen Interaktion über mindestens zwei verschiedene Modalitätskanäle empfängt und mindestens ein Hybridkonstrukt, der mit multimodalen Servern, die den Modalitäten der Kanäle entsprechen, kommuniziert, um die multimodale Interaktionsanfrage auszuführen.
  2. System nach Anspruch 1, wobei das System ein Hybrid-Voice-Extensible-Markup-Language (Voice XML) System, umfassend eine oder mehrere Hybridkonstrukte, ist.
  3. System nach Anspruch 1, wobei der Hybridkonstrukt Antworten auf die multimodale Interaktionsanfrage von den verschiedenen Modalitätskanälen empfängt und eine gemeinsame Ereignisantwort, basierend auf die Antworten von jeder einzelnen Modalität zusammenstellt, und die gemeinsame Ereignisantwort an die Anwendungsschnittstelle überträgt, um die multimodale Interaktion durchzuführen.
  4. System nach Anspruch 3, wobei die gemeinsame Ereignisantwort in Form einer Extensible-Markup-Language (XML,) Seite zusammengestellt ist.
  5. System nach Anspruch 1, wobei mindestens zwei Modalitätskanäle einen Stimmkanal umfassen und das System weiterhin einen Interpreter und einen Webserver zur Durchführung von Stimmdialog über den Stimmkanal umfasst.
  6. System nach Anspruch 1, wobei der Hybridkonstrukt umfasst: eine Serverseite, die mit der Anwendungsschnittstelle oder einem Sprach-Browser kommuniziert; mindestens einem Synchronisationsmodul, das die multimodale Interaktionsanfrage an die entsprechenden multimodalen Server über die verschiedenen Modalitätskanäle verteilt und mindestens ein Dialogagent, der die multimodale Interaktionsanfrage mit den entsprechenden Multimodalservern kommuniziert, die Antworten von den Multimodalservern empfängt und die Antworten an die Serverseite überträgt.
  7. System nach Anspruch 1, wobei mindestens zwei Modalitätskanäle verschiedene Arten von Stimmdialogkanälen umfassen.
  8. System nach Anspruch 7, wobei die Arten der Stimmdialogkanäle einen natürlichen Sprachdialogkanal und einen Endzustandsdialogkanal umfassen.
  9. System nach Anspruch 1, wobei die mindestens zwei Modalitätskanäle mindestens zwei der Folgenden umfassen: Stimme, Email, Fax, Web-Formulare und Web-Chat.
  10. System nach Anspruch 1, wobei das System die multimodale Interaktion über die mindestens zwei Modalitätskanäle gleichzeitig und parallel durchführt.
  11. Verfahren zur Bereitstellung einer verteilten multimodalen Interaktion in einem Dialogsystem, wobei das Dialogsystem eine Anwendungsschnittstelle und mindestens einen Hybridkonstrukt umfasst, wobei das Verfahren umfasst: Empfangen einer multimodalen Interaktionsanfrage zur Durchführung einer multimodalen Interaktion über mindestens zwei verschiedene Modalitätskanäle durch die Anwendungsschnittstelle; Kommunizieren mit Multimodalservern entsprechend der Modalitätskanäle durch den Hybridkonstrukt, um die Multimodalinteraktionsanfrage auszuführen.
  12. Verfahren nach Anspruch 11, wobei das Dialogsystem ein Hybrid-Voice-Extensible-Markup-Language (Voice XML) System mit einem oder mehreren Hybridkonstrukten ist.
  13. Verfahren nach Anspruch 11, wobei der Kommunikationsschritt umfasst: Empfangen von Antworten auf die multimodale Interaktionsanfrage von den Modalitätskanälen durch den Hybridkonstrukt; Zusammenstellen einer gemeinsamen Ereignisantwort basierend auf die Antworten; und Übertragen der gemeinsamen Ereignisantwort an die Anwendungsschnittstelle, um die multimodale Interaktion durchzuführen.
  14. Verfahren nach Anspruch 13, wobei die gemeinsame Ereignisantwort in Form einer Extensible-Markup-Language (XML) Seite zusammengestellt ist.
  15. Verfahren nach Anspruch 11, wobei die mindestens zwei Modalitätskanäle einen Stimmkanal umfassen und das Verfahren weiterhin die Verarbeitung von Stimmdialog über den Stimmkanal umfasst.
  16. Verfahren nach Anspruch 11, wobei der Kommunikationsschritt umfasst: Kommunizieren über eine Serverseite mit der Anwendungsschnittstelle oder einem Stimm-Browser; Verteilen der multimodalen Interaktionsanfrage an die entsprechenden Multimodalserver über die Modalitätskanäle unter Verwendung mindestens eines Synchronisationsmoduls; und Kommunizieren der multimodalen Interaktionsanfrage mit den entsprechenden Multimodalservern unter Verwendung mindestens eines Dialogagenten, Empfangen der Antworten von den Multimodalservern und Übergeben der Antworten an die Serverseite.
  17. Verfahren nach Anspruch 11, wobei mindestens zwei Modalitätskanäle unterschiedliche Arten von Stimmdialogkanälen umfassen.
  18. Verfahren nach Anspruch 17, wobei die Arten der Stimmdialogkanäle einen natürlichen Sprachdialogkanal und einen Endzustandsdialogkanal umfassen.
  19. Verfahren nach Anspruch 11, wobei die mindestens zwei Modalitätskanäle mindestens zwei der Folgenden umfassen: Stimme, Email, Fax, Web-Formulare und Web-Chat.
  20. Verfahren nach Anspruch 11, wobei die multimodale Interaktion über die mindestens zwei Modalitätskanäle gleichzeitig und parallel durchgeführt wird.
  21. Computerprogrammprodukt aufgenommen auf computerleserbaren Medien, zur Bereitstellung verteilter multimodaler Interaktion in einem Dialogsystem, wobei das Dialogsystem eine Anwendungsschnittstelle und mindestens einen Hybridkonstrukt umfasst, und wobei das Computerprogrammprodukt computerausführbare Anweisungen umfasst für; Empfangen einer multimodalen Interaktionsanfrage zur Durchführung einer multimodalen Interaktion über mindestens zwei unterschiedliche Modalitätskanäle durch die Anwendungsschnittstelle; und Kommunizieren mit Multimodalservern entsprechend der Modalitätskanäle, um die multimodale Interaktionsanfrage auszuführen, durch den Hybridkonstrukt.
  22. Computerprogrammprodukt nach Anspruch 21, wobei das Dialogsystem ein Hybrid-voice-Extensible-Markup-Language (Voice XML) System mit ein oder mehreren Hybridkonstrukten ist.
  23. Computerprogrammprodukt nach Anspruch 21, wobei die computerausführbaren Anweisungen zum Kommunizieren computerausführbare Anweisungen umfassen zum: Empfangen von Antworten auf die multimodale Interaktionsanfrage von den Modalitätskanälen durch den Hybridkonstrukt; Zusammenstellen einer gemeinsamen Ereignisantwort basierend auf den Antworten; und Übertragen der gemeinsamen Ereignisantwort an die Anwendungsschnittstelle zur Durchführung der multimodalen Interaktion.
  24. Computerprogrammprodukt nach Anspruch 23, wobei die gemeinsame Ereignisantwort in Form einer Extensible-Markup-Language (XML) Seite zusammengestellt ist.
  25. Computerprogrammprodukt nach Anspruch 21, wobei die mindestens zwei Modalitätskanäle einen Stimmkanal umfassen, und wobei das Computerprogrammprodukt weiterhin computerausführbare Anweisungen zur Verarbeitung von Stimmdialog über den Stimmkanal umfasst.
  26. Computerprogrammprodukt nach Anspruch 21, wobei die computerausführbaren Anweisungen zur Kommunikation computerausführbare Anweisungen umfassen zum: Kommunizieren durch eine Serverseite mit der Anwendungsschnittstelle oder einem Sprach-Browser; Verteilen der multimodalen Interaktionsanfrage an die entsprechenden Multimodalserver über die Modalitätskanäle unter Verwendung mindestens eines Synchronisationsmoduls; und Kommunizieren der multimodalen Interaktionsanfrage mit den entsprechenden Multimodalservern unter Verwendung mindestens eines Dialogagenten, Empfangen der Antworten von den Multimodalservern und Übergeben der Antworten an die Serverseite.
  27. Computerprogrammprodukt nach Anspruch 21, wobei die mindestens zwei Modalitätskanäle verschiedene Arten von Stimmdialogkanälen umfassen.
  28. Computerprogrammprodukt nach Anspruch 27, wobei die Arten der Stimmdialogkanäle einen natürlichen Sprachdialogkanal und einen Endzustandsdialogkanal umfassen.
  29. Computerprogrammprodukt nach Anspruch 21, wobei die mindestens zwei Modalitätskanäle mindestens zwei der Folgenden umfassen: Stimme, Email, Fax, Web-Formulare und Web-Chat.
  30. Computerprogrammprodukt nach Anspruch 21, wobei die multimodale Interaktion über die mindestens zwei Modalitätskanäle gleichzeitig und parallel durchgeführt wird.
DE10393076T 2002-08-15 2003-08-05 Verteiltes multimodales Dialogsystem und Verfahren Withdrawn DE10393076T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/218,608 US20040034531A1 (en) 2002-08-15 2002-08-15 Distributed multimodal dialogue system and method
US10/218,608 2002-08-15
PCT/US2003/024443 WO2004017603A1 (en) 2002-08-15 2003-08-05 Distributed multimodal dialogue system and method

Publications (1)

Publication Number Publication Date
DE10393076T5 true DE10393076T5 (de) 2005-07-14

Family

ID=31714569

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10393076T Withdrawn DE10393076T5 (de) 2002-08-15 2003-08-05 Verteiltes multimodales Dialogsystem und Verfahren

Country Status (5)

Country Link
US (1) US20040034531A1 (de)
AU (1) AU2003257178A1 (de)
DE (1) DE10393076T5 (de)
GB (1) GB2416466A (de)
WO (1) WO2004017603A1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167830B2 (en) * 2000-03-10 2007-01-23 Entrieva, Inc. Multimodal information services
US8238881B2 (en) 2001-08-07 2012-08-07 Waloomba Tech Ltd., L.L.C. System and method for providing multi-modal bookmarks
US8213917B2 (en) 2006-05-05 2012-07-03 Waloomba Tech Ltd., L.L.C. Reusable multimodal application
US7650170B2 (en) * 2004-03-01 2010-01-19 Research In Motion Limited Communications system providing automatic text-to-speech conversion features and related methods
US8768711B2 (en) * 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
DE102004056166A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Sprachdialogsystem und Verfahren zum Betreiben
US20060149550A1 (en) * 2004-12-30 2006-07-06 Henri Salminen Multimodal interaction
DE102005011536B3 (de) * 2005-03-10 2006-10-05 Sikom Software Gmbh Verfahren und Anordnung zur losen Kopplung eigenständig arbeitender WEB- und Sprachportale
US20060212408A1 (en) * 2005-03-17 2006-09-21 Sbc Knowledge Ventures L.P. Framework and language for development of multimodal applications
US9736675B2 (en) * 2009-05-12 2017-08-15 Avaya Inc. Virtual machine implementation of multiple use context executing on a communication device
US9699632B2 (en) 2011-09-28 2017-07-04 Elwha Llc Multi-modality communication with interceptive conversion
US9002937B2 (en) * 2011-09-28 2015-04-07 Elwha Llc Multi-party multi-modality communication
US9788349B2 (en) 2011-09-28 2017-10-10 Elwha Llc Multi-modality communication auto-activation
US9503550B2 (en) 2011-09-28 2016-11-22 Elwha Llc Multi-modality communication modification
US9762524B2 (en) 2011-09-28 2017-09-12 Elwha Llc Multi-modality communication participation
US9477943B2 (en) 2011-09-28 2016-10-25 Elwha Llc Multi-modality communication
US9338108B2 (en) * 2012-07-23 2016-05-10 Xpedite Systems, Llc Inter-modal messaging communications
US9530412B2 (en) 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US10599644B2 (en) 2016-09-14 2020-03-24 International Business Machines Corporation System and method for managing artificial conversational entities enhanced by social knowledge

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6859451B1 (en) * 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6430175B1 (en) * 1998-05-05 2002-08-06 Lucent Technologies Inc. Integrating the telephone network and the internet web
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6604075B1 (en) * 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US7685252B1 (en) * 1999-10-12 2010-03-23 International Business Machines Corporation Methods and systems for multi-modal browsing and implementation of a conversational markup language
US6708217B1 (en) * 2000-01-05 2004-03-16 International Business Machines Corporation Method and system for receiving and demultiplexing multi-modal document content
US6701294B1 (en) * 2000-01-19 2004-03-02 Lucent Technologies, Inc. User interface for translating natural language inquiries into database queries and data presentations
GB0003903D0 (en) * 2000-02-18 2000-04-05 Canon Kk Improved speech recognition accuracy in a multimodal input system
US7167830B2 (en) * 2000-03-10 2007-01-23 Entrieva, Inc. Multimodal information services
US7072984B1 (en) * 2000-04-26 2006-07-04 Novarra, Inc. System and method for accessing customized information over the internet using a browser for a plurality of electronic devices
AU2001268674B2 (en) * 2000-06-22 2007-04-26 Microsoft Technology Licensing, Llc Distributed computing services platform
US6948129B1 (en) * 2001-02-08 2005-09-20 Masoud S Loghmani Multi-modal, multi-path user interface for simultaneous access to internet data over multiple media
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7136909B2 (en) * 2001-12-28 2006-11-14 Motorola, Inc. Multimodal communication method and apparatus with multimodal profile
US6912581B2 (en) * 2002-02-27 2005-06-28 Motorola, Inc. System and method for concurrent multimodal communication session persistence
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication

Also Published As

Publication number Publication date
US20040034531A1 (en) 2004-02-19
AU2003257178A1 (en) 2004-03-03
WO2004017603A1 (en) 2004-02-26
GB2416466A (en) 2006-01-25
GB0502968D0 (en) 2005-03-16

Similar Documents

Publication Publication Date Title
DE10393076T5 (de) Verteiltes multimodales Dialogsystem und Verfahren
DE102016102341B4 (de) System und Verfahren zum themenbezogenen Trennen bei Instant Messaging
EP2837154B1 (de) Verfahren zur steuerung von datenströmen einer virtuellen sitzung mit mehreren teilnehmern, kollaborationsserver, computerprogramm, computerprogrammprodukt und digitales speichermedium
DE60309201T2 (de) Verfahren und system zur übertragung von ereignissen, einschliesslich multimedia daten
DE60038516T2 (de) Verfahren und System zum Bandbreitenreduktion von Multimedien-Konferenzen
DE60319962T2 (de) Multimodus-synchronisation
DE10125406A1 (de) Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser
DE112006001922T5 (de) Verfahren und Vorrichtung zur Vergabe von Zugangsberechtigungen (&#34;Floor-Control&#34;) in einem Kommunikationssystem
DE602004011610T2 (de) Web-anwendungsserver
DE112010002210T5 (de) Ausführen von Freihand-Bedienung einer elektronischen Kalenderanwendung in einem Fahrzeug
DE102007028810A1 (de) System und Verfahren zum Bereitstellen einer Merkmalsvermittlung und -abstimmung in Internetprotokoll-Dienstenetzen
DE102012001394A1 (de) Gemeinsamer Medienzugang für Echtzeit-Erst- und Drittparteisteuerung
DE102011114277B4 (de) Globaler Konferenzplan für verteilte Brücken
DE10352400A1 (de) Netzwerkdienst-Abfangvorrichtung
DE69732061T2 (de) Datenverarbeitungssystem und -verfahren
DE60124435T2 (de) Verfahren zur Betriebsmittelverwaltung einer Multimediaplattform und Multimediaplattform zur Durchführung dieses Verfahrens
EP1370995A1 (de) Verfahren und kommunikationssystem zur generierung von antwortmeldungen
DE102005049077B4 (de) Verfahren zum Übertragen von Mediendaten, Kommunikationsnetzwerk-Einheit und Computerprogrammelement
DE102014009495B4 (de) Verfahren zum Aufbau einer für die Übermittlung von Medienströmen geeigneten Kommunikationsverbindung von einem ersten RTC-Client zu einem zweiten RTC-Client
EP0977416B1 (de) Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen
DE102020128250A1 (de) Fahrzeugbasierte gebärdensprachkommunikationssysteme und -verfahren
DE102015212650B4 (de) Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
EP1344370B1 (de) Kommunikationsanordnung und verfahren für kommunikationssysteme mit interaktiver sprachfunktion
WO2014023308A1 (de) Verfahren und system zum bereitstellen einer übersetzung eines sprachinhalts aus einem ersten audiosignal
DE102008045929A1 (de) Konferenzeinheit und Verfahren zur Durchführung einer Mehrpunktkommunikation

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G10L 1522

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20150303