-
GEBIET
-
Ausführungsformen der Erfindung betreffen im Allgemeinen Informationstechnologiesysteme, und insbesondere ein Verarbeiten von Informationen in automatisierten Call-Centern.
-
HINTERGRUND
-
Der enorme Anstieg im telekommunikationsbasierten Handel hat zu einer Entwicklung von Call-Centern geführt, um Telfonanrufe zu bearbeiten. Ein Call-Center ist ein zusammengefasstes Büro, gewöhnlich mit einigem Umfang an Computerautomation. Typischerweise weist ein Call-Center die Fähigkeit auf, eine beträchtliche Menge von Anrufen zur selben Zeit zu bearbeiten, Anrufe zu filtern und an geeignetes Personal weiterzuleiten, und Anrufe aufzuzeichnen. Call-Center werden von einer großen Vielfalt von Organisationen verwendet, wie zum Beispiel Versandhäusern, beim Telefonverkauf, Beratungsstellen für Computerprodukte, und beliebige große Organisationen, die das Telfon nutzen, um Produkte oder einen Service zu verkaufen oder eine Dienstleistung anzubieten. Betriebe können sogar eine Dienstleistung für interne Tätigkeiten durch Call-Center anbieten, wie beispielsweise Beratungsstellen, Retail Financial Support, und Vertriebsunterstützung.
-
Ein Call-Center wird oft durch einen großflächigen Arbeitsbereich für Telefonagenten betrieben, mit Arbeitsplätzen, die Computer und Telefone für jeden Agenten umfassen. Das Call-Center kann unabhängig oder mit zusätzlichen Centern vernetzt betrieben werden, und oftmals mit einem Firmencomputernetzwerk verbunden sein. Die Sprach- und Datenleitungen zu den Call-Centern können durch einen Technologiekomplex genannt Rechner-Telefonie-Integration (computer telephony integration - CTI) verbunden sein.
-
Viele Systeme von Call-Centern haben Technologien wie zum Beispiel Spracherkennung und Sprachsynthese mit aufgenommen, um den Computern der Call-Center zu ermöglichen, einen ersten Level an Kundenbetreuung, Text-Mining, und Computerlinguistik zu bearbeiten, um eine bessere Kundenbetreuung zu ermöglichen, Schulungsmaßnahmen durch Automatic-Mining von bewährten Methoden von früheren Kommunikationen, und viele weitere Technologien, um die Produktivität von Agenten und die Kundenzufriedenheit zu verbessern. Call-Center können sowohl eingehende Anrufe, welches Anrufe von Kunden sind, um ein Information zu erhalten, eine Störung zu melden, oder nach Hilfe zu fragen, als auch ausgehende Anrufe bearbeiten, wo Agenten mögliche Kunden anrufen, meist mit der Absicht, einer Einzelperson etwas zu verkaufen oder eine Dienstleistung, wie beispielsweise beim Telefonverkauf anzubieten.
-
Aus dem Stand der Technik kennt man hierzu bereits aus der
US 2005/0105712 A1 ein automatisiertes Antwortsystem (z.B. ein automatisiertes Sprachantwortsystem) das Lernstrategien verwenden kann, um die automatisierten Antwortfunktionen zu entwickeln oder zu verbessern. Dabei können Lernstrategien die Verwendung von Kommunikationsmitteln (z.B. Äußerungen, Textnachrichten, etc.) einer Partei in einem Gespräch etwa mit einem Kundenbetreuer zur Identifizierung und Kategorisierung von Kommunikationsprozessen umfassen.
-
Überdies kennt man aus der
US 2008/0086690 A1 ein Verfahren und ein System zur hybriden Anrufbehandlung. Das Verfahren umfasst das Steuern einer Vielzahl von empfangenen Anrufen von einer Vielzahl von Anrufern und das Überwachen des Anrufzustands für jeden der Vielzahl von Anrufen, die über die gesamte Zeit gesteuert werden. Ein menschlicher Agent kann bei einem schlechten Anrufzustand eingreifen und kann eine Berichtigung durchführen.
-
Call-Center Mitarbeiter sind oftmals in ein mehrstufiges Support-System für ein wirtschaftlicheres Bearbeiten von Anrufen gegliedert. Die erste Stufe in solch einem Modell besteht aus Mitarbeitern, welche direkt die geeignete Abteilung konsultieren und eine allgemeine Verzeichnisinformation anbieten. Falls ein Anrufer mehr Unterstützung benötigt, wird der Anruf an die zweite Stufe weitergeleitet, wo die meisten Sachverhalte geklärt werden können. Bei einigen Fällen gibt es drei oder mehr Stufen von Mitarbeitern zur Betreuung. Falls ein Anrufer mehr Unterstützung benötigt, wird der Anrufer zur dritten Stufe der Betreuung weitergeleitet; typischerweise ist die dritte Stufe der Betreuung durch Produktingenieure/Entwickler oder hochqualifizierte technische Mitarbeiter zur Betreuung der Produkte gebildet.
-
Typischerweise wird in einem automatisierten Call-Center ein Anrufer zu einem Agenten nur dann weitergeleitet, wenn der Anrufer mit dem automatisierten Verfahren nicht länger umgehen kann und sehr frustriert ist. In diesem Fall ist der Anrufer, der an Agenten zurück verwiesen wird, bereits aufgrund der schlechten Erfahrung mit dem automatisierten System verärgert, und diesen Ärger kann leicht auf den Agenten übertragen werden. Dies kommt zu der Schwierigkeit hinzu, mit der sich der Agent während des Gesprächs auseinander zu setzen hat, was bedeutet, dass es nicht nur länger dauert, sondern ebenfalls mehr Geduld auf der Seite des Agenten benötigt, um die Aufgabe zu beendigen. Zum Beispiel muss sich der Agent die Beschwerden über das System und Vorschlägen zur Verbesserung anhören, was alles Zeit in Anspruch nimmt. Darüber hinaus muss der Agent oftmals die Schritte nach verfolgen, die der Anrufer bereits mit dem automatisierten Verfahren durchgegangen ist. Diese Zeit kommt zu dem Vorgang hinzu und erhöht die Frustration des Verbrauchers.
-
Bestimmte Forschungssysteme, die eine Datenerfassung im Rahmen des Wizard-of-Oz-Experiments verwenden, wurden in dem Feld einer Implementierung von Call-Centern entwickelt. Die Wizard-of-Oz-Methode (Woz) ist ein Verfahren zum Sammeln von hochqualitativen Benutzeräußerungen in der Abwesenheit von einem vollziehbaren Anwendungsfall. Bei diesem Verfahren simuliert ein versteckter menschlicher Agent das Verhalten des Dialogsystems, so dass die Anrufer glauben, sie kommunizieren mit einem Dialogsystem.
-
Wenn eine Woz-Technik verwendet wird, um einen Prototyp zu untersuchen, führt ein menschlicher „Wizard“ Funktionen aus, die durch einen Computer in einer gegenwärtig eingesetzten Anwendung bearbeitet werden würde. Dies ermöglicht einen Aufbau zu untersuchen, ohne das System vollständig aufzubauen. Die Technik wird oftmals in erkennungsbasierten Schnittstellen verwendet. Bewährte Verfahren beim Entwickeln von Dialogsystemen mit natürlicher Sprache schlagen vor, dass tausende von Äußerungen gesammelt und übertragen werden müssen, um eine ordeutliche Abdeckung zur Spracherkennung und des Verständnisses der gesprochenen Sprache zu erzielen. Im Allgemeinen wird das Wizard-of-Oz-Verfahren in Hinblick auf Kosten und Zeit, die benötigt wird um die Datenerfassung zu vervollständigen, als nicht gut eingestuft, und wurde ebenfalls für seinen Mangel an Realität kritisiert. Bestimmte automatisierte Datenerfassungssysteme wurden entwickelt, die dem Anwender einen offenen Bedienerhinweis abspielen erhalten eine Äußerung des Anwenders, spielen dann einen weiteren Bedienerhinweis ab, der sagt, dass das System nicht verstanden hat, erhalten noch eine weitere Äußerung des Anwenders, und übermitteln dann den Anruf an einen realen menschlichen Operator. Dieses System erreicht eine Datenerfassung auf Kosten einer negativen Erfahrung des Anwenders, da der Anwender seine Anfragen wiederholen muss. Darüber hinaus kann dieses System nicht beim Erfassen von Folgedialogen verwendet werden, da sie lediglich am Beginn des Gesprächs verwendet werden können.
-
Einige kürzlich vorgestellte Datenerfassungssysteme mit einem Wizard-of-Oz-Verfahren für Rufumleitungsanwendungen haben versucht, einige Probleme zu lösen, die mit dem obigen Verfahren verbunden sind. Zum Beispiel arbeitet ein Kundenberater mit einer WoZ-Schnittstelle, um maschinenerzeugte Spracherwiderungen für den Anrufer zu erzeugen, um Anwendern einen Eindruck einer Mensch-Maschine-Kommunikation zu geben, während die Anrufe korrekt weitergeleitet werden, und somit eine Datenerfassung in der Realwelt ohne Erfahrungen von Anwendern erreichen. Solch ein System erlaubt jedoch keine sinnvolle Einmischung des Agenten für den Fall eines Erkennungsproblems, noch stellt es dem Agenten Informationen bezüglich des Dialogflusses bereit.
Was dafür benötigt wird, ist ein System, das Agenten befähigt, sich in der Kommunikation zwischen dem automatisierten System und den Anrufer einzuschalten und einzugreifen, um damit die Frustration des Anrufers zu verringern. Was ferner benötigt wird, ist ein System, das den Agenten über den Inhalt einer automatisierten Anrufsitzung informiert, so dass eine notwendige Wiederholung durch den Anwender der automatisierten Sitzung minimiert wird.
-
Figurenliste
-
Ausführungsformen der vorliegenden Erfindung sind durch Beispiele dargestellt und nicht auf die Figuren der beigefügten Zeichnungen beschränkt, in welchen gleiche Bezugszeichen ähnliche Elemente bezeichnen, und in welchen:
- 1 ein Blockdiagramm von einem Call-Center-System darstellt, das eine automatisierte Agenten-Schnittstelle gemäß einer Ausführungsform umfasst.
- 2 ein Blockdiagramm von einem Dialogsystem zeigt, das in Zusammenhang mit einem Agenten-Bedienungsfeld gemäß einer Ausführungsform verwendet wird.
- 3 ein Flussdiagramm zeigt, das ein Verfahren zum Verarbeiten von Äußerungen von Anrufern in einem Dialogsystem darstellt, das durch ein Agenten-Bedienungsfeld gemäß einer Ausführungsform überwacht wird.
- 4 ein Layout von einer grafischen Anwenderschnittstelle für ein Agenten-Bedienungsfeld gemäß einer Ausführungsform darstellt.
-
AUSFÜHRLICHE BESCHREIBUNG
-
Es wird eine Ausführungsformen von einem Schnittstellensystem beschrieben, das es einem Agenten eines Call-Centers ermöglicht, sich in eine Kommunikation zwischen einem automatisierten Call-Center-System und einem Anrufer einzuschalten und einzugreifen, wann immer es für schwierige Anwendungen erforderlich ist. Das System umfasst eine Benutzerschnittstelle, die dem Agenten eine oder mehrere Kategorien von Informationen bietet, einschließlich des Gesprächsflusses, erhaltener semantischer Information, der erkannten Information, und einen Zugang zu dem Schwingungsverlauf der Äußerungen. Diese Information ist mit einem Vertrauensbereich zur besseren Einschaltung und Orientierung innerhalb des Dialogsystems für die Erzeugung von geeigneten Antworten an den Anrufer vernetzt und diesem beigefügt.
-
In der folgenden Beschreibung sind zahlreiche typische Details dargestellt, um ein genaues Verständnis von, und einer Beschreibung für Ausführungsformen des Antworterzeugungssystems des Dialogsystems und Verfahrens bereitzustellen. Der Fachmann wird jedoch erkennen, dass diese Ausführungsformen ohne ein oder mehrere der besonderen Details, oder mit anderen Komponenten, Systemen etc. ausgeführt werden kann. Bei anderen Beispielen sind bekannte Anordnungen oder Verfahren nicht gezeigt, oder nicht ausführlich beschrieben, um unbedeutende Gesichtspunkte der offenbarten Ausführungsformen zu vermeiden.
-
In einer automatisierten Umgebung eines Call-Centers kommuniziert ein Anrufer mit einem automatisierten Agenten, der Antworten basierend auf der Spracheingabe des Anwenders erzeugt. Eine ordnungsgemäße Bedienung von solch einem System erfordert eine exakte Erkennung der Anwendereingabe (Äußerungen), der Speicherung von geeigneten Antworten in einer Datenbank, und dem rechtzeitigen Abruf während einer Dialogsitzung. Aufgrund der Bedeutung einer geeigneten Spracherkennung in solchen Systemen und der praktischen Beschränkungen von derzeitigen automatisierten Dialogsystemen, treten Schwierigkeiten häufig bei den meisten, wenn nicht allen marktüblichen eingesetzten Call-Centern auf. Gegenwärtige Systeme müssen somit Live-Agenten oder Mitarbeiter beschäftigen, um eine Absicherung für den Fall von Problemen während einer automatisierten Dialogsitzung bereitzustellen. Da ein Anrufer gewöhnlich an einen Live-Agenten weitergeleitet wird, nachdem ein Dialogproblem aufgetreten ist, ist der Anrufer oftmals frustriert. Ausführungsformen von einem Schnittstellensystem eines Agenten befähigen den Agenten, sich in die Kommunikation zwischen dem automatisierten System und dem Anrufer in einer automatisierten Umgebung eines Call-Centers einzuschalten und einzugreifen, um damit die Frustration des Anrufer zu verringern und die Produktivität des Agenten zu steigern. Ausführungsformen umfassen Mechanismen, um den Agenten frühzeitig zu warnen, bevor ein Problem bis zu dem Punkt eskaliert, wo der Anrufer verärgert werden könnte, indem den Agenten ein relevanter Satz von Informationen bereitgestellt wird, und dem Agenten ermöglicht wird, den Status des Systems zu ändern.
-
1 zeigt ein Blockdiagramm von einem Call-Center-System, das eine automatisierte Agentenschnittstelle gemäß einer Ausführungsform umfasst. Das Call-Center-System umfasst ein Dialogsystem 102, das Anrufe von einem oder mehreren Anrufern 110 bearbeitet, die mittels Telefonanrufen von einem normalen Festnetzanschluss oder einem Mobiltelefon anrufen. Das Dialogsystem umfasst ein automatisiertes Agentenverfahren, das Antworten an den Anrufer während einer Dialogsequenz erzeugt, die eine Anzahl von Dialogrunden aufweisen kann. Daten für das Dialogsystem können durch eine Datenbank 103 bereitgestellt werden, welche nah an das Dialogsystem oder entfernt über ein separates Netzwerk gekoppelt werden kann.
-
Ein normales automatisiertes Call-Center-System wird typischerweise auf zwei Arten betrieben, einer automatisierten Betriebsart und einer Betriebsart mit einem Mensch als Agenten. In der automatisierten Betriebsart kommuniziert das automatisierte System mit einem Anrufer und versucht die Probleme zu lösen, die der Anrufer schildert. Falls das automatisierte System die Probleme löst, wird der Anruf zufriedenstellend beendet. Falls das System jedoch das Problem nicht löst aktiviert das System die Betriebsart mit einem Mensch als Agenten, typischerweise eingeleitet durch den Anrufer selber durch die Stimme oder einen Steuerungsbefehl mit einem Schaltknopf, wie zum Beispiel durch Sagen von „Agent“ oder durch Drücken von „0“ auf der Telefontastatur. Bei der Betriebsart mit dem Mensch als Agenten kommuniziert der Live-Agent mit dem Anrufer und versucht das Problem zu lösen. Zu diesem Zeitpunkt ist das Problem entweder gelöst oder es wird für eine weitere Kommunikation an einen Manager oder an andere Mitarbeiter übergeben.
-
Bei der Ausführungsform von 1 umfasst das automatisierte Anrufsystem 110 ein Agenten-Bedienungsfeld-Verfahren 104, das einen Live-Agent mit dem Dialogsystem 102 über eine Schnittstelle verbindet. Das Agenten-Bedienungsfeld-Verfahren 104 überwacht fortwährend die Kommunikation zwischen dem Anrufer 110 und dem automatisierten Dialogsystem 102 durch ein Anrufüberwachungsverfahren 108, und bietet dem Agenten eine Statusinformation in Hinblick auf den Anruf durch eine Benutzerschnittstelle 106. Das Agenten-Bedienungsfeld-Verfahren 104 überwacht den Anruf, um Fehler in der Kommunikation zwischen dem automatisierten System und dem Anrufer zu erfassen, bietet dem Agenten jegliche notwendige Information, und ermöglicht es dem Agenten einzugreifen wenn es nötig ist.
-
Bei einer Ausführungsform erhält das Anrufüberwachungsverfahren 108 einen Satz von Slots für jedes bestimmte Arbeitsgebiet, zusammen mit möglichen Werten für die Slots. Das automatisierte Dialogsystem 102 wird bestimmte Slots im Falle eines möglichen Problems durch Anzeigen eines Verdachts über einen Wert oder Werten markieren, die mit dem Slot verbunden sind. In diesem Fall kann der Agent die Äußerungen anhören und versuchen, eine Korrektur bereitzustellen. Das Anrufüberwachungsverfahren 108 hält den gegenwärtigen Status des Dialogs bei, welcher der Zustand der Slots ist, ebenso wie der vorhergehende Status des Dialogs. Das Anrufüberwachungsverfahren 108 hält und liefert eine zusätzliche Information in Hinblick auf den Zustand des Dialogs, einschließlich möglicher zukünftiger Zustände des Systems ebenso wie gegenwärtige und frühere Zustände.
-
Bei einer Ausführungsform bietet das Agenten-Bedienungsfeld-Verfahren 104 dem Live-Agenten 112 drei Sätze an Information. Der erste Satz an Information ist der Dialogfluss, welcher der gegenwärtige Zustand des Dialogs ist, ebenso wie eine frühere Historie von Dialogrunden. Der zweite Satz an Information besteht aus den aktiven Slots, verbunden mit dem gegenwärtigen Zustand und den Werten von den Zuständen, welche jegliche erhaltene semantische Information für die aktiven Slots aufweisen. Der dritte Satz an Information sind die erkannten Anwenderäußerungen durch das Dialogsystem, und die Systemantwort, welche die Kommunikation zwischen dem Anrufer und dem System gibt. Für jede Anwenderäußerung, die durch das Dialogsystem erkannt wird, wird ein Link zu dem Schwingungsverlauf der erkannten Anwenderäußerung bereitgestellt. Dies erlaubt dem Agenten, den tatsächlichen Schwingungsverlauf der ursprünglichen Audiodatei entsprechend der Anwenderäußerung abzuspielen. Die Audiodatei kann als eine „.wav" (waveform audio format) Datei oder eine identische Datei mit einem Hyperlink gespeichert werden, der durch die Benutzerschnittstelle 106 bereitgestellt wird.
-
Für das gesamte in 1 dargestellte Call-Center-System bildet das Agenten-Bedienungsfeld 104 die Schnittstelle zwischen dem Anrufer und einem Dialogsystem 102. Bei einer Ausführungsform basiert das Dialogsystem 102 auf einer Spracherkennung und einem Dialogmanagersystem, um einen gesprochenen Dialog zu verarbeiten, der von einem oder mehreren Anrufern empfangen wird. 2 zeigt ein Blockdiagramm von einem Dialogsystem, das in Verbindung mit einem Agenten-Bedienungsfeld gemäß einer Ausführungsform verwendet wird. Wie in 2 gezeigt umfassen die Kernkomponenten des Systems 200 ein Verständigungsmodul für die gesprochene Sprache 204 (spoken language understanding module -SLU) mit mehrfachen Verständnisstrategien für eine mangelhafte Eingabe, ein Informations-Zustands-Update oder eine andere Art von Dialogmanager (DM) 206, der mehrfache Diskussionsstränge eines Dialogs und gemischte Initiativen bearbeitet, einen Wissensmanager (knowledge manager - KM) 210, der einen Zugang zu Ontologiebasierten Wissen aus dem fachlichen Umfeld steuert, und einen Inhaltsoptimierer 212, der den Dialogmanager und den Wissensmanager zum Lösen von Unklarheiten der Anwenderanfragen verbindet, die Menge an Information regelt, die dem Anwender geliefert wird, ebenso wie Empfehlungen an Anwender bereitstellt. Bei einer Ausführungsform erzeugt die gesprochene Eingabe des Anrufers 201 Schallwellen, die durch eine Spracherkennungseinheit 202 empfangen wird. Die Spracherkennungseinheit 202 kann zur Bereitstellung von Funktionen Komponenten umfassen, wie zum Beispiel dynamische Grammatik und klassenbasierte n-Gramme. In dem Fall, wo die Eingabe des Anrufers 201 textbasiert eher als sprachbasiert ist, wird die Spracherkennungseinheit 202 überbrückt, und eine simulierte Eingabe eines Anwenders wird der Verständigungseinheit für die gesprochene Sprache 204 direkt geliefert.
-
Ein Antwortgenerator 208 stellt die Ausgabe des Systems 200 bereit. Der Antwortgenerator 208 erzeugt Audio und/oder eine Ausgabe basierend auf der Eingabe des Anwenders. Solch eine Ausgabe kann eine Antwort auf eine Anfrage, eine Anfrage zur Klärung oder weitere Information, eine Wiederholung der Eingabe des Anwenders, oder jegliche andere geeignete Antwort sein, die für das Call-Center-System 100 geeignet ist. Der Antwortgenerator 208 benützt eine Information aus dem Arbeitsgebiet wenn Antworten erzeugt werden. Somit werden unterschiedliche Ausdrucksweisen, die das gleiche sagen, sehr unterschiedliche Ergebnisse hervorbringen. Ein Datenspeicher 218 kann Informationen aufweisen, die in eine oder mehrere Datenbanken gegliedert sind. Eine Datenbank kann eine statische Datenbank sein, die sachbezogene Informationen enthält, oder Informationen, die häufig durch den Anwender verwendet wird (wie zum Beispiel von einem Anwenderprofil oder -Modell abgeleitet) .
-
Für die Ausführungsform von System 200 wird die Eingabe des Anrufers 201 durch die Spracherkennungskomponente 202 verarbeitet, um eine digitale Audiodatei (.wav Datei) für jede Äußerung zu erzeugen. Diese Datei wird in einer Datenbank in einem Datenspeicher 218 gespeichert. Während einer normalen Verarbeitung sind die Spracherkennung 202, SLU 204 und der Dialogmanager 206 in Betrieb, um die Eingabe des Anrufers zu verarbeiten und auszuwerten, und um die geeigneten Antworten zu erzeugen. In einigen Fällen kann die Eingabe des Anrufers nicht eindeutig in der Spracherkennung oder SLU ausgewertet werden, und/oder eine geeignete Antwort kann durch den Dialogmanager nicht verfügbar sein. Bei einer Anwendung in einem Call-Center würde dieses Missverständnis das Eingreifen eines Live-Agenten auslösen, entweder durch einen direkten Befehl durch den Anwender, oder einem automatischen Eingreifmechanismus.
-
3 zeigt ein Flussdiagramm, das ein Verfahren zum Verarbeiten von Anwenderäußerungen in einem Dialogsystem darstellt, das durch ein Agenten-Bedienungsfeld gemäß einer Ausfuhrungsform überwacht wird. In Block 302 empfängt die Spracherkennungseinheit die Eingabe des Anrufers. Die Äußerungen des Anrufers in der Eingabe des Anrufers werden als digitale Audiodateien, beispielsweise als .wav Dateien gespeichert, Block 304. Das Dialogsystem führt dann ein Erkennungsverfahren durch, das den Schwingungsverlauf in eine Sequenz von Wörtern übersetzt, Block 306. Die Sequenz von Wörtern weist eine Hypothese für das Dialogsystem auf. Die Hypothese kann vertreten werden als oder verbunden sein mit einem Vertrauensbereich, der einen Grad oder einen Prozentsatz einer Genauigkeit von der erkannten Äußerung anzeigt. Wie in Block 308 von 3 gezeigt, wird die Hypothese dann zu dem Schwingungsverlauf zuruck verbunden. Der Dialogmanager verarbeitet die Äußerungen des Anwenders und füllt die Slots, Block 310.
-
In bestimmten Fällen können die Äußerungen des Anwenders aufgrund einer Falscherkennung fehlerhaft sein. In diesem Fall ist der Vertrauensbereich von einer Hypothese typischerweise relativ gering. Die Systemantwort, die auf solch einer Hypothese basiert, kann dann ein Problem für den Anrufer verursachen. In Block 312 bestimmt das System, ob es ein Problem mit der verarbeiteten Äußerung des Anrufers und/oder der Systemantwort gibt oder nicht. Falls es kein Problem gibt, fährt das System mit der normalen Sequenz der Dialogverarbeitung fort, Block 316. Falls es ein Problem gibt, ermöglicht das System jedoch dem Live-Agenten ein Eingreifen mit dem Anrufer, Block 314. Nach Lösung des Problems wird der Anruf entweder beendet, oder das System fährt mit der normalen Dialogverarbeitung fort, Block 316.
-
Wie in dem Flussdiagramm in 3 gezeigt, ist es dem Live-Agenten erlaubt, beim Auftreten eines Problems zwischen dem Anrufer und dem Dialogsystem einzugreifen. Das Eingreifen des Live-Agenten kann durch den Anrufer selber nach der Äußerung von einem geeigneten gesprochenen Befehl oder einem Eingeben einer festgelegten Befehlssequenz erfolgen. Alternativ kann das System eingerichtet sein, den Agenten nach dem Auftreten einer Situation automatisch zu benachrichtigen, die durch das System als ein Problem oder mögliches Problem erkannt wird. Zum Beispiel Vorfälle, bei denen der Anrufer beispielsweise denselben Satz zweimal wiederholt, Erheben der Stimme, lange Pausen, oder ähnliche Ereignisse können das Eingreifen des Agenten auslösen.
-
Das Anrufüberwachungsverfahren 108 überwacht den Anruf zwischen dem Anrufer 110 und dem Dialogsystem 102. Um den Agenten 112 zu helfen, mögliche Probleme rasch zu identifizieren, wird die Information, die durch das Agenten-Bedienungsfeld 104 bereitgestellt wird, als unterschiedliche Level eingestuft, basierend auf dem Vertrauen, welches durch die Module in dem automatisierten Dialogsystem erzeugt wird. Diese Module können ein beliebiges von der Spracherkennung 202, dem Verständigungsmodul für die gesprochene Sprache 204, oder von anderen Modulen sein. In dem Fall, dass der Agent mehrer Kommunikationen überwacht, kann das Agenten-Bedienungsfeld 104 ebenfalls einen Warnhinweis aussenden, wenn einige Information derart unsicher ist, dass es darauf schließen lässt, dass es ein paar Fehler in der Kommunikation gibt und der Agent eingreifen müsste.
-
Das Agenten-Bedienungsfeld 104 umfasst eine Benutzerschnittstelle 106, die dem Agenten ein Display von dem einen oder den mehreren Anrufen bereitstellt, die der Agent überwacht. Bei einer Ausführungsform zeigt die Benutzerschnittstelle sachdienliche Informationen in Bezug auf den Dialogfluss, aktive Slots, und Schwingungsverläufe für jede der Gespräche an, die gerade überwacht werden. 4 stellt eine Anordnung einer grafischen Benutzerschnittstelle für ein Agenten-Bedienungsfeld gemäß einer Ausführungsform dar. Wie im Fenster der Benutzerschnittstelle 402 gezeigt, stellen drei separate Unterfenster Informationen in Hinblick auf das überwachte Gespräch bereit. Das erste Unterfenster 404 zeigt den gegenwärtigen Zustand des Dialogs an, wie er durch das Dialogsystem bereitgestellt wird. Im Allgemeinen wird der Dialogfluss durch den Systemdesigner unter Verwendung von Dialogvorlagen oder ähnlichen Strukturen festgelegt. Das Dialogsystem geht durch den Dialog mittels der festgelegten Vorlage hindurch. Es vergleicht die Gesprächssituation mit der festgelegten Struktur und entscheidet, welcher Zustand für den nächsten schritt vorliegt. Das zweite Unterfenster 406 zeigt die aktiven Slots an, die mit dem gegenwärtigen Zustand verbunden sind, zusammen mit Werten für jeden der Slots. Die Slot-Werte stellen die Werte dar, die durch den Dialogmanager während dem Verarbeiten der Äußerungen des Anrufers eingegeben werden, wie in Block 310 von 3 gezeigt. Das dritte Unterfenster 408 stellt einen Zugang zu den tatsächlichen Schwingungsverläufen der Äußerungen des Anrufers bereit. Bei einer Ausführungsform werden diese den .wav-Dateien durch HTML-Links bereitgestellt, die die Schwingungsverläufe aufweisen, wie durch die Spracherkennung gespeichert und in Block 308 von 3 bezeichnet. Diese Links der Schwingungsverläufe stellen einen Mechanismus für den Agenten dar, um direkten Zugang zu den unbearbeiteten Audiodaten zu haben, die die gesprochene Eingabe des Anrufers in das Dialogsystem aufweisen.
-
Das Agenten-Bedienungsfeld ist eingerichtet, um den Agenten zu befähigen, mehrere Anrufe zu einer Zeit zu überwachen, bis zu einer Anzahl, wobei diese Anzahl praktisch durch die Kapazität des Systems beschränkt ist. Die unterschiedlichen Anrufe können in der grafischen Benutzerschnittstelle auf beliebigste Arten angezeigt werden, wie zum Beispiel durch Tabs 416. Ein Klicken auf einen Tab entsprechend einem Gespräch wird das Display der Unterfenster 404-408 für dieses Gespräch hervorrufen.
-
Für die Ausführungsform von 4 stellt die Benutzerschnittstelle ebenfalls Befehlsschaltflächen bereit, um den Agenten zu befähigen, den Fluss des Gesprächs vorzuschreiben, sobald der Agent eingegriffen hat. Zum Beispiel ermöglicht eine „Warten“ Befehlsschaltfläche 412 dem Agenten, ein „Bitte warten“ Befehl zu erzeugen, der den Anrufer auffordert auf die Eingabe durch den Agenten zu warten; und eine „Erledigt“ Befehlsschaltfläche 414 ermöglicht dem Agenten, die Steuerung des Gesprächs nach Beendigung des Eingreifen des Agenten zurück zu dem Dialogsystem zu übertragen. Das Agenten-Bedienungsfeld 104 kann ebenfalls einen Zugang zu Editierfunktionen bereitstellen, so dass der Agent in geeigneter Weise den Inhalt ändern kann, den das automatisierte Kommunikationssystem erzeugt, (das heißt die semantische Information etc.), die korrigierte Information in das automatisierte System eingibt, und das automatisierte System mit den richtigen Informationen laufen lässt.
-
Es sollte zur Kenntnis genommen werden, dass die Benutzerschnittstelle von 4 ein Beispiel einer möglichen Benutzerschnittstelle ist, und dass viele unterschiedliche Ausführungen und Displaykomponenten gemäß den Ausführungsformen des Agenten-Bedienungsfeld umfasst werden können.
-
Die Benutzerschnittstelle und das Agenten-Bedienungsfeld des Systems 100 stellen dem Agenten Mechanismen bereit, um sich in wirksamer Weise in die Kommunikation zwischen dem automatisierten System und dem Anrufer einzuschalten und einzugreifen. Der augenblickliche Zustand des Dialogflusses wird dem Agenten zusammen mit bestimmten Werten der Slots wie sie durch die Dialogmanagerkomponente verstanden wurden, und den tatsächlichen Schwingungsverläufen, die die Eingabe des Anrufers aufweisen, dargelegt. In diesem Fall wird eine umfassende Information über den Dialog in einer hierarchischen Weise von einer allgemeinen zu einer sehr spezifischen Information über den Dialog dargelegt. Diese Information wird durch die Benutzerschnittstelle vernetzt, so dass der Agent rasch auf eine relevante Information mit dem gewünschten Grad an Auflösung zugreifen kann.
-
Die beschriebenen Ausführungsformen befähigen einen Agenten, sich in die Kommunikation zwischen einem automatisierten Kommunikationssystem und einem Anrufer einzuschalten und einzugreifen wann immer es notwendig ist. Das Agenten-Bedienungsfeld verwendet den Gesprächsfluss, die erhaltene semantische Information, und die erkannten Äußerungen und damit verbundenen Schwingungsverläufe, welche mit einem Vertrauensbereich vernetzt und diesen beigefügt sind, so dass der Agent die Korrespondenz mit einfachen Mitteln finden und in ihr navigieren kann, und die Probleme in der Kommunikation demzufolge ansprechen kann. Ausführungsformen des Agenten-Bedienungsfeld können in Mixed-Initiative-Systemen verwendet werden, in welchen entweder der Anrufer oder das System die Initiative übernimmt, um das Gespräch zu leiten. Das System kann eingerichtet sein, um mit relativ schwierigen Aufgaben und komplizierten Dialogflüssen zu arbeiten.
-
Ausführungsformen sind auf eine Vorrichtung, ein System oder ein Verfahren gerichtet, die einem Agenten ein Eingreifen in eine automatisierte Call-Center-Anwendung ermöglichen, aufweisend ein automatisiertes Dialogsystem, das eine gesprochene Eingabe von einem Anrufer in einem Dialog zwischen dem Anrufer empfängt, ein Übersetzen der gesprochenen Eingabe in eine Serie an Wörtern, um eine Hypothese in Hinblick auf die Eingabe des Anrufers zu bilden; ein Anrufüberwachungsmodul, das den Dialog zwischen einem Anrufer und einem automatisierten Dialogsystem überwacht, und es dem Agenten ermöglicht, für den Fall einzugreifen, wo die durch das automatisierte Dialogsystem gebildete Hypothese nicht einen festgelegten Grenzwert eines Vertrauensbereichs überschreitet; und einer Benutzerschnittstelle, die den Agenten mit Informationen in Hinblick auf den Gesprächsfluss zwischen dem Anrufer und dem automatisierten Dialogsystem, die erhaltene semantische Information für den Dialog, und eine Information des Schwingungsverlaufs für die erkannten Äußerungen innerhalb des Dialogs versorgt. Der Dialog kann einen Teil eines Telefongesprächs zwischen dem Anrufer und dem automatisierten Dialogsystem aufweisen, und der Agent kann verpflichtet werden, aufgrund einer Anfrage durch den Anrufer einzugreifen, oder aufgrund des Auftretens eines festgelegten Ereignisses, das durch das Anrufüberwachungsmodul erkannt wird, welches ein oder mehr von dem folgenden sein kann: eine Wiederholung einer Eingabe durch den Anrufer, einer Pause durch den Anrufer, die eine festgelegte Zeitgrenze überschreitet, und eine Anhebung der gesprochenen Lautstärke durch den Anrufer. Der Gesprächsfluss weist eine Zustandsinformation für einen augenblicklichen Zustand und vorherige Zustände des Dialogs zwischen dem Anrufer und dem automatisierten Dialogsystem auf.
-
Bei der obigen Ausführungsform kann die erhaltene semantische Information ein oder mehrere aktive Slots aufweisen, die mit dem augenblicklichen Zustand des Dialogs mit entsprechenden Werten für jeden Slot von den ein oder mehreren aktiven Slots verbunden ist. Die von dem Anrufer gesprochene Äußerung kann in einer oder mehreren digitalen Audiodateien in einem Datenspeicher gespeichert werden, und die Information des Schwingungsverlaufs für die erkannten Äußerungen innerhalb des Dialogs können Links zu entsprechenden Schwingungsverlaufdateien aufweisen, die in dem Datenspeicher gespeichert sind. Diese Schwingungsverlaufdateien weisen Schwingungsverlaufdateien im Audioformat auf. Bei einer Ausführungsform wird die Hypothese mit einem Vertrauensbereich verbunden, die durch eine Spracherkennungskomponente bestimmt wird, und die Gesprächsflussobjekte, die erhaltene semantische Information für den Dialog, und eine Schwingungsverlaufsinformation werden in der Benutzerschnittstelle durch den Vertrauensbereich vernetzt.
-
Obwohl die Ausführungsformen mit Bezug auf eine Anwendung in Call-Center-Anwendungen beschrieben worden ist, sollte beachtet werden, dass solche Ausführungsformen ebenso auf viele andere Anwendungen angewandt werden können, wie zum Beispiel Autoeinrichtungen und Dienstleistungen (z.B. Navigationssysteme), und jede andere sprachgesteuerte Mensch-Maschinen-Schnittstelle.
-
Zu Zwecken der vorliegenden Erfindung können jegliche der Verfahren, die mit einer Verfahrensvorrichtung ausgeführt werden, ebenso als Module oder Komponenten bezeichnet werden, und können unabhängige Programme sein, die lokal auf einem entsprechenden Computer ausgeführt werden, oder sie können Teile einer dezentralisierten Clientanwendung sein, die auf einem oder mehreren Geräten läuft.
-
Aspekte des hierin beschriebenen Agentenkommunikationssystems können als Funktionalität implementiert werden, die in einer beliebigen Vielfalt von Schaltungen, einschließlich programmierbaren Logikvorrichtungen (programmable logic devices - PLDs), wie zum Beispiel programmierbare Gate-Arrays (programmable gate arrays - FPGAs), programmierbare Array-LogikVorrichtungen (programmable array logic devices - PAL devices), elektrisch programmierbare Logik- und Speichervorrichtungen und gewöhnliche telefonbasierte Vorrichtungen, ebenso wie anwenderspezifische integrierte Schaltungen programmiert werden. Einige weitere Beispiele zum Implementieren von Aspekten umfasst: Mikrocontroller mit einem Speicher (beispielsweise EEPROM), eingebaute Mikroprozessoren, Firmware, Software etc. Des Weiteren können Aspekte des beschriebenen Systems in Mikroprozessoren mit einer softwarebasierten Schaltungsemulation, einer diskreten Logik (sequenziell und kombinatorisch), kundenspezifischen Vorrichtungen, einer Fuzzy-(neuralen)-Logik, Quantum Vorrichtungen und Hybriden von jeglicher obig beschrieben Art eingebettet sein. Die dargelegten Vorrichtungstechnologien können in einer Vielfalt von Komponentenarten bereitgestellt werden, zum Beispiel Metalloxid Halbleiter Feldeffekttransistor (metal-oxide semiconductor field-effect transistor - MOSFET) Technologien, Technologien wie komplementäre Metalloxid Halbleiter (complementary metal-oxide semiconductor - CMOS), Bipolartechnologien wie eine emittergekopplete Logik (emitter-coupled logic - ECL), Polymertechnologien (zum Beispiel siliziumkonjugiertes Polymer und metallkonjugierte Polymer-Metall-Strukturen), Analog und Digital gemischt und so weiter.
-
Es wird darauf hingewiesen, dass die verschiedenen hierin offenbarten Funktionen unter Verwendung irgendeiner Zahl von Kombinationen von Hardware, Firmware, und/oder als Daten und/oder Befehle beschrieben werden, die in verschiedenen maschinenlesbaren oder computerlesbaren Medien in Hinblick auf ihr Verhalten, Übertragungssignal, Logikkomponente, und/oder andere Eigenschaften verkörpert sind. Computerlesbare Medien, in welchen solch formatierte Daten und/oder Befehle eingebettet werden, umfassen in nicht einschränkender Weise nichtflüchtige Speichermedien in verschiednen Formen (zum Beispiel optische, magnetische oder Halbleiterspeichermedien) und Trägerwellen, die verwendet werden, um solch formatierte Daten und/oder Befehle durch drahtlose, optische, oder drahtgebundene Übertragungsmedien oder irgendeiner Kombination hiervon zu übertragen. Beispiele von Übertragungen von solch formatierten Daten und/oder Befehlen durch Trägerwellen umfassen in nicht einschränkender Weise Übertragungen (Hochladen, Herunterladen, e-mails, etc.) über das Internet und/oder Computernetzwerken via ein oder mehrerer Übertragungsprotokolle (zum Beispiel http, FTP, SMTP, und so weiter).
-
Sofern der Zusammenhang nicht eindeutig anderweitig verlangt, sind die Wörter „aufweisen“, „aufweisend“ und dergleichen in der Beschreibung und den Patentansprüchen durchwegs sinngemäß als einschließend auszulegen, im Gegensatz zu einem ausschließlichen oder erschöpfenden Sinn; nämlich sinngemäß auf "umfassend, aber in nicht einschränkender Weise. Wörter, die die Einzahl oder Mehrzahl verwenden, umfassen ebenso die Mehrzahl beziehungsweise die Einzahl. Darüber hinaus beziehen sich die Wörter „hierin“, „hierunter“, „oberhalb“, „unterhalb“, und Wörter von gleicher Bedeutung auf diese Anmeldung als ganzes und nicht auf irgendwelche bestimmte Teile dieser Anmeldung. Wenn das Wort „oder“ mit Bezug auf eine Liste von zwei oder mehreren Einheiten verwendet wird, deckt das Wort alle der folgenden Auslegungen des Wortes ab: irgendeines der Einheiten in der Liste, alle der Einheiten in der Liste und jegliche Kombination der Einheiten in der Liste.
-
Die obige Beschreibung der dargestellten Ausführungsformen des Agentenkommunikationssystems ist nicht als vollständig anzusehen oder soll die Ausführungsformen nicht auf die genaue Ausgestaltung oder Anleitung, welche offenbart sind, beschränken. Während bestimmte Ausführungsformen von und Beispiele für bestimmte EDV-Einrichtungen für veranschaulichende Zwecke hierin beschrieben sind, sind verschiedenste äquivalente Änderungen innerhalb des Umfangs der offenbarten Verfahren und Strukturen möglich, wie der Fachmann erkenn wird. Die Elemente und Vorgänge der verschiedenen oberhalb beschriebenen Ausführungsformen können kombiniert werden, um weitere Ausführungsformen bereitzustellen. Diese und weitere Änderungen können in Bezug auf das Antworterzeugungsverfahren im Lichte der obigen ausführlichen Beschreibung gemacht werden.
-
Im Allgemeinen sollten in den folgenden Patentansprüchen die verwendeten Ausdrücke nicht ausgelegt werden, um die offenbarten Verfahren auf die bestimmten Ausführungsformen zu beschränken, die in der Beschreibung und den Patentansprüchen offenbart sind, sondern sollten ausgelegt werden, alle Betriebsarten und Verfahren zu umfassen, die gemäß den Patentansprüchen funktionieren. Demzufolge sind die offenbarten Anordnungen und Verfahren nicht durch die Offenbarung beschränkt, sondern stattdessen ist der Umfang des dargelegten Verfahrens vollständig durch die Patentansprüche festzulegen.
-
Während bestimmte Aspekte des offenbarten Systems und des Verfahrens nachfolgend in bestimmten Anspruchsformen dargestellt sind, ziehen die Erfinder die verschiedensten Aspekte der Methodik in jeglicher Anzahl von Anspruchsformen in Erwägung. Während zum Beispiel ein Aspekt als in einem maschinenlesbaren Medium verkörpert wird, können weitere Aspekte ebenfalls in einem maschinenlesbaren Medium verkörpert sein. Demzufolge behalten sich die Erfinder das Recht vor, zusätzliche Patentansprüche nach dem Einreichen der Anmeldung hinzuzufügen, um solche zusätzlichen Patentanspruchsformen für andere Aspekte weiterzuverfolgen.