DE102004001801A1

DE102004001801A1 - Dialogsystem insbesondere zur Unterstützung der Patientenbetreuung

Info

Publication number: DE102004001801A1
Application number: DE200410001801
Authority: DE
Inventors: Fred Runge; Uta Bruns; Michael Neumann; Rainer Gieselmann; Manon Delloch
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2004-01-05
Filing date: 2004-01-05
Publication date: 2005-07-28

Abstract

Verfahren zur automatischen Erzeugung einer Kommunikation, insbesondere einer Mensch-Maschine-Interaktion, wobei ein Computer mit einer Äußerung und/oder einer Aktion einer Person konfrontiert wird, wobei die Person mittels eines insbesondere mobilen Endgerätes via Datenverbindung mit dem Computer verbunden ist, wobei die Person ihre Äußerung dem Computer gegenüber vernehmbar zum Ausdruck bringt, wobei vermittels eines auf dem Computer realisierten Programms eine für die Person wahrnehmbare Reaktion erzeugt wird, wobei die Äußerung und/oder einer Aktion von einem Computerprogramm automatisch auf ihren Gehalt an Emotionalität ("Emotionsgehalt") hin untersucht wird und wobei die Reaktion in ihrem Inhalt und/oder ihrem Ausdruck dem Emotionsgehalt der Äußerung angemessen wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur automatischen Erzeugung einer Kommunikation, insbesondere einer Mensch-Maschine-Interaktion, wobei ein Computer mit einer Äußerung und/oder einer Aktion einer Person konfrontiert wird, wobei die Person mittels eines insbesondere mobilen Endgerätes via Datenverbindung mit dem Computer verbunden ist, wobei die Person ihre Äußerung dem Computer gegenüber vernehmbar zum Ausdruck bringt und wobei vermittels eines auf dem Computer realisierten Programms eine für die Person wahrnehmbare Reaktion erzeugt wird. Die Erfindung betrifft gleichfalls ein System zur Umsetzung des Verfahrens und einen besonderen Einsatz des Systems.

Es sind eine Vielzahl von Situationen bekannt, in denen ein Mensch mit einer Maschine über einen Dialog kommuniziert. So sind Informationssysteme bekannt, an die sich eine Person wenden kann, um Antworten auf Fragen zu bekommen oder um selber eine Mitteilung zu hinterlassen. Im Rahmen der fortschreitenden Möglichkeiten, die durch Methoden der „künstlichen Intelligenz" eröffnet werden, kann der Dialog zwischen Mensch und Maschine immer mehr „menschliche" Züge annehmen, so dass sich die Person bei dem Computer gut aufgehoben und sogar in ihren Problemen verstanden fühlt. Das Verhalten der Maschine, das allerdings als Verständnis interpretiert wird, ist nur eine immer ausgeklügeltere Art, den Inhalt des Eingaben zu interpretieren und flexibel darauf zu reagieren. Die Maschine kann in besonders aufwendigen Fällen neben der menschlichen Stimme sogar ein menschliches Aussehen annehmen. Solche als „Avatar" bezeichnete Systeme, die durch ihre Präsentation eine menschliche Existenz vorgaukeln, sind von im Einsatz befindlichen Auskunfts- und Informationssystemen hinlänglich bekannt.

Insbesondere sind computergestützte Systeme bekannt, mit denen Patienten für eine gewisse Zeit nach einem Krankenhausaufenthalt überwacht und bezüglich ihrer Krankheitssituation beraten werden. Bei der Nutzung dieser Systeme führen die Patienten einen portablen Computer mit, der über eine Datenleitung mit dem Rechner eines Krankenhauses verbunden ist. Daten betreffend den Zustand des Patienten werden in den portablen Computer eingegeben oder über Sensoren vom Patienten aufgenommen und an das Krankenhaus übermittelt. Dort werden die Daten im Hinblick auf eine Diagnose automatisch durch ein Programm oder durch einen Arzt ausgewertet. Nachfolgend können Therapieempfehlungen an den Patienten zurückübermittelt werden.

Nachteilig an allen bekannten Systemen ist, dass die Dialoge im Hinblick auf eine Emotionalität statisch sind und somit „unmenschlich" wirken. Auch wird die Person als Nutzer der Technologie nicht als emotionales Wesen wahrgenommen, so dass die Reaktion auf die Äußerung der Personen „gefühlskalt" bleiben muss. Zwar sind Systeme bekannt, bei denen versucht wird, durch direkte Eingabemöglichkeiten dem Computer den emotionalen Zustand der Person mitzuteilen. Diese Systeme lassen jedoch nur rudimentär die Übertragung von Emotionalität zu und sind dabei für die Person umständlich zu bedienen. Zudem muss der Nutzer die Analyse seiner Stimmungslage selber vornehmen, so dass nur die Emotionen übertragen werden können, derer sich die Person oder der Nutzer selber bewusst ist. Somit bleibt die Auswahl der übertragenen Emotionen subjektiv.

Die Aufgabe der vorliegenden Erfindung besteht nunmehr darin, ein Verfahren zur automatischen Erzeugung von Antworten oder Reaktionen im Rahmen eines Dialoges zwischen Mensch und Maschine zu schaffen, das eine Berücksichtigung von Emotionen des Nutzers ermöglicht und das sich mit einfachen Mitteln kostengünstig umsetzen lässt. Zudem ist es die Aufgabe, ein System zur Umsetzung des Verfahrens zu schaffen.

Diese Aufgaben werden durch das Verfahren mit den kennzeichnenden Merkmalen des Anspruch 1 und das System nach Anspruch 11 gelöst.

Ein erfindungswesentlicher Kerngedanke liegt darin, dass der Dialog zwischen Mensch und Maschine neben der Übertragung „harter" Fakten auch für den Austausch von Emotionen vorgesehen wird, wobei die Emotionen in unabhängig ermittelten Daten und damit „objektiv" vorliegen. Weiterhin ist es ein Kern der Erfindung, dass die Maschine sich in ihrer Reaktion den geäußerten Emotionen ihres Gegenüber anpasst und die Reaktion der Maschine dadurch dem Menschen kompetenter erscheint. Damit trägt die Erfindung zu einer Verbesserung des Verhältnisses zwischen Mensch und Maschine bei. Außerdem lassen sich mit derart „sensiblen" Systemen, hilfreiche Anwendungen, wie beispielsweise eine verbesserte Patientenbetreuung, realisieren. Erfindungsgemäß wird nicht nur der sachliche sondern auch der emotionale Inhalt der Äußerungen untersucht und die Reaktion der Maschine entsprechend der Gefühlslage der Person automatisch angepasst. In der Realisierung der Erfindung wird die Äußerung der Person von einem Computerprogramm automatisch auf ihren Gehalt an Emotionalität, d.h. auf ihren Emotionsgehalt, hin untersucht wird wird die Antwort in ihrem Inhalt und/oder ihrem Ausdruck der Äußerung entsprechend angemessen.

An dieser Stelle sei angemerkt, dass unter den Begriffen „Äußerung" und „Aktion" sämtliche Regungen der Person subsummiert werden, die in einem erkennbaren Zeichen Niederschlag finden. Dabei kann eine Äußerung verbal oder nonverbal, z. B. in Form einer Geste oder eines vom Körper der Person erzeugten Zeichens, erfolgen. Insbesondere werden unter den Begriffen aktive Handlungen und keine passiv beobachteten Körperfunktionen subsummiert. Die Körperfunktionen können jedoch weitere Anhaltspunkte ergeben. Mit einem solchen Verfahren kann ein System geschaffen werden, das emotionale Zustände des Nutzers automatisch erkennt und abgleicht bevor es entsprechend individuell reagiert. Der große Vorteil des Verfahrens liegt darin, dass der Computer, mit dem der Mensch kommuniziert, um einen weiteren Schritt vermenschlicht wird, was den Dialog mit dem Computer angenehmer und effektiver macht.

Die Erfindung betrifft auch ein entsprechendes Kommunikationssystem, das sich in verschiedenen Ausprägungen einsetzen lässt: So wird in einem einfachen Fall nur die Stimme einer Informationsansage an die ermittelte Gefühlslage des Anrufenden angepasst. Wird z.B. bei dem Anrufenden eine erhöhte Aufgeregtheit oder Aggressivität festgestellt, so bekommt die Ansage einen beruhigenden sanften Unterton. Es ist auch möglich, der Stimme einen freundlichen und fröhlichen Ausdruck zu geben, um den Anrufer aufzumuntern oder um ihm ein angenehmes und positives Gefühl zu vermitteln. Die Erfindung lässt sich in unterschiedlich aufwendigen Formen realisieren: So wird der Computer in einer einfachen Form in der Art einer automatischen Telefonseelsorge als Audioagent („Auto-Attendend") ohne Videoausgabe realisiert. In einer aufwendigeren Form bekommt der Computer mit Hilfe einer Videoanimation sichtbare menschliche Züge und wird zum Avatar, der auf einem Display oder einer Gesichtsmaske in einer virtuellen Umgebung visualisiert ist und der auf dem Bildschirm als animierter Agent auftritt. In einer besonders aufwendigen aber wegen ihrer besonders eindrucksvollen Wirkung bevorzugten Form wird der Avatar als Hologramm realisiert, das der Person gegenübertritt.

Eine besonders bevorzugte Anwendung der Erfindung liegt in einem verbesserten System zur Betreuung von Patienten, das eine mobile psychologische Betreuung ermöglicht. Dabei kann der Patient in Krisensituationen einen ihm vertrauten persönlichen Betreuer, der erfindungsgemäß vom Avatar realisiert wird, über sein Endgerät, wie beispielsweise über sein mobiles Telefon oder einen mobilen Computer, anrufen und durch den Dialog in seinem Zustand beeinflusst werden und sogar eine Angstpsychose bis zum Eintreffen professioneller Helfer unter Kontrolle bringen. Der Avatar und seine virtuelle Umgebung sollten möglichst stark personalisiert und vorteilhafterweise auf das Krankheitsbild und auf die sonstigen Bedürfnisse des Nutzers eingestellt werden, um einen großen Erfolg zu erzielen. Im Rahmen der Einstellung kann das System programmiert und trainiert werden. Der Avatar ist vorteilhafterweise so eingerichtet, dass er dem vertrauten Bild des menschlichen Therapeuten entspricht. Als solcher kann er bestimmungsgemäß Emotionen erkennen und entsprechend reagieren z.B. durch Veränderung seiner Stimmlage und/oder der Wortwahl innerhalb der Ansprache, der Geschwindigkeit der Sprache und in seiner Mimik oder Gestik.

Die Erfindung kann zudem jederzeit auch für eine Therapieunterstützung bei der Erkennung erster Anzeichen von Störungen genutzt werden. In dieser Rolle reagiert das System auf die verschiedenen emotionalen Zustände des Patienten aufgrund der Veränderungen in oder vor Krisensituationen. Mit einem solchen erfindungsgemäßen System ist es auch möglich, über längere Zeiträume die erforderlichen Therapien, insbesondere bei der Behandlung psychisch Kranker, auch unabhängig von der unmittelbaren Gegenwart des Therapeuten zu gewährleisten. Solche intelligenten und emotionalisierten Systeme unterstützen den Therapeuten bei der Behandlung langfristig zu betreuender Krankheitsbilder und ermöglichen die patientenindividuelle Betreuung trotz einer steigenden Zahl psychischer Erkrankungen mit unterschiedlicher Genese in jeder Altersgruppe.

Im Unterschied zu den bekannten Systemen erfolgt die Erfassung des emotionalen Zustandes der Person unabhängig von einer subjektiven Bewertung und damit in gewisser Weise „objektiv". Dabei wird der Emotionsgehalt der Äußerung vorteilhafterweise anhand von Emotionsparametern untersucht, die insbesondere nicht bewusst von der Person beeinflussbar sind. Diese Erfassung kann erfindungsgemäß über aufgenommene Videodaten bildgesteuert und/oder über Audiodaten sprachgesteuert geschehen. Es werden in besonders bevorzugten Ausführungsformen auch biometrische Verfahren eingesetzt oder verschiedenartige bewusste und/oder unbewusste Äußerungen des Patienten automatisch ausgewertet. Diese Daten werden mittels der Endgeräte erfasst, in diesen Endgeräten gegebenenfalls lokal vorverarbeitet, zum System übertragen und dort gemeinsam ausgewertet. So kann die Person ihre Äußerung dem Computer gegenüber über das Medium der Sprache und/oder der Körpersprache, insbesondere mit Gestik und/oder Mimik, zum Ausdruck bringen, wobei das Medium dann entsprechend der Erfindung auf die Stärke der registrierten Emotionsparameter untersucht wird.

In einer einfachen Ausführungsform bringt die Person ihre Äußerung dem Computer gegenüber mit Eingabemitteln, insbesondere mit einer am Endgerät angeschlossenen Tastatur, zum Ausdruck. In diesem Falle ist es aber vorteilhaft, wenn die Eingabe losgelöst vom Inhalt auf das Vorliegen von Emotionsparametern untersucht wird, wobei insbesondere der Ausdruck und/oder der Stil und/oder Auffälligkeiten im Eingaberhythmus registriert werden.

So kann der emotionale Zustand einer Person, insbesondere eines Patienten, in Form von Merkmalsvektoren, die eine Möglichkeit der Merkmalsrepräsentation darstellen, erfasst werden. Die Erfassung kann über Videoaufnahmen realisiert werden, wobei die Gestik und/oder die Mimik des Patienten beobachtet wird. Auch kann mittels eines Mikrophons die Ausdrucksweise, insbesondere die Sprache oder die Prosodie, oder über entsprechende Sensoren auch Vitalparameter, wie Körpertemperatur, Pulsfrequenz, Hautwiderstand, Blutdruck oder die Dynamik der Standortänderung aufgenommen werden. Aus diesen Daten können insbesondere unter zusätzlicher Berücksichtigung von historischen Patientendaten und/oder ärztlicher Erfahrung, der Gemütszustand der Person aktuell bestimmt werden. Die registrierten Emotionsparameter können dabei mit Emotionsparametern, die in einer Datenbank gespeichert sind, verglichen werden, wobei aus dem Vergleich der Emotionsgehalt der Äußerung ermittelt wird. So erkennt das System, ob die Person verkrampft, locker, ängstlich, müde, glücklich, verärgert, aggressiv, depressiv, traurig oder gelangweilt ist. Daraufhin kann in einem weiteren Schritt das Interaktionsziel, nämlich eine auflockernde, aufmunternde oder beruhige Kommunikation geplant und mit Hilfe vom Arzt festgelegter Methoden umgesetzt werden.

Im einem derartigen System, dessen einzelne Komponenten auch im Netz verteilt sein können, sind vorteilhafterweise sowohl individuelle Patientendaten als auch allgemeine ärztliche Erfahrungen bezüglich der Interaktionsstrategie für bestimmte Situationen in geeigneter Weise gespeichert. Neben den erfassten Messwerten dienen solche vorhandenen vom Arzt veränderbaren Daten als zusätzliche Hilfe bei der Zustandsinterpretation. Während der Patient mit dem Avatar kommuniziert, kann der Arzt in einer vorteilhaften Ausführungsform des Systems den Dialog im Hintergrund verfolgen und persönlich oder durch Steuerung des Avatar in den Dialog eingreifen. Auch kann das System im Hintergrund versuchen, einen Arzt zu erreichen, um ihm nach der Darstellung des Zustandes des Patienten und des Dialogverlaufs die weitere Steuerung des Avatars oder die direkte Kommunikation mit dem Patienten zu übergeben.

Nachfolgend wird die Erfindung anhand der schematischen Darstellung in der Figur näher erklärt:
Die Figur zeigt einen Patienten 10, der über ein mit Bildschirm ausgestattetes mobiles Endgerät 20 mit dem Betreuungssystem 300 kommuniziert. Auf dem Bildschirm ist ein computeranimierter Berater 21 (Avatar) zu erkennen. Die Kommunikation erfolgt ausgehend vom Endgerät 20 über die Datenleitung eines Telephonnetzes 30 zu dem System 300. Wie schon beschrieben, ist auch ein unmittelbarer Anschluss (Pfeil A) des Endgerätes 20 an eine Schnittstelle 50 des Systems 300 möglich. Zudem ist ein Terminal 40 über das Netz 30 an das System 300 angeschlossen, über das eine weitere Person, insbesondere ein Arzt, sich in den Dialog zwischen Patient 10 und System 300 einschalten kann.
Das System realisiert den personalisierten Avatar 21. Dieser wird als animierter Agent vom System in seiner Darstellung auf dem Bildschirm und in seinem Verhalten an die Wünsche und Erfordernisse des Nutzers angepasst. Er wird mit einer emotionalen Ausdrucksweise ausgestattet und kann den Zustand des Patienten 10 einschließlich seiner emotionalen Verfassung über das im Netz 30 befindliche Endgerät 20 erfassen. Es sind auch mehrere Endgeräte oder mehrere an ein Endgerät angeschlossene Sensoren möglich. Das Kommunikationssystem 300 kann insofern passiv und aktiv agieren, als es einerseits vom Patienten passiv kontaktiert werden kann und andererseits selbst den Patienten aktiv entsprechend dessen Erfordernissen kontaktiert.
Ein zentrale Funktion im System 300 kommt einen Dialogmanager 160 zu, der sowohl die Bestimmung von Interaktionszielen 170 als auch die Umsetzung von Interaktionsstrategien 175 durch entsprechende vom Arzt festgelegte Methoden 177, 260 organisiert. Das System reagiert gegenüber dem Patienten 10 über einen Multimediagenerator 180, dem festgelegte Repräsentationen emotionaler Zustände 230 zugeführt werden können. Zur Darbietung der Reaktion werden dem Endgerät 20 des Patienten über das Kommunikationsnetz 30 Videodaten übermittelt und auf dem Endgerät 20 dargestellt. Diese bewirken Veränderungen in der Mimik des Avatars 21. Mittels Sprachinformation können Texte oder Musik generiert und über Module für Sprachausgabe 210 an den Patienten 10 übermittelt werden. Zudem können Daten mit Videoinformation 190, zur Textausgabe 200 oder zur Audioausgabe über verschiedene Schnittstellen 50 dem Netz 30 zugeführt werden.
Mittels im Endgerät vorhandener oder an das Endgerät angeschlossener Sensoren, wie einer Kamera, einem Mikrofon oder Biosensoren zur Messung von Puls, Atmung, Blutdruck, Gehirntätigkeit, Körpertemperatur, Hautwiderstand und/oder Dynamik der Standortänderung werden die Äußerungen des Patienten erfasst. Die Signale der Sensoren werden im Endgerät 20 digitalisiert und schon vorverarbeitet, bevor sie über das Kommunikationsnetz 30 dem Serversystem 300 übermittelt werden. Die über die Biosensoren erfassten und vorverarbeiteten Messwerte 120 werden im Serversystem weiterverarbeitet und aufbereitet. Dabei werden entsprechende Merkmale extrahiert und weiteren Daten parallel zugeführt. Die weiteren Daten können aus der Videoerkennung 110, einer Spracherkennung, einem Sprachverstehen 100 oder einer Prosodieerkennung 90 stammen, wobei die Prosodieerkennung 90 zur Analyse der Intonation, der Pausen zwischen den Wörtern, der relativen Lautstärkeschwankungen und/oder der Abweichungen vom mittleren Sprechtempo der Zustands- und/oder Dialogkontextinterpretation dient. Im Unterschied zum ermittelten Zustand des Patienten anhand der Vitalparameter dient die Interpretation des Dialogkontext dem situationsbezogenen Verstehen der Sprach- 100 und Videoinformation 110. Die Dialogkontextinterpretation 150 kann zur Verbesserung der Zustandsinterpretation eingesetzt werden. Als Dialogkontext wird beispielsweise ein im Dialog herbeigeführtes bewusstes Verschließen eines Auges zur Kontrolle der Reaktionsfähigkeit im Unterschied zur unwillkürlichen Augenliedmuskelkontraktion interpretiert. Die Auswertung der Prosodie 90 und der eingehenden Videoinformation 110 kann zur Verbesserung der Spracherkennung 100 eingesetzt werden, indem beispielsweise die Lippenbewegungen der Person ausgewertet wird.
Ebenfalls von Bedeutung für die Zustandsinterpretation, also für die Bewertung der emotionalen Situation der Person, kann die Dynamik der Veränderung des Aufenthaltsortes 55 in einem Raum sein. Diese kann als Ausdruck von Nervosität gewertet werden, die ihrerseits wieder zu einer Veränderung der Pulsfrequenz führen kann. Zudem kann die aktuelle Tageszeit 290 bei der Auswertung des Tagesrhythmus Beachtung finden. Als Teil des Dialogmanagers kann die Zeitsteuerung 290 diesen beim Vorliegen entsprechender personalisierter Daten veranlassen, automatisch einen Kontrollanruf zum Patienten zu tätigen.
Neben den genannten Parametern können zur Zustandinterpretation allgemeine ärztliche Erfahrungen 140, sowie konkrete patientenbezogene Daten 130 herangezogen werden, die in entsprechenden Dateien zur Verfügung stehen. Zu diesen Daten zählen auch Erfahrungen und Ergebnisse, die aus vergangenen Sitzungen mit dem Patienten gewonnen wurden. Als Ergebnis von Dialogkontext- und Zustandsinterpretation 150 werden dem Dialogmanager 160 die Bedeutungen der sprachlichen Äußerungen (z.B. "20:00" statt "heute Abend") und des Zustandes (z. B. Stimmung = "ängstlich") zur Verfügung gestellt. Das dient als Grundlage der Berechnung der Interaktionsziele (z.B. Ziel = "Mut machen"), die sowohl als festes Regelwerk als auch als Programmcode des Dialogmanagers ihre Repräsentation 240 finden können. Ausgehend von der Berechnung der Interaktionsziele 170, der ärztlichen Erfahrungen 140 der und patientenbezogenen Daten und Erfahrungen 130 wird anschließend die Interaktionsstrategie des Dialogmanagers 175 festgelegt, die beispielsweise als Programmcode für verschiedene Dialogabläufe des Dialogmanagers oder auch als durch den Dialogmanager interpretierbare Datenbank 250 angelegt werden kann. Dadurch finden gleichzeitig entsprechende Interaktionsmethoden 260 ihre Anwendung 177.
Wenn das Serversystem 300 für die Betreuung unterschiedlicher Patienten ausgelegt ist, wird eine Unterscheidung der einzelnen Personen erforderlich. Diese kann bei einem Anruf des Patienten an das System anhand der über das Netzwerk übermittelten Endgerätekennung, insbesondere der CLI (Calling Line Identification) der ANI (Automatic Number Identification) oder der HLR (Home Location Register) erfolgen. Bei personengebundenen Endgeräten kann diese Kennung als Identifikation 80 des Anrufers genutzt werden. Diese Kennung ist eine wesentliche Grundlage zur Einschränkung und Ergänzung weiterer verschiedener bekannter Methoden und Auswahlalgorithmen für die Erkennung, Verifikation und Authentifikation der betreffenden Person, die zur zusätzlichen Sicherheit in Kombination mit dem oben beschriebenen System angewendet werden.
Als zusätzliche Verifikationstechnologie kann eine Sprecherverifikation, für die ein Mikrofon erforderlich ist, oder andere biometrische Verfahren, wie die Erkennung des Fingerabdrucks, oder von Gesichts-, Iris- oder Handmerkmalen 70 in Kombination mit der Videoinformation 110 genutzt werden. Bei Vorliegen entsprechender Daten kann zusätzlich der Aufenthaltsort als Verifikationskriterium 55, 130 genutzt werden.
Neben dem netzgebundenen System ist zudem ein lokaler Betrieb denkbar, bei dem die Person einen direkten Anschluss an das System 300 erhält. Dabei ist das Endgerät des Patienten unmittelbar über einen oder mehrere Kanäle und über entsprechende Schnittstellen 50 ohne Umweg über das Netzwerk 30 mit dem System 300 verbunden. In diesem vereinfachte Fall kann die Auswertung der Endgerätekennung durch einen Authentifizierungsprozess über Passwort ersetzt werden.
Nach der Auswahl des Datensatzes 130 der betreffenden Person kann nun das oben beschriebene Verfahren genutzt werden. Bei lokalem Betrieb ist diese Auswahl nicht erforderlich, da nur ein Datensatz für den betreffenden Patienten vorhanden ist.
Der personengebundene Datensatz 130 enthält neben historischen Daten vergangener Sitzungen und persönlichen, das Krankheitsbild und das Verhalten beschreibenden Daten außerdem Daten, die Ergebnis von personengebundenen Trainingsprozessen des Systems für die angewandten Technologien 60, 70, 90, 120 sein können. Bei der sprecherabhängigen Spracherkennung respektive deren Anwendung in begrenzten Dialogteilen werden bei Erstkontakt des Nutzers mit dem System und der Vorgabe zu sprechender Wörter durch den Dialogmanagers nach allgemein bekannten Verfahren Sprachmuster für diese Wörter abgelegt, die als Referenz für deren Wiedererkennung in späteren Dialogen dienen. Ähnliches ist für die Sprecherverifikation und die weiteren genannten Technologien möglich.
Durch eine individuelle Normierung der Messwerte 120 gemäß physiologischer und/oder psychischer Gegebenheiten des Patienten kann deren Auswertung ergänzt werden, wodurch die Zustandsinterpretation wesentlich vereinfacht wird.
Weiterhin können erfasste Vitalparameter 130 zusätzlich an Hand individuell einstellbarer Schwellwerte ausgewertet 151 und zusätzlich dem Dialogmanager zur Erzeugung einer weiteren Reaktion übermittelt werden. Dieser kann parallel zum Dialog mit dem Patienten bei Überschreitung eines kritischen Grenzwertes den Arzt oder einen Notdienst benachrichtigen. Auch kann u. U. in einer anderen Variante die Schwellwertauswertung direkt einen Anruf zu einem entsprechenden Dienst mit Übertragung der notwendigen Mess- und/oder Schwellwerte und anderer Informationen auslösen.
Auch erhält ein behandelnder Arzt die Möglichkeit, sowohl steuernd einzugreifen, als auch die in 130 abgespeicherten Aufzeichnungen auszuwerten und das System aus einem Mithörstatus als auch aus der Aufzeichnung zu trainieren, indem er einen ersichtlichen Gemütszustand des Patienten den zu diesem Zeitpunkt vorhandenen Merkmalen und Merkmalshistorie zuordnet und entsprechend einträgt, was die automatische Zustandsinterpretation in zukünftigen Dialogen erleichtert. Auf diese Weise wird das System an einen bestimmten Patienten angepasst.
Von einem Terminal 40 erhält der Arzt Zugriff auf alle für die Diagnose und den Dialogablauf relevanten Daten wie z. B. 130, 140, 230, 240, 250, 260 um hier neue Daten einzutragen, respektive alte Daten zu ergänzen. Der Zugriff kann bei lokaler Installation sowohl direkt vor Ort als auch unter Beachtung von Sicherheitsvorkehrungen im Fernzugriff über das Kommunikationsnetz erfolgen.
Über diese Wege kann der Dialogmanager bei Feststellung von kritischen Zuständen des Patienten, die in 130 und 140 festgelegt sein können, die Verbindung zum Arzt weiterleiten, der den weiteren direkten Dialog mit dem Patienten bzw. die Steuerung des Avatars übernimmt. Dem Arzt können dabei alle Messwerte weiterhin zur Verfügung stehen.
Auch die Aufzeichnung eines derartigen Dialogs zwischen Arzt und Patient kann in einem folgenden Schritt dem Training des Systems, wie oben beschrieben, dienen. Grundsätzlich wird ein Betrieb des Systems als Vorstufe zum direkten Arztkontakt mit dem Patienten betrachtet, jedoch ist die Anwendung als Therapieunterstützung denkbar.

Claims

Verfahren zur automatischen Erzeugung einer Kommunikation, insbesondere einer Mensch-Maschine-Interaktion, wobei ein Computer mit einer Äußerung und/oder einer Aktion einer Person konfrontiert wird, wobei die Person mittels eines insbesondere mobilen Endgerätes via Datenverbindung mit dem Computer verbunden ist, wobei die Person ihre Äußerung dem Computer gegenüber vernehmbar zum Ausdruck bringt und wobei vermittels eines auf dem Computer realisierten Programms eine für die Person wahrnehmbare Reaktion erzeugt wird, dadurch gekennzeichnet, dass die Äußerung und/oder einer Aktion von einem Computerprogramm automatisch auf ihren Gehalt an Emotionalität („Emotionsgehalt") hin untersucht wird und dass die Reaktion in ihremInhaltund/oderihrem Ausdruck dem Emotionsgehalt der Äußerung angemessen wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Emotionsgehalt anhand von Emotionsparametern untersucht wird, die insbesondere nicht bewusst von der Person beeinflussbar sind.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Person ihre Äußerung und/oder einer Aktion dem Computer gegenüber über das Medium der Sprache und/oder der Körpersprache, insbesondere mit Gestik und/oder Mimik, zum Ausdruck bringt, wobei das Medium auf die Stärke der registrierten Emotionsparameter untersucht wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Person ihre Äußerung dem Computer gegenüber mit Eingabemitteln, insbesondere mit einer am Endgerät angeschlossenen Tastatur, zum Ausdruck bringt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Eingabe losgelöst vom Inhalt auf das Vorliegen von Emotionsparametern untersucht wird, wobei insbesondere der Ausdruck und/oder der Stil und/oder Auffälligkeiten im Eingaberhythmus registriert werden.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Aktion der Person mit Sensoren beobachtet wird, die mit dem Endgerät verbunden sind, wobei als Emotionsparameter der Aktion insbesondere Vitalparametern, wie der Körpertemperatur, der Pulsfrequenz, dem Hautwiderstand, dem Blutdruck und/oder der Dynamik der Standortänderung registriert werden.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die registrierten Emotionsparameter mit Emotionsparametern, die in einer Datenbank gespeichert sind, verglichen werden und dass aus dem Vergleich der Emotionsgehalt der Äußerung ermittelt wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die registrierten Emotionsparameter in Merkmalsvektoren eingepasst werden und mit erlernten Regeln oder angepassten Schemata, die in einer Datenbank gespeichert sind, verglichen werden und dass aus dem Vergleich der Emotionsgehalt der Äußerung ermittelt wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der Person die Antwort von einer virtuellen Person („Avatar"), die insbesondere auf dem Bildschirm des Endgerätes erscheint, vorgetragen wird.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Avatar die Antwort in Sprachform vorträgt, wobei er den Ausdruck seiner Stimme und/oder seiner Mimik der Emotionalität der Äußerung anmisst.
System, insbesondere zur Durchführung eines Verfahrens nach einem der vorherigen Ansprüche, umfassend einen Computer und ein damit über eine Datenverbindung, insbesondere über ein Telefonnetz oder über das Internet, verbundenes Endgerät, wobei das Endgerät Mittel zur Eingabe und/oder Aufnahme von Äußerungen einer Person aufweist, gekennzeichnet durch ein auf dem Computer realisiertes Programm, das die Äußerungen auf ihren Emotionsgehalt hin untersucht und das eine Antwort generiert, die in ihrem Inhalt und/oder ihrem Ausdruck dem Emotionsgehalt der Äußerung angemessen ist.
System nach Anspruch 11, dadurch gekennzeichnet, dass das Endgerät ein Ausgabemittel, insbesondere einen Bildschirm, aufweist, über das eine virtuelle Person darstellbar ist, die der Person eine vom Computer generierte Antwort präsentiert.
System nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass das Endgerät einen Sensor aufweist, der biometrische Parameter der Person misst.
System nach einem der Ansprüche 11 bis 13, dadurch gekennzeichnet, dass der Avatar und seine virtuelle Umgebung insbesondere in Form eines menschlichen Therapeuten personalisiert und auf das Krankheitsbild und die sonstigen Bedürfnisse der Person eingestellt sind.
Einsatz des Systems nach einem der Ansprüche 11 bis 14 zur mobilen psychologische Betreuung von Patienten.