DE102020210748A1

DE102020210748A1 - System und Verfahren zur emotionalen Erkennung

Info

Publication number: DE102020210748A1
Application number: DE102020210748.3A
Authority: DE
Inventors: Rebecca Johnson
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-03-03
Also published as: EP4179550A1; US20240023857A1; WO2022043282A1

Abstract

Die Erfindung betrifft ein System und Verfahren zur emotionalen Erkennung eines Nutzers innerhalb einer definierten Zeitspanne, insbesondere ein sowohl mobil - also vor Ort - als auch über Bildschirm einsetzbares System und Verfahren. Durch die vorliegende Erfindung wird erstmals ein Verfahren und ein System zur Erkennung der Emotionen eines Nutzers vorgestellt, bei dem nicht jede Erkennungs-Sensorik für sich betrachtet wird, sondern die Einzel-Ergebnisse in Form der primären emotionalen Tendenzen zusammen und in ihrer Kombination eine resultierende, so genannte „sekundär berechnete“ emotionalen Tendenz ergeben, die als Ergebnis der Untersuchung gewertet wird. Nicht nur werden dabei verschiedenste Methoden der Sensorik kombiniert, sondern sie werden gegebenenfalls auch individuell trainiert, also manuell oder automatisiert zugeordnet und/oder interpretiert, wobei ihre Relevanz bezüglich des individuellen Nutzers evaluiert wird. So kann ein entsprechendes Nutzer-Profil erstellt werden.

Description

Die Erfindung betrifft ein System und Verfahren zur emotionalen Erkennung eines Nutzers innerhalb einer definierten Zeitspanne, insbesondere ein sowohl mobil - also vor Ort - als auch über Bildschirm einsetzbares System und Verfahren.
Es ist bekannt, dass eine Aussage, sei sie schriftlich, mündlich und/oder optisch kommuniziert, einer emotionalen Grundtendenz wie „entspannt“, „lustig“, „aggressiv“, „ängstlich“ zugeordnet werden kann. Für verschiedenste Erhebungen von Daten, beispielsweise auch zur optimalen Auslegung eines Arbeitsplatzes in einer Fabrik, ist es sinnvoll, die bewussten und/oder unbewussten Reaktionen eines Nutzers auf die Umgebung zu kennen, damit diese individualisiert optimiert werden kann.
Es gibt bereits eine Reihe von Verfahren und Systemen zur emotionalen Erkennung. So kann innerhalb eines Textes durch Auffinden von verschiedenen Schlüsselwörtern wie beispielsweise „Lachen, Spaß, Witz, Freude“ etc. dem Autor des Textes, sei er schriftlich und/oder mündlich kommuniziert, zum Zeitpunkt der Schaffung des Textes eine bestimmte emotionale Grundtendenz zugeordnet werden.
Obwohl diese Technik zur Erkennung von emotionalen Grundtendenzen schon funktioniert, ist sie doch noch nicht ausgereift, weil typische menschliche Verhalten, wie beispielsweise Ironie, oft nicht erkannt und/oder missinterpretiert werden. Beispielsweise würde der Ausdruck „na, das wird aber lustig!“ den ein Mensch leicht als ironisch erkennt, mit der bestehenden Technik wohl falsch zugeordnet. Auch ist „lachen“ an sich nicht gut identifizierbar und wird manchmal komplett falsch, beispielsweise als „schreien“ zugeordnet.
Andererseits können emotionale Tendenzen auch durch biometrische Körper- und/oder Gesichtserkennung erfasst werden, wobei ein entsprechend ausgestattetes System die Zuordnung durch Erkennen von hinterlegten Gesichtszügen wie Zornesfalte, Lachfalten, Mundwinkel nach oben, Zeigen der Zähne etc. automatisiert zuordnen kann.
Dies ist besonders wichtig, weil gerade die Gesichtserkennung ein starker Indikator für Emotionen ist. Wenn wir lachen oder weinen, erlauben wir der Umgebung, in unser Innerstes zu schauen und dementsprechend zu reagieren. Aber auch viel weniger starke Ausdrücke verraten Emotionen, die nutzbringend einsetzbar und deshalb wert sind, automatisiert erkannt zu werden.
Zwar gibt es von Google, Amazon und Microsoft emotionale Erkennungsmethoden, die sich der Gesichtserkennung bedienen, allerdings sind diese emotionalen Erkennungsmethoden noch nicht ausgereift.
So erkennt beispielsweise ein in Russland etabliertes Gesichtserkennungssystem alle asiatischen Gesichter als „gut gelaunt“ oder „fröhlich“, weil deren Augenfalten in einer bestimmten Art kurvig verlaufen. Gleiches gilt für als „zornig“ eingestufte optische Daten - beispielsweise Videoaufnahmen - von Nutzern, die einfach durch das Altern Falten zeigen und nicht wegen ihrer momentanen Gemütsverfassung.
Durch die fortschreitende Automatisierung besteht der Bedarf, ein Verfahren zur emotionalen Erkennung zur Verfügung zu stellen, welches die Fehler der bestehenden Techniken zur emotionalen Erkennung zumindest zum Teil vermeidet.
Aufgabe der vorliegenden Erfindung ist es, ein System und/oder ein Verfahren zur - vorzugsweise automatisierten - emotionalen Erkennung zur Verfügung zu stellen, das die Nachteile des Standes der Technik überwindet.
Diese Aufgabe wird durch den Gegenstand der vorliegenden Erfindung, wie er in der Beschreibung, der Figur, sowie in den Ansprüchen beschrieben ist, gelöst.
Dementsprechend ist Lösung der Aufgabe und Gegenstand der vorliegenden Erfindung ein Verfahren zur Erkennung der emotionalen Tendenz eines über einen definierten Zeitraum von zwei oder mehr Aufnahme- und/oder Erfassungsgeräten aufgenommenen Nutzers, folgende Verfahrensschritte umfassend:

- Erzeugen von primären Daten des Nutzers pro Aufnahme- und/oder Erfassungsgerät,
- Weiterleiten der primären Daten an einen Server,
- Zusammenfassung der primären Daten im Server zu jeweils primären Datensätzen pro Aufnahme- und/oder Erfassungsgerät durch Verarbeitung der primären Daten,
- Zuordnung jedes primären Datensatzes einzeln und rechnergestützt, vorzugsweise automatisiert, zu einer oder mehreren primär festgestellten emotionalen Tendenz(en) des Nutzers,
- Erzeugen sekundärer Daten durch rechnergestütztes und/oder automatisiertes logisches Abgleichen der gleichzeitig aufgetretenen primär festgestellten emotionalen Tendenzen,
- Erzeugen eines Ergebnisses in Form einer oder mehrerer sekundärer emotionaler Tendenz(en) des aufgenommenen und/oder erfassten Nutzers durch Verarbeitung der sekundären Daten.

Außerdem ist Gegenstand der Erfindung ein System zur Erkennung der emotionalen Tendenz eines aufgenommenen und/oder durch Sensorik erfassten Nutzers zumindest folgende Module umfassend: zumindest zwei Geräte zur Aufnahme und/oder Erfassung primärer Daten des Nutzers, entsprechende Mittel zur Leitung der so generierten primären Daten an einen Server, den Server, der die primären Daten verarbeitet, eine Verbindung zwischen dem Server und einem Ausgabegerät und das Ausgabegerät zur Ausgabe des Ergebnisses der rechnergestützten Verarbeitung der sekundären Daten in Form eines Berichts über eine oder mehrere sekundäre emotionale Tendenz(en) des über einen definierten Zeitraum aufgenommenen und/oder erfassten Nutzers.
Das System umfasst beispielsweise folgende Module:

- Zwei oder mehrere Aufnahme- und/oder Erfassungsgerät(e) zur Erzeugung der primären Daten,
- eine Leitung, insbesondere zu einem Server,
- einen Server, der die primären Daten empfängt, speichert, verarbeitet und sekundäre Daten erzeugt, sendet, speichert und/oder verarbeitet
- eine Leitung vom Server zu einem Auslesegerät
- ein Auslesegerät.

Da alle diese Module leicht in Versionen zu erhalten sind, bei denen sie in eine Aktentasche und/oder einen Koffer passen, kann das gesamte System mobil ausgeführt und an transportabel angeboten werden.
Andererseits können einzelne, alle oder mehrere der Module stationär fix montiert sein, wobei das Ausgabegerät beispielsweise mobil und das Erfassungsgerät stationär oder umgekehrt konzipiert sein kann.
Als „primäre Daten“ werden vorliegend die Audio-, Video- und/oder sonstige, durch Geräte zur Erfassung des Zustands des Nutzers, vor der Verarbeitung durch den Server erhaltene Daten bezeichnet.
Als „sekundäre Daten“ werden vorliegend die Audio-, Video- und/oder sonstige, durch Verarbeitung und/oder logischen Abgleich der primären Daten erhaltenen Daten bezeichnet.
Als „Datensatz“ wird vorliegend eine Gruppe von inhaltlich zusammengehörigen und identische Strukturen aufweisende Daten bezeichnet, beispielsweise der Wert der Herzfrequenz jeweils einem Zeitpunkt zugeordnet über einen gewissen Zeitraum hinweg. Ein Datensatz kann aus Daten erzeugt, rechnergestützt verarbeitet, gespeichert, verglichen, mit anderen Datensätzen kombiniert, berechnet, etc... werden. In der Regel passiert das in einem Server.
„Geräte zur Erfassung“ des Zustands des Nutzers sind beispielsweise Aufnahmegeräte und/oder Sensoren, die die Sprache, den Ausdruck des Gesichts, die Gestik, die Körperhaltung, die Herzfrequenz, den Puls, die Gehirnströme und/oder die Muskelanspannung, des Nutzers erfassen und zu Daten wandeln.
Mit den primären und/oder sekundären Daten kann beispielsweise eine künstliche Intelligenz (KI) trainiert werden. Dabei kann automatisiert und/oder über Einzelentscheidung des Nutzers in iterativen Optimierungsschritten die Zuordnung primärer Daten zu emotionalen Grundtendenz(en) automatisiert und/oder personalisiert trainiert werden.
Durch die Aufnahme und/oder Erfassung des Nutzers werden beispielsweise Audio- und/oder Videodaten eines Nutzers gleichzeitig erfasst und können hinterher entsprechend der Frage „was geschah gleichzeitig?“ im Rahmen des - rechnergestützten

- logischen Abgleichs und/oder der Erzeugung der sekundären Daten zugeordnet werden: optische und/oder akustische Daten von zwei oder mehr Erfassungsgeräten wie
- 1) Erfassung biometrischer Gesichtszüge,
- 2) Zuordnung von Schlüsselwörtern im gesprochenen/geschriebenen Text,
- 3) Zuordnung
  1. a) der Stimmlage des akustischen Vortrags,
  2. b) der Lautstärke der Stimme,
- 4) Zuordnung der Kopfhaltung des Sprechers beim Sprechen bestimmter Stellen im Text, und so weiter...

Die kombinierten Daten können automatisiert im Server für jedes Zeitintervall abgeglichen werden, so dass Daten von in sich abgeglichenen und daher schlüssigen Ergebnissen erhalten werden, die als sekundäre Daten die Basis für die sekundär ermittelte emotionale Tendenz zu einem gegebenen Zeitpunkt bilden.
Das „Aufnahme- und/oder Erfassungsgerät“ umfasst beispielsweise ein oder mehrere

- Eingabegerät für einen Computer, wie ein Keyboard, Mouse, Stift, Stick,
- Kamera, 3D-Kamera, 360° Kamera-Technik,
- Mikrofon,
- Elektroenzephalografie-„EEG“-Vorrichtung, insbesondere eine so genannte „EEG-Haube“,
- Pulsmessgerät, Herzfrequenzmessgerät, beispielsweise in Form einer Smartwatch,
- ein Gerät zur Blickerfassung, das beispielsweise Punkte, die man genau betrachtet, schnelle Augenbewegungen und/oder sonstige Blickbewegungen eines Nutzers erfasst und daraus primäre Daten erzeugt,
- sonstige Geräte mit Sensorik zur Erfassung körperspezifischer und/oder körperlicher Daten des Nutzers
- alle vorgenannten Geräte sind im System zumindest zu zweit und/oder in beliebigen Kombinationen und auch in Kombination mit sonstigem Aufnahme- und/oder Erfassungsgeräten zur Erfassung einer Gesamtaufnahme des Nutzers eingesetzt.

Durch die Aufnahme und/oder Erfassung der Primärdaten des Nutzers, der in der Regel ein Mensch sein wird, über einen bestimmten Zeitraum durch das und/oder die Aufnahme- und/oder Erfassungsgerät(e), werden sichtbare und nicht sichtbare, bewusst artikulierte und/oder unbewusst gezeigte Gesichts-Ausdrücke und Gesichts-Mikroausdrücke, Ausdrücke, der Körperhaltung, Gesten und/oder messbare Veränderungen des Blutkreislaufs des Nutzers über einen bestimmten Zeitraum erfasst und entsprechend in primäre Daten gewandelt.
Diese primären Daten werden an ein rechnergestütztes Gerät, insbesondere an einen Server, geleitet. Dort werden die primären Daten beispielsweise in Form von primären Datensätzen gespeichert und/oder zu primären Datensätzen verarbeitet. Jedem primären Datensatz, dem in der Regel auch nur ein Aufnahme- und/oder Erfassungsgerät zuordenbar ist, wird eine primär erfasste emotionale Tendenz, bezogen auf einen jeweiligen Zeitpunkt der Datenerfassung und das erzeugende Gerät, durch die Verarbeitung im Server zugeordnet. Dieses Zwischenergebnis wird pro Gerät als primärer Datensatz und primär ermittelte emotionale Tendenz - jeweils bezogen auf einen Zeitpunkt- gespeichert.
Als „360° Kamera Technik“ wird bezeichnet, wenn die Kameras, dem Benutzer die Möglichkeit geben, Erlebtes in einem 360 Grad Panoramabild-Film zu verpacken. Dies kann in augmented-, virtual- und/oder mixed- reality stattfinden. Dem Zuschauer wird ein Gefühl von Nähe zum Geschehen gegeben. 360-Grad-Kameras sind am Markt erhältlich. Es können auch 360-Grad-Kameraaufnahmen mit virtuellen Elementen vermischt werden. Dabei können beispielsweise Elemente durch Markierungen hervorgehoben werden. Das ist z.B. im Fußballreportagen eine gängige Technik.
Eine 360° 3D-Kamera hat beispielsweise eine bestimmte Linsenanzahl, welche in der 3D-Kamera verbaut ist. 3D-Kameras mit nur einer Linse können über das Fisheye Prinzip 360° umfassen, zumindest können sie in einem Winkel von 360° x 235° filmen.
Die von den 3D Kameras in dem Raum zur Aufnahme erzeugten digitalen Daten werden an einen oder mehrere Server übertragen.
Als „Server“ wird ein Computerprogramm und/oder ein Gerät bezeichnet, welches ganz generell Funktionalitäten für andere Programme und/oder Geräte bereitstellt. Ein Hardware-Server ist ein Computer, auf dem ein oder mehrere „Server“ laufen.
Gemäß der vorliegenden Erfindung werden alle primären Daten auf einen oder mehrere Server übertragen. Der „Server“ ordnet diese Daten zunächst primären emotionalen Tendenzen zu, verarbeitet diese dann zu sekundären Daten und ordnet diese rechnergestützt sekundären emotionalen Tendenz(en) zu. Das Ergebnis dieser Rechnung sendet und/oder leitet der Server an ein Ausgabegerät weiter.
Sofern es in der nachfolgenden Beschreibung nicht anders angegeben ist, beziehen sich die Begriffe „verarbeiten“, „durchführen“, „erzeugen“, „rechnergestützt“, „rechnen“, „übertragen“, „generieren“ und dergleichen, vorzugsweise auf Handlungen und/oder Prozesse und/oder Verarbeitungsschritte, die Daten verändern und/oder erzeugen und/oder die Daten in andere Daten überführen, wobei die Daten insbesondere als physikalische Größen dargestellt werden oder vorliegen können, beispielsweise als elektrische Impulse.
Insbesondere sollte der Ausdruck „Server“ möglichst breit ausgelegt werden, um insbesondere alle elektronischen Geräte mit Datenverarbeitungseigenschaften abzudecken. Server können somit beispielsweise Personal Computer, Handheld-Computer-Systeme, Pocket-PC-Geräte, Mobilfunkgeräte und andere Kommunikationsgeräte, die rechnergestützt Daten verarbeiten können, Prozessoren und andere elektronische Geräte zur Datenverarbeitung sein.
Unter „rechnergestützt“ kann im Zusammenhang mit der Erfindung beispielsweise eine Implementierung des Verfahrens verstanden werden, bei dem insbesondere ein Server mittels eines Prozessors mindestens einen Verfahrensschritt des Verfahrens ausführt.
Alle primär erfassten emotionalen Tendenzen werden im Server als Ergebnis der Verarbeitung errechnet. Diese liegen dann als Daten vor und bilden die Datenbasis für die Erzeugung der sekundären Daten und/oder sekundären Datensätze und der resultierenden sekundären emotionalen Tendenz zum jeweiligen Zeitpunkt, die letztlich an das Ausgabegerät weitergeleitet wird.
Als „emotionale Tendenz“ werden Stimmungen und Gefühle, die sich über die erfassten Primärdaten ausdrücken, bezeichnet. Beispielsweise ist ein Lächeln, in Kombination mit weit offenen Augen und erhobenem Kopf Zeichen für gute Laune, vorhandenes Selbstbewusstsein, etc. Ebenso gibt es Kombinationen, die Indikatoren für Angst, Wut, Schmerz, Traurigkeit, Überraschung, Ruhe, Entspannung, Ekel etc. sind.
Durch logische und rechnergestützte Verarbeitung der primär erfassten emotionalen Tendenzen werden sekundäre Daten erzeugt, die eine sekundäre oder resultierende emotionale Tendenz des jeweiligen Nutzers zum jeweiligen Zeitpunkt ergeben. Durch die kombinatorische Betrachtung aller vorliegenden Primärdaten können beispielsweise Ironie, Sarkasmus, Altersfalten etc. richtig oder zumindest deutlich besser als bei Einzelbetrachtung der Primärdaten, wie es Stand der Technik ist, zugeordnet werden.
Die sekundären Daten können auch genutzt werden, um nichtplausible Daten des oder der primären Datensätze zu identifizieren, zu löschen und/oder auszusortieren. Beispielsweise kann dies individualisiert über eine Entscheidung des Nutzers oder auch automatisiert über eine entsprechend trainierte künstliche Intelligenz erfolgen.
Schließlich basieren beispielsweise die sekundären Daten und/oder die sekundären Datensätze nur noch auf primären Daten des Nutzers, die bei der kombinierten Betrachtung aller primären Daten im Rahmen des resultierenden sekundären Datensatzes einen Sinn ergeben. Primäre Daten, die so gesehen „nicht ins Bild“ passen, werden bei der Verarbeitung primärer Datensätze in sekundäre Daten beispielsweise identifiziert und gesondert gewertet, aussortiert und/oder gelöscht.
Eine entsprechende Verarbeitung der sekundären Daten ergibt - jeweils bezogen auf den gleichen Zeitpunkt - die sekundäre emotionale Tendenz, die das Ergebnis der Untersuchung ist.
Aus den sekundären Daten wird über einen Algorithmus dann ein resultierendes Gesamtergebnis erzeugt, dass über das Ausgabegerät sichtbar gemacht wird.
Aus den sekundären und damit vergleichsweise eindeutig und richtig interpretierten emotionalen Tendenzen des Nutzers in der jeweiligen Situation können Rückschlüsse gezogen werden, die eine Optimierung von allen Orten und Umgebungen, in denen sich Menschen aufhalten, ermöglichen. So können beispielsweise Arbeitsplätze optimiert werden, eine Optimierung eines Fabrikablaufs stattfinden, eine Optimierung eines Innenraums eines Fahrzeugs, wie eines Zuges, eines Autos etc.
Durch künstliche Intelligenz können dann beispielsweise wiederkehrende Gesten und Muster, Kombinationen, Zusammenhänge automatisiert erkannt und gezielt innerhalb des betrachteten Zeitraums gesucht werden. Diese lassen den Nutzer Rückschlüsse auf die emotionale Wirkung einer bestimmten Gesellschaft, Umgebung, Situation, Farbe, Tageslicht ziehen.
Daraus kann der Nutzer auch Rückschlüsse ziehen, die ihm eventuell nicht bewusst sind, derart, z.B. dass er bei einem bestimmten Griff ins Regal, respektive der dazugehörigen rotierenden Bewegung des Handgelenks das Gesicht immer schmerzvoll verzieht. Schiebt er die Schraubendose etwas nach links vermeidet er den Schmerz, den er sich ohne Werkzeug wie das hier erstmals vorgeschlagene Verfahren und System gar nicht bewusst gemacht hätte.
Insbesondere vorteilhaft ist es, wenn die Zuordnungen der Primärdaten von einem individuellen Nutzer personalisiert korrigiert werden, so dass dadurch beispielsweise eine künstliche Intelligenz trainiert werden kann, die dann ihrerseits die Regeln der Zuordnung der Primärdaten personalisiert abändert. Beispielsweise können das Verfahren und das System das wohlgemeinte Lächeln einer Person dann von dem hämischen Grinsen der gleichen Person unterscheiden lernen.
Beispielsweise kann der Nutzer dann auch automatisiert abfragen, in welcher Situation er besonders entspannt, glücklich und/oder zufrieden war.
Der Begriff „Automatik“ oder „automatisch“ oder „automatisiert“ steht hier für einen selbsttätigen, insbesondere einen rechnergestützt selbsttätigen, Ablauf eines oder mehrerer technischer Vorgänge nach einem Code, einem festgelegten Plan und/oder in Bezug auf festgelegte Zustände. Die Bandbreite an automatisierten Abläufen ist dabei so groß wie die Möglichkeiten, die rechnergestützte Verarbeitung von Daten an sich.
Als „Ausgabegerät“ dient beispielsweise ein Monitor, ein Handheld, ein I-Pad, ein Smartphone, ein Drucker, eine Sprachausgabe, etc.
Je nach Ausgabegerät kann die Form des „Berichts“ ein Ausdruck, eine Anzeige, eine Sprachausgabe, ein Pop-up-Fenster, eine E-Mail oder sonstige Formen einer Wiedergabe eines Ergebnisses sein.
Die Primärdaten, wie beispielsweise die Audio- und Videodaten einer Filmaufnahme eines Nutzers in einer Situation über einen definierten Zeitraum können natürlich auch direkt mitverfolgt werden und über Wiedergabegeräte zugänglich gemacht werden.
Aufgrund der automatisierten Verarbeitung der Primärdaten zu sekundären Daten kann manuell auch eine Suche nach Mustern, bezogen auf eine Person und/oder eine Situation gezielt gestartet werden.
Vorzugsweise werden die Datensätze, mit denen die KI trainiert wird, gemäß dem weiter oben definierte Verfahren als bereits abgeglichene Ergebnisse erzeugt.
Allgemeine Erkenntnis der Erfindung ist es, dass die bereits zugänglichen Methoden zur Erkennung der emotionalen Grundtendenzen eines Nutzers jede für sich genommen mit Fehlerquellen behaftet sind, diese Fehlerquellen sich aber durch Abgleich der Ergebnisse verschiedener Erkennungs-Methoden untereinander minimieren lassen. Darüber hinaus ist es allgemeine Erkenntnis der vorliegenden Erfindung, dass die Fehlerquellen personalisiert vermieden werden können, indem der individuelle Nutzer sein Gerät auf seine emotionalen Ausdrücke trainiert. In einem weiteren Beispiel kann die KI dann aufgrund des Trainings erweiterte Erkennungsmethoden entwickeln. Im Endeffekt kann eine KI dann einen Nutzer einem bestimmten Cluster zuordnen, wobei die Nutzer ähnlicher „Cluster“ dann auch ohne personalisiertes Einüben eines Systems zutreffender emotional erkannt werden können.
Im Folgenden wird die Erfindung noch anhand einer Figur, die schematisch ein Beispiel für eine Ausführungsform des Systems zur Erkennung der emotionalen Tendenz eines aufgenommenen und/oder durch Sensorik erfassten Nutzers zeigt.
In der Figur ist zentral der Kopf eines Nutzers 1, der tätig ist, gezeigt. Seine bewussten und unbewussten Äußerungen werden durch eine Videokamera 2, eine 360° Kamera 3, ein Mikrofon 4, ein Herzfrequenzmesser 5, beispielsweise in Form einer Smartwatch 6 erfasst. Diese Geräte geben einzeln für sich jeweils Primärdaten über die Datenleitung 7 an einen Server 8 weiter. Im Server werden aus diesen Primärdaten zunächst primäre emotionale Tendenzen errechnet und diese dann abgeglichen. Schließlich errechnet der Server 8 aus den sekundären Daten die sekundären emotionalen Tendenzen während des betrachteten Zeitraums. Über die Datenleitung 9 werden diese Ergebnisse an ein Ausgabegerät 10 weitergeleitet.
Beispielsweise wird durch das Mikrofon 4 anhand der Schlüsselwörter ein gefühlsbetonten Text erkannt, die Videokamera 2 nimmt aber zur Gesichtserkennung eher wütende Gesichtszüge auf und die Stimmerkennung über das Mikrofon 4 schließlich erkennt eine laute und eher zornige Stimme, dann kann das System durch Verarbeitung im Server 8 „Sarkasmus“ als sekundär erkannte emotionale Tendenz zuordnen.
Durch die vorliegende Erfindung wird erstmals ein Verfahren und ein System zur Erkennung der Emotionen eines Nutzers vorgestellt, bei dem nicht jede Erkennungs-Sensorik für sich betrachtet wird, sondern die Einzel-Ergebnisse in Form der primären emotionalen Tendenzen zusammen und in ihrer Kombination eine resultierende, so genannte „sekundär berechnete“ emotionalen Tendenz ergeben, die als Ergebnis der Untersuchung gewertet wird. Nicht nur werden dabei verschiedenste Methoden der Sensorik kombiniert, sondern sie werden gegebenenfalls auch individuell trainiert, also manuell oder automatisiert zugeordnet und/oder interpretiert, wobei ihre Relevanz bezüglich des individuellen Nutzers evaluiert wird. So kann ein entsprechendes Nutzer-Profil erstellt werden.

Claims

Verfahren zur Erkennung der emotionalen Tendenz eines über einen definierten Zeitraum von zwei oder mehr Aufnahme- und/oder Erfassungsgeräten (2,3,4,5,6) aufgenommenen Nutzers (1), folgende Verfahrensschritte umfassend: - Erzeugen von primären Daten des Nutzers pro Aufnahme- und/oder Erfassungsgerät, - Weiterleiten (7) der primären Daten an einen Server (8), - Zusammenfassung der primären Daten im Server (8) zu jeweils primären Datensätzen pro Aufnahme- und/oder Erfassungsgerät (2,3,4,5,6) durch Verarbeitung der primären Daten, - Zuordnung jedes primären Datensatzes einzeln und rechnergestützt, vorzugsweise automatisiert, zu einer oder mehreren primär festgestellten emotionalen Tendenz(en) des Nutzers (1), - Erzeugen sekundärer Daten durch rechnergestütztes und/oder automatisiertes logisches Abgleichen der gleichzeitig aufgetretenen primär festgestellten emotionalen Tendenzen, - Erzeugen eines Ergebnisses in Form einer oder mehrerer sekundärer emotionaler Tendenz(en) des aufgenommenen und/oder erfassten Nutzers (1) durch Verarbeitung der sekundären Daten.
Verfahren nach Anspruch 1, bei dem zumindest drei Aufnahme- und/oder Erfassungsgeräte (2,3,4,5,6) zeitgleich eingesetzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem als primäre Daten Audiodaten des Nutzers (1) erzeugt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem als primäre Daten Videodaten des Nutzers (1) erzeugt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem als primäre Daten Gehirnstrommessungsergebnisse des Nutzers (1) erhoben werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem als primäre Daten Herzfrequenzdaten des Nutzers (1) erhoben werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem als primäre Daten Sprach -oder Textanalysedaten erhoben werden.
System zur Erkennung der emotionalen Tendenz eines aufgenommenen und/oder durch Sensorik erfassten Nutzers (1) zumindest folgende Module umfassend: zumindest zwei Geräte (2,3,4,5,6) zur Aufnahme und/oder Erfassung primärer Daten des Nutzers (1), entsprechende Mittel (7) zur Leitung der so generierten primären Daten an einen Server (8), den Server(8), der die primären Daten verarbeitet, eine Verbindung (9) zwischen dem Server (8) und einem Ausgabegerät (10) und das Ausgabegerät (10) zur Ausgabe des Ergebnisses der rechnergestützten Verarbeitung der sekundären Daten in Form eines Berichts über eine oder mehrere sekundäre emotionale Tendenz(en) des über einen definierten Zeitraum aufgenommenen und/oder erfassten Nutzers (1).
System nach Anspruch 8, bei dem das Aufnahme- und/oder Erfassungsgerät ein Mittel zur Eingabe eines Computers ist.
System nach einem der Ansprüche 8 oder 9, bei dem ein Aufnahme - und/oder Erfassungsgerät eine Kamera ist.
System nach einem der Ansprüche 8 bis 9, bei dem ein Aufnahme - und/oder Erfassungsgerät eine 360° Kamera-Technik umfasst.
System nach einem der Ansprüche 8 bis 10, bei dem ein Aufnahme - und/oder Erfassungsgerät eine Elektroenzephalografie-EEG-Vorrichtung umfasst.
System nach einem der Ansprüche 8 bis 11, bei dem ein Aufnahme - und/oder Erfassungsgerät eine Smartwatch umfasst.
System nach einem der Ansprüche 8 bis 12, bei dem ein Aufnahme - und/oder Erfassungsgerät eine Vorrichtung zur Blickerfassung umfasst.
System nach einem der Ansprüche 8 bis 13, bei dem zumindest ein Modul des Systems mobil ausgeführt ist.