DE102022003320A1

DE102022003320A1 - System zum Vorhersagen von Benutzerbewertungen und Verfahren davon

Info

Publication number: DE102022003320A1
Application number: DE102022003320.8A
Authority: DE
Inventors: Sujay Babruwad; Srikrishna Bhat; Joydeep Medhi
Original assignee: Mercedes Benz Group AG
Current assignee: Mercedes Benz Group AG
Priority date: 2021-09-15
Filing date: 2022-09-09
Publication date: 2023-03-16

Abstract

Die vorliegende Offenbarung stellt ein System und ein Verfahren zum Vorhersagen von Benutzerbewertungen bereit, das umfasst:Erkennen des Gesichts eines Benutzers, der einen gestreamten Satz von Multimediaeinzelbildern betrachtet, und entsprechendes Erzeugen eines ersten Satzes von Datenpaketen, und Extrahieren erster Attribute des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen. Ferner werden die extrahierten ersten Attribute auf einen ersten Datensatz abgebildet, der vordefinierte erste Attribute umfasst, undanschließend berechnet die Emotionserkennungseinheit 312 einen Emotionsindex. Es beinhaltet ebenso das Erkennen zweiter Attribute der Augen des Benutzers, das Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute, und entsprechend berechnet eine Aufmerksamkeitsschätzungseinheit 314 einen Blickindex.Ein gewichteter Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex wird bestimmt und entsprechend eine Benutzerbewertung vorhergesagt und in das Empfehlungssystem 402 eingespeist.

Description

Die vorliegende Offenbarung bezieht sich auf das Gebiet der Multimediatechnologie. Insbesondere stellt die vorliegende Offenbarung ein System zum Vorhersagen der Benutzerbewertung und ein Verfahren davon bereit.
Mit der exponentiellen Entwicklung der topaktuellen Multimediatechnologie können die Benutzer auf mehrere Optionen/Inhalte zugreifen und sich für eine oder mehrere Optionen/Inhalte entscheiden, die ihnen gefallen können. Die Inhaltsanbieter verfolgen den Verlauf, die Bewertungen und die Suchvorgänge, die der Benutzer im Zusammenhang mit verschiedenen Inhalten durchführt, und stellen dem Benutzer auf Wunsch entsprechende Optionen bereit/zeigen ihm diese. Wenn Multimediavorrichtungen einem Benutzer einen oder mehrere Medieninhalte empfehlen, geben sie in herkömmlichen Systemen häufig Empfehlungen auf Grundlage historischer Surf- und Suchdaten ab und empfehlen dem Benutzer einen ähnlichen Medieninhalt.
Darüber hinaus wird es bei der riesigen Menge an Unterhaltungsinhalt im Auto, die in dem Erwerbsladen verfügbar sind, schwierig, den Kunden den richtigen Inhalt zu zeigen und Einnahmen aus dem Kauf zu erzeugen. Herkömmliche Systeme, wie sie in 1A bis 1C veranschaulicht sind, stützen sich auf explizite und implizite Eingaben der Benutzer, um ein Benutzerprofil zu erstellen, das dann von einem Empfehlungsmodul verwendet wird, um die wahrscheinliche Empfehlungsliste vorherzusagen. In einem Beispiel können explizite Eingaben Benutzerbewertungen sein, und können implizite Eingaben sich auf Faktoren beziehen wie mit welchem Inhalt der Benutzer die meiste Zeit verbracht hat, die Anzahl der Klicks und Ähnliches.
Allerdings kann es manchmal schwierig sein, eine explizite Bewertung von dem Benutzer zu erhalten, da der Benutzer vielleicht nicht interessiert ist oder keine Zeit hat, den Inhalt zu bewerten, oder aufgrund von Problemen wie einer voreingenommenen Bewertung, d. h., der Benutzer mag den Inhalt insgesamt nicht, jedoch könnten ihm einige Funktionen des Inhalts gefallen haben, oder aufgrund einer ungenauen Bewertung, d. h., der Benutzer könnte einfach eine Bewertung ankreuzen, ohne viel zu überlegen. Außerdem aktualisieren herkömmliche Systeme die Bewertungen nicht, wenn ein Produkt im Laufe der Zeit mehrfach verwendet wird. Der emotionale Zustand des Benutzers zu dem Zeitpunkt der Bewertung wird möglicherweise nicht berücksichtigt und kann falsche Empfehlungen auslösen. Der Benutzer könnte den Inhalt für das Gesamterlebnis des Inhalts bewertet haben, ihn jedoch nur wegen eines bestimmten Schauspielers/einer bestimmten Schauspielerin/einer bestimmten Szene in dem Film ansehen wollen. Diese besonderen instanzbasierten Metadaten werden vernachlässigt, wenn der Benutzer den Inhalt explizit bewertet. Die Benutzerbewertung wird nicht aus der tatsächlichen Nutzungserfahrung des Benutzers extrahiert, sondern beschränkt sich nur auf die manuelle Rückmeldung des Benutzers. Die Körperhaltung/der Gesichtsausdruck während des Inhaltskonsums ist am Ende wertvoller als nur eine skalare Bewertung.
Das Patentdokument WO2020220180A1 offenbart ein Verfahren und eine Vorrichtung für die Empfehlung von Medieninhalt. Das Verfahren umfasst: wenn Medieninhalt abgespielt wird, Erhalten von Reaktionszustandsinformationen eines Benutzers, wobei die Reaktionszustandsinformationen wenigstens eine der folgenden Arten von Informationen umfassen: Bildinformationen des Benutzers, die durch eine Bilderfassungsvorrichtung erhalten werden, oder Toninformationen des Benutzers, die durch eine Tonerfassungsvorrichtung erhalten werden; und Erhalten von Kommentarinformationen des Benutzers für Medieninhalt gemäß den Reaktionszustandsinformationen, wobei die Kommentarinformationen als eine Grundlage für das Empfehlen eines anderen Medieninhalts an den Benutzer verwendet werden. Die vorliegenden Ausführungsformen können anhand der Bildinformationen oder Toninformationen des Benutzers genau bestimmen, ob sich der Benutzer für den aktuell abgespielten Medieninhalt interessiert, wobei dadurch dem Benutzer ein Programm empfohlen werden kann, für das er sich interessiert, um so die Genauigkeit der Medieninhaltsempfehlung zu verbessern.
Das Patentdokument EP3009979A1 offenbart ein System und ein Verfahren zum Empfehlung von Inhalt für einen Benutzer auf Grundlage der Interessen des Benutzers. In dem Dokument umfasst das Verfahren das Empfangen wenigstens eines Bildes des Benutzers und das Analysieren des wenigstens einen Bildes, um ein oder mehrere Gesichtsattribute des Benutzers zu bestimmen. Das Verfahren umfasst ferner das Verarbeiten des wenigstens einen Bildes, um die Blickparameter des Benutzers zu bestimmen, das Bestimmen eines Objekts von Interesse des Benutzers auf Grundlage der Blickparameter und das Abrufen von Eigenschaften des Objekts von Interesse. Das Verfahren umfasst ferner das Ermitteln eines dem Benutzer zugeordneten emotionalen Index auf Grundlage der Gesichtsattribute und das Erzeugen von Empfehlungen des Inhalts für den Benutzer teilweise auf Grundlage des emotionalen Index und der Eigenschaften des Objekts von Interesse.
Es besteht daher die Notwendigkeit, eine effiziente, optimale und kostengünstige Lösung bereitzustellen, die die vorstehend genannten Einschränkungen vermeidet und optimale Empfehlungen durch eine effektive und zuverlässige Vorhersage der Benutzerbewertung bereitstellt.
Eine allgemeine Aufgabe der vorliegenden Offenbarung ist es, ein einfaches und effizientes System und Verfahren bereitzustellen, das die vorstehend erwähnten Einschränkungen herkömmlicher Systeme und Verfahren umgeht und optimale Empfehlungen durch eine effektive und zuverlässige Vorhersage der Benutzerbewertung bereitstellt.
Eine Aufgabe der vorliegenden Offenbarung ist es, ein System und ein Verfahren zum automatischen Extrahieren von Benutzerbewertungen bereitzustellen, wenn ein Benutzer den Inhalt konsumiert, wodurch jegliche Notwendigkeit, den Inhalt manuell/explizit zu bewerten, vermieden wird.
Eine weitere Aufgabe der vorliegenden Offenbarung ist es, ein System und Verfahren zum Berechnen einer Aufmerksamkeitspunktbewertung anhand der Blickwerte des Benutzers auf dem Bildschirm bereitzustellen.
Eine weitere Aufgabe der vorliegenden Offenbarung ist es, ein System und Verfahren zum dynamischen Aktualisieren der Benutzerbewertung im Laufe der Zeit auf Grundlage der Nutzung mehrerer Inhalte bereitzustellen.
Aspekte der vorliegenden Offenbarung beziehen sich auf das Gebiet der Multimediatechnologie. Insbesondere stellt die vorliegende Offenbarung ein System zum Vorhersagen der Benutzerbewertung und ein Verfahren davon bereit.
Ein Aspekt der vorliegenden Offenbarung betrifft ein System zum Vorhersagen der Benutzerbewertung, wobei das System umfasst: eine Anzeigeeinheit, die dazu konfiguriert ist, Sätze von Multimediaeinzelbildern zu streamen; und eine mit einer Lernmaschine gekoppelte Abtasteinheit, wobei die Abtasteinheit einen oder mehrere Prozessoren umfasst, wobei der eine oder die mehreren Prozessoren betriebsfähig mit einem Speicher gekoppelt sind, wobei der Speicher Anweisungen speichert, die von dem einen oder den mehreren Prozessoren ausgeführt werden können, zum: Erkennen des Gesichts eines Benutzers, der die gestreamten Sätze von Multimediaeinzelbildern betrachtet, und entsprechendes Erzeugen eines ersten Satzes von Datenpaketen; Extrahieren von ersten Attributen des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen; Abbilden der extrahierten ersten Attribute auf einen ersten Datensatz, der vordefinierte erste Attribute umfasst, und anschließendes Berechnen eines Emotionsindex; Erkennen von zweiten Attributen der Augen des Benutzers, Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute und entsprechendes Berechnen eines Blickindex; Bestimmen eines gewichteten Durchschnitts des berechneten Emotionsindex und des berechneten Blickindex und entsprechendes Vorhersagen einer Benutzerbewertung.
In einem Aspekt kann das System das Mitteln der vorhergesagten Benutzerbewertung mit einer expliziten Benutzerbewertung erleichtern; wobei das System eine oder mehrere Empfehlungen unter Berücksichtigung der gemittelten Bewertung bereitstellt.
In einem Aspekt kann das System dazu konfiguriert sein, wenigstens eine Gesichtsregion aus dem erkannten Gesicht zu finden, und eine Emotionsregion wird entsprechend der wenigstens einen gefundenen Gesichtsregion vorhergesagt.
In einem Aspekt kann das System einen zweiten Datensatz umfassen, der vordefinierte Grundwahrheitsemotionen pro Einzelbild umfasst; und wobei der vorhergesagte Emotionsbereich als Reaktion auf jedes Einzelbild aus den gestreamten Sätzen von Multimediaeinzelbildern mit dem zweiten Datensatz verglichen wird und dementsprechend der Emotionsindex berechnet werden kann.
In einem Aspekt kann das System einen dritten Datensatz umfassen, der einen vordefinierten Grundwahrheitsblick pro Einzelbild umfasst; und wobei ein Aufmerksamkeitsschätzungsindex unter Berücksichtigung eines Abstands zwischen dem geschätzten Einzelblick und dem vordefinierten Grundwahrheitsblick in Form von Pixeln bestimmt werden kann.
In einem Aspekt wird ein erstes Gewicht für den Emotionsindex und ein zweites Gewicht für den Blickindex definiert, und wobei der gewichtete Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung des ersten Gewichts und des zweiten Gewichts bestimmt werden kann.
In einem Aspekt kann das System dazu konfiguriert sein, eine endgültige Benutzerbewertung auf Grundlage eines gewichteten Durchschnitts der in Echtzeit vorhergesagten Benutzerbewertung und der zuvor vorhergesagten Benutzerbewertung zu berechnen.
In einem Aspekt kann die Lernmaschine mit einem langen Kurzzeitgedächtnis (Long Short-term memory, LSTM) und einem Modul für ein faltendes neuronales Netzwerk (Convolutional Neural Network, CNN) ausgestattet sein.
Ein weiterer Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Vorhersagen der Benutzerbewertung, wobei das Verfahren umfasst: Erkennen an einem Prozessor des Gesichts eines Benutzers, der einen gestreamten Satz von Multimediaeinzelbildern betrachtet, und entsprechendes Erzeugen eines ersten Satzes von Datenpaketen; Extrahieren an dem Prozessor erster Attribute des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen; Abbilden an dem Prozessor der extrahierten ersten Attribute auf einen ersten Datensatz, der vordefinierte erste Attribute umfasst, und anschließendes Berechnen eines Emotionsindex; Erkennen an dem Prozessor zweiter Attributen der Augen des Benutzers, Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute und entsprechendes Berechnen eines Blickindex; und Bestimmen an dem Prozessor eines gewichteten Durchschnitts des berechneten Emotionsindex und des berechneten Blickindex und entsprechendes Vorhersagen einer Benutzerbewertung.
In einem Aspekt kann das Verfahren das Definieren eines ersten Gewichts für den Emotionsindex und eines zweiten Gewichts für den Blickindex umfassen, und wobei der gewichtete Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung des ersten Gewichts und des zweiten Gewichts bestimmt wird. Verschiedene Aufgaben, Merkmale, Aspekte und Vorteile des Erfindungsgegenstandes werden aus der folgenden ausführlichen Beschreibung bevorzugter Ausführungsformen zusammen mit den beigefügten Zeichnungen, in denen gleiche Ziffern gleiche Komponenten darstellen, deutlicher.
Die beigefügten Zeichnungen sind beinhaltet, um ein weiteres Verständnis der vorliegenden Offenbarung bereitzustellen, und sind in diese Patentschrift einbezogen und bilden einen Teil dieser. Die Zeichnungen veranschaulichen beispielhafte Ausführungsformen der vorliegenden Offenbarung und dienen zusammen mit der Beschreibung für die Erläuterung der Grundsätze der vorliegenden Offenbarung.

1A bis 1C veranschaulichen Diagramme, die das Erhalten einer Empfehlungsliste und die Funktionsweise eines herkömmlichen Systems darstellen.
2 veranschaulicht eine beispielhafte Architektur des vorgeschlagenen Systems zum Vorhersagen der Benutzerbewertung, um seine allgemeine Funktionsweise in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung zu veranschaulichen.
3 veranschaulicht beispielhafte Funktionseinheiten der Abtasteinheit in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
4 veranschaulicht eine detaillierte Ansicht der Funktionseinheiten der Abtasteinheit in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
5 veranschaulicht eine LSTM-auf-CNN-Einheit in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
6 veranschaulicht ein inhaltsbasiertes Diagramm in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
7 veranschaulicht die Funktionsweise der Aufmerksamkeitsschätzungseinheit in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
8 veranschaulicht die Ausbildung eines beispielhaften Vektors für die endgültige Benutzerbewertung in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
9 veranschaulicht ein Flussdiagramm für die Schätzung des auf In-the-wild-Aussehen basierten Blicks unter Verwendung von CNN in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
10 ist ein Flussdiagramm, das das vorgeschlagene Verfahren für die Vorhersage der Benutzerbewertung in Übereinstimmung einer Ausführungsform der vorliegenden Offenbarung darstellt.
11 zeigt ein beispielhaftes Computersystem, in dem oder mit dem Ausführungsformen der vorliegenden Erfindung in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung genutzt werden können.

Es folgt eine ausführliche Beschreibung der in den beigefügten Zeichnungen dargestellten Ausführungsformen der Offenbarung. Die Ausführungsformen sind so ausführlich, um die Offenbarung klar zu vermitteln. Es ist jedoch nicht beabsichtigt, durch die Menge der angebotenen Details die vorhersehbaren Variationen von Ausführungsformen einzuschränken; im Gegenteil, die Absicht ist, alle Modifikationen, Äquivalente und Alternativen abzudecken, die in den Geist und den Umfang der vorliegenden Offenbarungen fallen, wie durch die beigefügten Ansprüche definiert. Die hierin erläuterten Ausführungsformen beziehen sich auf das Gebiet der Multimediatechnologie. Insbesondere stellt die vorliegende Offenbarung ein System zum Vorhersagen der Benutzerbewertung und ein Verfahren davon bereit.
Unter Bezugnahme auf 2 kann eine beispielhafte Netzwerkarchitektur des vorgeschlagenen Systems 200 (hierin austauschbar als System 200 bezeichnet) in ein Fahrzeug eingebaut werden, um Empfehlungen für einen Unterhaltungsinhalt bereitzustellen. Das System 200 kann eine Anzeigeeinheit 202 beinhalten, die dazu konfiguriert ist, Sätze von Multimediaeinzelbildern zu streamen. In einer veranschaulichenden Ausführungsform kann ein Benutzer die gestreamten Sätze von Multimediaeinzelbildern betrachten.
In einer Ausführungsform kann das System 200 eine Abtasteinheit 206 beinhalten, die auf dem Fahrzeug derart positioniert ist, dass sie das Gesicht des Benutzers, der die gestreamten Sätze von Multimediaeinzelbildern betrachtet, leicht erkennen kann, und entsprechend einen ersten Satz von Datenpaketen erzeugen kann. In einer anderen Ausführungsform kann das System 200 ein Lernmodul 210 beinhalten, das mit der Abtasteinheit 206 betriebsfähig gekoppelt ist. In einer beispielhaften Ausführungsform kann das Lernmodul 210 mit einem langen Kurzzeitgedächtnis (LSTM) und einem Modul für ein faltendes neuronales Netzwerk (CNN) ausgestattet sein, die ein effizientes und schnelleres Lernen ermöglichen und dadurch eine genaue und zuverlässige Ausgabe bereitstellen können.
In einer Ausführungsform kann die Abtasteinheit 206 erste Attribute des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen extrahieren und kann die extrahierten ersten Attribute ferner auf einen ersten Datensatz, der vordefinierte erste Attribute beinhaltet, abbilden. In noch einer weiteren Ausführungsform kann die Abtasteinheit 206 einen Emotionsindex auf Grundlage der Abbildung der extrahierten ersten Attribute auf den ersten Datensatz berechnen. In einer beispielhaften Ausführungsform können die ersten Attribute (Merkmale) des erkannten Gesichts Gesichtsregionen, Gefühlsregionen, Ausdrücke und Emotionen beinhalten, ohne jedoch darauf beschränkt zu sein.
In einer Ausführungsform kann das System 200 wenigstens eine Gesichtsregion aus dem erkannten Gesicht finden, und ferner kann das System 200 eine Emotionsregion vorhersagen, die der wenigstens einen gefundenen Gesichtsregion entspricht.
In einer Ausführungsform kann die Abtasteinheit 206 die Augen des Benutzers erfassen und kann zweite Attribute der erfassten Augen erkennen. Ferner kann die Abtasteinheit 206 den Blick der Augen auf Grundlage der erkannten zweiten Attribute schätzen und dementsprechend einen Blickindex berechnen. In einer beispielhaften Ausführungsform können die ersten Attribute (Merkmale) der erfassten Augen die Konzentration, den Fokus und die Blinzelrate der Augen beinhalten, ohne jedoch darauf beschränkt zu sein.
In einer Ausführungsform kann das System 200 das Mitteln der vorhergesagten Benutzerbewertung mit einer expliziten Benutzerbewertung erleichtern, wobei das System 200 ferner eine oder mehrere Empfehlungen unter Berücksichtigung der gemittelten Bewertung bereitstellen kann.
In einer anderen Ausführungsform kann das System 200 eine endgültige Benutzerbewertung berechnen, die auf einem gewichteten Durchschnitt der in Echtzeit vorhergesagten Benutzerbewertung und der zuvor vorhergesagten Benutzerbewertung basiert, und kann dementsprechend die eine oder die mehreren Empfehlungen bereitstellen.
Gemäß einer Ausführungsform kann die Abtasteinheit 206 über ein Netzwerk 204 mit dem Lernmodul 210 kommunizieren. Ferner kann das Netzwerk 204 ein drahtloses Netzwerk, ein kabelgebundenes Netzwerk oder eine Kombination davon sein, das als eine der verschiedenen Arten von Netzwerken implementiert werden kann, wie Intranet, lokales Netzwerk (LAN), Weitverbundnetz (WAN), Internet und dergleichen. Ferner kann das Netzwerk 204 entweder ein dediziertes Netzwerk oder ein gemeinsam genutztes Netzwerk sein.
Unter Bezugnahme auf 3 können beispielhafte Funktionseinheiten der Abtasteinheit 206 einen oder mehrere Prozessoren 302 beinhalten. Der eine oder die mehreren Prozessoren 302 kann/können als ein oder mehrere Mikroprozessoren, Mikrocomputer, Mikrocontroller, digitale Signalprozessoren, zentrale Verarbeitungseinheiten, Logikschaltungen und/oder beliebige Vorrichtungen, die Daten auf Grundlage von Betriebsanweisungen verarbeiten, implementiert werden. Neben anderen Fähigkeiten ist/sind der eine oder die mehreren Prozessoren 302 dazu konfiguriert, computerlesbare Anweisungen abzurufen und auszuführen, die in einem Primärspeicher 304 des Systems 200 gespeichert sind. Der Primärspeicher 304 kann eine oder mehrere computerlesbare Anweisungen oder Routinen speichern, die abgerufen und ausgeführt werden können, um die Dateneinheiten über einen Netzwerkdienst zu erstellen oder gemeinsam zu nutzen. Der Primärspeicher 304 kann eine beliebige nichtflüchtige Sekundärspeichervorrichtung beinhalten, beispielsweise einschließlich eines flüchtigen Primärspeichers wie RAM oder eines nichtflüchtigen Primärspeichers wie EPROM, Flash-Primärspeicher und dergleichen.
In einer Ausführungsform kann die Abtasteinheit 206 ebenso eine Schnittstelle(n) 306 beinhalten. Die Schnittstelle(n) 306 kann/können eine Mehrzahl von Schnittstellen beinhalten, beispielsweise Schnittstellen für Dateneingabe- und -ausgabevorrichtungen, die als E/A-Vorrichtungen bezeichnet werden, Sekundärspeichervorrichtungen und dergleichen. Die Schnittstelle(n) 306 kann/können die Kommunikation der Abtasteinheit 206 mit verschiedenen Vorrichtungen, die mit der Abtasteinheit 206 gekoppelt sind, erleichtern. Die Schnittstelle(n) 306 kann/können ebenso einen Kommunikationsweg für eine oder mehrere Komponenten der Abtasteinheit 206 bereitstellen. Beispiele für solche Komponenten beinhalten, ohne jedoch darauf beschränkt zu sein, Verarbeitungsmodul(e) 308 und die Datenbank 310.
In einer Ausführungsform kann/können das/die Verarbeitungsmodul(e) 308 als eine Kombination aus Hardware und Programmierung (beispielsweise programmierbare Anweisungen) implementiert werden, um eine oder mehrere Funktionalitäten des/der Verarbeitungsmoduls/Verarbeitungsmodule 308 zu implementieren. In den hierin beschriebenen Beispielen können solche Kombinationen von Hardware und Programmierung auf verschiedene Weise realisiert werden. Beispielsweise kann die Programmierung für das/die Verarbeitungsmodul(e) 308 aus prozessorausführbaren Anweisungen bestehen, die auf einem nichtflüchtigen, maschinenlesbaren Sekundärspeichermedium gespeichert sind, und kann die Hardware für das/die Verarbeitungsmodul(e) 308 eine Verarbeitungsressource (beispielsweise einen oder mehrere Prozessoren) beinhalten, um solche Anweisungen auszuführen. In den vorliegenden Beispielen kann das maschinenlesbare Sekundärspeichermedium Anweisungen speichern, die, wenn sie von der Verarbeitungsressource ausgeführt werden, das/die Verarbeitungsmodul(e) 308 implementieren. In solchen Beispielen kann die Abtasteinheit 206 das maschinenlesbare Sekundärspeichermedium, auf dem die Anweisungen gespeichert sind, und die Verarbeitungsressource für die Ausführung der Anweisungen beinhalten, oder kann das maschinenlesbare Sekundärspeichermedium separat sein, jedoch für das System 200 und die Verarbeitungsressource zugänglich sein. In anderen Beispielen kann/können das/die Verarbeitungsmodul(e) 308 durch elektronische Schaltungen implementiert werden. Die Datenbank 310 kann Daten beinhalten, die entweder gespeichert oder als ein Ergebnis von Funktionalitäten erzeugt werden, die von einer der Komponenten der Verarbeitungsmaschine(n) 308 implementiert werden. In einer Ausführungsform kann/können das/die Verarbeitungsmodul(e) 308 eine Emotionserkennungseinheit 312, eine Aufmerksamkeitsschätzungseinheit 314, eine gewichtete Durchschnittsberechnungseinheit 316 und andere Einheiten(en) 320 beinhalten. Die andere(n) Einheit(en) 320 kann/können Funktionen implementieren, die die von der Abtasteinheit 206 ausgeführten Anwendungen/Funktionen ergänzen.
In einer Ausführungsform kann die Emotionserkennungseinheit 312 das Gesicht eines Benutzers erkennen, der die gestreamten Sätze von Multimediaeinzelbildern betrachtet, und dementsprechend den ersten Satz von Datenpaketen erzeugen, und kann dann aus dem ersten Satz von Datenpaketen die ersten Attribute des erkannten Gesichts extrahieren. In einer anderen Ausführungsform kann die Emotionserkennungseinheit 312 die extrahierten ersten Attribute auf den ersten Datensatz abbilden und kann anschließend einen Emotionsindex berechnen.
In einer anderen Ausführungsform kann die Emotionserkennungseinheit 312 wenigstens eine Gesichtsregion aus dem erkannten Gesicht finden, und es kann eine Emotionsregion vorhergesagt werden, der der wenigstens einen gefundenen Gesichtsregion entspricht. In noch einer weiteren Ausführungsform kann die Emotionserkennungseinheit 312 einen zweiten Datensatz mit vordefinierten Grundwahrheitsemotionen pro Einzelbild beinhalten, und wobei die Emotionserkennungseinheit 312 die vorhergesagte Emotionsregion als Reaktion auf jedes Einzelbild aus den gestreamten Sätzen von Multimediaeinzelbildern mit dem zweiten Datensatz vergleichen kann, und dementsprechend kann der Emotionsindex berechnet werden.
In einer Ausführungsform kann die Aufmerksamkeitsschätzungseinheit 314 zweite Attribute der Augen des Benutzers erkennen, den Blick der Augen auf Grundlage der erkannten zweiten Attribute schätzen und dementsprechend einen Blickindex berechnen. In einer anderen Ausführungsform kann die Aufmerksamkeitsschätzungseinheit 314 einen dritten Datensatz beinhalten, der einen vordefinierten Grundwahrheitsblick pro Einzelbild enthält, und wobei die Aufmerksamkeitsschätzungseinheit 314 einen Aufmerksamkeitsschätzungsindex bestimmen kann, der einen Abstand zwischen dem geschätzten Blick und dem vordefinierten Grundwahrheitsblick in Form von Pixeln berücksichtigt.
In einer Ausführungsform kann die Recheneinheit 316 für den gewichteten Durchschnitt einen gewichteten Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex bestimmen und dementsprechend eine Benutzerbewertung vorhersagen. In einer anderen Ausführungsform kann die gewichtete Durchschnittsberechnungseinheit 316 das Mitteln der vorhergesagten Benutzerbewertung mit einer expliziten Benutzerbewertung erleichtern und kann ferner eine oder mehrere Empfehlungen unter Berücksichtigung der gemittelten Bewertung bereitstellen.
In einer anderen Ausführungsform kann die Recheneinheit 316 für den gewichteten Durchschnitt eine erste Gewichtung für den Emotionsindex und eine zweite Gewichtung für den Blickindex definieren und kann dadurch den gewichteten Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung des ersten Gewichts und des zweiten Gewichts bestimmen. In einer anderen Ausführungsform kann die Recheneinheit 316 für den gewichteten Durchschnitt einen gewichteten Durchschnitt der in Echtzeit vorhergesagten Benutzerbewertung und der zuvor vorhergesagten Benutzerbewertung bestimmen und kann dementsprechend eine endgültige Benutzerbewertung auf Grundlage eines gewichteten Durchschnitts der in Echtzeit vorhergesagten Benutzerbewertung und der zuvor vorhergesagten Benutzerbewertung berechnen.
Unter Bezugnahme auf 4, kann die Emotionserkennungseinheit 312 eine Gesichtserkennung eines Benutzers durchführen, der Videoeinzelbilder betrachtet, die von der Anzeigeeinheit 202 gestreamt werden, und kann ferner eine Merkmalsextraktion aus dem erkannten Gesicht pro Einzelbild unter Verwendung von CNN-Modulen durchführen, die in dem LSTM verarbeitet werden können. Darüber hinaus kann ein Gesamtemotionsindexrechner den Emotionsindex unter Verwendung der verarbeiteten Daten, die aus dem LSTM erhalten werden, berechnen. In einer Ausführungsform kann die Aufmerksamkeitsschätzungseinheit 314 die Augen des Benutzers erkennen und kann dementsprechend den Blick der Augen schätzen. Ferner kann der Gesamtblickindexrechner den Blickindex der Augen unter Berücksichtigung des geschätzten Blicks der Augen berechnen.
Ferner kann eine Benutzerbewertung vorhergesagt werden, wobei die Benutzerbewertung dem gewichteten Durchschnitt der Emotions- und Aufmerksamkeitspunktbewertung (Indizes) entsprechen kann. Darüber hinaus kann eine durchschnittliche Bewertung unter Berücksichtigung der vorausgesagten Benutzerbewertung und der expliziten Benutzerbewertung berechnet werden. In einer anderen Ausführungsform kann die berechnete Durchschnittsbewertung in ein Standard-Empfehlungsmodul 404 eingespeist werden, das den Kunden bei dem Kauf oder der Miete eines Unterhaltungsinhalts/ - erlebnisses in dem Laden unterstützen kann, der nach dem Kauf online verfügbar gemacht wird. Ferner können die Inhalte über das Internet/über Funk auf das Auto des Kunden heruntergeladen werden.
Unter Bezugnahme auf 5 kann das System 200 eine LSTM-Architektur 502 beinhalten, die mit einem oder mehreren CNN-Modulen 504-1, 504-2...504-(N-1) und 504-N (hierin gemeinsam als CNN 504 und einzeln als CNN 504 bezeichnet) gekoppelt ist, die Eingabeeinzelbilder verarbeiten können, die das Gesicht des Benutzers enthalten, und einen Merkmalsvektor ausbilden können. In einer Ausführungsform kann das System 200 ein Inhaltserlebnis für bestimmte Gefühlsregionen vordefinieren und kann dies als Grundwahrheit für die Berechnung der Benutzerbewertung betrachtet werden.
In einer beispielhaften Ausführungsform kann ein Gesichtserkennungsalgorithmus verwendet werden, um die Gesichtsregionen zu finden, und dann können die Gesichtsregionen dem CNN 504 und dem LSTM 502 zugeführt werden, um die Emotionsregionen zu finden. Hier können die Merkmale des Gesichts des Benutzers unter Verwendung eines CNN 504 extrahiert werden. Die von dem CNN 504 extrahierten Merkmale können als Eingaben an den LSTM 502 weitergeleitet werden, der verschiedene Emotionen als Ausgabe bereitstellen kann, wie Überraschung, Freude, Traurigkeit, Wut, Angst, Ekel und dergleichen.
Unter Bezugnahme auf 6, können für jeden Inhalt die Grundwahrheitsemotionen pro Einzelbild von Expertenkommentatoren vordefiniert werden. In einer Ausführungsform können die vorhergesagten Emotionsregionen mit den Inhaltsgrundwahrheiten verglichen werden, um den Emotionsindex zu erhalten. In einer Ausführungsform kann der endgültige Emotionsindex berechnet werden als $\begin{array}{l} Endg \ddot{u} ltiger Emotionsindex = (Anzahl der richtingen Einzelbildvorhersagen/Gesamt- \\ GT) * 10 \end{array}$

- Der Wert des endgültigen Emotionsindex kann im Bereich zwischen 0-10 liegen.

Unter Bezugnahme auf 7 kann die Blickabschätzung auf die übliche Weise erfolgen, wie bereits erläutert, um die (x,y)-Stelle des Blicks auf dem Bildschirm der Anzeigeeinheit 202 zu finden, die für die Anzeige des Inhalts verwendet wird. In einer veranschaulichenden Ausführungsform kann für jeden Inhalt der Grundwahrheitsblick pro Einzelbild von Expertenkommentatoren vordefiniert werden.
In einer Ausführungsform kann der (Gesamt-)Aufmerksamkeitsschätzungsindex wie folgt angegeben werden:

Vorausgesagte Blickwerte (x,y) - Pt(x,y)
Grundwertblickwerte (x,y) - Gt(x,y)

Dann wird der Abstand zwischen Pt(x,y) und Gt(x,y) berechnet. $\begin{array}{l} Abstand (Pt (x,y), Gt (x,y)) < 20 Pixel - Punktbewertung = 10 \\ 20 Pixel < Abstand (Pt (x,y), Gt (x,y)) < 40 Pixel - Punktbewertung = 5 \\ Abstand (Pt (x,y), Gt (x,y)) > 40 Pixel - Punktbewertung = 0. \end{array}$
In einer Ausführungsform ist der Aufmerksamkeitsindex = Summe aller Punktbewertungen (Index) pro Einzelbild/Anzahl der Einzelbilder. In einer anderen Ausführungsform der endgültige Aufmerksamkeitsindex (Wert zwischen 0-10).
Ferner kann die Benutzerbewertung vorhergesagt werden als $\begin{array}{l} Vorhergesagte Benutzerbewertung (Pt) = gewichteter Durchschnitt der \\ Punktbewertung f \ddot{u} r Emotion und Aufmerksamkeit \\ = (w 1 * (Emotionsindex) + w 2 * (Aufmerksamkeitsindex)) / (w 1 + w 2) \end{array}$
In einer beispielhaften Ausführungsform können die Gewichte w1 und w2 auf Grundlage des Vorwissens über den Inhalt - aus der Erfahrung von Experten/früheren Benutzerempfehlungen - vorausgewählt werden. In einer beispielhaften Ausführungsform kann standardmäßig w1 = w2 = 1 ausgewählt werden.
In einer anderen Ausführungsform kann die endgültige Benutzerbewertung vorhergesagt werden als
Endgültige vorhergesagte Benutzerbewertung = gewichteter Durchschnitt aus vorhergesagter Bewertung und der zuvor vorhergesagten Bewertung. $Endg \ddot{u} ltige Pt = β * ({Pt}_{prev}) + (1 - β) * Pt$

- wobei der β-Wert einstellbar ist, um die vorherigen Interaktionen mit dem Inhalt zu gewichten (Bereich 0 bis 1).

Standard β = 0,4, wobei Pt stärker gewichtet wird (d. h. 40 % für die vorherige Bewertung und 60 % für die aktuelle Bewertung), Pt - aktuelle vorhergesagte Bewertung und Pt_prev - vorherige vorhergesagte Bewertung.
In noch einer weiteren Ausführungsform, wenn eine explizite Benutzerbewertung vorliegt, kann die endgültige Benutzerbewertung vorhergesagt werden als $\begin{array}{l} Endg \ddot{u} ltige Benutzerbewertung = gewichteter Durchschnitt aus vorhergesagter \\ expliziter Benutzerbewertung \\ = (w 3 * (Endg \ddot{u} ltige vorhergesagte Benutzerbewertung) + w 4 * (Explizite \\ Benutzerbewertung)) / (w 3 + w 4) \end{array}$

- wobei w3 und w4 einstellbare Parameter sind.

In einer beispielhaften Ausführungsform gilt standardmäßig w3 = w4 = 1 (gleiche Bedeutung für sowohl die vorhergesagte als auch die explizite Benutzerbewertung). Falls jedoch keine explizite Benutzerbewertung vorliegt, dann - Endgültige Benutzerbewertung = Vorhergesagte Benutzerbewertung.
Unter Bezugnahme auf 8 kann ein endgültiger Benutzerbewertungsvektor durch das System 200 für das Bereitstellen von Empfehlungen verwendet werden. Die verschiedenen Inhaltsmerkmale, die die Grundwahrheitskriterien ausbilden - Schauspieler, Musik, Dialog, vierteljährliche Bewertungen, die die teilweise Nutzung des Inhalts erfassen - bilden zusammen den endgültigen Benutzerbewertungsvektor aus, der als Eingabe in den Empfehlungsalgorithmus eingespeist wird. Auf diesem Weg, selbst wenn die Gesamtbewertung der Hauptmerkmale, wenn niedrig, können Bewertungen für einen bestimmten Inhalt aufweisen, die höher sein können. Beispielsweise wenn der Film eine Gesamtbewertung von 2,5 von 10 unter Verwendung der Berechnung der Emotions-/Aufmerksamkeitsbewertung erhält. Die für das Attribut „Musik“ berechnete Bewertung kann noch höher ausfallen (9,5/10). Auf diese Weise kann das System 200 die Interessen des Benutzers besser verstehen, wenn es den endgültigen Benutzerbewertungsvektor an das Empfehlungsmodul 402 weitergibt.
In einer beispielhaften Ausführungsform werden zunächst Videoeinzelbilder eingegeben, die Bilder des Benutzers enthalten, beispielsweise mit der Bildgröße HD 1280 X 720 (x,y). Dann können die Bilder für die Emotionserkennung an ein Gesichtserkennungsmodul weitergeleitet werden, um das Gesicht des Benutzers (der Person) zu beschneiden. Hier kann das Gesichtsbild auf Abmessungen von 256 X 256 verkleinert werden. Dann kann das Gesichtsbild an ein Standard-CNN-Modul wie ResNet oder Inceptionv3 weitergegeben werden, und schließlich kann ein Ausgangsmerkmalvektor erhalten werden, der beispielsweise ein 1024-dimensionaler Vektor sein kann. Diese Merkmalsvektoren können für jedes Einzelbild in dem Video berechnet werden.
Unter Bezugnahme auf 9 kann für die Aufmerksamkeitsschätzung ein Eingangsbild von 1280 X 720 an die Aufmerksamkeitsschätzungseinheit 314 zugeführt werden, wo die Gesichts- und Landmarkenerkennung durchgeführt werden kann, um das Gesichtsbegrenzungsfeld und die Augenpositionen zu erhalten. Diese Daten können an das CNN weitergegeben werden, und dadurch kann ein Blickwinkelvektor ,g' in die Bildschirmkoordinaten (Bildschirm_xp, Bildschirm_yp) umgewandelt werden. Schließlich kann die endgültige Aufmerksamkeitspunktbewertung berechnet werden.
Unter Bezugnahme auf 10 kann das vorgeschlagene Verfahren 1000 (hierin ebenso als Verfahren 1000 bezeichnet) in Block 1002 in einem Prozessor das Erkennen des Gesichts eines Benutzers, der einen gestreamten Satz von Multimediaeinzelbildern betrachtet, und das entsprechende Erzeugen eines ersten Satzes von Datenpaketen beinhalten. In einer Ausführungsform kann das Verfahren 1000 in Block 1004 in dem Prozessor das Extrahieren erster Attribute des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen und in Block 1006 in dem Prozessor das Abbilden der extrahierten ersten Attribute auf einen ersten Datensatz, der vordefinierte erste Attribute enthält, und das anschließende Berechnen eines Emotionsindex beinhalten.
In einer Ausführungsform kann das Verfahren 1000 in Block 1008 in dem Prozessor das Erkennen zweiter Attribute der Augen des Benutzers, das Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute und das entsprechende Berechnen eines Blickindex beinhalten. In einer anderen Ausführungsform kann das Verfahren 1000 in Block 1010 in dem Prozessor das Bestimmen eines gewichteten Durchschnitts des berechneten Emotionsindex und des berechneten Blickindex und das entsprechende Vorhersagen einer Benutzerbewertung beinhalten.
In einer Ausführungsform kann das Verfahren 1000 das Definieren eines ersten Gewichts für den Emotionsindex und eines zweiten Gewichts für den Blickindex beinhalten, und wobei der gewichtete Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung des ersten Gewichts und des zweiten Gewichts bestimmt werden kann.
Unter Bezugnahme auf 11, beinhaltet ein Computersystem eine externe Speichervorrichtung 1110, einen Bus 1120, einen Hauptspeicher 1130, einen Festwertspeicher 1140, eine Massenspeichervorrichtung 1150, einen Kommunikationsanschluss 1160 und einen Prozessor 1170. Ein Fachmann wird verstehen, dass ein Computersystem mehr als einen Prozessor und Kommunikationsanschlüsse beinhalten kann. Beispiele für Prozessoren 1170 beinhalten, ohne jedoch darauf beschränkt zu sein, Intel® Itanium®- oder Itanium-2-Prozessoren, AMD® Opteron®- oder Athlon MP®-Prozessoren, Motorola®-Prozessoren, FortiSOC™ System-on-Chip-Prozessoren oder andere zukünftige Prozessoren. Der Prozessor 1170 kann verschiedene Module beinhalten, die Ausführungsformen der vorliegenden Erfindung zugeordnet sind. Der Kommunikationsanschluss 1160 kann ein beliebiger eines RS-232-Anschlusses für eine modembasierte Wählverbindung, eines 10/100-Ethernet-Anschlusses, eines Gigabit- oder 10-Gigabit-Anschlusses unter Verwendung von Kupfer- oder Glasfaserkabel, eines seriellen Anschlusses, eines parallelen Anschlusses oder anderer vorhandener oder zukünftiger Anschlüsse sein. Der Kommunikationsanschluss 1160 kann abhängig von einem Netzwerk gewählt werden, wie einem lokalen Netzwerk (LAN), einem Weitverbundnetz (WAN) oder einem anderen Netzwerk, mit dem das Computersystem verbunden ist.
In einer Ausführungsform kann der Primärspeicher 1130 einen Direktzugriffsspeicher (RAM) oder eine andere dynamische Speichervorrichtung sein, die in dem Stand der Technik allgemein bekannt ist. Der Festwertspeicher 1140 kann eine beliebige statische Speichervorrichtung/beliebige statische Speichervorrichtungen sein, z. B., ohne jedoch darauf beschränkt zu sein, ein programmierbarer Festwertspeicher (PROM) Chips für die Speicherung statischer Informationen, z. B. Start- oder BIOS-Anweisungen für den Prozessor 1170. Der Massensekundärspeicher 1150 kann jede derzeitige oder künftige Massensekundärspeicherlösung sein, die zum Speichern von Informationen und/oder Anweisungen verwendet werden kann. Beispielhafte Massensekundärspeicherlösungen beinhalten, ohne jedoch darauf beschränkt zu sein, Parallel Advanced Technology Attachment (PATA-) oder Serial Advanced Technology Attachment (SATA-) Festplattenlaufwerke oder Festkörperlaufwerke (intern oder extern, z. B. mit Universal Serial Bus (USB-) und/oder Firewire-Schnittstellen), z. B. jene, die von Seagate (z. B. die Seagate Barracuda 7102-Familie) oder Hitachi (z. B. die Hitachi Deskstar 7K1000), eine oder mehrere optische Platten, redundante Anordnung unabhängiger Festplatten (RAID-) Speicher, z. B. eine Anordnung von Festplatten (z. B. SATA-Arrays), erhältlich von verschiedenen Anbietern einschließlich Dot Hill Systems Corp., LaCie, Nexsan Technologies, Inc. und Enhance Technology, Inc.
In einer Ausführungsform koppelt der Bus 1120 den/die Prozessor(en) 1170 kommunikativ mit den anderen Primärspeicher-, Sekundärspeicher- und Kommunikationsblöcken. Der Bus 1120 kann z. B. ein Peripheral Component Interconnect (PCI-) / PCI-Extended (PCI-X-) Bus, ein Small Computer System Interface (SCSI), einen USB-Bus oder dergleichen, um Erweiterungskarten, Laufwerke und andere Teilsysteme zu verbinden, sowie andere Busse sein, wie einen Front Side Bus (FSB), der den Prozessor 1170 mit dem Softwaresystem verbindet.
In einer anderen Ausführungsform können auch Bediener- und Verwaltungsschnittstellen, z. B. eine Anzeige, eine Tastatur und eine Cursorsteuervorrichtung, mit dem Bus 1120 gekoppelt werden, um die direkte Interaktion des Bedieners mit dem Computersystem zu unterstützen. Andere Bediener- und Verwaltungsschnittstellen können über Netzwerkverbindungen bereitgestellt werden, die über den Kommunikationsanschluss 1160 verbunden sind. Die externe Speichervorrichtung 1110 kann jede Art von externen Festplatten, Diskettenlaufwerken, IOMEGA®-Zip-Laufwerken, Compact Disc - Read Only Memory (CD-ROM), Compact Disc - Re-Writable (CD-RW), Digital Video Disc - Read Only Memory (DVD-ROM) sein. Die vorstehend beschriebenen Komponenten sind nur als Beispiele für verschiedene Möglichkeiten gedacht. Das vorstehend erwähnte beispielhafte Computersystem soll den Umfang der vorliegenden Offenbarung auf keine Weise einschränken.
Während das Vorstehende verschiedene Ausführungsformen der Erfindung beschreibt, können andere und weitere Ausführungsformen der Erfindung formuliert werden, ohne von dem grundsätzlichen Umfang davon abzuweichen. Der Umfang der Erfindung wird durch die Ansprüche bestimmt, die folgen. Die Erfindung ist nicht auf die beschriebenen Ausführungsformen, Varianten oder Beispiele beschränkt, die beinhaltet sind, um es einem Durchschnittsfachmann zu ermöglichen, die Erfindung herzustellen und zu verwenden, wenn sie mit den Informationen und Kenntnissen kombiniert werden, die dem Durchschnittsfachmann zur Verfügung stehen.
Die vorliegende Offenbarung stellt ein System und ein Verfahren zum automatischen Extrahieren von Benutzerbewertungen bereit, wenn ein Benutzer den Inhalt konsumiert, wodurch jegliche Notwendigkeit, den Inhalt manuell/explizit zu bewerten, vermieden wird.
Die vorliegende Offenbarung stellt ein System und Verfahren zum Berechnen einer Aufmerksamkeitspunktbewertung anhand der Blickwerte des Benutzers auf dem Bildschirm bereit.
Die vorliegende Offenbarung stellt ein System und Verfahren zum dynamischen Aktualisieren der Benutzerbewertung im Laufe der Zeit auf Grundlage der Nutzung mehrerer Inhalte bereit.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2020220180 A1 [0005]
EP 3009979 A1 [0006]

Claims

System (200) zum Vorhersagen von Benutzerbewertungen, wobei das System (200) umfasst: eine Anzeigeeinheit (202), die dazu konfiguriert ist, Sätze von Multimediaeinzelbildern zu streamen; und eine Abtasteinheit (206), die mit einem Lernmodul (210) gekoppelt ist, wobei die Abtasteinheit (206) einen oder mehrere Prozessoren umfasst, wobei der eine oder die mehreren Prozessoren betriebsfähig mit einem Primärspeicher gekoppelt sind, wobei der Primärspeicher Anweisungen speichert, die von dem einen oder den mehreren Prozessoren ausgeführt werden können, zum: Erkennen des Gesichts eines Benutzers, der die gestreamten Sätze von Multimediaeinzelbildern betrachtet, und dementsprechend Erzeugen eines ersten Satzes von Datenpaketen; Extrahieren aus dem erzeugten ersten Satz von Datenpaketen erster Attribute des erkannten Gesichts; Abbilden der extrahierten ersten Attribute auf einen ersten Datensatz, der vordefinierte erste Attribute umfasst, und anschließendes Berechnen eines Emotionsindex; Erkennen zweiter Attribute der Augen des Benutzers, Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute und entsprechendes Berechnen eines Blickindex; Bestimmen eines gewichteten Durchschnitts des berechneten Emotionsindex und des berechneten Blickindex und entsprechendes Vorhersagen einer Benutzerbewertung.
System (200) nach Anspruch 1, wobei das System (200) das Mitteln der vorhergesagten Benutzerbewertung mit einer expliziten Benutzerbewertung erleichtert; wobei das System (200) eine oder mehrere Empfehlungen unter Berücksichtigung der gemittelten Bewertung bereitstellt.
System (200) nach Anspruch 1, wobei das System (200) dazu konfiguriert ist, wenigstens eine Gesichtsregion aus dem erkannten Gesicht zu finden, und eine Emotionsregion entsprechend der wenigstens einen gefundenen Gesichtsregion vorhergesagt wird.
System (200) nach Anspruch 3, wobei das System (200) einen zweiten Datensatz umfasst, der vordefinierte Grundwahrheitsemotionen pro Einzelbild umfasst; und wobei der vorhergesagte Emotionsbereich als Reaktion auf jedes Einzelbild aus den gestreamten Sätzen von Multimediaeinzelbildern mit dem zweiten Datensatz verglichen wird, und entsprechend der Emotionsindex berechnet wird.
System (200) nach Anspruch 1, wobei das System (200) einen dritten Datensatz umfasst, der einen vordefinierten Grundwahrheitsblick pro Einzelbild umfasst; und wobei ein Aufmerksamkeitsschätzungsindex bestimmt wird, der einen Abstand zwischen dem geschätzten Blick und dem vordefinierten Grundwahrheitsblick in Form von Pixeln berücksichtigt.
System (200) nach Anspruch 1, wobei ein erstes Gewicht für den Emotionsindex und ein zweites Gewicht für den Blickindex definiert wird, und wobei der gewichtete Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung des ersten Gewichts und des zweiten Gewichts bestimmt wird.
System (200) nach Anspruch 1, wobei das System (200) dazu konfiguriert ist, eine endgültige Benutzerbewertung auf Grundlage eines gewichteten Durchschnitts der in Echtzeit vorhergesagten Benutzerbewertung und der zuvor vorhergesagten Benutzerbewertung zu berechnen.
System (200) nach Anspruch 1, wobei das Lernmodul (210) mit einem langen Kurzzeitgedächtnis (LSTM) und einem Modul für ein faltendes neuronales Netzwerk (CNN) ausgestattet ist.
Verfahren (1000) zum Vorhersagen von Benutzerbewertungen, wobei das Verfahren (1000) umfasst: Erkennen (1002) in einem Prozessor des Gesichts eines Benutzers, der einen gestreamten Satz von Multimediaeinzelbildern betrachtet, und entsprechendes Erzeugen eines ersten Satzes von Datenpaketen; Extrahieren (1004) in dem Prozessor erster Attribute des erkannten Gesichts aus dem erzeugten ersten Satz von Datenpaketen; Abbilden (1006) in dem Prozessor der extrahierten ersten Attribute auf einen ersten Datensatz, der vordefinierte erste Attribute umfasst, und anschließendes Berechnen eines Emotionsindex; Erkennen (1008) in dem Prozessor zweiter Attribute der Augen des Benutzers, Schätzen des Blicks der Augen auf Grundlage der erkannten zweiten Attribute und entsprechendes Berechnen eines Blickindex; und Bestimmen (1010) in dem Prozessor eines gewichteten Durchschnitts des berechneten Emotionsindex und des berechneten Blickindex und entsprechendes Vorhersagen einer Benutzerbewertung.
Verfahren (1000) nach Anspruch 9, wobei das Verfahren (1000) das Definieren einer ersten Gewichtung für den Emotionsindex und einer zweiten Gewichtung für den Blickindex umfasst, und wobei der gewichtete Durchschnitt des berechneten Emotionsindex und des berechneten Blickindex unter Berücksichtigung der ersten Gewichtung und der zweiten Gewichtung bestimmt wird.