DE212020000467U1

DE212020000467U1 - Vorrichtung, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen

Info

Publication number: DE212020000467U1
Application number: DE212020000467.6U
Authority: DE
Original assignee: Quantiface GmbH
Current assignee: Quantiface GmbH
Priority date: 2019-12-11
Filing date: 2020-11-26
Publication date: 2022-03-09
Anticipated expiration: 2030-11-27
Also published as: EP4073682A1; CN114830193A; US20210183021A1; EP4073682B1; US20210279844A1; WO2021115797A1; EP4073682C0; US11341619B2

Abstract

Vorrichtung (3), um ein Video (4) mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person (2) bereitzustellen, welche Vorrichtung (3) eine Anzeige (14) und Eingabemittel (10) umfasst, um mindestens eine Charakteristik des Gesichts einer Person (2) einzugeben, die geändert werden soll, und um mindestens eine Abbildung des Gesichts der Person (2) bereitzustellen, dadurch gekennzeichnet, dass die Vorrichtung (3) eine Deep Learning-basierte Anwendung (7) umfasst, um eine Datenbank (8) mit Datensätzen von Abbildungen von Gesichtern und extrahierten Gesichtsmerkmaldaten davon, die mit Gesichtscharakteristiken verknüpft sind, zu erzeugen, und dass die Deep Learning-basierte Anwendung (7) dazu ausgelegt ist die bereitgestellte Abbildung des Gesichts der Person (2) zu analysieren und mindestens zwei Datensätze von Modifikationen (12) zu erzeugen, um das visuelle Aussehen der Person (2) auf zumindest zwei verschiedene Weisen hin zu der ausgewählten Charakteristik zu verbessern, und dass die Modifikationsmittel (9) dazu ausgelegt sind die Abbildung des Gesichts der Person (2) basierend auf beiden Datensätzen von Modifikationen (12) zu modifizieren und zwei computermodifizierte Abbildungen (13) des Gesichts der Person (2) zu erzeugen, und dass die Vorrichtung (3) dazu ausgelegt ist, beide computermodifizierten Abbildungen (13) des Gesichts der Person (2) anzuzeigen, und basierend auf der Auswahl der Personen des erwünschten Gesichts mit den Eingabemitteln (10) die Modifikationsmittel (9) dazu ausgelegt sind, ein Video (17), welches das Gesicht der Person (2) zeigt, unter Verwendung des ausgewählten Datensatzes von Modifikationen (12) des ausgewählten Gesichts der Person (2) zu modifizieren, um das Video (17) zu modifizieren, um ein Video (4) mit einer computermodifizierten Abbildung (13) eines erwünschten Gesichts einer Person (2) bereitzustellen.

Description

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen. Es ist ein allgemeiner Wunsch gegeben, das eigene Aussehen in persönlichen Interaktionen in einer privaten oder beruflichen Umgebung zu verbessern. Das Gesicht ist einer der Hauptbereiche des Körpers, die für dieses Aussehen relevant sind. Das Aussehen wird dann von anderen in einer komplexen Weise kategorisiert, während ein erster Eindruck gewonnen wird. Charakteristiken, die einer Person beim ersten Eindruck zugeschrieben werden, sind z.B. Attraktivität, Gesundheit, Jugendlichkeit, Müdigkeit, Traurigkeit, Freundlichkeit, Dominanz, Kompetenz, Liebenswürdigkeit oder Vertrauenswürdigkeit, um nur einige zu nennen. Es kann sein, dass eine Person ihren ersten Eindruck verbessern möchte, indem sie als dominant oder kompetent in einer Videokonferenz mit Kunden wahrgenommen wird, aber sie möchte, dass ihr erster Eindruck in einem abendlichen Videoanruf mit ihrer Familie, wenn sie sich auf Geschäftsreise befindet, als liebenswürdig und vertrauenswürdig wahrgenommen wird. Eine andere Person, die eine Online-Dating-Plattform nutzt, möchte, dass ihr erster Eindruck als von möglichen Partnern als attraktiv oder sexy wahrgenommen wird.
Die WO 2015/017687A2 offenbart ein Verfahren und System mit einem Server, das den Grad an „Schwere“ eines Defekts in einem ausgewählten anatomischen Bereich bestimmt. Der Server analysiert z.B. ein Foto einer Person, um Falten an den Augen gemäß einer standardisierten Faltenbewertung zu bewerten. Der Server nutzt eine Datenbank mit dem wahrscheinlichen Ergebnis einer ausgewählten medizinischen oder kosmetischen Behandlung für den ausgewählten anatomischen Bereich, um eine Person in ihrer Entscheidung über eine medizinische oder kosmetische Behandlung zu unterstützen.
Die US 2019/0005359 A1 offenbart ein Verfahren und System, das ein Computerprogramm verarbeitet, um eine künstliche Intelligenz zu trainieren, die eine automatisierte Bewertung der Charakteristik einer Abbildung eines Gesichts einer Person bereitstellt. Dazu wird ein Datensatz von Abbildungen von Gesichtern und extrahierten Gesichtsmerkmaldaten davon, die mit Gesichtscharakteristikdaten verknüpft sind, die von einem repräsentativen Satz von Menschen bereitgestellt werden, die die Abbildungen dieser Gesichter über ihre Gesichtscharakteristiken bewerten, erzeugt und in einer Datenbank gespeichert. Gesichtsmerkmaldaten für weitere Abbildungen von Gesichtern werden extrahiert und zusammen mit dem erzeugten Datensatz in der Datenbank für das Training der künstlichen Intelligenz verwendet, um die künstliche Intelligenz zu befähigen, eine automatisierte Bewertung der Charakteristiken der Abbildungen von Gesichtern bereitzustellen. Die US 2019/0005359 A1 offenbart darüber hinaus die Verwendung der künstlichen Intelligenz, um Fotos von verschiedenen Personen über ihren ersten Eindruck für die Charakteristik „Dominanz“ zu bewerten, um einen Personalchef in seiner Entscheidung zu unterstützen, welcher Kandidat für einen neuen Job ausgesucht werden sollte. In einer anderen Ausführungsform wird eine gesichtsbasierte Persönlichkeitsanalyse basierend auf einem Video verarbeitet, das eine oder mehrere Personen etwa in einer Videokonferenz zeigt.
Keines dieser Verfahren und Systeme nach dem Stand der Technik stellt technische Mittel bereit, um eine Person in ihrem allgemeinen Wunsch zu unterstützen, den eigenen ersten Eindruck, wie sie von anderen Personen gesehen und kategorisiert wird, zu verbessern. Diese Probleme werden mit einer Vorrichtung gemäß dem kennzeichnenden Teil des Anspruchs 1 gelöst.
Die Erfindung basiert auf der Erkenntnis, dass, wenn man das Aussehen einer Person verstehen möchte, es nur ein zweitrangiges Ziel ist, z.B. darauf zu schauen, wie viele Falten eine Person hat, weil Personen das Aussehen von anderen bei der Bildung des ersten Eindrucks in einer komplexeren Weise und in der Gesamtheit kategorisieren. Charakteristiken, die einer Person beim ersten Eindruck zugeschrieben werden, sind z.B. Attraktivität, Gesundheit, Jugendlichkeit, Müdigkeit, Traurigkeit, Freundlichkeit, Dominanz, Kompetenz, Liebenswürdigkeit oder Vertrauenswürdigkeit, um nur einige dieser zu nennen.
Diese Vorrichtung gemäß der Erfindung verwendet ein komplett neues Konzept und eine solche Technik, um einer Person zu ermöglichen, ihren ersten Eindruck in einer Live-Videokonferenz oder gespeicherten Videonachricht so zu verbessern, wie dies von der Person ausgewählt wurde. Eine Verbesserung einer Charakteristik, die von anderen während der Bildung des ersten Eindrucks zugeschrieben wird, kann in beiden Weisen erzielt werden, d.h. Stärken einer Charakteristik, die als positiv wahrgenommen wird, und Reduzieren einer Charakteristik, die als negativ wahrgenommen wird. Die Person wählt aus, welche Charakteristik für die anstehende Videokonferenz verbessert werden soll, und sendet eine Abbildung (Foto oder Video) ihres Gesichts, um herauszufinden, welche Art von verschiedenen Verbesserungen für diese Charakteristik möglich ist. Basierend auf der Klassifizierung der künstlichen Intelligenz über die Charakteristiken der Person in ihrem Foto oder Video schlägt die künstliche Intelligenz zumindest zwei Sätze von Modifikationen vor, wie die Abbildung zu modifizieren ist, um die ausgewählte Charakteristik basierend auf in der Datenbank gespeicherten Informationen zu verbessern. Um z.B. die Charakteristik „Kompetenz“ zu verbessern, muss die Position der Augenbraue angehoben und das Volumen der Kieferpartie erhöht werden. Dieser erste Satz von Modifikationen des Gesichts der Person wäre im Prinzip im echten Leben durch eine kosmetische und/oder medizinische Behandlung der Person möglich. Basierend auf dem erfinderischen Konzept ist keine Einschränkung gegeben, um nur Sätze von Modifikationen bereitzustellen und nur Verbesserungen anzuzeigen, die innerhalb der Grenzen von kosmetischen und/oder medizinischen Behandlungen liegen. Aus diesem Grund könnte der zweite Satz von Modifikationen z.B. Modifikationen beinhalten, die den Abstand der Augen oder den Abstand zwischen den Augen und dem Mund verringern oder erhöhen oder drastisch die Form oder Größe der Augen, des Mundes oder der Ohren verändern. Weitere Sätze von Modifikationen können Gegenstände beinhalten, die eine Person tragen kann, so etwa Brillen oder Ohrringe, um ihren ersten Eindruck für andere Personen zu ändern. Alle diese verschiedenen Arten von Sätzen von Modifikationen der Abbildung des Gesichts, die von der Person bereitgestellt werden, werden von der künstlichen Intelligenz erzeugt und bereitgestellt, die in einem nächsten Schritt die Abbildung modifiziert und alle möglichen computermodifizierten Abbildungen des Gesichts der Person anzeigt. Die Person wählt die eine Abbildung mit der verbesserten ausgewählten Charakteristik aus und wählt sein oder ihr erwünschtes Gesicht für die anstehende Videokonferenz. In einem letzten Schritt des erfinderischen Verfahrens identifiziert die künstliche Intelligenz das Gesicht der Person im Live-Video und ersetzt es kontinuierlich mit dem erwünschten Gesicht der Person. Dies stellt den Hauptvorteil dar, dass die Person für jede Videokonferenz oder sogar während einer Videokonferenz auswählen kann, wie sie ihre Nachricht mit dem passenden visuellen Aussehen unterstützen möchte. Eine Person kann natürlich eine oder mehrere Charakteristiken auswählen, um ihr visuelles Aussehen zu verbessern.
In einer bevorzugten Ausführungsform analysiert die künstliche Intelligenz den Inhalt und Ton einer Konversation in einer Videokonferenz, und in dem Fall, dass die Person von einem stillen und vertrauensvollen Verhalten in ein lautes Schreien und aggressives Verhalten wechselt, verändert die künstliche Intelligenz gleichzeitig das visuelle Aussehen des Gesichts, um ihre tatsächliche Nachricht zu unterstützen. Diese Veränderungen des visuellen Aussehens können in kleinen Schritten und subtil erfolgen, um von den anderen Teilnehmern der Konferenz nur unterbewusst wahrgenommen zu werden, oder dramatisch, wie dies von der Person ausgewählt wird.
Diese und weitere vorteilhafte Ausführungsformen der Erfindung werden basierend auf der folgenden Beschreibung und den begleitenden Zeichnungen erklärt.

1 zeigt ein System, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen.
2 zeigt eine Vorrichtung des Systems mit einer ablaufenden Videokonferenz und dem computermodifizierten Gesicht der Person.
3 zeigt eine Beschreibung und Bewertung der Charakteristiken basierend auf den visuellen Daten des Gesichts der Person.
4 zeigt, wie Charakteristiken von dem Benutzer in einer App ausgewählt werden können.
5 zeigt eine Tabelle mit beispielhaften invasiven und/oder minimal invasiven kosmetischen und medizinischen Behandlungen, um Veränderungen einer erwünschten Charakteristik eines Gesichts der Person zu erzielen.
6 zeigt eine Strichzeichnung des Gesichts einer Person mit einem Datensatz von Modifikationen, wie die Charakteristik „kompetent“ zu verbessern ist.
7 zeigt ein Foto eines Gesichts einer Person mit Regionen des Gesichts, die markiert sind, um behandelt zu werden, um die Charakteristik „dominant“ zu erhöhen, die einer Person bei der Bildung des ersten Eindrucks zugeschrieben wird.

1 zeigt ein System 1, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person 2 mit einer Vorrichtung 3 anzuzeigen. Die Vorrichtung 3 könnte ein Mobilgerät oder ein Computer sein, um eine Software und insbesondere eine App für eine Person 2 zu verarbeiten, die ihren visuellen ersten Eindruck, wie er von anderen gewonnen wird, modifizieren möchte. So möchte z.B. eine Person 2 einer Live-Videokonferenz 4 mit der Vorrichtung 3 beitreten, wie dies in 2 gezeigt ist, aber sie möchte ihre Charakteristik „Kompetenz“ verbessern, um kompetenter auszusehen, als sie dies im echten Leben tut, um ihre Chancen zu verbessern, in dieser Videokonferenz 4 erfolgreich zu sein. Dazu muss sie nur ein Foto 5 oder ein Video auswählen, das ihr normales Gesicht zeigt, und in diesem Beispiel sendet sie dieses Foto 5 von ihrem Mobiltelefon 6 an die Vorrichtung 3 für die weitere Verarbeitung.
Die Vorrichtung 3 verarbeitet eine Deep Learning-basierte Anwendung 7 oder künstliche Intelligenz, die die visuellen Daten, die das Foto 5 oder ein Video des Gesichts der Person 2 darstellen, analysiert, um eine oder mehrere Charakteristiken, die der Person 2 bei der Bildung des ersten Eindrucks zugeschrieben werden, zu bewerten. Solche Gesichtscharakteristiken können z.B. Attraktivität, Gesundheit, Jugendlichkeit, Müdigkeit, Traurigkeit, Freundlichkeit, Dominanz, Kompetenz, Liebenswürdigkeit oder Vertrauenswürdigkeit sein. Die Deep Learning-basierte Anwendung 7 ist ein Computerprogramm, das Instruktionen umfasst, die, wenn das Programm von der Vorrichtung 3 ausgeführt wird, die Vorrichtung 3 veranlassen, die folgenden Schritte auszuführen, um ein Video mit einer computermodifizierten Abbildung des erwünschten Gesichts der Person 2 anzuzeigen.
In einem ersten Schritt des Verfahrens wird ein erster Datensatz von visuellen Daten von Abbildungen von Gesichtern und extrahierten Gesichtsmerkmaldaten davon, die mit Gesichtscharakteristikdaten verknüpft sind, erzeugt. Um Gesichtsmerkmale zu extrahieren, teilen herkömmliche Computersichtalgorithmen wie eine Landmark-Detektion das Gesicht von Personen in Regionen wie das Kinn und die Kieferpartie, und sie extrahieren automatisch Charakteristiken und ihre Stelle im Gesicht. Solche Gesichtsmerkmaldaten können z.B. den Abstand zwischen den Augen oder den Abstand zwischen den Augen und dem Mund und andere Abstände, die zur Beschreibung eines Gesichts zu messen sind, beinhalten. Diese Gesichtsmerkmaldaten werden zusammen mit den visuellen Daten (Foto oder Video) dieser Gesichter von der Deep Learning-basierten Anwendung 7 in einer Datenbank 8 der Vorrichtung 3 gespeichert. Eine repräsentative Anzahl solcher als visuelle Daten in der Datenbank 8 gespeicherten Abbildungen von Gesichtern wird auf einer Anzeige einer repräsentativen Anzahl von Menschen gezeigt, um manuell diese Abbildungen von Gesichtern über ihre Charakteristiken zu bewerten. Die Menschen können diese mit Punkten (z.B. von 0 bis 7) für verschiedene Charakteristiken bewerten. Diese Bewertungen durch Menschen werden in einer Datenbank 8 gespeichert, die mit den visuellen Daten der Gesichter verknüpft ist, und liefern eine Basisinformation für die Deep Learning-basierte Anwendung 7, um Charakteristiken, die einer Person 2 bei der Bildung des ersten Eindrucks zugeschrieben werden, automatisch zu bewerten.
In einem zweiten Schritt werden Gesichtsmerkmaldaten dieser Abbildungen von Gesichtern durch die herkömmlichen Computersichtalgorithmen, z.B. Landmark-Detektion, Faltendetektion, Hauttexturanalyse oder Analyse von Gesichtsproportionen, extrahiert. Diese Gesichtsmerkmaldaten von Abbildungen von Gesichtern werden zusammen mit dem im ersten Schritt erzeugten und in der Datenbank 9 gespeicherten Datensatz zum Trainieren der Deep Learning-basierten Anwendung 7 verwendet, um die künstliche Intelligenz zu befähigen, eine verbesserte automatisierte Bewertung der Charakteristiken der Abbildungen von Gesichtern bereitzustellen. Als ein Resultat davon kann jede Abbildung eines Gesichts der Deep Learning-basierten Anwendung 7 bereitgestellt werden, die basierend auf dem in der Datenbank 8 gespeicherten Datensatz eine automatisierte Bewertung der Charakteristiken der Abbildungen des Gesichts bereitstellt. 3 zeigt eine solche Beschreibung und das Resultat der automatisierten Bewertung der Charakteristiken einer Person basierend auf den Abbildungen des Gesichts der Person, die auf dem Mobiltelefon 6 angezeigt werden. Eine solche Art einer künstlichen Intelligenz für die automatisierte Bewertung der Charakteristiken einer Person basierend auf Abbildungen der Person kennt die Fachperson aus der US 2019/0005359 A1 und ist somit hierin nicht ausführlicher erläutert.
Nachdem die Datenbank 8 mit den obig beschriebenen Schritten erstellt wurde, ist das System 1 für die Verwendung bereit, ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person 2 mit einer Vorrichtung 3 anzuzeigen, wie dies in den folgenden Schritten des Verfahrens beschrieben ist.
In einem dritten Schritt muss der Vorrichtung 3 zumindest eine Abbildung (Foto oder Video) der Person 2 bereitgestellt werden. Wie in diesem Beispiel wählt die Person 2 das eine Foto 5 aus, das ihr normales Gesicht zeigt, und sendet dieses Foto 5 von ihrem Mobiltelefon 6 zur Vorrichtung 3 zur weiteren Verarbeitung bzw. Bearbeitung. Im Prinzip können Fotos in einer standardisierten oder nicht-standardisierten Weise gemacht werden. Instruktionen für eine Person und/oder einen Fotografen für ein standardisiertes Foto können einen oder mehrere der folgenden Schritte umfassen: Auffordern der Person, z.B. Ohrringe oder einen Nasenring abzunehmen; Auffordern der Person, nicht zu lächeln; Auffordern der Person, einen neutralen Gesichtsausdruck zu machen; Auffordern der Person, das Kopfhaar aus ihrem Gesicht zu halten; Auffordern der Person, gerade in die Kamera zu blicken; gute allgemeine Ausleuchtungsbedingung; neutraler Hintergrund. Das in 1 als Beispiel gezeigte Foto 5 wurde als ein standardisiertes Foto aufgenommen. Wäre das Foto 5 nicht als ein standardisiertes Foto gemacht worden, so wäre die automatisierte Bewertung mittels Deep Learning-basierter Anweisung 7 schwieriger, aber ebenso möglich. Aus diesem Grund umfasst die Vorrichtung 3 visuelle Datenmodifikationsmittel 9, um das bereitgestellt Foto 5 oder Video des Gesichts der Person 2 in einem Versuch vorzuverarbeiten, um ihren Inhalt vor der Analyse der Deep Learning-basierten Anwendung 7 so weitgehend wie möglich zu standardisieren. Die Vorbearbeitung des Fotos 5 kann einen oder mehrere der folgenden Schritte beinhalten: Ausschneiden des Hintergrunds hinter dem Gesicht aus den visuellen Daten; Ausschneiden der Ohren des Gesichts der Person, um den visuellen Einfluss von z.B. Ohrringen zu reduzieren; Ausschneiden von Kleidung oder anderer Bekleidung, die das Gesicht beeinflussen könnte; Ausschneiden des Kopfhaars der Person 2. Natürlich ist es, wenn die Person 2 auf dem Foto 5 zu einer Seite schaut, nicht möglich, dieses Foto 5 in ein standardisiertes Foto 5 wie das in 1 gezeigte Foto vorzuverarbeiten. Die visuellen Daten des Fotos 5 werden vom Mobiltelefon 6 zur Vorrichtung 3 geschickt.
In einem vierten Schritt verwendet die Person 2 Eingabemittel 10, um zumindest eine Charakteristik ihres Gesichts, die sie verbessern möchte, einzugeben, welche ausgewählte Charakteristik als Gesichtscharakteristikdaten zur Deep Learning-basierten Anwendung 7 der Vorrichtung 3 übertragen wird. In einer anderen Ausführungsform verwendet die Person 2 Eingabemittel der App des Mobiltelefons 6, wie dies in 4 gezeigt ist, wobei ein Button für jede Charakteristik, die eine Person auswählen kann, umgesetzt ist. Gemäß dem obig erklärten Beispiel wählt die Person 2 „kompetent“ als Charakteristik aus, was über Breitbandnetzwerk zur Deep Learning-basierten Anwendung 7 der Vorrichtung 3 übertragen wird. In einer anderen Ausführungsform der Erfindung kann die Person 2 eine andere Weise nutzen, um die mindestens eine Charakteristik mit dem Mobiltelefon 6 einzugeben. Dies kann durch die Auswahl der von der Person 2 verwendeten App erfolgen, da eine App gegeben sein kann, um die Charakteristik „attraktiv“ zu wählen, und eine andere App, um die Charakteristik „kompetent“ zu wählen.
In einem fünften Schritt des Verfahrens analysiert die Deep Learning-basierte Anwendung 7 der Vorrichtung 3 visuelle Daten des Fotos 5 der Person 2. Als ein Resultat davon bewertet die Learning-basierte Anwendung 7 die Charakteristiken der Person 2 basierend auf dem Foto 5 und evaluiert und bewertet insbesondere die Charakteristik „kompetent“ der Person 2.
Um diesen technischen Schritt zu erzielen, extrahiert die Deep Learning-basierte Anwendung 7, basierend auf der Datenbank 8, Gesichtsmerkmale des Fotos 5, indem sie das Gesicht der Person 2 im Foto 5 in Regionen wie das Kinn und die Kieferpartie unterteilt. Ist das vom Mobiltelefon 6 gesendete Foto 5 ein nicht-standardisiertes Foto 5, so wird dann die Deep Learning-basierte Anwendung 7 verwendet, um fehlende visuelle Informationen aufzufüllen oder zu ermitteln, wie das Gesicht auf diesem Foto 5 aussehen würde, würde es in einer standardisierten Weise gemacht, um eine mehr oder weniger standardisierte Bewertung der Charakteristiken zu ermöglichen. Als ein Resultat dieser Analyse vergibt die Vorrichtung 3 5 Punkte für die Charakteristik „kompetent“ bei einer Skala von 0 bis 7 Punkten, wie dies in 3 zu sehen ist.
5 zeigt eine Tabelle mit Beispielen für invasive und/oder minimal invasive kosmetische und medizinische Behandlungen, um Veränderungen einer erwünschten Charakteristik des Gesichts einer Person zu erzielen, wobei die Tabelle auf klinischen Studien basiert. Solche Daten werden in einer Modifikationsdatenbank 11 der Vorrichtung 3 gespeichert. Mit einigen oder einer Kombination aus diesen Behandlungen kann die erwünschte Charakteristik um 1 oder mehr Punkte in der Bewertung verbessert werden, wenn eine echte Behandlung einer echten Person verarbeitet wird. Aber das erfinderische Konzept ist nicht auf Erfolge von echten Behandlungen beschränkt und speichert darüber hinaus Daten in der Modifikationsdatenbank 11, die eine Verbesserung einer Charakteristik, aber in einer Weise, wie eine echte Person nicht behandelt würde, bereitstellen. So würde z.B. in einem Beispiel der Abstand zwischen den Augen signifikant vergrößert werden müssen, um eine Charakteristik zu verbessern, was aber in der Realität keine Option darstellt. Die Deep Learning-basierte Anwendung 7 ist, basierend auf den in der Modifikationsdatenbank 11 gespeicherten Daten, dazu ausgelegt, nicht nur einen sondern mehrere Datensätze von Modifikationen 12 bereitzustellen, die Bereiche im Gesicht der Abbildung der Person 2 angeben, die durch visuelle Datenmodifikationsmittel 9 modifiziert werden müssen, um die erwünschte ausgewählte Charakteristik auf andere Weisen und mit anderen Verbesserungspunkten zu verbessern. 6 zeigt eine Strichzeichnung des Gesichts der Person 2 mit einem ersten Datensatz von Modifikationen 12, wie die Charakteristik „kompetent“ basierend auf invasiven und/oder minimal invasiven kosmetischen und medizinischen Behandlungen, die in 5 aufgelistet sind, zu verbessern ist. Die Deep Learning-basierte Anwendung 7 stellt, basierend auf weiteren Daten in der Modifikationsdatenbank 11, einen zweiten Datensatz von Modifikationen 12 bereit, wie die Charakteristik „kompetent“ basierend auf Modifikationen zu verbessern ist, die mit echten Personen nicht möglich wären, aber eine sehr gute Verbesserung der erwünschten ausgewählten Charakteristik liefern und in einer Weise realistisch aussehen, so dass die Person 2 noch immer als die Person 2, die sie ist, erkannt wird. Auf diese Weise kann die Deep Learning-basierende Anwendung 7 mehrere Sätze von Modifikationen 12 bereitstellen, einige mit subtilen Verbesserungen, die nur unterbewusst erkannt werden, und andere mit erkennbaren Verbesserungen und manche mit dramatischen Verbesserungen der Punktezahl der ausgewählten Charakteristik.
In einem sechsten Schritt des Verfahrens modifizieren visuelle Datenmodifikationsmittel 9 das Foto 5 der Person 2 mit jedem der zwei oder mehr Datensätzen von Modifikationen 12 und erzeugen zwei oder mehr computermodifizierte Fotos 13 des Gesichts der Person 2. Datensätze von Modifikationen 12 sind technisch gesehen Code-Instruktionen, die notwendig sind, um das Foto wie in einem Softwareprogramm PhotoShop® zu modifizieren. 7 als ein anderes Beispiel zeigt das Gesicht der Person 2 mit einem anderen Datensatz von Modifikationen 12, wie die Charakteristik „dominant“ basierend auf invasiven und/oder minimal invasiven kosmetischen und medizinischen Behandlungen zu verbessern ist.
In einem siebten Schritt des Verfahrens wird eine Anzeige 14 der Vorrichtung 3 verwendet, um der Person 2 alle computermodifizierten Fotos 13 zu zeigen, um ihr zu ermöglichen, ihr erwünschtes modifiziertes Gesichtsaussehen in der vorstehenden Videokonferenz 4 auszuwählen. Sie kann deshalb zwischen stärkeren Verbesserungen der gewählten Charakteristik „kompetent“ und weniger starken Verbesserungen dieser Charakteristik wählen, und in einem achten Schritt des Verfahrens entscheidet sie, welches der angezeigten computermodifizierten Fotos 13 das erwünschte Gesicht und der erwünschte ausgewählte Satz von Modifikationen 12 ist, das/der zu verwenden ist.
In einem neunten Schritt des Verfahrens wird die Live-Videokonferenz verarbeitet, und die Person 2 verwendet eine Kamera 15, um ein Video 17 zu erzeugen, das während der Videokonferenz 4 ihr Gesicht zeigt, wie dies in 2 gezeigt ist. Visuelle Datenmodifikationsmittel 8 empfangen das Live-Video 17 und identifizieren einen Bereich 16 in dem Video 17, der das Gesicht der Person 2 zeigt. Basierend auf dem erwünschten ausgewählten Datensatz von Modifikationen 12 verwendet die Deep Learning-basierte Anwendung 7 visuelle Datenmodifikationsmittel 9, um kontinuierlich die computermodifizierte Abbildung des erwünschten ausgewählten Gesichts der Person 2 zu erzeugen. Dies bedeutet, dass selbst während aller Bewegungen des Gesichts der Person 2 und aller Gesichtsausdrücke, die die Person 2 während der Videokonferenz 4 macht, ihre Abbildung kontinuierlich computermodifiziert wird, um sie kompetenter aussehen zu lassen. Dies bedeutet, dass kontinuierlich ihr Kinn modifiziert wird, um weniger breit zu erscheinen, und die Wangen weniger voll, und ihre Augenbrauen werden abgesenkt, wie dies in 6 gezeigt ist. Visuelle Datenmodifikationsmittel 9 ersetzen dann den identifizierten Bereich 16 in dem Video 17 von der Kamera 15 durch die computermodifizierte Abbildung der Person 2 und senden dieses modifizierte Video mit der computermodifizierten Abbildung der Person 2 als einen Videostream für die Videokonferenz 4. Als ein Resultat davon erscheint die Person 2 in der Videokonferenz 4 mit einer Abbildung, die den anderen Teilnehmern der Videokonferenz 4 einen ersten Eindruck als eine sehr kompetente Person vermittelt. Dies verleiht der Person 2 während der Videokonferenz 4 einen starken Vorteil in Verhandlungen.
In einer bevorzugten Ausführungsform kann die Modifikationsdatenbank 11 Daten über Gegenstände speichern, die eine Person tragen kann, so etwa Brillen oder Ohrringe, um ihren ersten Eindruck zu verändern. In einer sogar bevorzugten Ausführungsform lädt die Person 2 vorab Abbildungen ihrer persönlichen Gegenstände, so z.B. ein Foto ihrer fünf verschiedenen Brillen und ihre zehn verschiedenen Ohrringe, hinauf. Die Deep Learning-basierte Anwendung 7 kann basierend auf diesen in der Modifikationsdatenbank 11 gespeicherten Daten weitere Sätze von Modifikationen 12 erzeugen, in welchen z.B. Brillen über die Abbildung einer Person 2 gelegt sind, wie dies in 2 gezeigt ist. Dies weitet die Möglichkeiten aus, die erwünschte Charakteristik in der computermodifizierten Abbildung der Person 2 zu verbessern.
In einer anderen Ausführungsform kann die Person 2 auswählen, dass ihr nur computermodifizierte Abbildungen ihres Gesichts im Verfahrensschritt sieben gezeigt werden, die auf der Tabelle in 5 basieren. So wären diese Computermodifikationen im Prinzip alle mit invasiven und/oder minimal invasiven kosmetischen und medizinischen Behandlungen an einer echten Person möglich, und aus diesem Grund können die auf der Anzeige 14 angezeigten Computerabbildungen realistischer als andere aussehen.
In einer weiteren Ausführungsform kann eine Dating-App das Verfahren der Erfindung nutzen. Im Profil der Dating-App kann ein Mann / eine Frau einen Live-Chat mit einer Person auswählen, die er/sie gerne treffen würde. Um seine/ihre Chancen in diesem Live-Chat zu verbessern, kann die Person auswählen, die Charakteristik „vertrauenswürdig“ oder „dominant“ zu verbessern, und das Ausmaß der Verbesserung auswählen, indem sie/er seine/ihre computermodifizierte Abbildung auswählt. Dies ermöglicht einen komplett neuen und erfinderischen Weg, um mögliche zukünftige Partner miteinander in Verbindung zu bringen.
In einer anderen bevorzugten Ausführungsform der Erfindung werden die Schritte 2 bis 8 gemäß Anspruch 2 für zwei oder mehr Charakteristiken oder Kombinationen von Charakteristiken verarbeitet, und Sätzen von Modifikationen, die für diese verschiedenen Charakteristiken von der Person ausgewählt werden, werden in den visuellen Datenmodifikationsmitteln 9 gespeichert. Die künstliche Intelligenz ist dazu ausgelegt, die tatsächlichen Gesichtsausdrücke der Person in dem Video zu analysieren und den Inhalt und/oder Ton der Person zu erkennen. Die künstliche Intelligenz erkennt z.B., wenn eine Person 2 während der Videokonferenz wütend oder glücklich wird. Diese Erkennung basiert auf visuellen und akustischen Informationen, die in dem Video bereitgestellt werden. Ein Speech-to-Text-Erkennungsmittel könnte zusätzlich verwendet werden, um eine Inhaltsanalyse der gesprochenen Wörter zu ermöglichen. Wenn somit die Person 2 darüber spricht, dass ihre Mutter im Spital ist, können alle diese Angaben verwendet werden, um einen der gespeicherten Sätze von Modifikationen auszuwählen, die zu dieser Nachricht passen, während ein anderer Satz von Modifikationen einige Sekunden später ausgewählt wird, wenn die Person damit beginnt, den Preis eines Produkts in der Videokonferenz zu verhandeln. Dies bedeutet, dass der passende gespeicherte Satz von Modifikationen, der den Inhalt und/oder Ton der Person unterstützt, dynamisch von der künstlichen Intelligenz ausgewählt und von den visuellen Datenmodifikationsmitteln verwendet wird, um dynamisch die Abbildung des Gesichts der Person in dem Video mit dem ausgewählten Satz von Modifikationen zu modifizieren.
Der Begriff Video ist in seinem breitesten Sinne zu interpretieren und deckt jegliche Sequenzen von visuellen Daten-Frames ab, die Objekte wie echte Personen oder animierte Charaktere anzeigen können. Als ein animierter Charakter könnte z.B. eine Avatar für eine Person angezeigt werden, welcher ein Tier, eine Fantasiegestalt oder ein animierter Mensch sein kann. Der Begriff Video deckt darüber hinaus jegliche zwei- und dreidimensionale visuelle Darstellung eines Live- oder gespeicherten Dateninhalts ab. Videokonferenzen wie Webinare, Live-Präsentationen oder die Distance-Lehre sind ebenso abgedeckt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2015/017687 A2 [0002]
US 2019/0005359 A1 [0003, 0012]

Claims

Vorrichtung (3), um ein Video (4) mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person (2) bereitzustellen, welche Vorrichtung (3) eine Anzeige (14) und Eingabemittel (10) umfasst, um mindestens eine Charakteristik des Gesichts einer Person (2) einzugeben, die geändert werden soll, und um mindestens eine Abbildung des Gesichts der Person (2) bereitzustellen, dadurch gekennzeichnet, dass die Vorrichtung (3) eine Deep Learning-basierte Anwendung (7) umfasst, um eine Datenbank (8) mit Datensätzen von Abbildungen von Gesichtern und extrahierten Gesichtsmerkmaldaten davon, die mit Gesichtscharakteristiken verknüpft sind, zu erzeugen, und dass die Deep Learning-basierte Anwendung (7) dazu ausgelegt ist die bereitgestellte Abbildung des Gesichts der Person (2) zu analysieren und mindestens zwei Datensätze von Modifikationen (12) zu erzeugen, um das visuelle Aussehen der Person (2) auf zumindest zwei verschiedene Weisen hin zu der ausgewählten Charakteristik zu verbessern, und dass die Modifikationsmittel (9) dazu ausgelegt sind die Abbildung des Gesichts der Person (2) basierend auf beiden Datensätzen von Modifikationen (12) zu modifizieren und zwei computermodifizierte Abbildungen (13) des Gesichts der Person (2) zu erzeugen, und dass die Vorrichtung (3) dazu ausgelegt ist, beide computermodifizierten Abbildungen (13) des Gesichts der Person (2) anzuzeigen, und basierend auf der Auswahl der Personen des erwünschten Gesichts mit den Eingabemitteln (10) die Modifikationsmittel (9) dazu ausgelegt sind, ein Video (17), welches das Gesicht der Person (2) zeigt, unter Verwendung des ausgewählten Datensatzes von Modifikationen (12) des ausgewählten Gesichts der Person (2) zu modifizieren, um das Video (17) zu modifizieren, um ein Video (4) mit einer computermodifizierten Abbildung (13) eines erwünschten Gesichts einer Person (2) bereitzustellen.
Vorrichtung (3) gemäß Anspruch 1, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Durchführen folgender Schritte ausgebildet ist: 1. Erzeugen eines Datensatzes von Abbildungen von Gesichtern und extrahierten Gesichtsmerkmaldaten davon, die mit Gesichtscharakteristiken verknüpft sind, die von einem repräsentativen Satz von Menschen bereitgestellt werden, welche die Abbildungen dieser Gesichter über ihre Gesichtscharakteristiken bewerten, und Speichern des Datensatzes in einer Datenbank; 2. Extrahieren weiterer Gesichtsmerkmaldaten dieser Abbildungen von Gesichtern und Verwenden dieser Gesichtsmerkmaldaten zusammen mit dem erzeugten Datensatz zum Trainieren einer künstlichen Intelligenz (7), um die künstliche Intelligenz (7) zu befähigen, eine automatisierte Bewertung der Charakteristiken der Abbildungen von Gesichtern bereitzustellen; 3. Bereitstellen mindestens einer Abbildung des Gesichts der Person (2); 4. Eingeben mindestens einer Charakteristik des Gesichts der Person (2), die verbessert werden soll; 5. Verwenden der künstlichen Intelligenz (7), um die Abbildung des Gesichts der Person (2) zu analysieren und mindestens zwei Datensätze von Modifikationen (12) zu erzeugen, um das visuellen Aussehen der Person (2) auf zumindest zwei verschiedene Weisen hin zur ausgewählten Charakteristik zu verbessern; 6. Modifizieren der Abbildung des Gesichts der Person (2) basierend auf beiden Datensätzen von Modifikationen (12) und Erzeugen von zwei computermodifizierten Abbildungen (13) des Gesichts der Person (2); 7. Anzeigen beider computermodifizierten Abbildungen (13) des Gesichts der Person (2). 8. Auswählen einer der zwei computermodifizierten Abbildungen (13) als das erwünschte Gesicht der Person (2), 9. Bereitstellen eines Videos (17), das das Gesicht der Person (2) zeigt, und Verwenden des ausgewählten Datensatzes von Modifikationen (12) des ausgewählten erwünschten Gesichts der Person (2), um das Video (17) zu modifizieren, um das Video (4) mit der computermodifizierten Abbildung (13) des erwünschten Gesichts der Person (2) bereitzustellen.
Vorrichtung (3) gemäß Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Durchführen des folgenden detaillierten Schrittes für den obigen Schritt 9 ausgebildet ist: - Kontinuierlich ◯ die Abbildung des Gesichts der Person (2) in dem Video (17) identifizieren; ◯ die Abbildung des identifizierten Gesichts der Person (2) basierend auf dem gewählten Datensatz von Modifikationen (12) zu modifizieren und die computermodifizierte Abbildung (13) des erwünschten Gesichts der Person (2) erzeugen; ◯ die identifizierte Abbildung des Gesichts der Person (2) durch die computermodifizierte Abbildung (13) des erwünschten Gesichts der Person (2) in dem Video (17) ersetzen; ◯ das Video (4) mit der ersetzten computermodifizierten Abbildung (13) des erwünschten Gesichts der Person (2) anzeigen.
Vorrichtung (3) gemäß einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Durchführen der obigen Schritte 1 oder 2 ausgebildet ist, um einen Computer (3) darauf vorzubereiten, den obigen Schritt 5 zu verarbeiten, und dass die obigen Schritte 3 bis 8 verarbeitet werden, um das gewünschte Gesicht der Person (2) auszuwählen und den Schritt 9 für die Modifikation eines Live-Videos insbesondere einer Videokonferenz (4) zu verarbeiten.
Vorrichtung (3) gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Vorrichtung (3) bei dem obigen Schritt 5 nur Datensätze von Modifikationen (12) erzeugt, um das visuelle Aussehen der Person (2) innerhalb der Grenzen visueller Modifikationen eines Gesichts zu verbessern, die durch kosmetische und/oder medizinische Behandlungen und/oder manuelle Veränderungen des visuellen Aussehens der Person (2) erzielt werden können.
Vorrichtung (3) gemäß Anspruch 5, dadurch gekennzeichnet, dass die Vorrichtung (3) bei der Abarbeitung des obigen Schritts 2 ferner den folgenden Schritt umfasst: - Erzeugen eines Datensatzes von Modifikationen (12) eines Gesichts, die durch kosmetische und/oder medizinische Behandlungen und/oder manuelle Veränderungen des visuellen Aussehens der Person (2) erzielt werden können, und Speichern des Datensatzes in der Datenbank.
Vorrichtung (3) gemäß Anspruch 6, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Abarbeiten der folgenden weiteren Schritte ausgebildet ist: - Verwenden der vordefinierten Gerätemustern wie insbesondere Brillen oder Ohrringe, um den Datensatz von Modifikationen (12) eines Gesichts zu erzeugen, die durch manuelle Veränderungen des visuellen Aussehens der Person (2) erzielt werden können.
Vorrichtung (3) gemäß einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Abarbeiten der folgenden weiteren Schritte ausgebildet ist: - Bereitstellen mindestens einer Abbildung eines persönlichen Gegenstands der Person (2) wie insbesondere Brillen oder Ohrringe, um den Datensatz von Modifikationen (12) eines Gesichts zu erzeugen, die durch manuelle Veränderungen des visuellen Aussehens der Person (2) erzielt werden können.
Vorrichtung (3) gemäß einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die obigen Schritte 3 bis 8 für zwei oder mehr Charakteristiken oder Kombinationen von Charakteristiken verarbeitet werden und Datensätze von Modifikationen (12), die für diese verschiedenen Charakteristiken ausgewählt sind, gespeichert werden und dass die künstliche Intelligenz (7) dazu ausgelegt ist, die tatsächlichen Gesichtsausdrücke des Gesichts der Person (2) in dem Video (17) zu analysieren und den Inhalt und/oder Ton der Person (2) zu erkennen und den passenden gespeicherten Datensatz von Modifikationen (12), der den Inhalt und/oder Ton der Person (2) unterstützt, auszuwählen und die Abbildung des Gesichts der Person (2) in dem Video mit dem ausgewählten Datensatz von Modifikationen (12) dynamisch zu modifizieren.
Vorrichtung (3) gemäß Anspruch 1, dadurch gekennzeichnet, dass die Vorrichtung (3) zum Abarbeiten der folgenden weiteren Schritte ausgebildet ist: - Vorverarbeiten der bereitgestellten Abbildung des Gesichts der Person (2), um ihren Inhalt vor der Analyse der künstlichen Intelligenz (7) zu standardisieren, wobei die Vorverarbeitung einen oder mehrere der folgenden Schritte beinhalten kann: Ausschneiden des Hintergrunds hinter dem Gesicht aus der Abbildung; Ausschneiden der Ohren des Gesichts der Person (2), um ihren visuellen Einfluss zu reduzieren; Ausschneiden der Kleidung und anderer Bekleidung, die das Gesicht beeinflussen könnte; Ausschneiden des Kopfhaars der Person (2).