DE112019000040T5

DE112019000040T5 - Detektieren von massnahmen zur erkennungsverhinderung

Info

Publication number: DE112019000040T5
Application number: DE112019000040.3T
Authority: DE
Inventors: Andrew Gallagher; Praveen BOMMANNAVAR; Teresa Ko
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-04-03
Filing date: 2019-02-04
Publication date: 2020-01-23
Also published as: CN111902821A; US10679039B2; EP3776331A1; US20190303651A1; WO2019194892A1

Abstract

Ein Verfahren zum Bestimmen, ob eine Erkennung auf einem Bild oder einem Video ausgeführt wird. Der Verfahren enthält Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht. Das Verfahren enthält ferner die Person oder die Position des Gesichts der Person basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen. Das Verfahren enthält ferner das Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Das Verfahren enthält ferner das Ablehnen der Ausführung der Erkennung der Person in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern.

Description

QUERVERWEIS AUF VERWANDTE ANWENDUNGEN
Diese Anmeldung beansprucht die Priorität der US-Patentanmeldung Nr. 15/943,961 , eingereicht am 3. April 2018, mit dem Titel „DETECTING AC-TIONS TO DISCOURAGE RECOGNITION“, deren Inhalt hier durch Bezugnahme vollständig mit aufgenommen ist.
HINTERGRUND
Diese Spezifikation bezieht sich auf eine Erkennungsanwendung, die bestimmt, ob Erkennung einer Person in einem Bild oder einem Video ausgeführt werden soll.
Wenn eine Person nicht möchte, dass sie in einem Bild oder einem Video erkannt wird, war es ausreichend, das Gesicht der Person zu verdecken, weil das Verdecken des Gesichts der Person unterbinden würde, dass ein Gesichtserkennungsalgorithmus genug Gesichtsmerkmale identifiziert, um Gesichtserkennung auszuführen. In modernen Computer-Sichtsystemen können Menschen jedoch auch durch Extrahieren von Merkmalen aus dem gesamten Körper in einem Bild oder aus einer Folge von Bildern oder in einem Video erkannt werden, selbst wenn das Gesicht nicht sichtbar ist oder in hohem Maße verdeckt ist. Beispielsweise kann eine Person, die in einem ersten Foto ein markantes Hemd trägt, dann durch zuerst Entdecken, dass das Hemd in einem weiteren Foto, in dem das Gesicht sichtbar ist, getragen wird, und dann durch Erkennen dieser Person erkannt werden. Ähnlich kann eine Person durch einen markanten Haarschnitt, einen Schmuckgegenstand, eine Tätowierung, einen gehaltenen Gegenstand, eine Haltung oder irgendwelche anderen Kennzeichen erkannt werden. Als ein Ergebnis können moderne Computer-Sichtsysteme Menschen entgegen ihrem Willen identifizieren.
Die Hintergrundbeschreibung, die hier bereitgestellt ist, dient dem Zweck, den Kontext der Offenbarung allgemein zu präsentieren. Sowohl die Arbeit der hier genannten Erfinder, in dem Maß, in dem sie in diesem Hintergrundabschnitt beschrieben ist, als auch Aspekte der Beschreibung, die nicht anderweitig zur Zeit der Einreichung als Stand der Technik bezeichnet werden können, sind weder ausdrücklich noch implizit als Stand der Technik gegenüber der vorliegenden Offenbarung anerkannt.
ZUSAMMENFASSUNG
Ausführungsformen beziehen sich allgemein auf ein Verfahren, beispielsweise ein computerimplementiertes Verfahren, zum Bestimmen, ob Erkennung auf einem Bild oder einem Video ausgeführt werden soll. Der Verfahren enthält Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht. Das Verfahren enthält ferner das Analysieren von Pixelwerten, die der Person oder der Position des Gesichts der Person entsprechen, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen. Das Verfahren enthält ferner das Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Das Verfahren enthält ferner das Ablehnen der Erkennung der Person in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern.
In einigen Ausführungsformen enthält das Ablehnen, die Erkennung der Person auszuführen, das Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen. In einigen Ausführungsformen umfasst das Verfahren ferner in Reaktion darauf, dass Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person durch Bestimmen einer Identität der Person und Indexieren des Bilds oder Videos in Zuordnung zu der Identität. In einigen Ausführungsformen enthält das Bestimmen, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert nicht erfüllt, und Ausführen der Erkennung der Person auch in Reaktion darauf ist, dass der Vermeidungswert den Schwellenwert nicht erfüllt. In einigen Ausführungsformen ist die Person eine erste Person, das Bestimmen, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, enthält ferner eine Bestimmung, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt, und das Verfahren umfasst ferner in Reaktion darauf, dass der Vermeidungswert den Schwellenwert erfüllt, Detektieren einer zweiten Person in dem Bild und Erzeugen des Erkennungsvermeidungssignals für die zweite Person. In einigen Ausführungsformen enthält die Maßnahme, dass (1) die Person ein Objekt verwendet, um wenigstens einen Teil des Gesichts der Person zu verdecken, oder dass (2) wenigstens ein Teil des Gesichts der Person digital verdeckt ist. In einigen Ausführungsformen basiert das Ausführen der Erkennung der Person auf dem Extrahieren einer Erkennungsschablone. In einigen Ausführungsformen, wobei das Bild ein erstes Bild ist, das Video ein erstes Video ist, und umfasst ferner: Identifizieren eines oder mehrerer zusätzlicher Bilder oder eines oder mehrere zusätzlicher Videos, die einem Ereignis zugeordnet sind, und Bestimmen, eine Person innerhalb des einen oder der mehreren zusätzlichen Bilder oder des einen oder der mehreren zusätzlichen Videos, die dem Ereignis zugeordnet sind, nicht zu erkennen. In einigen Ausführungsformen enthält das Bestimmen, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, das Bestimmen eines Typs der Maßnahme und umfasst ferner: Ausführen der Erkennung der Person durch Identifizieren der Person und Teilen der Identifizierung der Person mit einer Gruppe von Anwendern in einem sozialen Netzwerk basierend auf dem Typ der Maßnahme und nicht Teilen der Identifizierung der Person mit irgendwelchen Anwendern, die nicht Teil der Gruppe von Anwendern in dem sozialen Netzwerk sind.
In einigen Ausführungsformen enthält ein nicht-transitorisches computerlesbares Medium darauf gespeichert Anweisungen, die dann, wenn sie durch einen oder mehrere Computer ausgeführt werden, bewirken, dass der eine oder die mehreren Computer Operationen ausführen, wobei die Operationen umfassen: Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position des Gesichts der Person entspricht, Analysieren von Pixelwerten, die der Person oder der Position des Gesichts der Person entsprechen, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen, Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, und in Reaktion darauf, dass das Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person.
In einigen Ausführungsformen umfasst das Ausführen der Erkennung der Person das Bestimmen einer Identität der Person und Indexieren des Bilds oder des Videos in Zuordnung zu der Identität. In einigen Ausführungsformen umfassen die Operationen ferner: in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen worden ist, die Erkennung der Person zu verhindern, Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen. In einigen Ausführungsformen umfassen die Operationen ferner: in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen worden ist, die Erkennung der Person zu verhindern, Bestimmen ob das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt, und in Reaktion darauf, dass der Vermeidungswert den Schwellenwert nicht erfüllt, Ausführen von Erkennung der Person . In einigen Ausführungsformen enthält die Aktion, dass (1) die Person ein Objekt verwendet, um wenigstens einen Teil des Gesichts der Person zu verdecken, oder dass (2) wenigstens ein Teil des Gesichts der Person ist digital verdeckt ist. In einigen Ausführungsformen umfassen die Operationen ferner: Bestimmen von Berechtigungen, die der Person zugeordnet sind, und wobei das Ausführen der Erkennung der Person auf den Berechtigungen basiert, die der Person zugeordnet sind.
In einigen Ausführungsformen umfasst ein System ein oder mehrere Prozessoren und einen Speicher, der Anweisungen speichert, die durch den einen oder die mehreren Prozessoren ausgeführt werden, wobei die Anweisungen umfassen: Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position des Gesichts der Person entspricht, Analysieren von Pixelwerten, die der Person oder der Position des Gesichts der Person entsprechen, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen, Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, und in Reaktion darauf, dass das Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person. Mit anderen Worten, Pixelwerte des Bilds oder Videos werden auf den und/oder innerhalb der Grenzen analysiert.
In einigen Ausführungsformen enthält das Ablehnen, die Erkennung der Person auszuführen, Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen. In einigen Ausführungsformen speichert der Speicher zusätzliche Anweisungen, die umfassen: in Reaktion darauf, dass Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person durch Bestimmen einer Identität der Person und Indexieren des Bilds oder Videos in Zuordnung zu der Identität. In einigen Ausführungsformen enthält das Bestimmen, dass die Maßnahme ergriffen wurde, die Erkennung der Person zu verhindern, ferner eine Bestimmung, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert nicht erfüllt, und Ausführen der Erkennung der Person auch in Reaktion darauf ist, dass der Vermeidungswert den Schwellenwert nicht erfüllt. In einigen Ausführungsformen ist die Person eine erste Person, enthält das Bestimmen, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einem Schwellenwert entspricht, und der Speicher speichert zusätzliche Anweisungen, die, Reaktion darauf, dass der Vermeidungswert den Schwellenwert erfüllt, Detektieren einer zweiten Person in dem Bild und Erzeugen des Erkennungsvermeidungssignals für die zweite Person umfassen.
In einigen Ausführungsformen speichert ein maschinenlesbarer Speicher Anweisungen, die dann, wenn sie ausgeführt werden, bewirken, dass eine Verarbeitungsvorrichtung Operationen ausführt, die ein Verfahren nach irgendeiner/irgendeinem hier beschriebenen Ausführungsformen oder Aspekt umfassen.
Die nachstehend beschriebenen verschiedenen Ausführungsformen unterbinden vorteilhafterweise, dass eine Person in einem Bild erkannt wird, wenn die Person nicht erkannt werden möchte. Das Unterbinden der Erkennung kann das Unterbinden enthalten, dass eine Person identifiziert wird und dass das Bild in Zuordnung zu einer Identität der Person indexiert wird. In einigen Ausführungsformen kann die Erkennung mehrere Ebenen enthalten, wie z. B. (1) Löschen des Bilds; (2) nicht Ausführen der Erkennung einer Person in dem Bild; (3) Ausführen einer Erkennung der Person in dem Bild, jedoch Teilen einer Identifizierung der Person nur mit Anwendern, die eine Autorisierung von der Person besitzen, die Identität der Person zu kennen.
Figurenliste

Die Offenbarung ist als Beispiel und nicht als Einschränkung in den Figuren der begleitenden Zeichnungen dargestellt, in denen gleiche Bezugszeichen verwendet sind, um ähnliche Elemente zu bezeichnen.
1 stellt ein Blockdiagramm eines Beispielsystems, das bestimmt, ob die Erkennung einer Person in einem Bild oder einem Video ausgeführt werden soll, gemäß einigen Ausführungsformen dar.
2 stellt ein Blockdiagramm einer beispielhaften Berechnungsvorrichtung, die bestimmt, ob die Erkennung einer Person in einem Bild oder einem Video ausgeführt werden soll, gemäß einigen Ausführungsformen dar.
3A-3D stellen Beispiele für unterschiedliche Maßnahmen, die durch eine Person in Bildern ergriffen werden können, um die Erkennung zu verhindern, gemäß einigen Ausführungsformen dar.
4 stellt eine beispielhafte digitale Veränderung von Menschen in einem Bild, um die Erkennung zu verhindern, gemäß einigen Ausführungsformen dar.
5 stellt einen Ablaufplan eines Beispielverfahrens zum Bestimmen, ob eine Person Maßnahmen ergriffen hat, die Erkennung in einem Bild zu verhindern, gemäß einigen Ausführungsformen dar.

AUSFÜHRLICHE BESCHREIBUNG
Beispielsystem
1 stellt ein Blockdiagramm eines Beispielsystems 100, das bestimmt, ob die Erkennung einer Person in einem Bild oder einem Video ausgeführt werden soll, dar. Das dargestellte System 100 enthält einen Erkennungsserver 101, Anwendergeräte 115a, 115n, einen zweiten Server 120 und ein Netz 105. Die Anwender 125a, 125n können entsprechenden Anwendergeräten 115a, 115n zugeordnet sein- In einigen Ausführungsformen kann das System 100 andere Server oder Vorrichtungen enthalten, die in 1 nicht gezeigt sind. In 1 und den restlichen Figuren repräsentiert ein Buchstabe nach einem Bezugszeichen, z. B. 115a", einen Bezug auf das Element, das dieses spezielle Bezugszeichen aufweist. Ein Bezugszeichen in dem Text ohne nachfolgenden Buchstaben, z. B. „115“, repräsentiert einen allgemeinen Bezug zu Ausführungsformen des Elements, das dieses Bezugszeichen trägt.
Der Erkennungsserver 101 kann einen Prozessor, einen Speicher und Netzkommunikationsfähigkeiten enthalten. In einigen Ausführungsformen ist der Erkennungsserver 101 ein Hardware-Server. Der Erkennungsserver 101 ist mit dem Netz 105 über die Signalleitung 102 kommunikationstechnisch gekoppelt. Die Signalleitung 102 kann eine drahtgebundene Verbindung, wie z. B. Ethernet, ein Koaxialkabel, ein Lichtwellenleiter usw., oder eine drahtlose Verbindung wie z. B. Wi-Fi®, Bluetooth® oder eine andere Drahtlostechnologie sein. In einigen Ausführungsformen sendet und empfängt der Erkennungsserver 101 Daten zu und von einem oder mehreren der Anwendergeräte 115a, 115n und dem zweiten Server 120 über das Netz 105. Der Erkennungsserver 101 kann eine Erkennungsanwendung 103a und eine Datenbank 199 enthalten.
Die Erkennungsanwendung 103a kann Code und Routinen sein, die betrieben werden können, um zu bestimmen, ob Erkennung einer Person in einem Bild oder einem Video ausgeführt werden soll. In einigen Ausführungsformen kann die Erkennungsanwendung 103a unter Verwendung von Hardware, die ein feldprogrammierbares Gatter-Array (FPGA) oder eine anwendungsspezifische integrierte Schaltung (ASIC) enthält, implementiert sein. In einigen Ausführungsformen kann die Erkennungsanwendung 103a unter Verwendung einer Kombination aus Hardware und Software implementiert sein.
Die Datenbank 199 kann animierte Objekte, Nachrichtenübermittlungsströme usw. speichern. Beispielsweise kann die Datenbank 199 Bilder und/oder Videos speichern. In Ausführungsformen, in denen Menschen in Bildern und Videos erkannt werden, kann die Datenbank 199 Bilder und Videos speichern, die indexiert und Identitäten der Menschen zugeordnet sind. Beispielsweise kann ein Bild in Zuordnung zu Metadaten, die einen Anwender eines sozialen Netzwerks beschreiben und einen Link auf ein Profil des Anwenders in dem sozialen Netzwerk enthalten, indexiert sein. Die Datenbank 199 kann außerdem Daten des sozialen Netzwerks, die Anwendern 125 zugeordnet sind, Anwenderpräferenzen für die Anwender 125 usw. speichern.
Das Anwendergerät 115 kann eine Berechnungsvorrichtung sein, die einen Speicher und einen Hardware-Prozessor enthält. Beispielsweise kann das Anwendergerät einen Desktop-Computer, eine mobile Vorrichtung, einen Tablet-Computer, ein Mobiltelefon, eine tragbare Vorrichtung, eine am Kopf getragene Vorrichtung, eine mobile E-Mail-Vorrichtung, eine tragbare Spielkonsole, ein tragbares Musikabspielgerät, eine Lesevorrichtung oder eine andere elektronische Vorrichtung, die zum Zugreifen auf ein Netz 105 fähig ist, enthalten.
In der dargestellten Implementierung ist das Anwendergerät 115a mit dem Netz 105 über die Signalleitung 108 gekoppelt, und das Anwendergerät 115n ist mit dem Netz 105 über die Signalleitung 110 gekoppelt. Die Signalleitungen 108 und 110 können eine drahtgebundene Verbindung, wie z. B. Ethernet, ein Koaxialkabel, ein Lichtwellenleiter usw., oder eine drahtlose Verbindung wie z. B. Wi-Fi®, Bluetooth@ oder eine andere Drahtlostechnologie sein. Auf die Anwendergeräte 115a, 115n wird durch die Anwender 125a bzw. 125n zugegriffen. Die Anwendergeräte 115a, 115n in 1 sind als Beispiel verwendet. Obwohl 1 zwei Anwendergeräte, 115a und 115n, darstellt, gilt die Offenbarung für eine Systemarchitektur, die ein oder mehr Anwendergeräte 115 aufweist.
In einigen Ausführungsformen kann das Anwendergerät 115 ein Anwendergerät sein, das in einer tragbaren Vorrichtung, die durch den Anwender 125 getragen wird, enthalten ist. Beispielsweise ist das Anwendergerät 115 als Teil einer Spange (z. B. eines Armbands), Teil von Schmuck oder Teil einer Brille enthalten. In einem weiteren Beispiel kann das Anwendergerät 115 eine Smartwatch sein. Der Anwender 125 kann Daten, die der Erkennungsanwendung 103 zugeordnet sind, auf einer Anzeigevorrichtung der Vorrichtung, die durch den Anwender 125 getragen wird. Beispielsweise kann die Erkennungsanwendung 103a Bilder, Videos und/oder Fragen zu der Berechtigung, die einer Person, die in einem Bild oder einem Video erkannt wird, zugeordnet ist, auf einer Anzeigevorrichtung einer Smartwatch oder eines intelligenten Armbands anzeigen.
In einigen Ausführungsformen kann die Erkennungsanwendung 103b auf einem Anwendergerät 115a gespeichert sein. Die Erkennungsanwendung 103 kann eine „Thin-Client“-Erkennungsanwendung 103b, die auf dem Anwendergerät 115a gespeichert ist, und eine Erkennungsanwendung 103a, die auf dem Erkennungsserver 101 gespeichert ist, enthalten. Beispielsweise kann die Erkennungsanwendung 103b, die auf dem Anwendergerät 115a gespeichert ist, einen Nachrichtenübermittlungsstrom, der ein animiertes Objekt enthält, anzeigen. Das Anwendergerät 115a kann eine Kamera enthalten, die ein Bild oder ein Video aufnimmt, das die Erkennungsanwendung 103b zur Verarbeitung zu dem Erkennungsserver 101 sendet. Die Erkennungsanwendung 103a, die auf dem Erkennungsserver 101 gespeichert ist, kann das Bild oder Video empfangen und bestimmen, ob ein Erkennungsvermeidungssignal, das dem Bild oder Video zugeordnet ist, angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern.
Der zweite Server 120 kann einen Prozessor, einen Speicher und Netzkommunikationsfähigkeiten enthalten. Der zweite Server 120 kann über die Signalleitung 109 auf das Netz 105 zugreifen. Der zweite Server 120 kann eine Anwendung enthalten, die Informationen über Menschen, die in Bildern und Videos durch die Erkennungsanwendung 103a erkannt werden, verwendet. Beispielsweise kann der zweite Server 120 eine Anwendung für soziale Netzwerke enthalten, die Identifizierungsinformationen über Menschen in Bildern und Videos von der Erkennungsanwendung 103a empfängt und die Identifizierungsinformationen Anwendern der Anwendung für soziale Netzwerke zuordnet. In einem weiteren Beispiel kann der zweite Server 120 eine Fotobearbeitungsanwendung zum digitalen Verdecken eines Bilds oder eines Videos, beispielsweise durch Verwischung oder Verpixelung von Gesichtern von Menschen in dem Bild, enthalten. In noch einem weiteren Beispiel kann der zweite Server 120 eine Fotoanwendung, eine Kalenderanwendung, eine Ereignis-Organizer-Anwendung usw. enthalten.
In der dargestellten Implementierung sind die Entitäten des Systems 100 über ein Netz 105 kommunikationstechnisch gekoppelt. Das Netz 105 kann vom herkömmlichen Typ sein, drahtgebunden oder drahtlos, und kann zahlreiche unterschiedliche Konfigurationen aufweisen, die eine Sternkonfiguration, eine Token Ring-Konfiguration oder andere Konfigurationen enthalten. Darüber hinaus kann das Netz 105 ein lokales Netz (LAN), ein Weitbereichsnetz (WAN) (z. B. das Internet) und/oder andere miteinander verbundene Datenpfade, über die mehrere Vorrichtungen kommunizieren können, enthalten. In einigen Ausführungsformen kann das Netz 105 ein Peer-to-Peer-Netz sein. Das Netz 105 kann mit auch einem Telekommunikationsnetz zum Senden von Daten in einer Vielzahl von unterschiedlichen Kommunikationsprotokollen gekoppelt sein oder Abschnitte davon enthalten. In einigen Ausführungsformen enthält das Netz 105 Bluetooth@-Kommunikationsnetze, WiFi®, durch IEEE 902.11 spezifizierte Computerkommunikation über ein drahtloses lokales Netz (WLAN) oder ein zelluläres Kommunikationsnetz zum Senden und Empfangen von Daten, einschließlich über Kurznachrichtendienst (SMS), Multimedianachrichtendienst (MMS), Hypertextübertragungsprotokoll (HTTP), direkte Datenverbindung, E-Mail usw. Obwohl 1 ein Netz 105 darstellt, das mit den Anwendergeräten 115 und dem Erkennungsserver 101 gekoppelt ist, können in der Praxis ein oder mehrere Netze 105 mit diesen Entitäten gekoppelt sein.
In Situationen, in denen die hier diskutierten Systeme und Verfahren persönliche Informationen über Anwender (z. B. Anwenderdaten, Informationen über das soziale Netzwerk eines Anwenders, den Aufenthaltsort eines Anwenders, biometrische Informationen über den Anwender, Aktivitäten und/oder Demographieinformationen des Anwenders, Speichern und Analysieren von Bildern oder Videos durch den Erkennungsserver 101 oder die Erkennungsanwendung 103 usw.) sammeln oder verwenden können, sind die Anwender mit Gelegenheiten ausgestattet, zu steuern, ob persönliche Informationen gesammelt werden, ob die persönlichen Informationen gespeichert werden, ob die persönlichen Informationen verwendet werden, ob die Bilder oder Videos analysiert werden und wie Informationen über den Anwender gesammelt, gespeichert und verwendet werden. Das heißt, die Systeme und Verfahren, die hier diskutiert sind, können persönliche Informationen des Anwenders nur nach dem Empfangen einer ausdrücklichen Autorisierung von den relevanten Anwendern, die das erlauben, sammeln, speichern und/oder verwenden. Beispielsweise ist ein Anwender mit der Kontrolle darüber ausgestattet, ob Programme oder Merkmale Anwenderinformationen über diesen speziellen Anwender oder andere Anwender, die für das Programm oder das Merkmal relevant sind, sammeln. Jedem Anwender, für den persönliche Informationen gesammelt werden sollen, werden eine oder mehrere Optionen präsentiert, um die Kontrolle über die Informationssammlung, die für diesen Anwender relevant ist, zu ermöglichen, um Berechtigung oder Autorisierung dafür zu erteilen, ob die Informationen gesammelt werden und welche Abschnitte der Informationen gesammelt werden sollen. Beispielsweise können Anwender mit einer oder mehreren solcher Steuerungsoptionen über ein Kommunikationsnetz versorgt werden. Zusätzlich können spezielle Daten auf eine oder mehrere Arten behandelt werden, bevor sie gespeichert oder verwendet werden, so dass persönlich identifizierbare Informationen entfernt werden. Als ein Beispiel können die Identitätsinformationen eines Anwenders behandelt, z. B. anonymisiert, werden, so dass keine persönlich identifizierbaren Informationen aus einem Video bestimmt werden können. Als ein weiteres Beispiel kann der geographische Aufenthaltsort eines Anwenders auf ein größeres Gebiet verallgemeinert werden, so dass der spezielle Aufenthaltsort des Anwenders nicht bestimmt werden kann.
Beispielhafte Berechnungsvorrichtung
2 stellt ein Blockdiagramm einer beispielhaften Berechnungsvorrichtung 200, die bestimmt, ob eine Person in einem Bild oder einem Video erkannt werden soll, dar. Die Berechnungsvorrichtung 200 kann ein Erkennungsserver 101, ein Anwendergerät 115 oder eine Kombination aus einem Erkennungsserver 101 und einem Anwendergerät 115 sein. Die Berechnungsvorrichtung 200 kann einen Prozessor 235, einen Speicher 237, eine Kommunikationseinheit 239, eine Anzeigevorrichtung 241 und eine Speichervorrichtung 247 enthalten. Zusätzliche Komponenten können vorhanden sein, oder einige der vorstehenden Komponenten können weggelassen sein, abhängig von dem Typ der Berechnungsvorrichtung 200. Falls beispielsweise die Berechnungsvorrichtung 200 der Erkennungsserver 101 ist, kann die Berechnungsvorrichtung 200 die Anzeigevorrichtung 241 nicht enthalten. Eine Erkennungsanwendung 103 kann in dem Speicher 237 gespeichert sein. In Ausführungsformen, in denen die Berechnungsvorrichtung 200 eine tragbare Vorrichtung ist, kann die Berechnungsvorrichtung 200 die Speichervorrichtung 247 nicht enthalten. In einigen Ausführungsformen kann die Berechnungsvorrichtung 200 andere Komponenten, die hier nicht aufgelistet sind, wie z. B. eine Batterie usw., enthalten. Die Komponenten der Berechnungsvorrichtung 200 können durch einen Bus 220 kommunikationstechnisch gekoppelt sein.
Der Prozessor 235 enthält eine Arithmetiklogikeinheit, einen Mikroprozessor, eine Allzwecksteuereinheit oder irgendein anderes Prozessor-Array, um Berechnungen auszuführen und Anweisungen für eine Anzeigevorrichtung bereitzustellen. Der Prozessor 235 verarbeitet Daten und kann verschiedene Berechnungsarchitekturen enthalten, die eine Computer-Architektur mit komplexem Befehlssatz (CISC-Architektur) oder eine Computer-Architektur mit reduziertem Befehlssatz (RISC-Architektur) oder eine Architektur, die eine Kombination von Befehlssätzen implementiert, enthalten. Obwohl 2 einen einzigen Prozessor 235 enthält, können mehrere Prozessoren 235 enthalten sein. Andere Prozessoren, Betriebssysteme, Sensoren, Anzeigevorrichtungen und physikalische Konfigurationen können Teil der Berechnungsvorrichtung 200 sein. Der Prozessor 235 ist mit dem Bus 220 zur Kommunikation mit den anderen Komponenten über die Signalleitung 222 gekoppelt.
Der Speicher 237 speichert Anweisungen, die durch den Prozessor 235 ausgeführt werden können, und/oder Daten. Die Anweisungen können Code zum Ausführen der hier beschriebenen Techniken enthalten. Der Speicher 237 kann eine Vorrichtung mit dynamischem Direktzugriffsspeicher (DRAM), ein statischer RAM oder eine andere Speichervorrichtung sein. In einigen Ausführungsformen enthält der Speicher 237 auch einen nichtflüchtigen Speicher, wie z. B. eine Vorrichtung mit statischem Direktzugriffsspeicher (SRAM) oder Flash-Speicher oder eine ähnliche Permanentspeichervorrichtung, und Medien, die ein Festplattenlaufwerk, eine Vorrichtung mit Compact-Disc-Festwertspeicher (CD-ROM), eine DVD-ROM-Vorrichtung, eine DVD-RAM-Vorrichtung, eine DVD-RW-Vorrichtung, eine Flash-Speichervorrichtung oder eine andere Massenspeichervorrichtung zum Speichern von Informationen auf einer mehr permanenten Basis. Der Speicher 237 enthält Code und Routinen, die betrieben werden können, um die Erkennungsanwendung 103, die nachstehend genauer beschrieben ist, auszuführen. Der Speicher 237 ist mit dem Bus 220 zur Kommunikation mit den anderen Komponenten über die Signalleitung 224 gekoppelt.
Die Kommunikationseinheit 239 sendet und empfängt Daten zu und von dem Anwendergerät 115 und/oder dem Erkennungsserver 101, abhängig davon, wo die Erkennungsanwendung 103 gespeichert sein kann. In einigen Ausführungsformen enthält die Kommunikationseinheit 239 einen Anschluss zur direkten physikalischen Verbindung mit dem Netz 105 oder mit einem weiteren Kommunikationskanal. Beispielsweise enthält die Kommunikationseinheit 239 einen universellen seriellen Bus- (USB-), sicheren digitalen (SD-), Kategorie-5-Kabel- (CAT-5-) oder ähnlichen Anschluss zur drahtgebundenen Kommunikation mit dem Anwendergerät 115 oder dem Erkennungsserver 101, abhängig davon, wo die Erkennungsanwendung 103 gespeichert sein kann. In einigen Ausführungsformen enthält die Kommunikationseinheit 239 einen drahtlosen Sender/Empfänger zum Austauschen von Daten mit dem Anwendergerät 115, dem Erkennungsserver 101 oder anderen Kommunikationskanälen unter Verwendung eines oder mehrerer Drahtloskommunikationsverfahren, die IEEE 802.11, IEEE 802.16, Bluetooth@ oder ein anderes geeignetes Drahtloskommunikationsverfahren enthalten. Die Kommunikationseinheit 239 ist mit dem Bus 220 zur Kommunikation mit den anderen Komponenten über die Signalleitung 226 gekoppelt.
In einigen Ausführungsformen enthält die Kommunikationseinheit 239 einen Sender/Empfänger für zelluläre Kommunikation zum Senden und Empfangen von Daten über ein zelluläres Kommunikationsnetz, einschließlich über Kurznachrichtendienst (SMS), Multimedianachrichtendienst (MMS), Hypertextübertragungsprotokoll (HTTP), direkte Datenverbindung, E-Mail oder einen anderen geeigneten Typ elektronischer Kommunikation. In einigen Ausführungsformen enthält die Kommunikationseinheit 239 einen drahtgebundenen Anschluss und einen drahtlosen Sender/Empfänger. Die Kommunikationseinheit 239 stellt außerdem andere herkömmliche Verbindung mit dem Netz 105 zur Verteilung von Dateien und/oder Medienobjekten unter Verwendung von Standard-Netzprotokollen, die, ohne darauf beschränkt zu sein, Anwenderdatagrammprotokoll (UDP), TCP/IP, HTTP, sicheres HTTP (HTTPS), einfaches Mail-Übertragungsprotokoll (SMTP), SPDY, schnelle UDP-Internetverbindung (QUIC) usw. enthalten.
Die Anzeigevorrichtung 241 kann Hardware enthalten, die betrieben werden kann, um Grafikdaten, die von der Erkennungsanwendung 103 empfangen werden, anzuzeigen. Beispielsweise kann die Anzeigevorrichtung 241 Grafik rendern, um ein Bild oder eine Frage über Berechtigungen, die einem Bild zugeordnet sind, anzuzeigen. Die Anzeigevorrichtung 241 ist mit dem Bus 220 zur Kommunikation mit den anderen Komponenten über die Signalleitung 228 gekoppelt.
Die Speichervorrichtung 247 kann ein nicht-transitorisches computerlesbares Speichermedium sein, das Daten, die die hier beschriebene Funktionalität bereitstellen, speichert. In Ausführungsformen, in denen die Berechnungsvorrichtung 200 der Erkennungsserver 101 ist, kann die Speichervorrichtung 247 die Datenbank 199 in 1 enthalten. Die Speichervorrichtung 247 kann eine DRAM-Vorrichtung, eine SRAM-Vorrichtung, Flash-Speicher oder eine andere Speichervorrichtung sein. In einigen Ausführungsformen enthält die Speichervorrichtung 247 außerdem einen nichtflüchtigen Speicher oder eine ähnliche Permanentspeichervorrichtung und Medien, die ein Festplattenlaufwerk, eine CD-ROM-Vorrichtung, eine DVD-ROM-Vorrichtung, eine DVD-RAM-Vorrichtung, eine DVD-RW-Vorrichtung, eine Flash-Speichervorrichtung oder eine andere Massenspeichervorrichtung zum Speichern von Informationen auf einer mehr permanenten Basis enthalten. Die Speichervorrichtung 247 ist mit dem Bus 220 zur Kommunikation mit den anderen Komponenten über die Signalleitung 230 gekoppelt.
Die Erkennungsanwendung 103 kann einen Detektor 202, einen Analysator 204, ein Erkennungsmodul 206 und ein Anwenderschnittstellenmodul 208 enthalten.
Der Detektor 202 detektiert eine Person in einem Bild oder einem Video. In einigen Ausführungsformen enthält der Detektor 202 eine Gruppe von Anweisungen, die durch den Prozessor 235 ausführbar sind, um die Person zu detektieren. In einigen Ausführungsformen ist der Detektor 202 in dem Speicher 237 der Berechnungsvorrichtung 200 gespeichert und kann durch den Prozessor 235 zugänglich und ausführbar sein.
In einigen Ausführungsformen verarbeitet der Detektor 202 ein Bild oder ein Video unter Verwendung von Computersichtalgorithmen. Die Computersichtalgorithmen können einen Personendetektor und einen Gesichtsdetektor zum Detektieren von Menschen und/oder Gesichtern enthalten. Der Personendetektor und der Gesichtsdetektor können Personenschablonen und Gesichtsschablonen verwenden, die Schablonen für Daten, die einer Person bzw. einem Gesicht zugeordnet sind, beschreiben. Beispielsweise können die Personenschablonen und die Gesichtsschablonen Objektvorgängern entsprechen, die unterschiedliche Typen von Menschen und Gesichtern beschreiben. Die Gesichtsschablonen und die Personenschablonen können auf erwarteten Punkten, die einem/einer erwarteten Gesicht oder Person entsprechen, basieren. Beispielsweise kann eine Personenschablone den erwarteten Ort eines Kopfes, von Schultern, Armen, Brust, Beinen, Füßen usw. und den Abstand zwischen den Orten enthalten. Der Detektor 202 kann außerdem bestimmen, ob die Orte der Punkte auf einer Person Haltungen für Menschen entsprechen. Beispielsweise können die Punkte einer Person entsprechen, die steht, sitzt, läuft usw.
Der Detektor 202 kann einen Personenbildbereich, der den Grenzen der Person entspricht, oder einen Gesichtsbildbereich, der einer Position des Gesichts der Person entspricht, bestimmen. Beispielsweise kann der Detektor 202 einen Grenzrahmen erzeugen, der ein Gesicht und/oder einen Körper einer Person umgibt. In einigen Ausführungsformen kann der Detektor 202 ein Gesicht basierend auf Gesichtspunkten und einem Abstand zwischen den Gesichtspunkten detektieren. Beispielsweise kann der Detektor 202 Augen, Augenbrauen, eine Nase, einen Mund und Haar identifizieren und bestätigen, dass diese Gesichtspunkte einem Gesicht entsprechen, falls die Gesichtspunkte den erwarteten Abständen zwischen den Gesichtspunkten entsprechen. Der Detektor 202 kann das Gesicht basierend auf einer konvexen Hülle durch Erzeugen einer Form aus den Gesichtspunkten (z. B. eines konvexen Polygons) und Bestätigen, dass die Form einer erwarteten Form für ein Gesicht entspricht, bestimmen. In einigen Ausführungsformen, in denen ein Bild eine Pixelmaske anstelle eines Gesichts enthält, kann der Detektor 202 die Pixelmaske identifizieren und bestimmen, dass die Pixelmaske einem Gesicht entspricht. In einigen Ausführungsformen kann der Detektor 202 Clustern verwenden, um Menschen zu identifizieren. In Beispielen, in denen der Detektor 202 ein Video verarbeitet, kann der Detektor 202 jeden Bildrahmen des Videos verarbeiten, um Gesichter und/oder Menschen zu detektieren.
Der Analysator 204 erzeugt ein Erkennungsvermeidungssignal. In einigen Ausführungsformen enthält der Analysator 204 eine Gruppe von Anweisungen, die durch den Prozessor 235 ausführbar sind, um das Erkennungsvermeidungssignal zu erzeugen. In einigen Ausführungsformen ist der Analysator 204 in dem Speicher 237 der Berechnungsvorrichtung 200 gespeichert und kann durch den Prozessor 235 zugänglich und ausführbar sein.
Der Analysator 204 verarbeitet jede/s detektierte Person und/oder Gesicht in dem Bild oder Video, um ein Erkennungsvermeidungssignal zu bestimmen, das angibt, ob die Person es nicht zu wünschen scheint, fotografiert zu werden, oder ob das Foto bearbeitet wurde, um die Identität der Person zu maskieren oder zu verändern.
Der Analysator 204 kann das Erkennungsvermeidungssignal durch Analysen von Pixelwerten, die der Person entsprechen, oder der Position des Gesichts der Person, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich erzeugen. Der Analysator 204 kann ferner bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Beispielsweise kann die Maßnahme enthalten, dass die Person ein Objekt in dem Bild verwendet, um wenigstens einen Teil des Gesichts der Person zu verdecken, wobei das Objekt ein Körperteil, wie z. B. eine Hand, Kleidung usw. ist. 3A-3D stellen Beispiele für unterschiedliche Maßnahmen, die durch eine Person in Bildern ergriffen werden können, um die Erkennung zu verhindern, gemäß einigen Ausführungsformen dar. Alternativ oder zusätzlich kann die Maßnahme das digitale Verdecken wenigstens eines Teils des Gesichts der Person enthalten.
Weiter zu 3A enthält ein Bild 300 eine Frau, die ihre Hand hebt, was ein Anzeichen sein kann, dass die Frau nicht wollte, in dem Bild erkannt zu werden. Weil die Hand der Frau ihr Gesicht nicht vollständig verdeckt, ist nicht klar, ob sie versuchte, ihr Gesicht zu verdecken, sie ihre Hand bewegt hat, um etwas zu fassen, oder sie dabei war, jemandem zu winken.
In einigen Ausführungsformen kann der Analysator 204 das Erkennungsvermeidungssignal durch Analysen von Pixelwerten, die der Person entsprechen, oder der Position des Gesichts der Person, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich erzeugen. Der Analysator 204 kann den Ausdruck einer Person basierend auf Schablonenausdrücken wie z. B. glücklich, traurig, ärgerlich, beunruhigt usw. kategorisieren. Die Schablonenausdrücke können darauf basieren, dass der Mund der Person nach oben gerichtet, gerade, nach unten gerichtet oder breit ist; die Augen einer Person weit, geschlossen, zusammengekniffen sind; die Augenbrauen einer Person hochgezogen oder gewinkelt sind; das Stirnrunzeln einer Person sichtbar ist, usw. Beispielsweise kann in 3A der Analysator 204 bestimmen, dass die Frau nicht erkannt werden möchte, weil ein Teil ihrer Hand ihr Gesicht überlappt und sie einen Ausdruck der Besorgnis aufweist, wie dadurch angezeigt ist, dass ihr Mund ein O bildet, ihre Augen weit sind und ihre Augenbrauen hochgezogen sind. Umgekehrt kann, falls die Hand in der gleichen Position war, aber die Frau gelächelt hat, der Analysator 204 bestimmen, dass sich die Frau mit dem Erkanntwerden in dem Bild wohlfühlt.
In einigen Ausführungsformen bewertet der Analysator das Erkennungsvermeidungssignal durch Bestimmen eines Vermeidungswerts, der dem Erkennungsvermeidungssignal entspricht. In einigen Ausführungsformen bestimmt der Analysator 204, falls der Vermeidungswert einen Schwellenwert erfüllt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Andere Schemas sind möglich, wie z. B. Bestimmen, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, falls der Vermeidungswert den Schwellenwert nicht erfüllt. Der Analysator 204 kann einen Vermeidungswert basierend auf einem prozentualen Anteil des Gesichts, der verdeckt ist, bestimmen. Beispielsweise kann der Analysator 204 bestimmen, dass dann, wenn mehr als 50 % des Gesichts verdeckt ist, die Person eine Maßnahme ergriffen hat, um die Erkennung der Person zu vermeiden. In einem weiteren Beispiel bestimmt der Analysator 204, dass, weil das Bild der Person enthält, dass das Gesicht verdeckt ist, und die Person in einer zusammengekauerten Position ist, der Vermeidungswert 90 auf einer Skala von 100 ist.
Weiter zu 9B enthält ein Bild 325 eine Frau, die eine Angabe zeigt, dass sie in dem Bild nicht erkannt werden wollte. In diesem Beispiel ist ein größerer Abschnitt des Gesichts der Frau durch ihre Hand verdeckt, was ein stärkeres Anzeichen dafür ist, dass die Frau in dem Bild nicht erkannt werden wollte. In einigen Ausführungsformen kann der Analysator 204 eine Reihe von Bildern, die einem Ereignis zugeordnet sind, verarbeiten und das Erkennungsvermeidungssignal basierend auf der Reihe von Bildern erzeugen. Beispielsweise können 3A und 3B Teil desselben Ereignisses sein. Der Analysator 204 kann bestimmen, dass, weil beide Bilder der Frau enthalten, dass wenigstens ein Abschnitt ihres Gesichts mit ihrer Hand verdeckt ist, die Frau anzeigte, dass die Frau in dem Bild nicht erkannt werden wollte. Der Analysator 204 kann einen Vermeidungswert erzeugen, der auf der Reihe von Bildern basiert. Beispielsweise kann der Analysator 204 basierend auf den 3A und 3B bestimmen, dass die Frau nicht erkannt werden wollte, weil der Durchschnitt (oder Mittelwert) des Vermeidungswerts für die zwei Bilder einem Vermeidungswert entspricht, der den Schwellenwert erfüllt (oder übersteigt oder unter ihn fällt usw.). In einem weiteren Beispiel kann der Analysator 204 basierend auf 3A, 3B und einer Reihe von Bildern, in denen die Frau ihre Hand nicht vor ihrem Gesicht hat, bestimmen, dass die Frau nichts dagegen hat, erkannt zu werden.
Weiter zu 3C enthält ein Bild 350 einen Mann, dessen Hand sein Gesicht beinahe vollständig verdeckt. Das ist ein Beispiel für eine Person, die nicht erkannt werden möchte. In einigen Ausführungsformen können keine weiteren Maßnahmen einem solchen direkten Anzeichen entgegenstehen, dass die Person nicht erkannt werden möchte. Für dieses Beispiel erzeugt der Analysator 204 ein Erkennungsvermeidungssignal, das angibt, dass die Person nicht erkannt werden möchte.
Weiter zu 3D enthält ein Bild 375 eine Person mit einem Hut, der über das Obere des Gesichts der Person nach unten gezogen ist, und Händen vor dem unteren Teil des Gesichts der Person. Das ist ein weiteres Beispiel für eine Person, die nicht erkannt werden möchte. Für dieses Beispiel erzeugt der Analysator 204 ein Erkennungsvermeidungssignal, das angibt, dass die Person nicht erkannt werden möchte.
Der Analysator 204 kann bestimmen, dass das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, wobei die Maßnahme enthält, dass wenigstens ein Teil des Gesichts der Person digital verdeckt ist. Digitales Verdecken des Gesichts kann Verwischen, Verpixeln oder Maskieren eines Gesichts enthalten. Ein Anwender kann ein Gesicht unter Verwendung von Bearbeitungs-Software, die Teil einer Kamera ist, oder Fotobearbeitungs-Software auf dem Telefon eines Anwenders digital verdecken. Ein Anwender kann auch eine Software Dritter verwenden, wie z. B. Software, die durch einen zweiten Server 120 bereitgestellt ist, um ein Gesicht digital zu verdecken.
Weiter zu 4 ist ein Beispielbild 400 dargestellt, das eine digitale Veränderung von Menschen, um Erkennung zu verhindern, enthält. In diesem Beispiel sind die zwei Menschen rechts so dargestellt, dass sie verpixelte Gesichter aufweisen. Der Anwender kann Nachverarbeitung des Bilds ausgeführt haben, um diesen Gesichtern die Verpixelung hinzuzufügen. Der Analysator 204 kann basierend darauf, dass der Anwender die zwei Menschen rechts digital verdeckt, bestimmen, dass eine Maßnahme ergriffen wurde, um zu verhindern, dass die zwei Menschen rechts erkannt werden. Als ein Ergebnis kann der Analysator 204 ein Erkennungsvermeidungssignal für jeden dieser zwei Menschen erzeugen, um anzugeben, dass sie nicht identifiziert werden sollten. Wie nachstehend genauer diskutiert ist, kann das Erkennungsmodul 206 bestimmen, die Erkennung dieser beiden Menschen nicht auszuführen. Das Erkennungsmodul 206 kann jedoch bestimmen, die Erkennung der drei Menschen im linken Teil des Bilds 400 auszuführen, weil die Gesichter dieser drei Menschen nicht verdeckt sind.
In einigen Ausführungsformen bestimmt der Analysator 204 eine Identität sensibler Objekte innerhalb eines Bilds oder Videos und erzeugt das Erkennungsvermeidungssignal basierend auf der Identität der sensiblen Objekte. Die sensiblen Objekte können Drogenutensilien, illegale Objekte, Nacktheit usw. enthalten. Beispielsweise kann der Analysator 204 bestimmen, dass ein Bild einer Person mit einer Hand, die 10 % des Gesichts der Person verdeckt, in Kombination mit einem sensiblen Objekt im Hintergrund zur Erzeugung eines Erkennungsvermeidungssignals führt, das angibt, dass die Person nicht erkannt werden sollte.
In einigen Ausführungsformen identifiziert der Analysator 204 einen Typ der Maßnahme und bestimmt, ob das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, basierend auf dem Typ der Maßnahme. Beispielsweise kann der Typ der Maßnahme enthalten, dass eine Person ihre Hand hebt, um das Gesicht der Person zu verdecken, oder um eine Krempe des Huts der Person zusammenzudrücken. Der Analysator 204 kann bestimmen, dass Heben der Hand angibt, dass die Person nicht erkannt werden möchte, und dass Zusammendrücken einer Krempe des Huts der Person angibt, dass das Bild oder das Video mit einer Gruppe von Anwendern in einem sozialen Netzwerk geteilt werden kann (z. B. Anwendern, mit denen diese Person in dem sozialen Netzwerk verbunden ist).
In einigen Ausführungsformen kann der Analysator 204 Maschinenlernen implementieren, das Klassifizierer zum Erzeugen eines Erkennungsvermeidungssignals erzeugen und/oder verbessern kann. In einigen Ausführungsformen kann Maschinenlernen in einer oder mehreren Komponenten der Erkennungsanwendung 103 implementiert sein, beispielsweise unter Verwendung trainierter Modelle. Trainierte Modelle können unter Verwendung synthetischer Daten trainiert werden, z. B. Daten, die durch einen Computer automatisch erzeugt werden, ohne Verwendung von Anwenderinformationen.
In einigen Ausführungsformen können trainierte Modelle z. B. basierend auf Trainingsdaten trainiert werden, für die Berechtigungen, Anwenderdaten zum Trainieren zu benutzten, ausdrücklich von Anwendern erhalten worden sind. Die Trainingsdaten können irgendwelche Daten enthalten, z. B. Videos und entsprechende Metadaten, die zur Verwendung zum Trainieren erlaubt sind, wie z. B. synthetische oder computererzeugte Daten, Daten, die zur Verwendung zum Trainieren lizenziert sind, usw. Die Trainingsdaten können Bilder und Videos enthalten, die eine Maßnahme enthalten, die identifiziert worden ist, dass sie ergriffen worden ist, um die Erkennung der Person zu verhindern. Die Bilder und Videos können aus Videos, die intern erzeugt werden, wie z. B. diejenigen, die in der Datenbank 199 des Erkennungsservers 101 gespeichert sind, oder aus Bildern und Videos, die von dem zweiten Server 120 empfangen werden, kommen. Beispielsweise kann der zweite Server 120 ein Mediaserver sein, der Bilder und Videos mit Metadaten versieht, die angeben, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern.
In einigen Ausführungsformen kann ein trainiertes Modell basierend auf überwachtem Lernen erhalten werden, beispielsweise basierend auf Trainingsdaten, die Bilder und Videos und entsprechende Metadaten enthalten. Beispielsweise kann ein trainiertes Modell Modellform oder Struktur enthalten (die z. B. für eine Anzahl und Organisation von mehreren Knoten in Schichten eines neuronalen Netzes mit zugeordneten Gewichten erläuternd sind). In einigen Ausführungsformen kann ein trainiertes Modell so trainiert werden, dass der Analysator 204 das trainierte Modell anwendet, um ein Erkennungsvermeidungssignal zu erzeugen, das angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Auf diese Weise wird ein Signal aus dem Inhalt eines Bilds oder Videos extrahiert, das die Verarbeitung und die weitere Analyse des Bilds oder des Videos selbst, wie z. B. Erkennung der in dem Bild oder Video gezeigten Person, steuert. Das ist vorteilhaft, weil die Verarbeitung und weitere Analyse gesteuert wird, ohne zusätzliche Informationen zu erfordern, außer dem Video oder dem Bild selbst. Darüber hinaus können Personen, die in den Bildern von Videos gezeigt sind, zur Zeit, wenn das Bild oder Video aufgenommen wird, steuern, ob nachfolgende Verarbeitung und weitere Analyse des Bilds oder Videos erlaubt sein sollte, so dass beispielsweise die Erkennung der Person verhindert oder nicht ausgeführt wird, und somit die Vertraulichkeit und Privatsphäre der in dem Bild oder Video gezeigten Person steigern, selbst wenn das Bild oder Video in einem sozialen Netzwerk geteilt wird.
In einigen Ausführungsformen tragen Anwender durch Bereitstellen von Anwendereingabe dazu bei, die Trainingsdaten zu erzeugen. Anwender können gebeten werden, Bilder und Videos mit einer Maßnahme, die ergriffen wurde, um die Erkennung der Person zu verhindern, zu identifizieren. Als ein Ergebnis der Anwendereingabe können die Trainingsdaten genaue Identifizierung der Typen von Maßnahmen, die ergriffen werden, um die Erkennung der Person zu verhindern, besitzen.
Basierend auf den Trainingsdaten kann der Analysator 204 ein trainiertes Modell erzeugen, das basierend auf Bildern und Videos Erkennungsvermeidungssignale erzeugen kann, die angeben, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Das trainierte Modell kann ein temporäres Maßnahmenlokalisierungsmodell sein. In verschiedenen Ausführungsformen kann der Analysator Bayessche Klassifizierer, Stützvektormaschinen, neuronale Netze oder andere Lerntechniken verwenden, um das trainierte Modell zu erzeugen.
In einigen Ausführungsformen kann das trainierte Modell eine oder mehrere Modellformen oder Strukturen enthalten. Beispielsweise können Modellformen und Strukturen irgendeinen Typ eines neuronalen Netzes, z. B. ein lineares Netz, ein tiefes neuronales Netz, das mehrere Schichten implementiert (z. B. „verdecke Schichten“ zwischen einer Eingabeschicht und einer Ausgabeschicht, wobei jede Schicht ein lineares Netz ist), ein neuronales Faltungsnetz (z. B. ein Netz, das Eingabedaten in mehrere Teile oder Kacheln aufspaltet oder aufteilt, jede Kachel separat unter Verwendung einer oder mehrere Schichten des neuronalen Netzes verarbeitet, und die Ergebnisse aus der Verarbeitung jeder Kachel zusammenfasst), ein neuronales Sequenz-auf-Sequenz-Netz (z. B. ein Netz, das sequenzielle Daten wie z. B. Wörter in einem Satz, Rahmen in einem Video usw. aufnimmt und als Ausgabe eine Ergebnissequenz produziert), usw. enthalten. Die Modellform oder Struktur kann die Konnektivität zwischen verschiedenen Knoten und die Organisation von Knoten in Schichten spezifizieren. Beispielsweise können Knoten einer ersten Schicht (z. B. der Eingabeschicht) Daten als Eingabedaten oder Anwendungsdaten empfangen. Solche Daten können beispielsweise ein oder mehrere Pixel pro Knoten enthalten, z. B. wenn das trainierte Modell zur Bildanalyse verwendet wird. Nachfolgende Zwischenschichten können als Eingabe die Ausgabe von Knoten einer vorhergehenden Schicht je nach Konnektivität, die in der Modellform oder Struktur spezifiziert ist, empfangen. Diese Schichten können auch als verdeckte Schichten bezeichnet sein. Eine letzte Schicht (z. B. die Ausgabeschicht) produziert eine Ausgabe der Maschinenlernanwendung. Beispielsweise kann die Ausgabe eine Menge von Kennzeichen für ein Bild, eine Repräsentation des Bilds, die den Vergleich des Bilds mit anderen Bildern erlaubt (z. B. ein Merkmalsvektor für das Bild), ein Ausgabesatz in Reaktion auf einen Eingabesatz, eine oder mehrere Kategorien für die Eingabedaten usw. sein, abhängig von dem spezifischen trainierten Modell. In einigen Ausführungsformen spezifiziert die Modellform oder Struktur auch eine Anzahl und/oder einen Typ der Knoten in jeder Schicht.
In unterschiedlichen Ausführungsformen kann ein trainiertes Modell mehrere Knoten enthalten, die in Schichten je nach Modellstruktur oder Form angeordnet sind. In einigen Ausführungsformen können die Knoten Berechnungsknoten ohne Speicher sein, die z. B. konfiguriert sind, eine Eingabeeinheit zu verarbeiten, um eine Ausgabeeinheit zu produzieren. Berechnung, die durch einen Knoten ausgeführt wird, kann beispielsweise Multiplizieren jede aus mehreren Knoteneingaben mit einem Gewicht, Erhalten einer gewichteten Summe und Anpassen der gewichteten Summe mit einem Bias- oder Intercept-Wert, um die Knotenausgabe zu produzieren, enthalten. In einigen Ausführungsformen kann die durch einen Knoten ausgeführte Berechnung außerdem das Anwenden einer Schritt-/Aktivierungsfunktion auf die angepasste gewichtete Summe enthalten. In einigen Ausführungsformen kann die Schritt-/Aktivierungsfunktion eine nichtlineare Funktion sein. In verschiedenen Ausführungsformen kann eine solche Berechnung Operationen wie z. B. eine Matrixmultiplikation enthalten. In einigen Ausführungsformen können Berechnungen durch die mehreren Knoten parallel ausgeführt werden, z. B. unter Verwendung mehrerer Prozessorkerne eines Mehrkernprozessors, Verwendung individueller Verarbeitungseinheiten einer allgemeinen Verarbeitungseinheit oder neuronaler Spezial-Schaltungsanordnung. In einigen Ausführungsformen können die Knoten einen Speicher enthalten, können z. B. fähig sein, eine oder mehrere frühere Eingaben zu speichern und in der Verarbeitung einer nachfolgenden Eingabe zu verwenden. Beispielsweise können Knoten mit Speicher Knoten mit langem Kurzzeitgedächtnis (LSTM-Knoten) enthalten. LSTM-Knoten können den Speicher verwenden, um einen „Zustand“ aufrechtzuerhalten, der es dem Knoten ermöglicht, wie ein endlicher Zustandsautomat (FSM) zu agieren. Modelle mit solchen Knoten können bei der Verarbeitung sequenzieller Daten nützlich sein, z. B. Wörtern in einem Satz oder Absatz, Rahmen in einem Video, Sprache oder anderes Audio usw.
In einigen Ausführungsformen kann ein trainiertes Modell Einbettungen oder Gewichte für individuelle Knoten enthalten. Beispielsweise kann ein trainiertes Modell als mehrere Knoten initiiert werden, die in Schichten organisiert sind, wie durch die Modellform oder Struktur spezifiziert ist. Zur Initialisierung kann ein entsprechendes Gewicht auf eine Verbindung zwischen jedem Knotenpaar, das je nach Modellform verbunden ist, z. B. Knoten in aufeinanderfolgenden Schichten des neuronalen Netzes, angewandt werden. Beispielsweise können die entsprechenden Gewichte zufällig zugewiesen werden oder auf Standardwerte initialisiert werden. Das trainierte Modell kann dann trainiert werden, z. B. unter Verwendung von Daten, um ein Ergebnis zu produzieren.
Das Erkennungsmodul 206 führt die Erkennung der Person in dem Bild oder Video aus. In einigen Ausführungsformen enthält das Erkennungsmodul 206 eine Gruppe von Anweisungen, die durch den Prozessor 235 ausführbar sind, um die Erkennung auszuführen. In einigen Ausführungsformen ist das Erkennungsmodul 206 in dem Speicher 237 der Berechnungsvorrichtung 200 gespeichert und kann durch den Prozessor 235 zugänglich und ausführbar sein.
In einigen Ausführungsformen führt das Erkennungsmodul 206 die Erkennung der Person in Reaktion darauf aus, dass das Erkennungsvermeidungssignal angibt, dass keine Maßnahme ergriffen worden ist, um die Erkennung der Person zu verhindern, und/oder das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der unter einen Schwellenwert fällt.
In einigen Ausführungsformen führt das Erkennungsmodul 206 Erkennung der Person durch Extrahieren einer Erkennungsschablone aus. Falls es schwierig ist, die Person in dem Bild zu identifizieren, beispielsweise weil ein Teil des Gesichts der Person verdeckt ist, die Beleuchtung zur Erkennung zu gering ist, das Gesicht der Person im Profil ist usw., kann das Erkennungsmodul 206 andere Bilder von demselben Ereignis oder andere Bildrahmen in demselben Video verwenden, um die Erkennung der Person auszuführen. In einigen Ausführungsformen kann das Erkennungsmodul 206 eine Identität der Person basierend auf identifizierbaren Informationen wie z. B. Kleidungsmuster, Logos, persönlichen Gegenständen, einem markanten Haarschnitt, einem Schmuckgegenstand, einer Tätowierung, der Haltung usw. bestimmen. In einigen Ausführungsformen kann das Erkennungsmodul 206 ein Maschinenlernklassifizierungssystem verwenden, um die Person zu identifizieren. In einigen Ausführungsformen kann das Erkennungsmodul 206 Maschinenlernen verwenden, um die Person zu identifizieren. Der Prozess zum Verwenden von Maschinenlernen ist vorstehend mit Bezug auf das Erzeugen des Erkennungsvermeidungssignals beschrieben und wird hier mit Bezug auf das Identifizieren der Person nicht wiederholt. Das Erkennungsmodul 206 kann das Bild in Zuordnung zu der Identität der Person indexieren.
Falls das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, und/oder das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt, kann das Erkennungsmodul 206 bestimmen, die Person nicht zu erkennen. Falls andere Menschen in dem Bild vorhanden sind, kann das Erkennungsmodul 206 den Detektor 202 anweisen, eine weitere Person in dem Bild zu detektieren, bis alle Menschen in dem Bild verarbeitet worden sind.
Das Bestimmen, eine Person in dem Bild oder Video nicht zu erkennen, kann mehrere Formen annehmen. Beispielsweise kann in einigen Ausführungsformen das Bestimmen, eine Person in dem Bild nicht zu erkennen, das Löschen des Bilds oder des Videos aus der Speichervorrichtung 247, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder des Videos in Suchergebnissen enthalten. In anderen Ausführungsformen kann das Bestimmen, die Person nicht zu erkennen, das Indexieren des Bilds ohne eine Zuordnung zu einer Identität der Person enthalten.
In einigen Ausführungsformen kann eine Person Berechtigungen spezifizieren, die einem Bild zugeordnet ist, und das Erkennungsmodul 206 kann die Person basierend auf den Berechtigungen identifizieren. Beispielsweise kann ein Anwender die Berechtigungen erteilen, die erlauben, dass die Bilder des Anwenders für Menschen, die mit dem Anwender in einem sozialen Netzwerk zugeordnet sind (z. B. mit ihm verbunden, ihm folgen, Freunde usw.) identifiziert werden, jedoch nicht den Anwender in öffentlichen Bildern zu identifizieren. Als ein Ergebnis kann das Erkennungsmodul 206 bestimmen, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, und die Erkennung der Person ausführen. Das Erkennungsmodul 206 kann Berechtigungen bestimmen, die der Person zugeordnet sind, und die Person in dem Bild basierend auf der der Person zugeordneten Berechtigung identifizieren. Beispielsweise kann das Erkennungsmodul 206 basierend auf den Berechtigungen bestimmen, dass der Anwender in irgendwelchen Bildern nicht erkannt werden möchte. In einem weiteren Beispiel kann das Erkennungsmodul 206 basierend auf den Berechtigungen bestimmen, dass der Anwender in Bildern und Videos, die mit Freuden geteilt werden, identifiziert werden kann, jedoch nicht für die Öffentlichkeit, und als ein Ergebnis die Identifizierung bereitstellen, wenn die Bilder und Videos mit Freunden geteilt werden.
In einigen Ausführungsformen kann das Erkennungsmodul 206 das Anwenderschnittstellenmodul 208 anweisen, Grafikdaten zum Anzeigen einer Anwenderschnittstelle, die die identifizierte Person um eine Bestätigung bittet, dass die Person nicht identifiziert werden wollte, zu erzeugen. Beispielsweise kann das Erkennungsmodul 206 die Identifizierung einer Person ausführen, basierend auf ihren Berechtigungen bestimmen, dass das Bild gelöscht werden soll, und das Anwenderschnittstellenmodul 208 anweisen, um eine Bestätigung zu bitten, bevor das Bild gelöscht wird.
Das Anwenderschnittstellenmodul 208 erzeugt Grafikdaten zum Anzeigen einer Anwenderschnittstelle. In einigen Ausführungsformen enthält das Erkennungsmodul 206 eine Gruppe von Anweisungen, die durch den Prozessor 235 ausführbar sind, um die Grafikdaten zu erzeugen. In einigen Ausführungsformen ist das Anwenderschnittstellenmodul 208 in dem Speicher 237 der Berechnungsvorrichtung 200 gespeichert und kann durch den Prozessor 235 zugänglich und ausführbar sein.
In einigen Ausführungsformen erzeugt das Anwenderschnittstellenmodul 208 Grafikdaten zum Anzeigen einer Anwenderschnittstelle für einen Anwender, um Berechtigungen zu erstellen. Die Berechtigungen beziehen sich darauf, wie ein Bild oder ein Video behandelt werden sollte. Beispielsweise kann der Anwender eine Präferenz bereitstellen, dass ein Bild oder Video, für das der Anwender angegeben hat, dass der Anwender in dem Bild oder Video nicht erkannt werden möchte, was dazu führt, dass die Identität des Anwenders dem Bild oder Video für Menschen, die mit dem Anwender in sozialen Netzwerken in Beziehung stehen, zugeordnet wird, jedoch nicht für eine Version des Bilds oder Videos, die mit Menschen geteilt werden, die nicht zu dem Anwender in dem sozialen Netzwerk in Beziehung stehen.
In einigen Ausführungsformen empfängt das Anwenderschnittstellenmodul 208 Anweisungen von dem Analysator 204 oder dem Erkennungsmodul 206, eine Anwenderschnittstelle zu erzeugen, die ein Bild oder ein Video enthält. Die Anwenderschnittstelle kann außerdem eine Anforderung für einen Anwender aufnehmen, eine Maßnahme zu bestätigen. Beispielsweise kann die Anwenderschnittstelle eine Anfrage an den Anwender zu bestätigen, dass der Anwender in dem Bild oder Video identifiziert oder nicht identifiziert werden wollte, dass der Anwender wollte, dass das Bild oder Video mit einer Gruppe von Menschen geteilt wird, dass der Anwender wollte, dass das Bild oder Video gelöscht, archiviert oder in Suchergebnissen nach unten geschoben wird, usw. enthalten.
Beispielverfahren
5 stellt einen Ablaufplan eines Beispielverfahrens 500 zum Bestimmen, ob eine Person Maßnahmen ergriffen hat, die Erkennung in einem Bild zu verhindern, gemäß einigen Ausführungsformen dar. Das Verfahren 500 wird durch eine Erkennungsanwendung 103, die auf einer Berechnungsvorrichtung 200, wie z. B. einem Anwendergerät 115, einem Erkennungsserver 101, oder teilweise einem Anwendergerät 115 und teilweise einem Erkennungsserver 101 gespeichert ist, ausgeführt.
In Block 502 wird eine Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht, detektiert. In Block 504 werden Pixelwerte, die der Person oder der Position des Gesichts der Person entsprechen, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich analysiert, um ein Erkennungsvermeidungssignal zu erzeugen.
In Block 506 wird bestimmt, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern. Falls das Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, wird in Block 508 die Erkennung der Person ausgeführt. Falls das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, wird in Block 510 bestimmt, ob das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt. Falls der Vermeidungswert den Schwellenwert nicht erfüllt, fährt das Verfahren 500 zu Block 508 fort, und die Erkennung der Person wird ausgeführt. Falls der Vermeidungswert den Schwellenwert erfüllt, fährt das Verfahren 500 zu Block 502 fort und detektiert eine weitere Person in dem Bild oder dem Video und wiederholt das Verfahren 500, bis alle Menschen in dem Bild oder Video analysiert worden sind.
In der vorstehenden Beschreibung sind zahlreiche spezifische Einzelheiten zum Zweck der Erläuterung dargelegt, um ein umfassendes Verständnis der Spezifikation bereitzustellen. Es ist jedoch für einen Fachmann offensichtlich, dass die Offenbarung ohne diese spezifischen Einzelheiten praktiziert werden kann. In einigen Fällen sind Strukturen und Vorrichtungen in Blockdiagrammform gezeigt, um das Verdecken der Beschreibung zu vermeiden. Beispielsweise können die Ausführungsformen vorstehend primär mit Bezug auf Anwenderschnittstellen und spezielle Hardware beschrieben sein. Die Ausführungsformen können jedoch für jeden Typ einer Berechnungsvorrichtung, der Daten und Befehle empfangen kann, und irgendwelche peripheren Vorrichtungen, die Diente bereitstellen, gelten.
Bezugnahme in der Spezifikation auf „einige Ausführungsformen“ oder „einige Fälle“ bedeutet, dass ein/e spezielle/s Merkmal, Struktur oder Eigenschaft, das/die in Verbindung mit den Ausführungsformen oder Fällen beschrieben ist, in wenigstens einer Implementierung der Beschreibung enthalten sein kann. Das Auftreten des Ausdrucks „in einigen Ausführungsformen“ an verschiedenen Orten in der Spezifikation bezieht sich nicht notwendigerweise immer auf dieselben Ausführungsformen.
Einige Abschnitte der vorstehenden ausführlichen Beschreibungen sind hinsichtlich Algorithmen und symbolischer Darstellungen von Operationen auf Datenbits innerhalb eines Computerspeichers präsentiert. Diese algorithmischen Beschreibungen und Darstellungen sind die Mittel, die durch Fachleute der Datenverarbeitungstechnik verwendet werden, um das Wesentliche ihrer Arbeit am effektivsten zu anderen Fachleuten zu transportieren. Ein Algorithmus ist hier, und allgemein, so betrachtet, dass er eine in sich konsistente Folge von Schritten ist, die zu einem gewünschten Ergebnis führt. Die Schritte sind diejenigen, die physikalische Manipulationen physikalischer Größen erfordern. Normalerweise, jedoch nicht notwendigerweise, nehmen diese Größen die Form elektrischer oder magnetischer Daten an, die gespeichert, übertragen, kombiniert, verglichen oder auf andere Weise manipuliert werden können. Es hat sich mit der Zeit als günstig gezeigt, besonders aus Gründen der gemeinsamen Verwendung, diese Daten als Bits, Werte, Elemente, Symbole, Schriftzeichen, Terme, Zahlen oder dergleichen zu bezeichnen.
Es sollte jedoch bedacht werden, dass alle diese und ähnliche Begriffe den geeigneten physikalischen Größen zuzuordnen sind und lediglich günstige Bezeichnungen sind, die auf diese Größen angewandt werden. Sofern es nicht spezifisch anderweitig festgestellt ist, wie es aus der folgenden Diskussion offensichtlich ist, ist zu verstehen, dass sich durchgehend durch die Beschreibung Diskussionen, die Begriffe benutzen, die „Verarbeiten“ oder „Berechnen“ oder „Ausrechnen“ oder „Bestimmen“ oder „Anzeigen“ oder dergleichen enthalten, auf die Aktion und die Prozesse eines Computersystems oder einer ähnlichen elektronischen Berechnungsvorrichtung beziehen, die Daten, die als physikalische (elektronische) Größen innerhalb der Register und Speicher des Computersystems repräsentiert sind, manipuliert und in andere Daten transformiert, die auf ähnliche Weise als physikalische Größen innerhalb der Speicher oder Register des Computersystems oder anderen solchen Datenspeichern, Übertragungs- oder Anzeigevorrichtungen repräsentiert sind.
Die Ausführungsformen der Spezifikation können sich auch auf einen Prozessor zum Ausführen eines oder mehrerer Schritte der vorstehend beschriebenen Verfahren beziehen. Der Prozessor kann ein Spezialprozessor sein, der durch ein in dem Computer gespeichertes Computerprogramm selektiv aktiviert oder neukonfiguriert wird. Ein solches Computerprogramm kann in einem nichttransitorischen computerlesbaren Speichermedium gespeichert sein, das, ohne darauf beschränkt zu sein, irgendeinen Typ einer Platte, die optische Platten, ROMs, CD-ROMs, magnetische Platten, RAMs, EPROMs, EEPROMs, magnetische oder optische Karten, Flash-Speicher, die USB-Schlüssel mit nichtflüchtigem Speicher enthalten, oder irgendeinen Typ von Medien, der zum Speichern elektronischer Anweisungen geeignet ist, von denen jedes mit einem Computersystembus gekoppelt ist, enthalten.
Die Spezifikation kann die Form einiger Ausführungsformen vollständig in Hardware, einiger Ausführungsformen vollständig in Software oder einiger Ausführungsformen, die sowohl Hardware- als auch Software-Elemente enthalten, annehmen. In einigen Ausführungsformen ist die Spezifikation in Software implementiert, die, ohne darauf beschränkt zu sein, Firmware, residente Software, Mikrocode usw. enthält.
Darüber hinaus kann die Beschreibung die Form eines Computerprogrammprodukts annehmen, das von einem durch einen Computer verwendbaren oder computerlesbaren Medium zugreifbar ist, das Programmcode zur Verwendung durch einen oder in Verbindung mit einem Computer oder irgendein Anweisungsausführungssystem bereitstellt. Für die Zwecke dieser Beschreibung kann ein durch einen Computer verwendbares oder computerlesbares Medium irgendeine Einrichtung sein, die das Programm zum Gebrauch durch ein/e oder in Verbindung mit einem/einer Anweisungsausführungssystem, Einrichtung oder Vorrichtung beinhalten, speichern, kommunizieren, verbreiten oder transportieren kann.
Ein Datenverarbeitungssystem, das zum Speichern oder Ausführen von Programmcode geeignet ist, wird wenigstens einen Prozessor enthalten, der über einen Systembus direkt oder indirekt mit Speicherelementen gekoppelt ist. Die Speicherelemente können lokalen Speicher, der während der tatsächlichen Ausführung des Programmcode eingesetzt wird, Massenspeicher und Cache-Speicher, die temporäres Speichern wenigstens eines Teils des Programmcodes bereitstellen, um die Häufigkeit, mit der Code aus dem Massenspeicher während der Ausführung abgerufen werden muss, zu reduzieren.
In Situationen, in denen die vorstehend diskutierten Systeme persönlichen Informationen sammeln oder verwenden, stellen die Systeme für die Anwender eine Gelegenheit bereit, zu steuern, ob Programme oder Merkmale Anwenderinformationen (z. B. Informationen über das soziale Netzwerk eines Anwenders, soziale Aktionen oder Aktivitäten, Beruf, Präferenzen des Anwenders oder ein aktueller Aufenthaltsort des Anwenders) sammeln, oder zu steuern, ob und/oder wie Inhalt von dem Server, der für den Anwender relevanter sein kann, empfangen wird. Zusätzlich können spezielle Daten auf eine oder mehrere Arten behandelt werden, bevor sie gespeichert oder verwendet werden, so dass persönlich identifizierbare Informationen entfernt werden. Beispielsweise kann die Identität eines Anwenders so behandelt werden, dass keine persönlich identifizierbaren Informationen für den Anwender bestimmt werden können, oder der geographische Aufenthaltsort eines Anwenders kann verallgemeinert werden, wo Ortsinformationen erhalten werden, (wie z. B. auf die Ebene einer Stadt, einer Postleitzahl oder eines Staates), so dass ein spezieller Aufenthaltsort eines Anwenders nicht bestimmt werden kann. Somit kann der Anwender die Kontrolle darüber haben, wie Informationen über den Anwender gesammelt und durch den Server verwendet werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 15943961 [0001]

Claims

Computerimplementiertes Verfahren, das Folgendes umfasst: Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht; Analysieren von Pixelwerten, die der Person oder der Position des Gesichts der Person entsprechen, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen; Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern; und Ablehnen der Ausführung der Erkennung der Person in Reaktion auf das Erkennungsvermeidungssignal, das angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern.
Verfahren nach Anspruch 1, wobei das Ablehnen, die Erkennung der Person auszuführen, das Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen enthält.
Verfahren nach Anspruch 1, das ferner umfasst: in Reaktion darauf, dass das Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person durch Bestimmen einer Identität der Person und Indizieren des Bilds oder Videos in Zuordnung zu der Identität.
Verfahren nach Anspruch 1, wobei: das Bestimmen, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung enthält, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert nicht erfüllt; und das Ausführen der Erkennung der Person auch eine Reaktion darauf ist, dass der Vermeidungswert den Schwellenwert nicht erfüllt.
Verfahren nach Anspruch 1, wobei: die Person eine erste Person ist; das Bestimmen, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung enthält, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt; und das Verfahren ferner, in Reaktion darauf, dass der Vermeidungswert den Schwellenwert erfüllt, Detektieren einer zweiten Person in dem Bild und Erzeugen des Erkennungsvermeidungssignals für die zweite Person umfasst.
Verfahren nach Anspruch 1, wobei die Maßnahme enthält, (1) dass die Person ein Objekt verwendet, um wenigstens einen Teil des Gesichts der Person zu verdecken, oder (2) dass wenigstens ein Teil des Gesichts der Person digital verdeckt ist.
Verfahren nach Anspruch 1, wobei das Ausführen der Erkennung der Person auf dem Extrahieren einer Erkennungsschablone basiert.
Verfahren nach Anspruch 1, wobei das Bild ein erstes Bild ist, das Video ein erstes Video ist, und das ferner umfasst: Identifizieren eines oder mehrerer zusätzlicher Bilder oder eines oder mehrerer zusätzlicher Videos, die einem Ereignis zugeordnet sind; und Bestimmen, die Person innerhalb des einen oder der mehreren zusätzlichen Bilder oder des einen oder der mehreren zusätzlichen Videos, die dem Ereignis zugeordnet sind, nicht zu erkennen.
Verfahren nach Anspruch 1, wobei das Bestimmen, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, das Bestimmen eines Typs der Maßnahme enthält und ferner umfasst: Ausführen der Erkennung der Person durch Identifizieren der Person und Teilen der Identifizierung der Person mit einer Gruppe von Anwendern in einem sozialen Netzwerk basierend auf dem Typ der Maßnahme und nicht Teilen der Identifizierung der Person mit irgendwelchen Anwendern, die nicht Teil der Gruppe von Anwendern in dem sozialen Netzwerk sind.
Nicht-transitorisches computerlesbares Medium mit darauf gespeicherten Anweisungen, die dann, wenn sie durch einen oder mehrere Computer ausgeführt werden, bewirken, dass der eine oder die mehreren Computer Operationen ausführen, wobei die Operationen umfassen: Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht; der Person oder der Position des Gesichts der Person, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen; Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern; und in Reaktion darauf, dass das Erkennungsvermeidungssignal nicht angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person.
Computerlesbares Medium nach Anspruch 10, wobei das Ausführen der Erkennung der Person das Bestimmen einer Identität der Person und Indexieren des Bilds oder des Videos in Zuordnung zu der Identität umfasst.
Computerlesbares Medium nach Anspruch 10, wobei die Operationen ferner umfassen: in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen.
Computerlesbares Medium nach Anspruch 10, wobei die Operationen ferner umfassen: in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen worden ist, die Erkennung der Person zu verhindern, Bestimmen, ob das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt; und in Reaktion darauf, dass das Vermeidungswert den Schwellenwert nicht erfüllt, Ausführen der Erkennung der Person.
Computerlesbares Medium nach Anspruch 10, wobei die Maßnahme enthält, (1) dass die Person ein Objekt verwendet, um wenigstens einen Teil des Gesichts der Person zu verdecken, oder (2) dass wenigstens ein Teil des Gesichts der Person digital verdeckt ist.
Computerlesbares Medium nach Anspruch 10, wobei die Operationen ferner umfassen: Bestimmen von Berechtigungen, die der Person zugeordnet sind; und wobei das Ausführen der Erkennung der Person auf den der Person zugeordneten Berechtigungen basiert.
System, das umfasst: einen oder mehrere Prozessoren; und einen Speicher, der Anweisungen speichert, die dann, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren Operationen ausführen, die umfassen: Detektieren einer Person in einem Bild oder einem Video durch Bestimmen eines Personenbildbereichs, der Grenzen der Person entspricht, oder eines Gesichtsbildbereichs, der einer Position eines Gesichts der Person entspricht; der Person oder der Position des Gesichts der Person, basierend auf den Grenzen der Person oder dem Gesichtsbildbereich, um ein Erkennungsvermeidungssignal zu erzeugen; Bestimmen, ob das Erkennungsvermeidungssignal angibt, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern; und in Reaktion darauf, dass das Erkennungsvermeidungssignal angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ablehnen, die Erkennung der Person auszuführen.
System nach Anspruch 16, wobei das Ablehnen, die Erkennung der Person auszuführen, Ausführen wenigstens eines aus Speichern des Erkennungsvermeidungssignals in Zuordnung zu dem Bild oder dem Video, um anzugeben, dass Personenerkennung nicht ausgeführt werden soll, Löschen des Bilds oder Videos, Archivieren des Bilds oder Videos oder Verschieben nach unten des Bilds oder Videos in Suchergebnissen enthält.
System nach Anspruch 16, wobei der Speicher zusätzliche Anweisungen speichert, die umfassen: in Reaktion darauf, dass das Erkennungsvermeidungssignal nicht angibt, dass die Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, Ausführen der Erkennung der Person durch Bestimmen einer Identität der Person und Indexieren des Bilds oder Videos in Zuordnung zu der Identität.
System nach Anspruch 16, wobei: das Bestimmen, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung enthält, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert nicht erfüllt; und das Ausführen der Erkennung der Person auch eine Reaktion darauf ist, dass der Vermeidungswert den Schwellenwert nicht erfüllt.
System nach Anspruch 16, wobei: die Person eine erste Person ist; das Bestimmen, dass eine Maßnahme ergriffen wurde, um die Erkennung der Person zu verhindern, ferner eine Bestimmung enthält, dass das Erkennungsvermeidungssignal einem Vermeidungswert entspricht, der einen Schwellenwert erfüllt; und der Speicher zusätzliche Anweisungen speichert, die ein Detektieren einer zweiten Person in dem Bild und das Erzeugen des Erkennungsvermeidungssignals für die zweite Person in Reaktion darauf, dass der Vermeidungswert den Schwellenwert erfüllt, umfassen.