DE112017008308T5 - Schlüsselpunktgeleitete Erkennung von menschlichen Attributen unter Verwendung statistischer Korrelationsmodelle - Google Patents

Schlüsselpunktgeleitete Erkennung von menschlichen Attributen unter Verwendung statistischer Korrelationsmodelle Download PDF

Info

Publication number
DE112017008308T5
DE112017008308T5 DE112017008308.7T DE112017008308T DE112017008308T5 DE 112017008308 T5 DE112017008308 T5 DE 112017008308T5 DE 112017008308 T DE112017008308 T DE 112017008308T DE 112017008308 T5 DE112017008308 T5 DE 112017008308T5
Authority
DE
Germany
Prior art keywords
cnn
human
attribute
attributes
scms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112017008308.7T
Other languages
English (en)
Inventor
Ping Hu
Anbang Yao
Jia Wei
Dongqi Cai
Yurong Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE112017008308T5 publication Critical patent/DE112017008308T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Zusammenfassung der OffenbarungEs werden Techniken für eine auf einem neuronalen Netzwerk beruhende und durch anatomische Schlüsselpunkte und statistische Korrelationsmodelle geleitete Erkennung von menschlichen Attributen bereitgestellt. Die Attribute beinhalten Eigenschaften, die sichtbar identifiziert oder aus einem Bild abgeleitet werden können, wie etwa das Geschlecht, die Frisur, den Kleidungsstil, usw. Eine Methodologie, die die Techniken nach einer Ausführungsform implementiert, beinhaltet das Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen. Das Verfahren beinhaltet ferner das Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN auf das Bild des Menschen, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen. Das Verfahren beinhaltet ferner das Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute unter Verwendung einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche, und statistische Korrelationsmodelle (statistical correlation models, SCMs), welche Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereiche bereitstellen, enthält.

Description

  • Allgemeiner Stand der Technik
  • Die Erkennung von menschlichen Attributen wie etwa des Geschlechts, der Frisur, des Kleidungstyps (wird ein Hut getragen oder nicht, werden Jeans getragen oder nicht), und dergleichen kann eine wichtige Komponente von vielen Anwendungen einschließlich der Personenidentifikation, der Überwachung, der Sicherheit, der Smart-Home-Robotik, von fahrerlosen Fahrzeugen, und Drohnen, um nur ein paar zu nennen, sein. Die Entwicklung von automatisierten, genauen und effizienten Sichtsystemen mit der Fähigkeit, menschliche Attribute zu erkennen, gewinnt auf akademischen, wirtschaftlichen und industriellen Gebieten zunehmend an Bedeutung. Doch diese Aufgabe stellt bei nicht eingeschränkten Vorgaben nach wie vor eine Herausforderung dar.
  • Figurenliste
  • Merkmale und Vorteile von Ausführungsformen des beanspruchten Gegenstands werden im Verlauf der folgenden ausführlichen Erklärung und bei Bezugnahme auf die Zeichnungen, in denen gleiche Bezugszeichen gleiche Teile darstellen, offensichtlich werden.
    • 1 ist ein Blockdiagramm eines Systems zur Erkennung von menschlichen Attributen, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 2 ist ein Blockdiagramm eines schlüsselpunktgeleiteten Vorschlagerzeugungsnetzwerks, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 3 veranschaulicht anatomische Schlüsselpunkte nach bestimmten Ausführungsformen der vorliegenden Offenbarung.
    • 4A veranschaulicht vorgeschlagene hierarchische Bereiche nach bestimmten Ausführungsformen der vorliegenden Offenbarung.
    • 4B veranschaulicht eine hierarchische Struktur von vorgeschlagenen Bereichen nach bestimmten Ausführungsformen der vorliegenden Offenbarung.
    • 5 ist ein Blockdiagramm einer Statistisches-Korrelationsmodell-Erzeugungsschaltung, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 6 ist ein anderes Blockdiagramm des Systems zur Erkennung von menschlichen Attributen, das nach bestimmten Ausführungsformen der vorliegenden Ausführungsform ausgebildet ist.
    • 7 ist ein Ablaufdiagramm, das eine Methodologie zur Erkennung von menschlichen Attributen nach bestimmen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
    • 8 ist ein Blockdiagramm, das eine zur Durchführung der Erkennung von menschlichen Attributen ausgebildete Rechenplattform nach bestimmten Ausführungsformen der vorliegenden Offenbarung schematisch veranschaulicht.
  • Obwohl die folgende ausführliche Beschreibung unter Bezugnahme auf erläuternde Ausführungsformen fortfahren wird, werden vor dem Hintergrund dieser Offenbarung viele Alternativen, Abwandlungen und Veränderungen davon offensichtlich sein.
  • Ausführliche Beschreibung
  • Im Allgemeinen stellt diese Offenbarung Techniken für eine auf einem neuronalen Netzwerk beruhende Erkennung von menschlichen Attributen, die durch anatomische Schlüsselpunkte und statistische Korrelationsmodelle geleitet wird, bereit. Die Attribute, die erkannt werden sollen, beinhalten Eigenschaften, die sichtbar identifiziert oder aus einem Bild abgeleitet werden können, wie etwa das Geschlecht, die Frisur, den Kleidungstyp, das Tragen eines Huts, eine Brille, Fußbekleidung, usw. Die Schlüsselpunkte werden Übergängen oder Verbindungspunkten zwischen unterschiedlichen Bereichen des Körpers wie etwa dem Hals, den Schultern, den Ellenbogen, den Handgelenken, den Hüften, den Knien und den Knöcheln zugeordnet. Durch diese Übergangsstellen können verschiedene Teile des menschlichen Körpers definiert werden. Zum Beispiel kann der Unterarm auf Basis der Positionen des Ellenbogens und des Handgelenks ausfindig gemacht werden. Daher werden nach einer Ausführungsformen die Schlüsselpunkte verwendet, um eine Hierarchie von vorgeschlagenen Bereichen des Körpers mit einer höheren Wahrscheinlichkeit der Nützlichkeit zur Berücksichtigung durch das neuronale Netzwerk bei der Attributerkennung zu erzeugen. Zudem werden durch das neuronale Netzwerk statistische Korrelationen zwischen Attributmerkmalen, die aus dem Bild extrahiert wurden, und den vorgeschlagenen hierarchischen Bereichen benutzt, um die Erkennungsleistungsfähigkeit zu verbessern und den Trainingsprozess bei verringerter Verarbeitungszeit und verringerten Speicheranforderungen zu beschleunigen, wie nachstehend ausführlicher beschrieben werden wird. Da sich beispielweise ein Hut üblicherweise auf dem Kopf einer Person befindet und sich Schuhe an den Füßen einer Person befinden, kann eine starke Korrelation zwischen Schlüsselpunkten, vorgeschlagenen Bereichen und Attributen bestehen, die für die Attributerkennung benutzt werden kann.
  • Die offenbarten Techniken können zum Beispiel in einem Rechensystem oder in einem Softwareprodukt, das durch derartige Systeme ausführbar oder anderweitig steuerbar ist, umgesetzt werden, obwohl andere Ausführungsformen offensichtlich sein werden. Bei einigen Ausführungsformen ist das System oder Produkt ein neuronales Netzwerk, das eine Anzahl von Unternetzwerken umfasst und dazu ausgebildet ist, Attribute eines Menschen in einem bereitgestellten Bild zu erkennen, während jegliche Beschränkungen, die der in dem Bild dargestellten Aktivität oder Haltung auferlegt werden, verringert werden. Nach einer Ausführungsform beinhaltet eine Methodologie zur Umsetzung dieser Techniken das Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen. Das Verfahren beinhaltet ferner das Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN auf das Bild des Menschen, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen, die die Anzahl der zu berücksichtigenden Bereiche um Größenordnungen verringern kann. Das Verfahren beinhaltet ferner das Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute unter Verwendung einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche und statistische Korrelationsmodelle (statistical correlation models, SCMs), die Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, enthält.
  • Wie man verstehen wird, können die in diesem Dokument beschriebenen Techniken durch das Beschränken der Anzahl der Bereiche zur Berücksichtigung durch das Netzwerk auf einen Untersatz aller möglichen Bereiche, wobei die vorgeschlagenen Bereiche des Untersatzes wahrscheinlicher für eine genaue Erkennung nützlich sind, eine wirksamere und genauere Attributerkennung gestatten. Dieser Ansatz bietet im Vergleich zu bestehenden Verfahren, die eine Berücksichtigung des Bilds des gesamten Körpers benötigen und ziellos tausende von vorgeschlagenen Bereichen zur Berücksichtigung erzeugen können und daher größere Verarbeitungs- und Speicherressourcen verbrauchen, eine verbesserte Leistungsfähigkeit. Die offenbarten Techniken können an einem weiten Bereich von Plattformen einschließlich Laptops, Tablets. Smartphones, Arbeitsstationen, Kameras und eingebetteten Systemen oder Vorrichtungen umgesetzt werden. Diese Techniken können ferner in Hardware oder Software oder einer Kombination davon umgesetzt werden. Bei einigen Ausführungsformen können die Effizienzverbesserungen, die durch die offenbarten Techniken bereitgestellt werden, Echtzeit-Leistungsfähigkeit, zum Beispiel eine Attributerkennungsverarbeitung mit einer Geschwindigkeit von 15 Bildframes pro Sekunde oder mehr, ermöglichen.
  • 1 ist ein Blockdiagramm eines Systems 100 zur Erkennung von menschlichen Attributen, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. In dieser Figur ist das System 100 in einer Trainingskonfiguration gezeigt und weist es ein Attributerkennungs-CNN 110 und eine SCM-Erzeugungsschaltung 162 auf. Es ist gezeigt, dass das Attributerkennungs-CNN 110 ferner ein AFE-CNN 112, ein KPG-Vorschlagserzeugungs-CNN 114 und eine CNN-Kombinationsschicht 116 aufweist.
  • Das AFE-CNN 112 ist so ausgebildet, dass es auf Basis eines bereitgestellten Bilds eines Menschen Attributmerkmalspläne 130 erzeugt. Die Merkmalspläne sind Aktivierungspläne, die von Schichten des AFE-CNN ausgegeben werden, und werden vor dem Hintergrund der vorliegenden Offenbarung unter Verwendung bekannter neuronaler Netzwerk-Techniken erzeugt. Das AFE-CNN wird an Trainingsbildern 120 trainiert, die Menschen bei einer breiten Vielfalt von Aktivitäten und mit einer großen Variation von Blickpunkten, Haltungen, Beleuchtungen, Verdeckungen und Maßstäben darstellen. Unter Verwendung bekannter neuronaler Netzwerk-Trainingstechniken vor dem Hintergrund der vorliegenden Offenbarung enthalten die Trainingsbilder Attributlabel als wahre Daten, anhand derer der Netzwerkverlust während Rückpropagierungstrainingsiterationen bewertet werden kann, um die Netzwerkgewichtungen zu berechnen.
  • Das KPG-Vorschlagerzeugungs-CNN 114 ist so ausgebildet, dass es auf Basis von zugeordneten anatomischen Schüsselpunkten vorgeschlagene hierarchische Bereiche 140 (manchmal einfach als Vorschläge bezeichnet) des Bilds des Menschen erzeugt. Es ist gezeigt, dass das KPG-Vorschlagserzeugungs-CNN 114 wie in 2 dargestellt nach bestimmten Ausführungsformen der vorliegenden Offenbarung ein Schlüsselpunkterzeugungs-CNN 210 und eine Vorschlagserzeugungsschaltung 212 aufweist.
  • Das KPG-CNN 210 ist so ausgebildet, dass es in einem bereitgestellten Bild eines Menschen Schlüsselpunkte erkennt, und wird an Trainingsbildern 120, die auch mit Labeln versehene Schlüsselpunkte als wahre Daten enthalten, trainiert. Zudem kann bei einigen Ausführungsformen ein Schlüsselpunkt-Trainingsdatensatz 214 bereitgestellt werden, um das Training des KPG-CNN 210 zu verbessern. Der Schlüsselpunkt-Trainingsdatensatz 214 kann anatomische Daten enthalten, die zum Beispiel von biomedizinischen Studien und Referenzquellen stammen.
  • In 3 sind beispielhafte Schlüsselpunkte 302 nach bestimmten Ausführungsformen der vorliegenden Offenbarung dargestellt. Diese Schlüsselpunkte beinhalten den Hals (K1), die linke Schulter (K2), die rechte Schulter (K5). den rechten Ellenbogen (K3), den linken Ellenbogen (K6), das linke Handgelenk (K4), das rechte Handgelenk (K7), die linke Hüfte (K8), die rechte Hüfte (K9), das linke Knie (K10), das rechte Knie (K11), den linken Knöchel (K12), und den rechten Knöchel (K13), obwohl andere Schlüsselpunkte möglich sind.
  • Die Vorschlagserzeugungsschaltung 212 ist so ausgebildet, dass sie auf Basis der durch das KPG-CNN 210 bereitgestellten Schlüsselpunkte eine Hierarchie von vorgeschlagenen Bereichen erzeugt. Zum Beispiel definiert der Hals-Schlüsselpunkt K1 den Vorschlagsbereich, der den Kopf enthält. Durch die Positionen der linken Schulter, der rechten Schulter, des linken Knöchels und des rechten Knöchels kann ein Vorschlag auf einer grob detaillierten Ebene für den Rest des Körpers definiert werden. Dann kann der Körper auf einer niedrigeren Ebene der Hierarchie in eine obere und eine untere Hälfte geteilt werden. Der Vorschlag für den oberen Körper auf der grob detaillierten Ebene kann durch die linke Schulter, die rechte Schulter, das linke Handgelenk und das rechte Handgelenk definiert werden. Der obere Körper kann dann in detailliertere Vorschlagsbereiche wie den Rumpf, den Arm, den Oberarm und den Unterarm unterteilt werden. Die durch menschliche strukturelle Informationen enthaltende Schlüsselpunkte geleitete Erzeugung von Vorschlagsbereichen beseitigt oder verringert die Berücksichtigung von weniger relevanten Bereichen und verbessert die Recheneffizienz.
  • 4A veranschaulicht vorgeschlagene hierarchische Bereiche 402, die als rechteckige Bereiche gezeigt sind und auf Schlüsselpunkte 302 gelegt sind, nach bestimmten Ausführungsformen der vorliegenden Offenbarung. Bei diesem Beispiel beinhalten die vorgeschlagenen hierarchischen Bereiche den gesamten Körper (P1) auf der obersten Ebene gefolgt von dem Kopf (P2), dem oberen Rumpf (P3), den unteren Rumpf (P4) auf der nächsten Ebene. Auf der nächsten darunterliegenden Ebene ist gezeigt, dass der obere Rumpf (P3) die Brust (P8), den linken Arm (P9) und den rechten Arm (P10) enthält. Der untere Rumpf (P4) enthält das linke Bein (P11) und das rechte Bein (P5). Auf einer noch weiter darunterliegenden Ebene ist gezeigt, dass der linke Arm (P9) den linken Oberarm (P12) und den linken Unterarm (P13) enthält, während gezeigt ist, dass das rechte untere Bein P5 den rechten Oberschenkel (P6) und den rechten Unterschenkel (P7) enthält. Man wird verstehen, dass dies ein Beispiel darstellt, und dass im Allgemeinen jede beliebige Anzahl von Schlüsselpunkten verwendet werden kann, um andere Arten von hierarchischen Strukturen und damit verbundenen hierarchischen Bereichen zu definieren.
  • 4B veranschaulicht die hierarchische Struktur der vorgeschlagenen Bereiche nach bestimmten Ausführungsformen der vorliegenden Offenbarung noch deutlicher. Wie gezeigt befindet sich der Körperbereich an der obersten Ebene 404. Anschließende niedrigere Ebenen der Hierarchie 406, 408, 410 enthalten zunehmend detailliertere Bereiche. Jede niedrigere Ebene kann als Kind der unmittelbar darüberliegenden Elternebene betrachtet werden.
  • 5 ist ein Blockdiagramm der SCM-Erzeugungsschaltung 162, die nach bestimmten Ausführungsformen der vorliegenden Offenbarung aufgebaut ist. Die SCM-Erzeugungsschaltung 162 ist so ausgebildet, dass sie SCM-Modelle 164 erzeugt, die einen anfänglichen Satz von SCM-Korrelationen 170 umfassen. Da Schlüsselpunkte den Kontext von Attributen bei einem menschlichen Körper widerspiegeln, gibt es drei Arten von statistischen Korrelationen, die berücksichtigt werden können: die Beziehungen zwischen Attributen; die Beziehungen zwischen Schlüsselpunkten; und die Beziehungen zwischen Attributen und Schlüsselpunkten.
  • Für Beziehungen zwischen Attributen besteht eine semantische Korrelation. Zum Beispiel kann dann, wenn eine Person weiblich ist, die Wahrscheinlichkeit von langen Haaren höher als für einen Mann sein. Ebenso kann dann, wenn eine Person männlich ist, die Wahrscheinlichkeit, dass ein Kleid getragen wird, niedriger als für eine Frau sein.
  • Attribute können als a1,a2,.., aN bezeichnet werden, wobei der gesamte Satz von N Attributen als A = {a1,a2,.., aN} bezeichnet wird. Die semantische Korrelationswahrscheinlichkeit für jedes der Attribute at kann dann als a t = i A ,   i t δ i t a i
    Figure DE112017008308T5_0001
    i = 1 N δ i t = 1,   0 δ i t 1
    Figure DE112017008308T5_0002
    ausgedrückt werden, wobei δit der Korrelationswert zwischen Attributen ai und at aus dem semantischen Korrelationsmodell ist.
  • Für Beziehungen zwischen Schlüsselpunkten besteht eine strukturelle Korrelation (z.B. ist die linke Schulter mit dem linken Ellenbogen verbunden). Diese strukturellen Korrelationen können zum Beispiel aus biomedizinischen Untersuchungen und anatomischen Bezugsquellen ermittelt werden. Zudem können die hierarchischen vorgeschlagenen Bereiche als Variation der Schlüsselpunkt-Strukturkorrelationsmodelle betrachtet werden, da wie vorher beschrieben vorgeschlagene Bereiche aus Schlüsselpunkten abgeleitet werden können.
  • Vorschläge können als p1,p2,.., pM bezeichnet werden, wobei der gesamte Satz von M Attributen als P = {p1,P2,.., pM} bezeichnet wird. Da Vorschläge eine hierarchische Struktur aufweisen, die von dem Gerüst der Schlüsselpunkte des Menschen abgeleitet wird, wird die Wahrscheinlichkeit eines Elternvorschlags aus den Kindervorschlägen abgeleitet. Bei Bezeichnung von pd als Elternvorschlag der Kindervorschläge pt und pk kann die Wahrscheinlichkeit von pd als p d = θ d t p t + θ d k p k
    Figure DE112017008308T5_0003
    θ d t + θ d k = 1,0 θ d t 1,0 θ d k 1
    Figure DE112017008308T5_0004
    ausgedrückt werden, wobei, θdt der Korrelationswert unter den hierarchischen Vorschlägen pd und pt aus dem Strukturkorrelationsmodell ist.
  • Schließlich können für Beziehungen zwischen Attributen und Schlüsselpunkten (und, im weiteren Sinne, vorgeschlagenen Bereichen) Korrelationen zwischen Vorschlagsbereichen und Attributerkennungsraten/Wahrscheinlichkeiten 150, die sich aus dem Training des Attributerkennungs-CNN 110 ergeben, berechnet werden, um Vorschläge gemeinsam oder getrennt zu behandeln. Ein Beispiel für derartige Berechnungen ist in der nachstehenden Tabelle 1 dargestellt, die die Attributerkennungsraten gegenüber Vorschlägen zeigt. Tabelle 1: mAP zwischen Attributen und Vorschlägen
    Eigenscheft M P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
    männlich 94,8 91,6 93,2 91,1 92,1 77,0 92,0 92,0 77,6 77,7 93,8
    Haare 89,0 82,3 86,7 84,7 86,4 53,1 85,6 85,8 54,8 55,0 87,8
    Brille 90,0 87,8 88,3 69,6 81,0 29,4 80,7 81,0 29,1 29,9 88,7
    Hut 93,8 90,7 92,6 64,7 74,8 33,8 74,7 75,5 32,2 32,8 93,3
    T-Shirt 76,2 47,2 66,2 72,8 72,8 41,1 71,4 71,3 42,0 42,0 70,2
    Ärmelhemd 93,8 66,4 83,7 90,2 90,7 74,0 89,4 89,7 74,5 74,4 90,0
    Shorts 93,4 24,2 41,7 50,7 54,5 90,8 55,2 55,3 90,5 90,1 78,2
    Jeans 89,2 45,7 49,8 63,1 70,1 88,3 70,0 70,7 88,2 88,0 82,3
    Hose 98,6 86,6 89,3 90,4 91,9 98,2 91,6 91,8 98,3 98,1 96,8
    mAP 91,0 69,2 76,8 75,3 79,4 65,1 78,9 79,2 65,2 65,3 86,8
  • Bei diesem Beispiel wurden neun Attribute gewählt, männlich, Haare, Brille, Hut, T-Shirt, Ärmelhemd, Shorts, Jeans und Hose. Zudem wurden zehn Vorschläge P1 bis P10 gewählt, wobei P10 der Vorschlag für den gesamten Körper auf der obersten Ebene ist, P1 der Kopf-Vorschlag ist, P5 der Unterkörper-Vorschlag ist, P8 der Vorschlag für den unteren linken Körper ist, und P9 der Vorschlag für den unteren rechten Körper ist. Es ist zu beachten, dass sich diese Vorschlagnummern von den Beispielen, die in 4A und 4B gegeben wurden, unterscheiden.
  • Wie aus der Tabelle ersichtlich ist, betrifft P10 die meisten Attribute (fett gedruckte Zahlen), da er den gesamten Körper abdeckt. Im Gegensatz dazu betrifft P1, der den Kopfbereich abdeckt, stärker die Haare, die Brille und den Hut (fett gedruckte Zahlen), und nicht T-Shirt und Shorts. Mit diesem Beispiel fortgesetzt betreffen P5, P8 und P9, die den unteren Körper abdecken, stärker Shorts, Jeans die Hose. Die untere Reihe der Tabelle stellt den mittleren durchschnittlichen Prozentsatz (mean average percent, maP) für die Attributerkennungsraten gegenüber den Vorschlägen (d.h., den Durchschnitt jeder Spalte) bereit. Die Spalte M zeigt die Attributerkennungsrate unter Verwendung aller Vorschläge (P1 bis P10).
  • Die SMC-Modell beinhalten ein semantisches Korrelationsmodell, das durch die Schaltung 502 erzeugt wird, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, das durch die Schaltung 506 erzeugt wird, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen (auf Basis der Schlüsselpunkte) bereitzustellen, und ein Stellenkorrelationsmodell, das durch die Schaltung 504 erzeugt wird, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen. Die Erzeugung des anfänglichen Satzes von SCMs beruht auf Trainingsbildern 120, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten 160, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten 150, die durch das System als Reaktion auf die Trainingsbilder erzeugt werden.
  • Diese drei Beziehungen, semantisch, Stelle, und strukturell, stellen verhältnismäßig einfache SCM-Modelle 164 bereit, die wenigstens einmal, als Teil des Trainingsprozesses, berechnet werden müssen, was die Verarbeitungsleistungsfähigkeit erhöht. Die SCM-Modelle können auch in dem CNN-Trainingsprozess verwendet werden, um die Netzwerkbeziehungsgewichtungen zu aktualisieren, um die Beschreibungsgenauigkeit der Beziehungen zu verbessern.
  • Zurück zu 1. Die CNN-Kombinationsschicht 116 ist so ausgebildet, dass sie auf Basis einer Kombination der Attributmerkmalspläne 130, der vorgeschlagenen hierarchischen Bereiche 140 und der SCMs 170, die Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, Erkennungswahrscheinlichkeiten für die menschlichen Attribute erzeugt.
  • Bei einigen Ausführungsformen kann der Ausgang der CNN-Kombinationsschicht 116 durch die folgende Gleichung ausgedrückt werden: S f = γ t A i A , i t δ i t j P β i j k P j θ k j p k
    Figure DE112017008308T5_0005
    wobei Sf die ausgegebenen Attributerkennungswahrscheinlichkeiten 150 sind, y ein Normalisierungsfaktor ist, A der Satz aller Attribute von Interesse ist, P der Satz aller Vorschläge ist, Pj der Satz von Kindervorschlägen für einen Elternvorschlag pj ist, δit die Korrelation zwischen Attributen ai und at aus dem semantischen Korrelationsmodell ist, βjk die Korrelation zwischen Attribut ak und Vorschlag pj aus dem Stellenkorrelationsmodell ist (wofür ein Beispiel in Tabelle 1 gezeigt ist), und θkj die Korrelation zwischen Vorschlägen pk und pj aus dem Strukturkorrelationsmodell ist.
  • 6 ist ein anderes Blockdiagramm 600 des Systems 100 zur Erkennung von menschlichen Attributen, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. In dieser Figur ist das System in einer betrieblichen Konfiguration gezeigt, das heißt, nachdem das Attributerkennungs-CNN 110 einschließlich der Unternetzwerke 112, 114 und 116 wie vorher beschrieben trainiert wurde. Im Betriebsmodus werden dem Attributerkennungs-CNN 110 Eingangsbilder 610, die Menschen mit unbekannten Kombinationen von Attributen zeigen können, bereitgestellt, und werden Attributerkennungswahrscheinlichkeiten 150 als Ausgang erzeugt.
  • Methodologie
  • 7 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren 700 zur Erkennung von menschlichen Attributen nach bestimmten Ausführungsformen der vorliegenden Offenbarung veranschaulicht. Wie ersichtlich ist, beinhaltet das beispielhafte Verfahren eine Anzahl von Phasen und Unterprozessen, deren Abfolge sich von einer Ausführungsform zu einer anderen unterscheiden kann. Doch zusammengefasst betrachtet bilden diese Phasen und Unterprozesse einen Prozess zur Attributerkennung nach bestimmten der in diesem Dokument offenbarten Ausführungsformen. Diese Ausführungsformen können zum Beispiel unter Verwendung der Systemarchitektur, die in den wie oben beschriebenen 1, 2, 5 und 6 dargestellt ist, implementiert werden. Doch wie vor dem Hintergrund dieser Offenbarung offensichtlich sein wird, können bei anderen Ausführungsformen andere Systemarchitekturen verwendet werden. Zu diesem Zweck soll die Korrelation der verschiedenen Funktionen, die in 7 gezeigt sind, zu den spezifischen Komponenten, die in den anderen Figuren dargestellt sind, keinerlei strukturelle und/oder Verwendungsbeschränkungen andeuten. Andere Ausführungsformen können vielmehr unterschiedliche Grade der Integration enthalten, wobei mehrere Funktionalitäten wirksam durch ein System durchgeführt werden. Zum Beispiel kann in einer alternativen Ausführungsform ein einzelnes Modul mit entkoppelten Untermodulen verwendet werden, um alle Funktionalitäten des Verfahrens 700 durchzuführen. Daher können andere Ausführungsformen abhängig von der Granularität der Implementierung weniger oder mehr Module und/oder Untermodule aufweisen. Bei noch anderen Ausführungsformen kann die dargestellte Methodologie als Computerprogrammprodukt implementiert werden, das ein oder mehrere nichtflüchtige maschinenlesbare Medien aufweist, die bei Ausführung durch einen oder mehrere Prozesse verursachen, dass die Methodologie ausgeführt wird. Vor dem Hintergrund dieser Offenbarung werden zahlreiche Variationen und alternative Ausgestaltungen offensichtlich werden.
  • Wie in 7 veranschaulicht beginnt das Verfahren 700 zur Erkennung von menschlichen Attributen bei einer Ausführungsform, indem es bei der Tätigkeit 710 ein attributmerkmalsextrahierendes (attribute feature extraction, AFE) faltendes neuronales Netzwerk (convolutional neural network, CNN) auf ein Bild eines Menschen anwendet, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen. Die Attribute können Eigenschaften, die visuell identifiziert oder aus einem Bild abgeleitet werden können, beinhalten, wie etwa, aber ohne Beschränkung darauf, das Geschlecht, die Frisur, den Kleidungstyp (z.B. Jeans oder keine Jeans), das Tragen einer Brille, das Tragen eines Huts, das Tragen von Schuhen und die Art der Fußbekleidung, usw.
  • Als nächstes wird bei der Tätigkeit 720 ein schlüsselpunktgeleitetes vorschlagendes (key-point guided proposal, KPG) CNN auf das Bild des Menschen angewendet, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen. Schlüsselpunkte werden Übergängen oder anderen Arten von Verbindungspunkten zwischen Bereichen des Körpers wie etwa, zum Beispiel, dem Hals, den Schultern, den Ellenbogen, den Handgelenken, den Hüften (oder der Taille), den Knien und den Knöcheln zugeordnet. Zugeordnete hierarchische Bereiche können zum Beispiel auf der obersten Ebene der Hierarchie den gesamten Körper, gefolgt von dem Kopf, dem oberen Rumpf und dem unteren Rumpf auf der nächstfolgenden Ebene, gefolgt von der Brust, den Armen und den Beinen auf einer unteren Ebene, gefolgt von den Oberarmen, den Unterarmen, den Oberschenkeln und den Unterschenkeln auf einer noch weiter unteren Ebene beinhalten.
  • Bei der Tätigkeit 730 werden auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne enthält, den vorgeschlagenen hierarchischen Bereichen, und von statistischen Korrelationsmodellen (SCMs), die Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, Erkennungswahrscheinlichkeiten für die menschlichen Attribute erzeugt. Bei einigen Ausführungsformen beinhalten die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen.
  • Selbstverständlich können bei einigen Ausführungsformen zusätzliche Tätigkeiten durchgeführt werden, wie vorher in Verbindung mit dem System beschrieben wurde. Zum Beispiel kann ein anfänglicher Satz von SCMs auf Basis von Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten; Trainingsdaten, die anatomische Modelle enthalten; und Attributerkennungswahrscheinlichkeiten, die durch das System als Reaktion auf die Trainingsbilder erzeugt wurden, erzeugt werden. Zudem kann das AFE-CNN an Trainingsbildern, die Attributlabel enthalten, trainiert werden, und kann das KPG-CNN an Trainingsbildern, die Attributlabel enthalten, und an Schlüsselpunkt-Trainingsdatensätzen trainiert werden.
  • Beispielhaftes System
  • 8 veranschaulicht ein beispielhaftes System 800 zur Durchführung der Erkennung von menschlichen Attributen, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung aufgebaut ist. Bei einigen Ausführungsformen umfasst das System 800 eine Rechenplattform 810, die einen Personal Computer, eine Arbeitsstation, ein Serversystem, einen Laptop-Computer, einen Ultralaptop-Computer, ein Tablet, ein Touchpad, einen tragbaren Computer, einen Handcomputer, einen Palmtop-Computer, einen persönlichen digitalen Assistenten (PDA), ein Mobiltelefon, eine Kombination aus einem Mobiltelefon und einem PDA, ein intelligentes Gerät (zum Beispiel ein Smartphone oder ein Smart Tablet), ein mobiles Internetgerät (mobile internet device, MID), ein Benachrichtigungsgerät, ein Datenkommunikationsgerät, eine Bildgebungsvorrichtung, ein tragbares Gerät, ein eingebettetes System, und so weiter hosten kann oder anderweitig in ein solches aufgenommen sein kann. Bei bestimmten Ausführungsformen kann jede beliebige Kombination von unterschiedlichen Vorrichtungen verwendet werden.
  • Bei einigen Ausführungsformen kann die Plattform 810 jede beliebige Kombination aus einem Prozessor 820, einem Speicher 830, Attributerkennungssystemen 100, 600, einer Netzwerkschnittstelle 840, einem Ein/Ausgabe(E/A)-System 850, einer Benutzerschnittstelle 860, einer Bildaufnahmevorrichtung 862 und einem Speichersystem 870 umfassen. Wie ferner ersichtlich ist, ist auch ein Bus und/oder eine Zwischenverbindung 892 bereitgestellt, um eine Kommunikation zwischen den verschiedenen oben aufgeführten Komponenten und/oder anderen nicht gezeigten Komponenten zu gestatten. Die Plattform 810 kann durch die Netzwerkschnittstelle 840 mit einem Netzwerk 894 gekoppelt sein, um Kommunikationen mit anderen Rechenvorrichtungen, Plattformen oder Ressourcen zu gestatten. Vor dem Hintergrund dieser Offenbarung werden andere Komponenten und Funktionalitäten, die nicht in dem Blockdiagramm von 8 dargestellt sind, offensichtlich sein, und man wird verstehen, dass andere Ausführungsformen nicht auf irgendeine bestimmte Hardwarekonfiguration beschränkt sind
  • Der Prozessor 820 kann jeder beliebige geeignete Prozessor sein, und kann einen oder mehrere Coprozessoren oder Steuerungen wie etwa einen Audioprozessor, eine Grafikverarbeitungseinheit, oder einen Hardwarebeschleuniger aufweisen, um die Steuer- und Verarbeitungstätigkeiten, die mit dem System 800 verbunden sind, zu unterstützen. Bei einigen Ausführungsformen kann der Prozessor 820 als jede beliebige Anzahl von Prozessorkernen implementiert werden. Der Prozessor (oder die Prozessorkerne) kann (können) jede beliebige Art von Prozessor sein, wie etwa, zum Beispiel, ein Mikroprozessor, ein eingebetteter Prozessor, ein digitaler Signalprozessor (DSP), ein Grafikprozessor (GPU), ein Netzwerkprozessor, eine feldprogrammierbare Gatteranordnung oder eine andere Vorrichtung, die zur Ausführung von Code ausgebildet ist. Die Prozessoren können Mehrfadenkerne sein, indem sie mehr als einen Hardwarefadenkontext (oder „logischen Prozessor“) pro Kern enthalten können. Der Prozessor 820 kann als Rechner mit komplexem Befehlssatz (complex instruction set computer, CISC) oder als Rechner mit reduziertem Befehlssatz (reduced instruction set computer, RISC) implementiert werden. Bei einigen Ausführungsformen kann der Prozessor 820 als ein x86-Befehlsatz-kompatibler Prozessor ausgebildet werden.
  • Der Speicher 830 kann unter Verwendung jeder beliebigen geeigneten Art von digitalem Speicher, zum Beispiel einem Flash-Speicher und/oder einem Direktzugriffsspeicher (RAM) implementiert werden. Bei einigen Ausführungsformen kann der Speicher 830 verschiedene Schichten von Speicherhierarchien und/oder Speicher-Caches, die Fachleuten bekannt sind, aufweisen. Der Speicher 830 kann als flüchtige Speichervorrichtung wie etwa eine RAM-, eine dynamische RAM(DRAM)- oder eine statische RAM(SRAM)-Vorrichtung implementiert werden, ist aber nicht darauf beschränkt. Das Speichersystem 870 kann als nichtflüchtige Speichervorrichtung wie etwa eines oder mehrere aus einem Festplattenlaufwerk (HDD), einem Solid-State-Laufwerk (SSD), einem universellen seriellen Bus (USB)-Laufwerk, einem optischen Plattenlaufwerk, einem Bandlaufwerk, einer internen Speichervorrichtung, einer angeschlossenen Speichervorrichtung, einem Flash-Speicher, einem batteriegestützten synchronen DRAM (SDRAM), und/oder einer über ein Netzwerk erreichbaren Speichervorrichtung implementiert werden, ist aber nicht darauf beschränkt. Bei einigen Ausführungsformen kann der Speicher 870 Technologie umfassen, um den speicherleistungsgesteigerten Schutz für wertvolle digitale Medien zu verbessern, wenn mehrere Festplattenlaufwerke enthalten sind.
  • Der Prozessor 820 kann so ausgebildet sein, dass er ein Betriebssystem (operating system, OS) 880 ausführt, das jedes beliebige geeignete Betriebssystem umfassen kann, wie etwa Google Android (Google Inc., Mountain View, CA), Microsoft Windows (Microsoft Corp., Redmond, WA), Apple OS X (Apple Inc., Cupertino, CA), Linux, oder ein Echtzeit-Betriebssystem (real-time operating system, RTOS). Wie man vor dem Hintergrund dieser Offenbarung verstehen wird, können die in diesem Dokument bereitgestellten Techniken unabhängig von dem bestimmten Betriebssystem, das in Verbindung mit dem System 800 bereitgestellt ist, implementiert werden, und können sie daher auch unter Verwendung jeder beliebigen geeigneten bestehenden oder später entwickelten Plattform implementiert werden.
  • Die Netzwerkschnittstellenschaltung 840 kann jeder beliebige geeignete Netzwerkchip oder -chipsatz sein, der eine drahtgebundene und/oder drahtlose Verbindung zwischen anderen Komponenten des Computersystems 800 und/oder dem Netzwerk 894 gestattet und dadurch dem System 800 ermöglicht, mit anderen lokalen und/oder entfernten Rechensystemen, Servern, cloudbasierten Servern und/oder anderen Ressourcen zu kommunizieren. Eine drahtgebundene Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards wie etwa, zum Beispiel, Ethernet entsprechen. Eine drahtlose Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards wie etwa, zum Beispiel, zellulären Kommunikationen einschließlich LTE (Long Term Evolution), Wireless Fidelity (Wi-Fi), Bluetooth, und/oder Near Field Communication (NFC) entsprechen. Beispielhafte drahtlose Netzwerke beinhalten drahtlose lokale Netzwerke, drahtlose persönliche Netzwerke, drahtlose Stadtbereichsnetzwerke, zelluläre Netzwerke und Satellitennetzwerke, sind aber nicht darauf beschränkt.
  • Das E/A-System 850 kann so ausgebildet sein, dass es zwischen verschiedenen E/A-Vorrichtungen und anderen Komponenten des Computersystems 800 verbindet. E/A-Vorrichtungen können die Benutzerschnittstelle 860 und die Bildaufnahmevorrichtung 882 (z.B. eine Kamera) beinhalten, sind aber nicht darauf beschränkt. Die Benutzerschnittstelle 860 kann Vorrichtungen (nicht gezeigt) wie etwa ein Anzeigeelement, ein Touchpad, eine Tastatur, eine Maus, und einen Lautsprecher, usw. beinhalten. Das E/A-System 850 kann ein Grafikuntersystem beinhalten, das ausgebildet ist, um eine Verarbeitung von Bildern zur Wiedergabe an einem Anzeigeelement durchzuführen. Das Grafikuntersystem kann zum Beispiel eine grafische Verarbeitungseinheit oder eine visuelle Verarbeitungseinheit (visual processing unit, VPU) sein. Eine Analog-Digital-Schnittstelle kann verwendet werden, um das Grafikuntersystem und das Anzeigeelement kommunikativ zu koppeln. Zum Beispiel kann die Schnittstelle eine beliebige aus einer hochauflösenden Multimedienschnittstelle (high definition multimedia interface, HDMI), DisplayPort, einer drahtlosen HDMI und/oder jeder beliebigen anderen geeigneten Schnittstelle, die drahtlose hochauflösungskompatible Techniken verwendet, sein. Bei einigen Ausführungsformen könnte das Grafikuntersystem in den Prozessor 820 oder einen beliebigen Chipsatz der Plattform 810 integriert werden.
  • Man wird verstehen, dass die verschiedenen Komponenten des Systems 800 bei einigen Ausführungsformen zu einer „System-auf-einem-Chip(SoC)“-Architektur kombiniert oder in eine solche integriert werden können. Bei einigen Ausführungsformen können die Komponenten Hardwarekomponenten, Firmwarekomponenten, Softwarekomponenten oder jede beliebige geeignete Kombination aus Hardware, Firmware oder Software sein.
  • Die Attributerkennungssysteme im Trainingsmodus 100 und im Betriebsmodus 600 sind wie vorher beschrieben so ausgebildet, dass sie durch anatomische Schlüsselpunkte und statistische Korrelationsmodelle geleitet gewählte menschliche Attribute aus einem Bild erkennen. Die Attributerkennungssysteme können wie oben beschrieben einige oder alle Schaltungen/Komponenten, die in 1, 2, 5 und 6 beschrieben sind, aufweisen. Diese Komponenten können in Verbindung mit verschiedenster geeigneter Software und/oder Hardware, die mit der Plattform 810 gekoppelt ist oder anderweitig einen Teil davon bildet, implementiert oder anderweitig verwendet werden. Diese Komponenten können zusätzlich oder alternativ in Verbindung mit Benutzer-E/A-Vorrichtungen, die in der Lage sind, einem Benutzer Informationen bereitzustellen und von einem Benutzer Informationen und Befehle zu erhalten, implementiert oder anderweitig verwendet werden.
  • Bei einigen Ausführungsformen können die Attributerkennungssysteme und Schaltungen lokal in dem System 800 installiert sein, wie in der beispielhaften Ausführungsform von 8 gezeigt ist. Alternativ kann das System 800 in einer Client-Server-Anordnung implementiert werden, wobei der Plattform 810 wenigstens einige Funktionalität, die mit diesen Systemen verbunden ist, unter Verwendung eines Applets, wie etwa eines JavaScript-Applets, oder eines anderen herunterladbaren Moduls oder Satzes von Untermodulen bereitgestellt wird. Derartige Module oder Untermodule mit Fernzugriff können als Reaktion auf eine Anforderung von einem Client-Rechensystem nach Zugang zu einem gegebenen Server, der Ressourcen aufweist, die für den Benutzer des Client-Rechensystems von Interesse sind, in Echtzeit bereitgestellt werden. Bei derartigen Ausführungsformen kann der Server dem Netzwerk 894 lokal sein oder durch ein oder mehrere andere Netzwerke und/oder Kommunikationskanäle aus der Ferne mit dem Netzwerk 894 gekoppelt sein. In einigen Fällen kann der Zugriff auf Ressourcen an einem gegebenen Netzwerk oder Rechensystem Zugangsdaten wie etwa Benutzernamen, Passwörter und/oder Konformität mit irgendeinem anderen geeigneten Sicherheitsmechanismus erfordern.
  • Bei verschiedenen Ausführungsformen kann das System 800 als drahtloses System, drahtgebundenes System, oder eine Kombination von beidem implementiert werden. Wenn es als drahtloses System implementiert wird, kann das System 800 Komponenten und Schnittstellen aufweisen, die für das Kommunizieren über ein drahtloses geteiltes Medium geeignet sind, wie etwa eine oder mehrere Antennen, Sender, Empfänger, Sendeempfänger, Verstärker, Filter, Steuerlogik, und so weiter. Ein Beispiel für drahtlose geteilte Medien kann Teile eines drahtlosen Spektrums, wie etwa des Funkfrequenzspektrums und so weiter, beinhalten. Wenn es als drahtgebundenes System implementiert wird, kann das System 800 Komponenten und Schnittstellen aufweisen, die für das Kommunizieren über drahtgebundene Kommunikationsmedien geeignet sind, wie etwa Ein/Ausgabeadapter, physikalische Steckverbinder, um den Ein/Ausgabeadapter mit einem entsprechenden kabelgebundenen Medium zu verbinden, eine Netzwerkschnittstellenkarte (network interface card, NIC), eine Plattensteuerung, eine Videosteuerung, eine Audiosteuerung, und so weiter. Beispiele für drahtgebundene Kommunikationsmedien können einen Draht, Kabelmetallleiter, eine gedruckte Leiterplatte (printed circuit board, PCB), eine Rückwandplatine, ein Switch-Fabric, Halbleitermaterial, eine verdrillte Zweidrahtleitung, ein Koaxialkabel, Glasfaseroptik, und so weiter beinhalten.
  • Verschiedene Ausführungsformen können unter Verwendung von Hardwareelementen, Softwareelementen oder einer Kombination von beiden implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (zum Beispiel Transistoren, Widerstände, Kondensatoren, Induktoren, und so weiter), integrierte Schaltungen, ASICs, programmierbare Logikvorrichtungen, digitale Signalprozessoren, FPGAs, Logikgatter, Register, Halbleitervorrichtungen, Chips, Mikrochips, Chipsätze, und so weiter beinhalten. Beispiele für Software können Softwarekomponenten, Programmanwendungen, Computerprogramme, Anwendungsprogramme, Systemprogramme, Maschinenprogramme, Betriebssystemsoftware, Middleware, Firmware, Softwaremodule, Routinen, Subroutinen, Funktionen, Verfahren, Vorgänge, Softwareschnittstellen, Anwendungsprogrammschnittstellen, Befehlssätze, Rechencode, Computercode, Codesegmente, Computercodesegmente, Worte, Werte, Symbole, oder jede beliebige Kombination davon beinhalten. Das Bestimmen, ob eine Ausführungsform unter Verwendung von Hardwareelementen und/oder Softwareelementen implementiert wird, kann gemäß einer beliebigen Anzahl von Faktoren wie etwa der gewünschten Rechengeschwindigkeit, dem Leistungspegel, Wärmetoleranzen, dem Verarbeitungszyklusbudget, Eingangsdatenraten, Ausgangsdatenraten, Speicherressourcen, Datenbusgeschwindigkeiten, und anderen Gestaltungs- oder Leistungsfähigkeitsbeschränkungen unterschiedlich sein.
  • Einige Ausführungsformen können unter Verwendung der Ausdrücke „gekoppelt“ und „verbunden“ zusammen mit ihren Ableitungen beschrieben sein. Diese Ausdrücke sind nicht als Synonyme füreinander gedacht. Zum Beispiel können einige Ausführungsformen unter Verwendung der Ausdrücke „verbunden“ und/oder „gekoppelt“ beschrieben sein, um anzugeben, dass zwei oder mehr Elemente in einem direkten physikalischen oder elektrischen Kontakt miteinander stehen. Der Ausdruck „gekoppelt“ kann jedoch auch bedeuten, dass zwei oder mehr Elemente nicht in einem direkten Kontakt miteinander stehen, aber dennoch miteinander zusammenwirken oder wechselwirken.
  • Die verschiedenen Ausführungsformen, die in diesem Dokument offenbart sind, können in verschiedenen Formen von Hardware, Software, Firmware und/oder Prozessoren mit besonderer Zweckbestimmung implementiert werden. Zum Beispiel weist bei einer Ausführungsform wenigstens ein nichtflüchtiges computerlesbares Speichermedium darauf codierte Befehle auf, die bei Ausführung durch einen oder mehrere Prozessoren verursachen, dass eine oder mehrere der in diesem Dokument offenbarten Methodologien zur Erkennung von menschlichen Attributen ausgeführt werden. Die Befehle können unter Verwendung einer geeigneten Programmiersprache wie etwa C, C++, objektorientiertes C, Java, JavaScript, Visual Basic NET, Beginner's All-Purpose Symbolic Instruction Code (BASIC), oder alternativ unter Verwendung von benutzerdefinierten oder proprietären Befehlsätzen codiert werden. Die Befehle können in der Form einer oder mehrerer Computersoftwareanwendungen und/oder Applets, die greifbar auf einer Speichervorrichtung ausgeführt sind und die durch einen Computer mit einer beliebigen geeigneten Architektur ausgeführt werden können, bereitgestellt werden. Bei einer Ausführungsform kann das System auf einer gegebenen Website gehostet werden und zum Beispiel unter Verwendung von JavaScript oder einer anderen geeigneten browserbasierten Technologie implementiert werden. Zum Beispiel kann das System bei bestimmten Ausführungsformen Verarbeitungsressourcen einsetzen, die durch ein entferntes Computersystem, das über das Netzwerk 894 zugänglich ist, bereitgestellt werden. Bei anderen Ausführungsformen können die in diesem Dokument offenbarten Funktionalitäten in andere Softwareanwendungen im Zusammenhang mit der Bildverarbeitung wie etwa, zum Beispiel, Sicherheits- und Überwachungsanwendungen, Smart-Home-Management-, Unterhaltungs-, und Roboteranwendungen aufgenommen werden. Die in diesem Dokument offenbarten Computersoftwareanwendungen können jede beliebige Anzahl von unterschiedlichen Modulen, Untermodulen, oder anderen Komponenten von unterschiedlicher Funktionalität aufweisen. Diese Module können zum Beispiel verwendet werden, um mit Eingabe- und/oder Ausgabevorrichtungen wie etwa einem Anzeigebildschirm, einer berührungsempfindlichen Oberfläche, einem Drucker und/oder jeder beliebigen anderen geeigneten Vorrichtung zu kommunizieren. Vor dem Hintergrund dieser Offenbarung werden andere Komponenten und Funktionalitäten, die nicht in den Abbildungen dargestellt sind, offensichtlich werden, und man wird verstehen, dass andere Ausführungsformen nicht auf irgendeine besondere Hardware- oder Softwarekonfiguration beschränkt sind. Daher kann das System 800 bei anderen Ausführungsformen im Vergleich zu den in der beispielhaften Ausführungsform von 8 enthaltenen zusätzliche, weniger oder alternative Subkomponenten umfassen.
  • Das oben genannte nichtflüchtige computerlesbare Medium kann jedes beliebige geeignete Medium zum Speichern von digitalen Informationen sein, wie etwa eine Festplatte, ein Server, ein Flash-Speicher, und/oder ein Direktzugriffsspeicher (RAM), oder eine Kombination von Speichern. Bei alternativen Ausführungsformen können die in diesem Dokument offenbarten Komponenten und/oder Module mit Hardware, einschließlich Logik auf Gatterebene wie etwa einer feldprogrammierbaren Gatteranordnung (FPGA), oder alternativ, einem speziell dafür gebauten Halbleiter wie etwa einer anwendungsspezifischen integrierten Schaltung (ASIC), implementiert werden. Noch andere Ausführungsformen können mit einer Mikrosteuerung mit einer Anzahl von Ein/Ausgangsports zum Erhalten und Ausgeben von Daten und einer Anzahl von eingebetteten Routinen zum Ausführen der verschiedenen in diesem Dokument offenbarten Funktionalitäten implementiert werden. Es wird offensichtlich sein, dass jede beliebige geeignete Kombination von Hardware, Software und Firmware verwendet werden kann, und dass andere Ausführungsformen nicht auf irgendeine bestimmte Systemarchitektur beschränkt sind.
  • Einige Ausführungsformen können zum Beispiel unter Verwendung eines maschinenlesbaren Mediums oder Gegenstands, das oder der einen Befehl oder einen Satz von Befehlen speichern kann, welcher bei Ausführung durch eine Maschine die Maschine zur Ausführung eines Verfahrens und/oder von Tätigkeiten gemäß den Ausführungsformen bringen kann, implementiert werden. Eine solche Maschine kann zum Beispiele jede beliebige geeignete Verarbeitungsplattform, Rechenplattform, Verarbeitungsvorrichtung, jedes beliebige geeignete Rechensystem, Verarbeitungssystem, jeden beliebigen geeigneten Computer, Prozess, oder dergleichen beinhalten, und kann unter Verwendung jeder beliebigen geeigneten Kombination von Hardware und/oder Software implementiert werden. Das maschinenlesbare Medium oder der maschinenlesbare Gegenstand kann zum Beispiel jede beliebige geeignete Art von Speichereinheit, Speichervorrichtung, Speichergegenstand, Speichermedium, Massenspeichervorrichtung, Massenspeichergegenstand, Massenspeichermedium und/oder Massenspeichereinheit wie etwa einen Speicher, entfernbare oder nicht entfernbare Medien, löschbare oder nicht löschbare Medien, beschreibbare oder wiederbeschreibbare Medien, digitale oder analoge Medien, eine Festplatte, eine Floppy-Disk, einen Compact-Disk-Nurlesespeicher (CD-ROM), einen beschreibbaren Compact-Disk(CD-R)-Speicher, einen wiederbeschreibbaren Compact-Disk(CD-RW)-Speicher, eine optische Platte, magnetische Medien, magnetoptische Medien, entfernbare Speicherkarten oder -platten, verschiedene Arten von Digital Versatile Disks (DVD), ein Band, eine Kassette, oder dergleichen beinhalten. Die Befehle können jede beliebige Art von Code wie etwa Quellcode, kompilierten Code, interpretierten Code, ausführbaren Code, statischen Code, dynamischen Code, verschlüsselten Code, und dergleichen beinhalten, der unter Verwendung jeder beliebigen geeigneten höheren, niedrigeren, objektorientierten, visuellen, kompilierten und/oder interpretierten Programmiersprache implementiert ist.
  • Sofern nicht ausdrücklich anders angegeben versteht sich, dass sich Ausdrücke wie „verarbeiten“, „berechnen“, „rechnen“, „bestimmen“, oder dergleichen auf die Handlung und/oder den Prozess eines Computers oder eines Rechensystems oder einer ähnlichen Rechenvorrichtung beziehen, der, das oder die Daten, die in den Registern und/oder Speichereinheiten des Computersystems als physikalische Größen (zum Beispiel elektronisch) dargestellt sind, bearbeitet und/oder in andere Daten, die in den Registern, Speichereinheiten, oder anderen derartigen Informationsspeicherübermittlungen oder Anzeigen des Computersystems ebenfalls als physikalische Größen dargestellt sind, umwandelt. Die Ausführungsformen sind in diesem Kontext nicht beschränkt.
  • Die bei beliebigen Ausführungsformen in diesem Dokument verwendeten Ausdrücke „Schaltung“ oder „Schaltungsanordnung“ sind funktionell und können zum Beispiel festverdrahtete Schaltungsanordnungen, programmierbare Schaltungsanordnungen wie etwa Computerprozessoren, die einen oder mehrere einzelne Befehlsverarbeitungskerne umfassen, Zustandsmaschinenschaltungsanordnungen, und/oder Firmware, die durch programmierbare Schaltungsanordnungen ausgeführte Befehle speichert, einzeln oder in jeder beliebigen Kombination umfassen. Die Schaltungsanordnung kann einen Prozessor und/oder eine Steuerung umfassen, der oder die dazu ausgebildet ist, einen oder mehrere Befehle zur Durchführung einer oder mehrerer der in diesem Dokument beschriebenen Tätigkeiten auszuführen. Die Befehle können zum Beispiel als eine Anwendung, Software, Firmware, usw. ausgeführt sein, die dazu ausgebildet ist, die Schaltungsanordnung zur Durchführung jeder beliebigen der oben genannten Tätigkeiten zu bringen. Die Software kann als Softwarepaket, Code, Befehle, Befehlssätze und/oder Daten, die auf einem computerlesbaren Speichermedium aufgezeichnet sind, ausgeführt sein. Die Software kann so ausgeführt oder implementiert sein, dass sie jede beliebige Anzahl von Prozessen enthält, und die Prozesse wiederum können so ausgeführt oder implementiert sein, dass sie jede beliebige Anzahl von Fäden usw. in einer hierarchischen Weise enthält. Die Firmware kann als Code, Befehle oder Befehlssätze und/oder Daten, die in Speichervorrichtungen hartcodiert (z.B. nicht flüchtig) sind, ausgeführt sein. Die Schaltungsanordnung kann gesammelt oder individuell als Schaltungsanordnung, die einen Teil eines größeren Systems, zum Beispiel einer integrierten Schaltung (IC), einer anwendungsspezifischen integrierten Schaltung (ASIC), eines Systems-auf-einem-Chip (SoC), von Desktop-Computern, Laptop-Computern, Tablet-Computern, Servern, Smartphones, usw., bildet, ausgeführt sein. Andere Ausführungsformen können als Software, die durch eine programmierbare Steuervorrichtung ausgeführt wird, implementiert sein. In solchen Fällen sollen die Ausdrücke „Schaltung oder „Schaltungsanordnung“ eine Kombination aus Software und Hardware wie etwa eine programmierbare Steuervorrichtung oder einen Prozessor, der zur Ausführung der Software in der Lage ist, beinhalten. Wie in diesem Dokument beschrieben können verschiedene Ausführungsformen unter Verwendung von Hardwareelementen, Softwareelementen, oder jeder beliebigen Kombination davon implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (z.B. Transistoren, Widerstände, Kondensatoren, Induktoren, und so weiter), integrierte Schaltungen, anwendungsspezifische integrierte Schaltungen (ASICs), programmierbare Logikvorrichtungen (PDs), digitale Signalprozessoren (DSPs), feldprogrammierbare Gatteranordnungen (FPGAs), Logikgatter, Register, Halbleitervorrichtungen, Chips, Mikrochips, Chipsätze, und so weiter beinhalten.
  • In diesem Dokument wurden zahlreiche bestimmte Einzelheiten dargelegt, um für ein gründliches Verständnis der Ausführungsformen zu sorgen. Ein Durchschnittsfachmann wird jedoch verstehen, dass die Ausführungsformen ohne diese bestimmten Einzelheiten umgesetzt werden können. In anderen Fällen wurden wohlbekannte Tätigkeiten, Komponenten und Schaltungen nicht ausführlich beschrieben, um die Ausführungsformen nicht unklar zu machen. Es versteht sich, dass die bestimmten baulichen und funktionellen Einzelheiten, die in diesem Dokument offenbart sind, stellvertretend sein können und den Umfang der Ausführungsformen nicht notwendigerweise beschränken. Und obwohl der Gegenstand in einer Sprache beschrieben wurde, die für bauliche Merkmale und/oder methodologische Handlungen spezifisch ist, versteht sich zudem, dass der Gegenstand, der in den beiliegenden Ansprüchen definiert ist, nicht notwendigerweise auf die bestimmten Merkmale oder Handlungen, die in diesem Dokument beschrieben sind, beschränkt ist. Die in diesem Dokument beschriebenen bestimmten Merkmale und Handlungen sind vielmehr als beispielhafte Formen zur Umsetzung der Ansprüche offenbart.
  • Weitere beispielhafte Ausführungsformen
  • Die folgenden Bespiele betreffen weitere Ausführungsformen, aus denen zahlreiche Permutationen und Konfigurationen offensichtlich sein werden.
  • Beispiel 1 ist ein System zur Erkennung von menschlichen Attributen, wobei das System ein attributmerkmalsextrahierendes (attribute feature extraction, AFE) faltendes neuronales Netzwerk (convolutional neural network, CNN), um auf Basis eines Bilds eines Menschen Attributmerkmalspläne zu erzeugen; ein schlüsselpunktgeleitetes vorschlagendes (key-point guided proposal, KPG) CNN, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds des Menschen zu erzeugen; eine CNN-Kombinationsschicht, um auf Basis der Attributmerkmalspläne, der vorgeschlagenen hierarchischen Bereiche und von statistischen Korrelationsmodellen (statistical correlation models, SCMs), wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereiche bereitstellen, Erkennungswahrscheinlichkeiten für die menschlichen Attribute zu erzeugen, umfasst.
  • Beispiel 2 beinhaltet den Gegenstand von Beispiel 1 und umfasst ferner eine Statistisches-Korrelationsmodell-Erzeugungsschaltung, um einen anfänglichen Satz von SCMs zu erzeugen, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  • Beispiel 3 beinhaltet den Gegensatz von Beispiel 1 oder 2, wobei die Erzeugung des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch das System als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  • Beispiel 4 beinhaltet den Gegenstand eines der Beispiele 1 bis 3, wobei das AFE-CNN an Trainingsbildern, die Attributlabel enthalten, trainiert wird.
  • Beispiel 5 beinhaltet den Gegenstand eines der Beispiele 1 bis 4, wobei das KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten, trainiert wird.
  • Beispiel 6 beinhaltet den Gegenstand eines der Beispiele 1 bis 5, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  • Beispiel 7 beinhaltet den Gegenstand eines der Beispiele 1 bis 6, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  • Beispiel 8 beinhaltet den Gegenstand eines der Beispiele 1 bis 7, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  • Beispiel 9 ist ein computerimplementiertes Verfahren zur Erkennung von menschlichen Attributen, wobei das Verfahren das Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) durch einen Computerprozessor auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen; das Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN durch den Computerprozessor auf das Bild des Menschen, um auf Basis zugehöriger anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen; und das Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute durch den Computerprozessor auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche und statistische Korrelationsmodelle (statistical correlation models, SCMs) enthält, wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, umfasst.
  • Beispiel 10 beinhaltet den Gegenstand von Beispiel 9, und umfasst ferner das Erzeugen eines anfänglichen Satzes von SCMs, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  • Beispiel 11 beinhaltet den Gegenstand von Beispiel 9 oder 10, wobei das Erzeugen des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch die CNN-Kombinationsschicht als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  • Beispiel 12 beinhaltet den Gegenstand eines der Beispiele 9 bis 11, und umfasst ferner das Trainieren des AFE-CNN an Trainingsbildern, die Attributlabel enthalten.
  • Beispiel 13 beinhaltet den Gegenstand eines der Beispiele 9 bis 12, und umfasst ferner das Trainieren des KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten.
  • Beispiel 14 beinhaltet den Gegenstand eines der Beispiele 9 bis 13, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  • Beispiel 15 beinhaltet den Gegenstand eines der Beispiele 9 bis 14, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  • Beispiel 16 beinhaltet den Gegenstand eines der Beispiele 9 bis 15, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  • Beispiel 17 ist wenigstens ein nichtflüchtiges computerlesbares Speichermedium, worauf Befehle codiert sind, die bei Ausführung durch einen oder mehrere Prozessoren zu den folgenden Tätigkeiten zur Erkennung von menschlichen Attributen führen, wobei die Tätigkeiten das Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen; das Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN auf das Bild des Menschen, um auf Basis zugehöriger anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen; und das Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche und statistische Korrelationsmodelle (statistical correlation models, SCMs) enthält, wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, umfassen.
  • Beispiel 18 beinhaltet den Gegenstand von Beispiel 17, wobei die Tätigkeiten ferner das Erzeugen eines anfänglichen Satzes von SCMs umfassen, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  • Beispiel 19 beinhaltet den Gegenstand von Beispiel 17 oder 18, wobei das Erzeugen des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch die CNN-Kombinationsschicht als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  • Beispiel 20 beinhaltet den Gegenstand eines der Beispiele 17 bis 19, wobei die Tätigkeiten ferner das Trainieren des AFE-CNN an Trainingsbildern, die Attributlabel enthalten, umfassen.
  • Beispiel 21 beinhaltet den Gegenstand eines der Beispiele 17 bis 20, wobei die Tätigkeiten ferner das Trainieren des KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten, umfassen.
  • Beispiel 22 beinhaltet den Gegenstand eines der Beispiele 17 bis 21, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  • Beispiel 23 beinhaltet den Gegenstand eines der Beispiele 17 bis 22, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  • Beispiel 24 beinhaltet den Gegenstand eines der Beispiele 17 bis 23, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  • Beispiel 25 ist ein System zur Erkennung von menschlichen Attributen, wobei das System Mittel zum Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen; Mittel zum Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN auf das Bild des Menschen, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen; und Mittel zum Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche, und statistische Korrelationsmodelle (statistical correlation models, SCMs) enthält, wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereiche bereitstellen, umfasst.
  • Beispiel 26 beinhaltet den Gegenstand von Beispiel 25 und umfasst ferner Mittel zum Erzeugen eines anfänglichen Satzes von SCMs, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  • Beispiel 27 beinhaltet den Gegenstand von Beispiel 25 oder 26, wobei die Erzeugung des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch das System als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  • Beispiel 28 beinhaltet den Gegenstand eines der Beispiele 25 bis 27, und umfasst ferner Mittel zum Trainieren des AFE-CNN an Trainingsbildern, die Attributlabel enthalten.
  • Beispiel 29 beinhaltet den Gegenstand eines der Beispiele 25 bis 28, und umfasst ferner Mittel zum Trainieren des KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlaben enthalten.
  • Beispiel 30 beinhaltet den Gegenstand eines der Beispiele 25 bis 29, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  • Beispiel 31 beinhaltet den Gegenstand eines der Beispiele 25 bis 30, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  • Beispiel 32 beinhaltet den Gegenstand eines der Beispiele 25 bis 31, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  • Die Begriffe und Ausdrücke, die.in diesem Dokument eingesetzt wurden, werden als Begriffe zur Beschreibung und nicht zur Beschränkung verwendet, und bei der Verwendung dieser Begriffe und Ausdrücke besteht keine Absicht, jedwede Entsprechungen der gezeigten und beschriebenen Merkmale (oder von Teilen davon) auszuschließen, und es wird erkannt, dass innerhalb des Umfangs der Ansprüche verschiedene Abwandlungen möglich sind. Entsprechend sollen die Ansprüche alle derartigen Entsprechungen abdecken. In diesem Dokument wurden verschiedene Merkmale, Gesichtspunkte und Ausführungsformen beschrieben. Wie Fachleute verstehen werden, sind die Merkmale, Gesichtspunkte und Ausführungsformen für Kombinationen miteinander wie auch Veränderungen und Abwandlungen empfänglich. Die vorliegende Offenbarung sollte daher so angesehen werden, dass sie alle derartigen Kombinationen, Veränderungen und Abwandlungen umfasst. Es ist beabsichtigt, dass der Umfang der vorliegenden Offenbarung nicht durch diese ausführliche Beschreibung, sondern vielmehr durch die ihr beigefügten Ansprüche beschränkt wird. Zukünftig eingereichte Anmeldungen, die die Priorität dieser Anmeldung beanspruchen, können den offenbarten Gegenstand auf eine unterschiedliche Weise beanspruchen und können im Allgemeinen jeden beliebigen Satz eines oder mehrerer Elemente, die in diesem Dokument verschiedentlich offenbart oder anderweitig gezeigt wurden, beinhalten.

Claims (24)

  1. System zur Erkennung von menschlichen Attributen, wobei das System Folgendes umfasst: ein attributmerkmalsextrahierendes (attribute feature extraction, AFE) faltendes neuronales Netzwerk (convolutional neural network, CNN), um auf Basis eines Bilds eines Menschen Attributmerkmalspläne zu erzeugen; ein schlüsselpunktgeleitetes vorschlagendes (key-point guided proposal, KPG) CNN, um auf Basis zugeordneter anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds des Menschen zu erzeugen; eine CNN-Kombinationsschicht, um auf Basis der Attributmerkmalspläne, der vorgeschlagenen hierarchischen Bereiche und von statistischen Korrelationsmodellen (statistical correlation models, SCMs), wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen, Erkennungswahrscheinlichkeiten für die menschlichen Attribute zu erzeugen.
  2. System nach Anspruch 1, ferner umfassend eine Statistisches-Korrelationsmodell-Erzeugungsschaltung, um einen anfänglichen Satz von SCMs zu erzeugen, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  3. System nach Anspruch 2, wobei die Erzeugung des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch das System als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  4. System nach Anspruch 1, wobei das AFE-CNN an Trainingsbildern, die Attributlabel enthalten, trainiert wird.
  5. System nach Anspruch 1, wobei das KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten, trainiert wird.
  6. System nach einem der Ansprüche 1 bis 5, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  7. System nach einem der Ansprüche 1 bis 5, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  8. System nach einem der Ansprüche 1 bis 5, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  9. Computerimplementiertes Verfahren zur Erkennung von menschlichen Attributen, wobei das Verfahren Folgendes umfasst: Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) durch einen Computerprozessor auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen; Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN durch den Computerprozessor auf das Bild des Menschen, um auf Basis zugehöriger anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen; und Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute durch den Computerprozessor auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche und statistische Korrelationsmodelle (statistical correlation models, SCMs) enthält, wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen.
  10. Verfahren nach Anspruch 9, ferner umfassend das Erzeugen eines anfänglichen Satzes von SCMs, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  11. Verfahren nach Anspruch 10, wobei das Erzeugen des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch die CNN-Kombinationsschicht als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  12. Verfahren nach Anspruch 9, ferner umfassend das Trainieren des AFE-CNN an Trainingsbildern, die Attributlabel enthalten.
  13. Verfahren nach Anspruch 9, ferner umfassend das Trainieren des KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten.
  14. Verfahren nach einem der Ansprüche 9 bis 13, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  15. Verfahren nach einem der Ansprüche 9 bis 13, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  16. Verfahren nach einem der Ansprüche 9 bis 13, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
  17. Wenigstens ein nichtflüchtiges computerlesbares Speichermedium, worauf Befehle codiert sind, die bei Ausführung durch einen oder mehrere Prozessoren zu den folgenden Tätigkeiten zur Erkennung von menschlichen Attributen führen, wobei die Tätigkeiten Folgendes umfassen: Anwenden eines attributmerkmalsextrahierenden (attribute feature extraction, AFE) faltenden neuronalen Netzwerks (convolutional neural network, CNN) auf ein Bild eines Menschen, um auf Basis des Bilds Attributmerkmalspläne zu erzeugen; Anwenden eines schlüsselpunktgeleiteten vorschlagenden (key-point guided proposal, KPG) CNN auf das Bild des Menschen, um auf Basis zugehöriger anatomischer Schlüsselpunkte vorgeschlagene hierarchische Bereiche des Bilds zu erzeugen; und Erzeugen von Erkennungswahrscheinlichkeiten für die menschlichen Attribute auf Basis einer CNN-Kombinationsschicht, die die Attributmerkmalspläne, die vorgeschlagenen hierarchischen Bereiche und statistische Korrelationsmodelle (statistical correlation models, SCMs) enthält, wobei die SCMs Korrelationen zwischen den Merkmalen der Attributmerkmalspläne und den vorgeschlagenen hierarchischen Bereichen bereitstellen.
  18. Computerlesbares Speichermedium nach Anspruch 17, wobei die Tätigkeiten ferner das Erzeugen eines anfänglichen Satzes von SCMs umfassen, wobei die SCMs ein semantisches Korrelationsmodell, um Korrelationen zwischen den einzelnen Attributen bereitzustellen, ein Strukturkorrelationsmodell, um Korrelationen zwischen den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, und ein Stellenkorrelationsmodell, um Korrelationen zwischen den einzelnen Attributen und den einzelnen vorgeschlagenen hierarchischen Bereichen bereitzustellen, umfassen.
  19. Computerlesbares Speichermedium nach Anspruch 18, wobei das Erzeugen des anfänglichen Satzes von SCMs auf Trainingsbildern, die Attributlabel und Schlüsselpunktlabel enthalten, Trainingsdaten, die anatomische Modelle enthalten, und Attributerkennungswahrscheinlichkeiten, die durch die CNN-Kombinationsschicht als Reaktion auf die Trainingsbilder erzeugt werden, beruht.
  20. Computerlesbares Speichermedium nach Anspruch 17, wobei die Tätigkeiten ferner das Trainieren des AFE-CNN an Trainingsbildern, die Attributlabel enthalten, umfassen.
  21. Computerlesbares Speichermedium nach Anspruch 17, wobei die Tätigkeiten ferner das Trainieren des KPG-CNN an Schlüsselpunkt-Trainingsdatensätzen und Trainingsbildern, die Attributlabel enthalten, umfassen.
  22. Computerlesbares Speichermedium nach einem der Ansprüche 17 bis 21, wobei die menschlichen Attribute wenigstens eines aus dem Geschlecht, der Frisur, dem Kleidungstyp, dem Tragen eines Huts, dem Tragen einer Brille, und der Art der Fußbekleidung beinhalten.
  23. Computerlesbares Speichermedium nach einem der Ansprüche 17 bis 21, wobei die Schlüsselpunkte wenigstens eines aus einem Hals, einer linken Schulter, einer rechten Schulter, einem linken Ellenbogen, einem rechten Ellenbogen, einem linken Handgelenk, einem rechten Handgelenk, einer linken Hüfte, einer rechten Hüfte, einem linken Knie, einem rechten Knie, einem linken Knöchel, und einem rechten Knöchel beinhalten.
  24. Computerlesbares Speichermedium nach einem der Ansprüche 17 bis 21, wobei die vorgeschlagenen hierarchischen Bereiche wenigstens eines aus einem Körper, einem Kopf, einem oberen Rumpf, einem unteren Rumpf, einer Brust, einem linken Arm, einem rechten Arm, einem linken Bein, einem rechten Bein, einem linken Oberarm, einem linken Unterarm, einem rechten Oberarm, einem rechten Unterarm, einem linken Oberschenkel, einem linken Unterschenkel, einem rechten Oberschenkel, und einem rechten Unterschenkel beinhalten.
DE112017008308.7T 2017-12-27 2017-12-27 Schlüsselpunktgeleitete Erkennung von menschlichen Attributen unter Verwendung statistischer Korrelationsmodelle Withdrawn DE112017008308T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/119027 WO2019127108A1 (en) 2017-12-27 2017-12-27 Key-point guided human attribute recognition using statistic correlation models

Publications (1)

Publication Number Publication Date
DE112017008308T5 true DE112017008308T5 (de) 2020-11-12

Family

ID=67062806

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017008308.7T Withdrawn DE112017008308T5 (de) 2017-12-27 2017-12-27 Schlüsselpunktgeleitete Erkennung von menschlichen Attributen unter Verwendung statistischer Korrelationsmodelle

Country Status (4)

Country Link
US (1) US11157727B2 (de)
CN (1) CN111133438A (de)
DE (1) DE112017008308T5 (de)
WO (1) WO2019127108A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127108A1 (en) 2017-12-27 2019-07-04 Intel Corporation Key-point guided human attribute recognition using statistic correlation models
CN110852162B (zh) * 2019-09-29 2020-10-23 深圳云天励飞技术有限公司 一种人体完整度数据标注方法、装置及终端设备
CN110874577B (zh) * 2019-11-15 2022-04-15 杭州东信北邮信息技术有限公司 一种基于深度学习的证件照的自动审核方法
CN111626196B (zh) * 2020-05-27 2023-05-16 西南石油大学 基于知识图谱的典型牛科动物身体结构智能分析方法
US11379978B2 (en) 2020-07-14 2022-07-05 Canon Medical Systems Corporation Model training apparatus and method
US11474892B2 (en) 2020-12-03 2022-10-18 International Business Machines Corporation Graph-based log sequence anomaly detection and problem diagnosis
US11403326B2 (en) 2020-12-03 2022-08-02 International Business Machines Corporation Message-based event grouping for a computing operation
US11797538B2 (en) 2020-12-03 2023-10-24 International Business Machines Corporation Message correlation extraction for mainframe operation
US11599404B2 (en) 2020-12-03 2023-03-07 International Business Machines Corporation Correlation-based multi-source problem diagnosis
US11243835B1 (en) 2020-12-03 2022-02-08 International Business Machines Corporation Message-based problem diagnosis and root cause analysis
US11513930B2 (en) 2020-12-03 2022-11-29 International Business Machines Corporation Log-based status modeling and problem diagnosis for distributed applications
CN112883880B (zh) * 2021-02-25 2022-08-19 电子科技大学 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端
CN113505761A (zh) * 2021-09-08 2021-10-15 阿里巴巴达摩院(杭州)科技有限公司 车辆属性提取方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2579903C (en) * 2004-09-17 2012-03-13 Cyberextruder.Com, Inc. System, method, and apparatus for generating a three-dimensional representation from one or more two-dimensional images
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
US9495619B2 (en) * 2014-12-30 2016-11-15 Facebook, Inc. Systems and methods for image object recognition based on location information and object categories
US11030394B1 (en) * 2017-05-04 2021-06-08 Amazon Technologies, Inc. Neural models for keyphrase extraction
CN107451568A (zh) * 2017-08-03 2017-12-08 重庆邮电大学 使用深度卷积神经网络的姿态检测方法及设备
WO2019082376A1 (ja) * 2017-10-27 2019-05-02 株式会社アシックス 動作状態評価システム、動作状態評価装置、動作状態評価サーバ、動作状態評価方法、および動作状態評価プログラム
WO2019127108A1 (en) 2017-12-27 2019-07-04 Intel Corporation Key-point guided human attribute recognition using statistic correlation models
US11557390B2 (en) * 2018-04-30 2023-01-17 Elekta, Inc. Radiotherapy treatment plan modeling using generative adversarial networks
US11544928B2 (en) * 2019-06-17 2023-01-03 The Regents Of The University Of California Athlete style recognition system and method

Also Published As

Publication number Publication date
US11157727B2 (en) 2021-10-26
US20200226362A1 (en) 2020-07-16
CN111133438A (zh) 2020-05-08
WO2019127108A1 (en) 2019-07-04

Similar Documents

Publication Publication Date Title
DE112017008308T5 (de) Schlüsselpunktgeleitete Erkennung von menschlichen Attributen unter Verwendung statistischer Korrelationsmodelle
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
CN107766787A (zh) 人脸属性识别方法、装置、终端及存储介质
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
DE112015007176T5 (de) Visuelle Erkennung unter Verwendung von Deep Learning-Attributen
DE102020125207A1 (de) Unbeaufsichtigtes training von neuronalem netz zur bildkompression mit hohem dynamikumfang
DE112016006873T5 (de) Erfassung von Menschen in Bildern unter Verwendung von Tiefeninformationen
DE112011101927T5 (de) Semantisches Parsen von Objekten in Videos
CN105678232A (zh) 一种基于深度学习的人脸图片特征提取与对比方法
DE112012003640T5 (de) Erzeugen eines rhythmischen Passworts und Durchführen einer Authentifizierung auf der Grundlage rhythmischen Passworts
DE102014116177A1 (de) Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen
DE112013006046T5 (de) System und Verfahren zum dynamischen Generieren eines Frequenzmusters zur Verwirklichung des Tastgefühls in einem Computing-Gerät
CN108197584A (zh) 一种基于三元组深度神经网络的行人重识别方法
CN110321761A (zh) 一种行为识别方法、终端设备及计算机可读存储介质
CN109726619A (zh) 一种基于参数共享的卷积神经网络人脸识别方法及系统
CN106411952A (zh) 一种隔空动态手势用户身份认证方法及装置
CN106022294A (zh) 一种面向智能机器人的人机交互方法及装置
DE112012002669T5 (de) Verbessern des Austauschens von Daten in der Social-Network-Umgebung
CN107273871A (zh) 一种人脸特征模型的训练方法及装置
DE102021201777A1 (de) Verfahren zur Verhaltenserkennung, Vorrichtung zur Verhaltenserkennung und computerlesbares Aufzeichnungsmedium
DE112016006921T5 (de) Schätzung der menschlichen Ausrichtung in Bildern unter Verwendung von Tiefeninformationen
Wang Route planning of health care tourism based on computer deep learning
Peng et al. Unsupervised domain adaptation for cross-modality retinal vessel segmentation via disentangling representation style transfer and collaborative consistency learning
Rajakumar et al. Design of Advanced Security System Using Vein Pattern Recognition and Image Segmentation Techniques
DE112019006940T5 (de) Benutzerauthentifizerung durch posenbasierte Gesichtserkennung

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee