DE102017216821A1 - Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts - Google Patents

Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts Download PDF

Info

Publication number
DE102017216821A1
DE102017216821A1 DE102017216821.8A DE102017216821A DE102017216821A1 DE 102017216821 A1 DE102017216821 A1 DE 102017216821A1 DE 102017216821 A DE102017216821 A DE 102017216821A DE 102017216821 A1 DE102017216821 A1 DE 102017216821A1
Authority
DE
Germany
Prior art keywords
orientation
samples
sample
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102017216821.8A
Other languages
English (en)
Inventor
Slobodan Ilic
Sergey Zakharov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102017216821.8A priority Critical patent/DE102017216821A1/de
Priority to US16/646,456 priority patent/US20200211220A1/en
Priority to EP18759883.4A priority patent/EP3685303A1/de
Priority to CN201880060873.8A priority patent/CN111149108A/zh
Priority to PCT/EP2018/072085 priority patent/WO2019057402A1/de
Publication of DE102017216821A1 publication Critical patent/DE102017216821A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

Die Erfindung betrifft ein Verfahren zum Erkennen einer Objektinstanz von lokalisierten Objekten (10) in störbehafteten Umgebungen (14) mittels eines künstlichen neuronalen Netzwerks (CNN) mit den Schritten: Aufnehmen einer Mehrzahl von Bildern (x) wenigstens eines Objekts (10) zwecks Erhalt einer Mehrzahl von Sampeln (s), die Bilddaten (x), Objektidentität (c) und Orientierung (q) enthalten; Erzeugen einer Trainingsmenge (S) und einer Templatemenge (S) aus den Sampeln; Trainieren des künstlichen neuronalen Netzwerks (CNN) mittels der Trainingsmenge (S) und einer Lossfunktion (L), Ermitteln der Objektinstanz und/oder der Orientierung des Objekts (10) durch Auswerten der Templatemenge (S) mittels des künstlichen neuronalen Netzwerks. Erfindungsgemäß wird vorgeschlagen, dass die zum Trainieren angewandte Lossfunktion einen dynamischen Margin aufweist.

Description

  • Die Erfindung betrifft ein Verfahren zur Erkennung einer Objektinstanz und Bestimmung der Orientierung von schon lokalisierten Objekten in störbehafteten Umgebungen.
  • Objektinstanzerkennung und 3D-Orientierungsschätzung sind auf dem Gebiet der Computer Vision gut bekannte Problemstellungen. Es gibt zahlreiche Anwendungen in der Robotik und Augmented Reality.
  • Die derzeitigen Verfahren haben häufig Probleme mit Stördaten und Verdeckungen. Zudem sind sie empfindlich auf Hintergrund- und Beleuchtungsänderungen. Der am häufigsten genutzte Orientierungsschätzer verwendet einen einzigen Klassifizierer pro Objekt, so dass die Komplexität linear mit der Anzahl der Objekte wächst. Für Industriezwecke sind jedoch skalierbare Verfahren, die mit einer großen Zahl unterschiedlicher Objekte arbeiten erwünscht. Die jüngsten Fortschritte in der Objektinstanzerkennung können im Bereich der 3D Objekterkennung gefunden werden, wobei es das Ziel ist ähnliche Objekte aus einer großen Datenbasis zu extrahieren.
  • Es wird unter anderem auf folgende Dokumente verwiesen:
    1. [1] P. Wohlhart and V. Lepetit, „Learning Descriptors for Object Recognition and 3D Pose Estimation,“ presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3109-3118.
    2. [2] A. Singh, J. Sha, K. S. Narayan, T. Achim, and P. Abbeel, „BigBIRD: A large-scale 3D database of object instances,“ in 2014 IEEE International Conference on Robotics and Automation (ICRA), 2014, pp. 509-516.
    3. [3] Z. Wu et al., „3D ShapeNets: A Deep Representation for Volumetric Shapes," presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1912-1920.
    4. [4] D. Maturana and S. Scherer, „VoxNet: A 3D Convolutional Neural Network for real-time object recognition," in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, pp. 922-928.
    5. [5] H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, „Multi-View Convolutional Neural Networks for 3D Shape Recognition," presented at the Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 945-953.
    6. [6] R. Pless and R. Souvenir, „A Survey of Manifold Learning for Images," IPSJ Trans. Comput. Vis. Appl., vol. 1, pp. 83-94, 2009.
    7. [7] R. Hadsell, S. Chopra, and Y. LeCun, „Dimensionality Reduction by Learning an Invariant Mapping," in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, vol. 2, pp. 1735-1742.
    8. [8] J. Masci, M. M. Bronstein, A. M. Bronstein, and J. Schmidhuber, „Multimodal Similarity-Preserving Hashing," IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 4, pp. 824-830, Apr. 2014.
    9. [9] E. Hoffer and N. Ailon, „Deep Metric Learning Using Triplet Network," in Similarity-Based Pattern Recognition, 2015, pp. 84-92.
    10. [10] H. Guo, J. Wang, Y. Gao, J. Li, and H. Lu, „Multi-View 3D Object Retrieval With Deep Embedding Network," IEEE Trans. Image Process., vol. 25, no. 12, pp. 5526-5537, Dec. 2016.
    11. [11] Stefan Hinterstoisser, Cedric Cagniart, Slobodan Ilic, Peter Sturm, Nassir Navab, Pascal Fua, and Vincent Lepetit. Gradient response maps for real-time detection of textureless objects. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(5), 2012.
    12. [12] Ken Perlin. Noise hardware. Real-Time Shading SIGGRAPH Course Notes, 2001.
    13. [13] Hao Su, Charles R Qi, Yangyan Li, and Leonidas J Guibas. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, 2015.
  • Der rasante Anstieg in der Zahl frei verfügbarer 3D-Modelle hat Verfahren hervorgebracht, die eine Suche in großen 3D-Objektdatenbanken ermöglichen. Diese Verfahren werden als 3D-Retrievalverfahren (engl.: „3D retrieval methods“ oder „3D content retrieval methods“) bezeichnet, da es deren Ziel ist, ähnliche Objekte zu einem 3D-Abfrageobjekt zu suchen
  • Das hierin vorgestellte Verfahren steht in enger Beziehung zu und kann als Repräsentant für 3D-Retrievalverfahren gesehen werden. Allerdings werden bei bekannten Verfahren die Abfragen aus dem Kontext der realen Szene herausgenommen und sind daher stördaten- und verdeckungsfrei. Zusätzlich ist es gewöhnlich nicht erforderlich, die Orientierung, Haltung oder Pose des Objekts zu ermitteln, das für die weitere Anwendung wesentlich ist, wie etwa Greifen in der Robotik. Schließlich zielen bekannte 3D Retrievalmaßstäbe darauf ab, lediglich die Objektklasse und nicht die Instanz des Objekts zu ermitteln, wodurch die Verwendung auf Datensätze für die Objektinstanzerkennung eingeschränkt ist.
  • Da der hier vorgestellte Ansatz verschiedenen Ansätzen des „manifold learning“ folgt, werden gleichzeitig die meisten diesbezüglichen Arbeiten des Gebiets ebenfalls betrachtet.
  • 3D Retrievalverfahren werden hauptsächlich in zwei Klassen eingeteilt: modellbasiert und ansichtsbasiert. Modellbasierte Verfahren arbeiten direkt mittels 3D-Modellen und versuchen diese durch unterschiedliche Arten von Merkmalen zu repräsentieren.
  • Ansichtsbasierte Verfahren arbeiten hingegen mit 2D-Ansichten von Objekten. Sie erfordern daher nicht explizit SD-Objektmodelle, was diese Art für praktische Anwendungen geeignet erscheinen lässt. Überdies profitieren ansichtsbasierte Verfahren von der Verwendung von 2D-Bildern, was die Verwendung dutzender effizienter Methoden aus dem Gebiet der Bildverarbeitung ermöglicht.
  • In der Vergangenheit gab es eine Menge Literatur, die sich mit dem Design von Merkmalen, die für diesen Auftrag geeignet sind befasste. In letzter Zeit lernen die Ansätze Merkmale mittels tiefer neuronaler Netze (engl.: deep neural networks), meistens mittels faltender neuronaler Netze (engl.: convolutional neural networks, CNN). Grund hierfür ist, dass die durch taskspezifische Überwachung mittels CNN gelernten Merkmale bessere Leistung zeigen als handgemachte. Einige der beliebten modellbasierten Verfahren, wie etwa ShapeNet [3] und VoxNet [4], nehmen als Eingabe binäre 3D Voxelraster für ein 3D-CNN und geben eine Klasse des Objekts aus.
  • Diese Verfahren zeigen herausragende Leistung und werden als hochmoderne modellbasierte Verfahren angesehen. Es wurde jedoch demonstriert, dass selbst die neuesten volumetrischen modellbasierten Verfahren von CNN-basierten Ansätzen mit mehreren Ansichten übertroffen werden, etwa dem Verfahren nach Hang Su et al. [5].
  • Das hierin vorgestellt Verfahren fällt in die Gruppe der ansichtsbasierten Verfahren, gibt allerdings anstatt einer Objektklasse eine spezifische Instanz (des Objekts) als Ausgabe aus. Überdies ist eine gewisse Robustheit gegenüber Hintergrundstördaten erforderlich, da reale Szenen verwendet werden.
  • Ein anderer Aspekt, der in engem Bezug zu dieser Anmeldung steht ist das sogenannte „manifold learning“ [6]. Manifold learning ist ein Ansatz zur nichtlinearen Dimensionsreduktion, motiviert durch die Idee, dass hochdimensionale Daten, beispielsweise Bilder, in einem Raum mit niedrigerer Dimension effizient dargestellt werden können. Dieses Konzept unter Verwendung von CNNS ist gut untersucht in [7] auf Seite 20.
  • Um die Abbildung zu lernen, wird ein sogenanntes Siamese-Netzwerk verwendet, das zwei Eingaben statt einer nimmt und eine spezifische Kostenfunktion (engl.: cost function). Die Kostenfunktion ist so definiert, dass für ähnliche Objekte das Quadrat des euklidischen Abstandes zwischen diesen minimiert ist und für unähnliche Objekte die „hinge loss function“ angewendet wird, welche die Objekte mittels eines Differenzterms auseinanderzwingt. In dem Artikel wird dieses Konzept auf Orientierungsschätzung angewandt.
  • Die Arbeit [8] dehnt diese Idee noch weiter aus. Es wird darin ein System für multimodales ähnlichkeitserhaltendes Hashing vorgeschlagen, bei dem ein Objekt, das von einer einzigen oder mehreren Ausführungsarten herrührt, beispielsweise Text und Bild, in einen anderen Raum abgebildet wird, in welchem ähnliche Objekte so nah wie mögliche zusammen und unähnliche Objekte soweit wie möglich entfernt abgebildet werden.
  • Die neuesten Manifold Learning Ansätze verwenden die kürzlich eingeführten Triplettnetzwerke (engl. „triplet networks), die Siamese-Netzwerke beim Erzeugen wohlgetrennter Mannigfaltigkeiten übertreffen [9, Seite 20]. Ein Triplettnetzwerk, wie der Name nahelegt, nimmt drei Bilder als Eingabe (an Stelle von zwei im Falle des Siamese-Netzwerks), wobei zwei Bilder derselben Klasse angehören und das Dritte einer anderen Klasse. Die Kostenfunktion versucht die Ausgabedeskriptoren der Bilder derselben Klasse näher zueinander abzubilden als diejenigen einer anderen Klasse. Dies ermögliche eine schnelleres und robusteres Manifold Learning, da sowohl positive als auch negative Beispiele innerhalb einer einzigen Laufzeit berücksichtigt werden.
  • Das von Paul Wohlhart and Vincent Lepetit [1] vorgeschlagene Verfahren, beflügelt von diesen jüngsten Fortschritten, bildet die Eingabebilddaten mittels eines Triplett-CNN mit spezifisch ausgelegter Lossfunktion direkt in den ähnlichkeitserhaltenden Deskriptorraum ab. Die Lossfunktion stellt zwei Zwangsbedingungen: der euklidische Abstand zwischen den Ansichten der unähnlichen Objekte ist groß, wohingegen der Abstand zwischen den Ansichten von Objekten derselben Klasse ist der Relativabstand zu deren Orientierungen. Daher lernt das Verfahren das Einbetten der Objektansichten in einen Deskriptorraum mit niedrigerer Dimension. Objektinstanzerkennung wird sodann aufgelöst, indem ein effizientes und skalierbares Verfahren zur Suche nach nächsten Nachbarn auf den Deskriptorraum angewandt wird, um die nächsten Nachbarn aufzufinden. Zudem findet das Verfahren neben der Orientierung des Objekts auch dessen Identität und löst somit zwei getrennte Probleme zur selben Zeit, was den Wert dieses Verfahrens weiter erhöht.
  • Der Ansatz von [10] fügt einen Klassifikationsloss zu dem Triplettloss hinzu und lernt die Einbettung des Eingabebildraumes in einen Unterschiedsmerkmals-Raum (engl.: discriminative feature space). Dieser Ansatz ist zugeschnitten auf den Auftrag „Objektklassensuche“ und trainiert nur anhand echter Bilder und nicht anhand gerenderter SD-Objektmodelle.
  • Es ist die Aufgabe der Erfindung ein Verfahren zum Erkennen einer Objektinstanz in störbehafteten Umgebungen zu verbessern.
  • Die Aufgabe wird durch den Gegenstand des unabhängigen Anspruchs gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • Die Erfindung schafft ein Verfahren zum Erkennen einer Objektinstanz und Bestimmung einer Orientierung von (schon) lokalisierten Objekten in störbehafteten Umgebungen mittels eines künstlichen neuronalen Netzwerks oder CNNs, mit den Schritten:
    • - Aufnehmen einer Mehrzahl von Bildern wenigstens eines Objekts zwecks Erhalt einer Mehrzahl von Sampeln, die Bilddaten, Objektidentität und Orientierung enthalten;
    • - Erzeugen einer Trainingsmenge und einer Templatemenge aus den Sampeln;
    • - Trainieren des künstlichen neuronalen Netzwerks oder CNNs mittels der Trainingsmenge und einer Lossfunktion,
    • - Ermitteln der Objektinstanz und/oder der Orientierung des Objekts durch Auswerten der Templatemenge mittels des künstlichen neuronalen Netzwerks,
    wobei die zum Trainieren angewandte Lossfunktion einen dynamischen Margin (m) aufweist.
  • Es ist bevorzugt, dass aus drei Samples ein Triplett derart gebildet wird, dass ein erstes und ein zweites Sample von demselben Objekt unter ähnlicher Orientierung stammen, wobei ein drittes Sample, so gewählt ist, dass das dritte Sample von einem anderen Objekt als das erste Sample stammt oder, wenn es von demselben Objekt wie das erste Sample stammt, eine zu dem ersten Sample unähnliche Orientierung aufweist.
  • Es ist bevorzugt, dass die Lossfunktion eine Triplett-Lossfunktion der folgenden Form aufweist: L t r i p l e t s = ( s i , s j , s k ) T m a x ( 0,1 f ( x i ) f ( x k ) 2 2 f ( x i ) f ( x j ) 2 2 + m ) ,
    Figure DE102017216821A1_0001
    wobei x das Bild des jeweiligen Samples, f(x) die Ausgabe des künstlichen neuronalen Netzwerks und m der dynamische Margin bedeutet.
  • Es ist bevorzugt, dass aus zwei Samples ein Paar derart gebildet wird, dass die beiden Samples von demselben Objekt stammen und eine ähnliche oder identische Orientierung aufweisen, wobei die beiden Samples unter unterschiedlichen Bildaufnahmebedingungen gewonnen wurden.
  • Es ist bevorzugt, dass die Lossfunktion eine Paar-Lossfunktion der folgenden Form aufweist: L p a i r s = ( s i , s j ) P f ( x i ) f ( x j ) 2 2 ,
    Figure DE102017216821A1_0002
    wobei x das Bild des jeweiligen Samples und f(x) die Ausgabe des künstlichen neuronalen Netzes bedeutet.
  • Es ist bevorzugt, dass das Aufnehmen des Objekts von einer Mehrzahl von Blickpunkten aus erfolgt.
  • Es ist bevorzugt, dass das Aufnehmen des Objekts derart erfolgt, dass von wenigstens einem Blickpunkt aus mehrere Aufnahmen gemacht werden, wobei die Kamera um ihre Aufnahmeachse gedreht wird, um weitere Samples mit Drehinformation, beispielsweise in Form von Quaternionen, zu erhalten.
  • Es ist bevorzugt, dass die Ähnlichkeit der Orientierung zwischen zwei Samples mittels einer Ähnlichkeitsmetrik ermittelt wird, wobei der dynamische Margin in Abhängigkeit von der Ähnlichkeit ermittelt wird.
  • Es ist bevorzugt, dass die Drehinformation in Form von Quaternionen ermittelt wird, wobei die Ähnlichkeitsmetrik folgende Form aufweist: θ ( q i , q j ) = 2 arccos ( q i , q j ) ,
    Figure DE102017216821A1_0003
    wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert.
  • Es ist bevorzugt, dass der dynamische Margin folgende Form aufweist: m = { 2 a r c c o s ( q i , q j ) i f   c i = c j , n e l s e , f   o r   n > π ,
    Figure DE102017216821A1_0004
    wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert, wobei c die Objektidentität bedeutet.
  • Vorteilhafte Wirkungen der Erfindung sind nachfolgend näher erläutert. Weitere Vorteile und technische Wirkungen ergeben sich auch aus der übrigen Offenbarung.
  • Hierin wird der Ansatz aus [1] verbessert; zunächst durch Einführen eines dynamischen Margin in die Lossfunktion, wodurch ein schnelleres Training und kürzere Deskriptoren ermöglicht werden und anschließend durch Herstellen einer Rotationsinvarianz durch Lernen von Rotationen in der Ebene, einschließlich von Oberflächennormalen als starke und komplementäre Ausführungsart zu RGB-D-Daten.
  • Es wird ein Verfahren vorgeschlagen, das einen dynamischen Margin in die Manifold-Learning-Triplettlossfunktion einführt. Eine solche Lossfunktion ist ausgelegt, Bilder unterschiedlicher Objekte und ihrer Orientierung in einen Deskriptorraum mit niedrigerer Dimension abzubilden, wobei auf dem Deskriptorraum effiziente nächste Nachbar Suchverfahren angewandt werden können. Das Einführen eines dynamischen Margin erlaubt schnellere Trainingszeiten und bessere Genauigkeit der resultierenden niedrigdimensionalen Mannigfaltigkeiten.
  • Zusätzlich werden zu dem Training Rotationen in der Ebene beigetragen (die von dem Baselineverfahren ignoriert werden), und Oberflächennormalen als zusätzliche mächtige Bildausführungsart hinzugefügt, die eine Objektoberfläche repräsentieren und zu einer besseren Leistung führen als lediglich das Verwenden der Tiefe erlaubt
  • Es wurde eine erschöpfende Evaluation durchgeführt, um die Effekte der hier vorgestellten Beiträge zu untermauern. Zusätzlich evaluieren wir die Leistung des Verfahrens auf dem großen BigBIRD-Datensatz [2], um die guten Skalierbarkeitseigenschaften der Pipeline in Bezug auf die Anzahl der Modelle zu demonstrieren.
  • Es wird darauf hingewiesen, dass die Abfolge der Verfahrensschritte keine Reihenfolge impliziert. Die Schritte sind lediglich zur besseren Referenzierbarkeit mit Buchstaben versehen. Die Schritte können folglich auch in beliebigen anderen ausführbaren Kombinationen durchgeführt werden, so lange das gewünschte Ergebnis erreicht wird.
  • Ausführungsbeispiele der Erfindung werden anhand der beigefügten schematischen Zeichnungen näher erläutert. Darin zeigt:
    • 1 Beispiele unterschiedlicher Samplingtypen;
    • 2 eine beispielhafte Darstellung einer realen Szene;
    • 3 ein Beispiel für eine Trainingsmenge und eine Testmenge;
    • 4 ein Beispiel für ein CNN-Triplett und ein CNN-Paar;
    • 5 ein Beispiel für Sampling mit Rotation in der Ebene;
    • 6 ein Beispiel für die Ermittlung des Triplettloss mit dynamischem Margin;
    • 7 Tabelle I der unterschiedlichen Testaufbauten;
    • 8 Diagramme zur Veranschaulichung der Wirkung des dynamischen Margin;
    • 9 Diagramme zur Veranschaulichung der Wirkung des dynamischen Margin;
    • 10 Diagramme zur Veranschaulichung der Wirkung von Rauschen;
    • 11 Diagramme zur Veranschaulichung der Wirkung unterschiedlicher Ausführungsarten; und
    • 12 die Klassifikationsraten- und Orientierungsfehlerdiagramme für drei unterschiedlich trainierte Netzwerke.
  • Die verwendeten Datensätze enthalten die folgenden Daten: 3D-Meshmodelle einer Mehrzahl von Objekten 10 und/oder RGB-D-Bilder 12 der Objekte 10 in einer realen Umgebung 14 mit ihrer Orientierung zur Kamera. Mit diesen Daten werden drei Mengen erzeugt: eine Trainingsmenge Strain, Templatemenge Sdb und eine Testmenge Stest . Die Trainingsmenge Strain wird ausschließlich zum Trainieren des CNN verwendet. Die Testmenge Stest wird nur in der Testphase zur Evaluation verwendet. Die Templatemenge Sdb wird sowohl in der Trainings- als auch in der Testphase verwendet.
  • Jede dieser Mengen Strain , Sdb , Stest umfasst eine Mehrzahl von Samples 16. Jedes Sample 16 weist insbesondere ein Bild x, eine Identität des Objekts c und/oder eine Orientierung q auf, auch s = (x; c; q).
  • In einem ersten Schritt werden zum Vorbereiten der Daten die Samples 16 für die Mengen Strain, Sdb , Stest generiert. Hier werden die Mengen Strain, Sdb , Stest aus zwei Arten von Bilddaten 18 erzeugt: reale Bilder 20 und synthetische Bilder 22. Die realen Bilder 20 repräsentieren die Objekte 10 in den realen Umgebungen 14 und werden mit einem im Handel verfügbaren RGB-D-Sensor, beispielsweise Kinect oder Primesense, erzeugt. Die realen Bilder 20 können mit den Datensätzen bereitgestellt werden.
  • Die synthetischen Bilder 22 sind zunächst nicht verfügbar und werden durch rendern von texturierten 3D-Meshmodellen erzeugt.
  • Es wird nachfolgend auf 1 Bezug genommen. Mit den gegebenen 3D-Modellen der Objekte 10, werden diese von unterschiedlichen Blickpunkten 24 aus gerendert, welche den oberen Teil des Objekts 10 abdecken, um die synthetischen Bilder 22 zu Erzeugen. Um die Blickpunkte 24 zu definieren, wird ein imaginäres Ikosaeder auf das Objekt 10 aufgesetzt, wobei jeder Vertex 26 eine Kameraposition 28 bzw. einen Blickpunkt 24 definiert. Um ein feineres Sampling zu erhalten wird jedes Dreieck rekursiv in vier Dreiecke unterteilt. Somit werden zwei unterschiedliche Samplingtypen definiert: ein Grobsampling, das in 1, links dargestellt ist und durch zwei Unterteilungen des Ikosaeders erreicht werden kann und/oder ein Feinsampling, das in 1, rechts dargestellt ist und durch drei aufeinanderfolgende Unterteilungen erreicht werden kann. Das Grobsampling wird verwendet um die Templatemenge Sdb zu erzeugen, während insbesondere das Feinsampling für die Trainingsmenge Strain verwendet wird.
  • Für jede Kameraposition 28 bzw. jeden Vertex 26 wird bevorzugt ein Objekt 10 vor einem leeren Hintergrund 30, beispielsweise schwarz, gerendert. Bevorzugt werden sowohl der RGB als auch der Tiefenkanal gespeichert.
  • Es wird insbesondere auf 2 Bezug genommen. Sobald alle synthetischen Bilder 22 erzeugt wurden und auch die realen Bilder 20 vorliegen, können Samples 16 generiert werden. Für jedes Bild 20, 22 wird ein kleiner Bereich 32 extrahiert, der das Objekt 10 bedeckt und um das Objekt 10 zentriert ist. Dies wird etwa durch ein virtuelles Aufsetzen eines Würfels 34 erreicht, der insbesondere an dem Schwerpunkt 36 des Objekts 10 zentriert ist und beispielsweise eine Dimension von 40 cm3 aufweist.
  • Sobald alle Bereiche 32 extrahiert wurden, werden die Bereiche 32 vorzugsweise normalisiert. Die RGB-Kanäle werden vorzugsweise auf einen Mittelwert von 0 und eine Standardabweichung von 1 normalisiert. Der Tiefenkanal wird bevorzugt auf das Intervall [-1; 1] abgebildet, wobei insbesondere alles Darüberhinausgehende gekappt wird. Schließlich wird jeder Bereich 32 als Bild x zusätzlich zur Identität des Objekts 10 und dessen Orientierung q in einem Sample 16 gespeichert.
  • Im nächsten Schritt werden die Samples 16 bevorzugt zwischen der Trainingsmenge Strain , der Templatemenge Sdb und der Testmenge Stest entsprechend aufgeteilt. Die Templatemenge Sdb enthält insbesondere nur synthetische Bilder 22 vorzugsweise basierend auf dem Grobsampling.
  • Das Grobsampling wird bevorzugt sowohl in der Trainingsphase (um Tripletts 38 zu bilden) und der Testphase (als Datenbasis für die Suche nach nächsten Nachbarn) verwendet. Die Samples 16 der Templatemenge Sdb definieren eine Suchdatenbasis, auf der die Suche nach nächsten Nachbarn später ausgeführt wird.
  • Einer der Gründe für die Verwendung des Grobsamplings ist gerade, die Größe der Datenbasis für eine schnellere Suche zu minimieren. Allerdings beschränkt das Grobsampling für die Templatemenge Sdb auch direkt die Genauigkeit der Orientierungsschätzung.
  • Es wird insbesondere auf 3 Bezug genommen. Die Trainingsmenge Strain umfasst eine Mischung aus realen Bildern 20 und synthetischen Bildern 22. Die synthetischen Bilder 22 repräsentieren Samples 16, die aus dem Feinsampling stammen. Vorzugsweise etwa 50% der realen Bilder 20 wird zu der Trainingsmenge Strain hinzugefügt. Diese 50% werden ausgewählt, indem diejenigen realen Bilder 20 genommen werden, die orientierungsmäßig nahe an den Samples 16 der Templatemenge Sdb liegen. Die übrigen realen Bilder 20 werden in der Testmenge Stest gespeichert, die zur Einschätzung der Leistungsfähigkeit des Verfahrens verwendet wird.
  • Sobald die Trainingsmenge Strain und die Templatemenge Sdb erzeugt wurden, sind ausreichend Daten zum Trainieren des CNN vorhanden. Weiter wird bevorzugt ein Eingabeformat für das CNN festgelegt, das durch die Lossfunktion des CNN definiert ist. Vorliegend wird die Lossfunktion als Summe zweier separater Lossterme: L = L t r i p l e t s + L p a i r s .
    Figure DE102017216821A1_0005
  • Es wird insbesondere auf 4 Bezug genommen. Der erste Summand Ltriplets ist ein Lossterm, der über einer Menge T von Tripletts 38 definiert ist, wobei ein Triplett 38 eine Gruppe von Samples 16 (si; sj; sk) derart ist, dass si und sj stets vom selben Objekt 10 mit ähnlicher Orientierung stammen und sk entweder von einem anderen Objekt 10 herrührt oder von demselben Objekt 10 allerdings mit weniger ähnlicher Orientierung. Mit anderen Worten umfasst ein einzelnes Triplett 38 ein Paar von ähnlichen Samples si, sj und ein Paar unähnlicher Samples si, sk.
  • Wie hierin verwendet, wird das Sample si auch als „Anker“, das Sample sj als Positivsample oder „puller“ und das Sample sk als Negativsample oder „pusher“ bezeichnet. Die Triplett-Losskomponente Ltriblett hat die folgende Form: L t r i p l e t s = ( s i , s j , s k ) T m a x ( 0,1 f ( x i ) f ( x k ) 2 2 f ( x i ) f ( x j ) 2 2 + m )
    Figure DE102017216821A1_0006
    wobei x das Eingabebild eines bestimmten Samples, f(x) die Ausgabe des neuronalen Netzes bei Eingabe des Eingabebildes x, m der Margin und N die Anzahl an Tripletts 38 im Stapel ist.
  • Der Marginterm führt den Margin zur Klassifizierung ein und stellt das Minimalverhältnis für den euklidischen Abstand der ähnlichen und unähnlichen Paare von Samples 16 ein.
  • Durch Minimieren von Ltriplets können zwei Eigenschaften durchgesetzt werden, die erreicht werden sollen, nämlich: einerseits Maximieren des euklidischen Abstandes zwischen Deskriptoren zweiter unterschiedlicher Objekte und andererseits Einstellen des euklidischen Abstandes zwischen Deskriptoren desselben Objekts 10, sodass diese repräsentativ für die Ähnlichkeit ihrer Orientierung sind.
  • Der zweite Summand Lpairs ist ein paarweiser Term. Er ist über einer Menge P von Samplepaaren (si; sj) definiert. Samples innerhalb eines einzelnen Paares stammen von demselben Objekt 10 unter entweder sehr ähnlicher Orientierung oder derselben Orientierung mit unterschiedlichen Bildaufnahmebedingungen. Unterschiedliche Bildaufnahmebedingungen umfassen - sind aber nicht beschränkt auf: Beleuchtungsänderungen, unterschiedliche Hintergründe und Stördaten. Denkbar ist auch, dass ein Sample von einem realen Bild 20 stammt während das andere von einem synthetischen Bild 22 stammt. Ziel dieses Terms ist es, zwei Samples so nah wie möglich zueinander abzubilden: L p a i r s = ( s i , s j , s k ) P f ( x i ) f ( x k ) 2 2
    Figure DE102017216821A1_0007
  • Durch das Minimieren von Lpairs bzw. des euklidischen Abstandes zwischen den Deskriptoren lernt das CNN dasselbe Objekt unter unterschiedlichen Bildaufnahmebedingungen gleich zu behandeln, indem die Objekte 10 auf im Wesentlichen denselben Punkt abgebildet werden. Zudem kann die Minimierung Sicherstellen, das Samples mit ähnlicher Orientierung im Deskriptorraum nahe zueinander eingestellt sind, was wiederum ein wichtiges Kriterium für den Triplett-Term Ltriplets ist.
  • Bisherige Verfahren verwenden keine Rotationen in der Ebene bzw. lassen einen zusätzlichen Freiheitsgrad unberücksichtigt. Allerdings kann dies bei der Anwendung, beispielsweise in der Robotik, kaum unberücksichtigt bleiben.
  • Es wird insbesondere auf 5 Bezug genommen. Um Rotationen in der Ebene miteinzubeziehen, werden bevorzugt zusätzlichen Samples 40 mit Rotationen in der Ebene erzeugt. Ferner kann eine Metrik definiert werden, um die Ähnlichkeit zwischen den Samples 16, 40 zu vergleichen und Tripletts 38 aufzubauen.
  • Zum Erzeugen der Samples wird das Blickfeld der Kamera an jedem Blickpunkt 24 um die Aufnahmeachse 42 rotiert und ein Sample mit einer bestimmten Frequenz genommen. Beispielsweise werden insbesondere sieben Samples 40 pro Vertex 26 erzeugt, im Bereich zwischen -45° und +45° mit einem Schrittwinkel von 15°.
  • Die Drehungen Q der Objekte 10 bzw. der Modelle werden mittels Quaternionen dargestellt, wobei der Winkel zwischen den Quaternionen der verglichenen Samples als Orientierungsvergleichsmetrik dient θ ( q i , q j ) = 2  arccos ( q i , q j ) .
    Figure DE102017216821A1_0008
  • Die bekannte Triplett-Lossfunktion, wie sie beispielsweise in [1] verwendet wird weist einen konstanten Marginterm auf und ist daher für die unterschiedlichen Arten von Negativsamples stets gleich. Somit werden Objekte derselben und von unterschiedlichen Klassen mit genau demselben Marginterm beaufschlagt, wohingegen es das Ziel ist, die Objekte 10 aus unterschiedlichen Klassen weiter entfernt voneinander abzubilden. Somit wird das Training hinsichtlich der Klassifikation verlangsamt und die resultierende Mannigfaltigkeit weist eine schlechtere Separation auf.
  • Es wird deshalb vorgeschlagen, dass wenn das Negativsample zu derselben Klasse wie der Anker gehört der Marginterm auf den Winkelabstand zwischen diesen Samples eingestellt wird. Wenn allerdings das Negativsample zu einer anderen Klasse gehört, wird der Abstand auf einen konstanten Wert eingestellt, der größer als der maximal mögliche Winkelunterschied ist. Die Wirkung dieses dynamischen Margin ist in 6 verdeutlicht.
  • Die verbesserte Lossfunktion ist nachfolgend definiert: L t r i p l e t s = ( s i , s j , s k ) T m a x ( 0,1 f ( x i ) f ( x k ) 2 2 f ( x i ) f ( x j ) 2 2 + m ) wobei  m = { 2 a r c c o s ( q i , q j ) n i f   c i = c j e l s e , f   o r   n > π
    Figure DE102017216821A1_0009
  • Oberflächennormalen können bevorzugt als weitere Ausführungsart verwendet werden, die ein Bild des Objekts 10 repräsentiert, und zwar zusätzlich zu den bereits berücksichtigten RGB- und Tiefenkanälen. Eine Oberflächennormale am Punkt p ist definiert als ein 3D-Vektor, der orthogonal zu der Tangentenebene an die Modelloberfläche im Punkt p ist. Angewandt auf eine Vielzahl von Punkten des Objektmodells, ergeben die Oberflächennormalen eine leistungsstarke Ausführungsart, welche die Krümmung des Objektmodells beschreibt.
  • Vorliegend werden Oberflächennormalen bevorzugt basierend auf den Tiefenkarten-Bildern erzeugt, sodass keine weiteren Sensordaten erforderlich sind. Es kann beispielsweise das aus [11] bekannte Verfahren verwendet werden, um eine schnelle und robuste Schätzung zu erhalten. Mit dieser Ausgestaltung kann ein Glätten des Oberflächenrauschens erfolgen und deshalb auch eine bessere Schätzung der Oberflächennormalen in der Nähe von Tiefenunstetigkeiten.
  • Eine herausfordernde Aufgabenstellung ist die Behandlung von Stördaten und unterschiedlichen Hintergründen in Bildern. Da unsere Samples 16, 40 zunächst keinen Hintergrund aufweisen, kann sich das CNN nur schwer an reale Daten voller Rauschen und Stördaten in Vorder- und Hintergrund anpassen.
  • Ein Ansatz ist es, reale Bilder 20 zum Trainieren zu verwenden. Falls keine oder lediglich wenige reale Bilder 20 zur Verfügung stehen, muss dem CNN auf andere Weise das Ignorieren und/oder Simulieren von Hintergrund beigebracht werden. Vorliegend wird wenigstens ein Rauchen aus einer Gruppe ausgewählt, die enthält: weißes Rauschen, Zufallsformen, Gradientenrauschen und reale Hintergründe.
  • Beim weißen Rauschen wird eine Gleitkommazahl zwischen 0 und 1 aus einer gleichmäßigen Verteilung für jeden Pixel erzeugt und darauf addiert. Im Fall von RGB, wird dieser Vorgang für jede Farbe, also insgesamt dreimal wiederholt.
  • Bei der zweiten Art Rauschen ist die Idee, die Hintergrundobjekte so darzustellen, dass diese ähnliche Tiefen- und Farbwerte aufweisen. Die Farbe der Objekte wird wiederum aus einer gleichmäßigen Verteilung zwischen 0 und 1 gesampelt, wobei die Position aus einer gleichmäßigen Verteilung zwischen 0 und der Breite des Samplebildes gesampelt wird. Dieser Ansatz kann auch zur Darstellung von Vordergrundstörungen verwendet werden, indem Zufallsformen auf das eigentliche Modell platziert werden.
  • Die dritte Art Rauschen ist Fraktalrauschen, das oft in der Computergraphik für Texturen- oder Landschaftsgenerierung verwendet wird. Das Fraktalrauschen kann wie in [12] beschrieben erzeugt werden. Es ergibt sich eine gleichmäßige Folge von Pseudozufallszahlen und vermeidet drastische Intensitätsänderungen, wie sie bei weißem Rauschen auftreten. Insgesamt ist dies näher an einem realen Szenario.
  • Eine weitere Art von Rauschen sind echte Hintergründe. Anstatt Rauschen zu erzeugen, werden RGB-D-Bilder von realen Hintergründen auf ähnliche Weise wie in [13]. Von einem realen Bild 20 wird ein Bereich 32 in der erforderlichen Größe gesampelt und als Hintergrund für ein synthetisch generiertes Modell verwendet. Diese Ausführungsart ist insbesondere nützlich, wenn im Vorhinein bekannt ist, in welchen Umgebungsarten die Objekte angeordnet sind.
  • Ein Nachteil des Baselineverfahrens ist, dass die Stapel vor der Ausführung erzeugt und gespeichert werden. Das bedeutet, dass zu jeder Epoche dieselben Hintergründe immer wieder verwendet werden, wodurch die Variabilität eingeschränkt ist. Es wird vorgeschlagen, die Stapel online zu erzeugen. Bei jeder Iteration wird der Hintergrund des ausgewählten Positivsamples mit einer der verfügbaren Ausführungsarten gefüllt.
  • Es wurden eine Reihe von Tests durchgeführt, um die Wirkung der neu eingefügten Modifikationen, z.B. Rotation in der Ebene, Oberflächennormalen, Hintergrundrauscharten, auszuwerten. Zudem wurde die Leistungsfähigkeit des Verfahrens auf einem größeren Datensatz (BigBIRD) und auf der Menge realer benötigter Daten getestet, die ausreichend aussagekräftig sind. Es sollte beachtet werden, dass alle Tests mit derselben Netzwerkarchitektur wie in [1] sowie dynamischer Margin durchgeführt wurden, wenn nicht anders angegeben. Die Ergebnisse sind in 7, Tabelle I
  • Wie bereits beschrieben, berücksichtigt [1] keine Rotationen in der Ebene. Allerdings sind diese wichtig zur Anwendung bei realen Szenarien. Verglichen wird hier die Leistung der folgenden Netzwerke: ein CNN, das Rotationen in der Ebene beim Trainieren berücksichtigt und ein CNN, das diese beim Trainieren nicht berücksichtigt.
  • Ergebnisse: Bei diesem Setup werden die zwei zuvor genannten CNNs verglichen, wobei dasjenige ohne Rotationen in der Ebene mit Baseline bezeichnet ist und das andere mit Baseline+ (siehe Tabelle II). TABELLE II: Vergleich des mit Rotationen trainierten CNN (baseline+) mit dem ohne Rotationen trainierten CNN (baseline)
    Winkel fehler Klassifikation
    10° 20° 40°
    baseline 34, 6% 63,8% 73,7% 81,9%
    baseline+ 60% 93,2% 97% 99,3%
  • Die Auswertung erfolgt nur für einen nächsten Nachbarn. Wie aus Tabelle II ersichtlich, ist eine deutliche Verbesserung im Vergleich zu den Ergebnissen des bekannten Ausführungsbeispiels eingetreten. Die Ergebnisse zeigen auch eine erfolgreiche Anpassung an einen zusätzlichen Freiheitsgrad.
  • Es wird insbesondere auf 8 Bezug genommen. Um die neue Lossfunktion mit dynamischem Margin DM auszuwerten, wurde eine Testreihe zum Vergleich mit der bisherigen Lossfunktion SM durchgeführt. Insbesondere wurden zwei Tests auf fünf LineMOD Objekten mittels der leistungsfähigsten Trainingskonfigurationen für 3- und 32-dimensionale Ausgangsdeskriptionen durchgeführt.
  • Ergebnisse: 8 vergleicht die Klassifikationsrate und die mittleren Winkelfehler für korrekt klassifizierte Samples über einen Satz von Trainingsepochen (ein Durchlauf der Trainingsmenge Strain) für beide Ausführungen, d.h. die CNN, die eine Lossfunktion mit statischer (SM) und dynamischem Margin (DM) aufweisen.
  • Wie aus den Ergebnissen klar ersichtlich, macht die neue Lossfunktion einen riesigen Unterschied am Endergebnis. Dies ermöglicht es dem CNN, eine bessere Klassifikation viel schneller im Vergleich zum Original zu erreichen. Während bei dem dynamischen Margin nahezu 100% Klassifikationsgenauigkeit wesentlich schneller erreicht werden, verbleibt die bekannte Implementierung bei etwa 80%. Zudem ist aus 8 ersichtlich, dass derselbe Winkelfehler für etwa 20% mehr korrekt klassifizierten erhältlich ist.
  • 9 zeigt die Testsamples, die mittels des Deskriptornetzwerks, CNN, das mit der alten (links) und der neuen (rechts) Lossfunktion trainiert wurde. Der Unterschied im Separationsgrad der Objekte ist klar ersichtlich: rechte Figur, die Objekte sind wohl-separiert und erhalten den minimalen Marginabstand, was in einer perfekten Klassifikationsscore mündet; die linke Figur zeigt immer noch wohlunterscheidbare Objektstrukturen, die allerdings nahe beieinander platziert sind und teilweise überlappen, was eine Klassifikationsverwirrung hervorruft, die quantitativ in 8 geschätzt wurde.
  • In der Praxis jedoch werden höherdimensionale Deskriptorräume verwendet, was sowohl die Klassifikations- als auch die Winkelgenauigkeit steigert. 10 zeigt die gleichen Diagramme wie 8, jedoch für einen Deskriptorraum mit höherer Dimension, z.B. 32D. Dies resultiert in einem signifikanten Qualitätssprung für beide Ausführungsarten. Allerdings bleibt die Tendenz dieselbe: das erfindungsgemäße Verfahren lernt die Klassifikation deutlich schneller und ermöglicht dieselbe Winkelgenauigkeit für eine größere Anzahl korrekt klassifizierter Testsamples.
  • Da bei praktischen Anwendungen oft keine realen RGB-D-Bilder zur Verfügung stehen, sondern lediglich 3D-Modelle vorhanden sind, ist es förderlich, reale Daten beim Training zu benutzen. Zweck dieses Tests ist auch zu zeigen, wie gut sich das CNN an real daten anpasst und dabei lediglich synthetische Samples mit künstlich gefülltem Hintergrund verwendet. Insbesondere werden die oben beschriebenen Rauscharten verglichen.
  • Ergebnisse: 11 zeigt die Klassifikations- und Orientierungsgenauigkeiten für die unterschiedlichen Rauscharten. Weißes Rauschen zeigt insgesamt die schlechtesten Resultate mit lediglich 26% Klassifikationsgenauigkeit. Da beim zufälligen sampeln von Objekten aus einer gleichmäßigen Verteilung bereits 10% Genauigkeit erreicht werden, handelt es sich um keine große Verbesserung.
  • Bei der Ausführungsart „Zufallsformen“, werden bessere Ergebnisse erhalten, die um 38% Klassifikationsgenauigkeit fluktuieren. Das Fraktalrauschen zeigt die besten Ergebnisse unter den synthetischen Hintergrundrauscharten; es erreicht bis zu 54% Erkennungsrate. Die Ausführungsart mit realen Bildern 20 übertrifft das Fraktalrauschen klassfikationsmäßig und zeigt überdies noch bessere Orientierungsgenauigkeit für eine höhere Anzahl von korrekt klassifizierten Samples. Im Ergebnis ist es somit die beste Option, die Hintergründe mit realen Bildern 20 zu füllen, die ähnliche Umgebungen wie bei der Testmenge Stest aufweisen. Als zweite bevorzugte Option ist Fraktalrauschen anzusehen.
  • Es wird auf 12 Bezug genommen. Bei diesem Test zeigt sich die Wirkung des neu eingeführten Oberflächennormalkanals. Zum Vergleich werden drei Eingabebildkanäle verwendet, nämlich Tiefe, Normalen und deren Kombination. Genauer gesagt werden bevorzugt die Bereiche 32 zum Training herangezogen, die ausschließlich von den oben genannten Kanälen repräsentiert werden.
  • Ergebnisse: 12 zeigt die Klassifikationsraten- und Orientierungsfehlerdiagramme für drei unterschiedlich trainierte Netzwerke: Tiefe (d), Normalen (nor) sowie Tiefe und Normalen (nord). Es ist erkennbar, dass das Netzwerk CNN mit Oberflächennormalen lediglich besser abschneidet als das CNN mit Tiefenkarten. Die Oberflächennormalen werden vollständig auf Basis der Tiefenkarten (depth maps) erzeugt. Es werden keine zusätzlichen Sensordaten benötigt. Zudem ist das Ergebnis noch besser, wenn Tiefenkarten und Oberflächennormalen gleichzeitig verwendet werden.
  • Ziel des Tests an großen Datensätzen ist, wie gut das Verfahren sich auf eine größere Anzahl von Modellen verallgemeinern lässt. Insbesondere wurde untersucht, wie eine erhöhte Menge Modelle beim Training die Gesamtleistung beeinflusst.
  • Ergebnisse: Das CNN wurde an 50 Modellen des BigBIRD Datensatzes trainiert. Nach dem Ende des Trainings, wurden die Ergebnisse in Tabelle III erzielt: TABELLE III: Winkelfehlerhistogramm berechnet mit den Samples der Testmenge für einen einzigen nächsten Nachbarn.
    Winkel fehler Klassifikation
    10° 20° 40°
    67,7% 91,2% 95, 6% 98,7%
  • Tabelle III zeigt ein Histogramm klassifizierter Testsamples für einige tolerierte Winkelfehler. Wie erkennbar ergibt sich für 50 Modelle, wobei jedes von etwa 300 Testsamples repräsentiert wird eine Klassifikationsgenauigkeit von 98,7% und eine sehr gute Winkelgenauigkeit. Im Ergebnis skaliert das Verfahren somit derart, dass es für Industrieanwendungen tauglich ist.
  • Das hierin beschriebene Verfahren weist eine verbesserte Lerngeschwindigkeit, Robustheit gegenüber Stördaten und Einsetzbarkeit in der Industrie auf. Eine neue Lossfunktion mit dynamischem Margin erlaubt ein schnelleres Lernen des CNN und eine größere Klassifikationsgenauigkeit. Zudem verwendet das Verfahren Rotationen in der Ebene und neue Hintergrund Rauscharten. Zusätzlich können Oberflächennormalen als weitere leistungsstarke Bildausführungsart verwendet werden. Auch ein effizientes Verfahren zum Erzeugen von Stapeln wurde vorgestellt, das eine größere Variabilität beim Training erlaubt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Z. Wu et al., „3D ShapeNets: A Deep Representation for Volumetric Shapes,“ presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1912-1920 [0004]
    • D. Maturana and S. Scherer, „VoxNet: A 3D Convolutional Neural Network for real-time object recognition,“ in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, pp. 922-928 [0004]
    • H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, „Multi-View Convolutional Neural Networks for 3D Shape Recognition,“ presented at the Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 945-953 [0004]
    • R. Pless and R. Souvenir, „A Survey of Manifold Learning for Images,“ IPSJ Trans. Comput. Vis. Appl., vol. 1, pp. 83-94, 2009 [0004]
    • R. Hadsell, S. Chopra, and Y. LeCun, „Dimensionality Reduction by Learning an Invariant Mapping,“ in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, vol. 2, pp. 1735-1742 [0004]
    • J. Masci, M. M. Bronstein, A. M. Bronstein, and J. Schmidhuber, „Multimodal Similarity-Preserving Hashing,“ IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 4, pp. 824-830, Apr. 2014 [0004]
    • E. Hoffer and N. Ailon, „Deep Metric Learning Using Triplet Network,“ in Similarity-Based Pattern Recognition, 2015, pp. 84-92 [0004]
    • H. Guo, J. Wang, Y. Gao, J. Li, and H. Lu, „Multi-View 3D Object Retrieval With Deep Embedding Network,“ IEEE Trans. Image Process., vol. 25, no. 12, pp. 5526-5537, Dec. 2016 [0004]
    • Hao Su, Charles R Qi, Yangyan Li, and Leonidas J Guibas. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, 2015 [0004]

Claims (10)

  1. Verfahren zum Erkennen einer Objektinstanz und Bestimmung einer Orientierung von lokalisierten Objekten (10) in störbehafteten Umgebungen (14) mittels eines künstlichen neuronalen Netzwerks (CNN) mit den Schritten: - Aufnehmen einer Mehrzahl von Bildern (x) wenigstens eines Objekts (10) zwecks Erhalt einer Mehrzahl von Sampeln (s), die Bilddaten (x), Objektidentität (c) und Orientierung (q) enthalten; - Erzeugen einer Trainingsmenge (Strain) und einer Templatemenge (Sdb) aus den Sampeln; - Trainieren des künstlichen neuronalen Netzwerks (CNN) mittels der Trainingsmenge (Strain) und einer Lossfunktion (L), - Ermitteln der Objektinstanz und/oder der Orientierung des Objekts (10) durch Auswerten der Templatemenge (Sdb) mittels des künstlichen neuronalen Netzwerks, dadurch gekennzeichnet, dass die zum Trainieren angewandte Lossfunktion (L) einen dynamischen Margin (m) aufweist.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass aus drei Samples (si, sj, sk) ein Triplett (38) derart gebildet wird, dass ein erstes (si) und ein zweites (sj) Sample von demselben Objekt (10) unter ähnlicher Orientierung (q) stammen, wobei ein drittes (sk) Sample, so gewählt ist, dass das dritte Sample (sk) von einem anderen Objekt (10) als das erste Sample (si) stammt oder, wenn es von demselben Objekt (10) wie das erste Sample (si) stammt, eine zu dem ersten Sample (si) unähnliche Orientierung (q) aufweist.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Lossfunktion (L) eine Triplett-Lossfunktion (Ltriplets) der folgenden Form aufweist: L t r i p l e t s = ( s i , s j , s k ) T m a x ( 0,1 f ( x i ) f ( x k ) 2 2 f ( x i ) f ( x j ) 2 2 + m ) ,
    Figure DE102017216821A1_0010
    wobei x das Bild des jeweiligen Samples (si, sj, sk), f(x) die Ausgabe des künstlichen neuronalen Netzwerks und m der dynamische Margin bedeutet.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aus zwei Samples (si, sj) ein Paar derart gebildet wird, dass die beiden Samples (si, sj) von demselben Objekt (10) stammen und eine ähnliche oder identische Orientierung (q) aufweisen, wobei die beiden Samples (si, sj) unter unterschiedlichen Bildaufnahmebedingungen gewonnen wurden.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Lossfunktion (L) eine Paar-Lossfunktion (Lpairs) der folgenden Form aufweist: L p a i r s = ( s i , s j ) P f ( x i ) f ( x j ) 2 2 ,
    Figure DE102017216821A1_0011
    wobei x das Bild des jeweiligen Samples (si, sj) und f(x) die Ausgabe des künstlichen neuronalen bedeutet.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Aufnehmen des Objekts (10) von einer Mehrzahl von Blickpunkten (24) aus erfolgt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Aufnehmen des Objekts (10) derart erfolgt, dass von wenigstens einem Blickpunkt (24) aus mehrere Aufnahmen gemacht werden, wobei die Kamera um ihre Aufnahmeachse (42) gedreht wird, um weitere Samples (40) mit Drehinformation, insbesondere in Form von Quaternionen, zu erhalten.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Ähnlichkeit der Orientierung zwischen zwei Samples mittels einer Ähnlichkeitsmetrik ermittelt wird, wobei der dynamische Margin in Abhängigkeit von der Ähnlichkeit ermittelt wird.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Drehinformation in Form von Quaternionen ermittelt wird, wobei die Ähnlichkeitsmetrik folgende Form aufweist: θ ( q i , q j ) = 2 a r c c o s ( q i , q j ) ,
    Figure DE102017216821A1_0012
    wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der dynamische Margin folgende Form aufweist: m = { 2 a r c c o s ( q i , q j ) n i f   c i = c j , e l s e , f   o r   n > π ,
    Figure DE102017216821A1_0013
    wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert, wobei c die Objektidentität bedeutet.
DE102017216821.8A 2017-09-22 2017-09-22 Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts Withdrawn DE102017216821A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102017216821.8A DE102017216821A1 (de) 2017-09-22 2017-09-22 Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
US16/646,456 US20200211220A1 (en) 2017-09-22 2018-08-15 Method for Identifying an Object Instance and/or Orientation of an Object
EP18759883.4A EP3685303A1 (de) 2017-09-22 2018-08-15 Verfahren zur erkennung einer objektinstanz und/oder orientierung eines objekts
CN201880060873.8A CN111149108A (zh) 2017-09-22 2018-08-15 识别对象实例和/或对象的定向的方法
PCT/EP2018/072085 WO2019057402A1 (de) 2017-09-22 2018-08-15 Verfahren zur erkennung einer objektinstanz und/oder orientierung eines objekts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017216821.8A DE102017216821A1 (de) 2017-09-22 2017-09-22 Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts

Publications (1)

Publication Number Publication Date
DE102017216821A1 true DE102017216821A1 (de) 2019-03-28

Family

ID=63405177

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017216821.8A Withdrawn DE102017216821A1 (de) 2017-09-22 2017-09-22 Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts

Country Status (5)

Country Link
US (1) US20200211220A1 (de)
EP (1) EP3685303A1 (de)
CN (1) CN111149108A (de)
DE (1) DE102017216821A1 (de)
WO (1) WO2019057402A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084161A (zh) * 2019-04-17 2019-08-02 中山大学 一种人体骨骼关键点的快速检测方法及系统
CN111179440A (zh) * 2020-01-02 2020-05-19 哈尔滨工业大学 一种面向自然场景的三维物体模型检索方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403491B2 (en) * 2018-04-06 2022-08-02 Siemens Aktiengesellschaft Object recognition from images using cad models as prior
US11467668B2 (en) * 2019-10-21 2022-10-11 Neosensory, Inc. System and method for representing virtual object information with haptic stimulation
US11416065B1 (en) * 2019-11-08 2022-08-16 Meta Platforms Technologies, Llc Synthesizing haptic and sonic feedback for textured materials in interactive virtual environments
US11875264B2 (en) * 2020-01-15 2024-01-16 R4N63R Capital Llc Almost unsupervised cycle and action detection
CN112950414B (zh) * 2021-02-25 2023-04-18 华东师范大学 一种基于解耦法律要素的法律文本表示方法
US20220335679A1 (en) * 2021-04-15 2022-10-20 The Boeing Company Computing device and method for generating realistic synthetic image data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3961525B2 (ja) * 2004-09-22 2007-08-22 株式会社コナミデジタルエンタテインメント 画像処理装置、画像処理方法、ならびに、プログラム
US8639038B2 (en) * 2010-06-18 2014-01-28 National Ict Australia Limited Descriptor of a hyperspectral or multispectral image
EP3171297A1 (de) * 2015-11-18 2017-05-24 CentraleSupélec Bildsegmentierung mit gemeinsamer randerkennung und objekterkennung mittels tiefen lernens
WO2017156243A1 (en) * 2016-03-11 2017-09-14 Siemens Aktiengesellschaft Deep-learning based feature mining for 2.5d sensing image search

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
D. Maturana and S. Scherer, „VoxNet: A 3D Convolutional Neural Network for real-time object recognition," in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, pp. 922-928
E. Hoffer and N. Ailon, „Deep Metric Learning Using Triplet Network," in Similarity-Based Pattern Recognition, 2015, pp. 84-92
H. Guo, J. Wang, Y. Gao, J. Li, and H. Lu, „Multi-View 3D Object Retrieval With Deep Embedding Network," IEEE Trans. Image Process., vol. 25, no. 12, pp. 5526-5537, Dec. 2016
H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, „Multi-View Convolutional Neural Networks for 3D Shape Recognition," presented at the Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 945-953
Hao Su, Charles R Qi, Yangyan Li, and Leonidas J Guibas. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, 2015
J. Masci, M. M. Bronstein, A. M. Bronstein, and J. Schmidhuber, „Multimodal Similarity-Preserving Hashing," IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 4, pp. 824-830, Apr. 2014
Jiayun Wang, Sanping Zhou, Jinjun Wang, Qiqi Hou: Deep Ranking Model by Large Adaptive Margin Learning for Person Reidentification. In: Preprint submitted to Journal of Pattern Recognition, September 19, 2017, 1-30. https://arxiv.org/abs/1707.00409 *
R. Hadsell, S. Chopra, and Y. LeCun, „Dimensionality Reduction by Learning an Invariant Mapping," in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, vol. 2, pp. 1735-1742
R. Pless and R. Souvenir, „A Survey of Manifold Learning for Images," IPSJ Trans. Comput. Vis. Appl., vol. 1, pp. 83-94, 2009
Rong Yan, Jian Zhang, Jie Yang, Alexander Hauptmann: A Discriminative Learning Framework with Pairwise Constraints for Video Object Classification. In: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’04), 2004, 578-593. *
Z. Wu et al., „3D ShapeNets: A Deep Representation for Volumetric Shapes," presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1912-1920

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084161A (zh) * 2019-04-17 2019-08-02 中山大学 一种人体骨骼关键点的快速检测方法及系统
CN111179440A (zh) * 2020-01-02 2020-05-19 哈尔滨工业大学 一种面向自然场景的三维物体模型检索方法

Also Published As

Publication number Publication date
CN111149108A (zh) 2020-05-12
WO2019057402A1 (de) 2019-03-28
EP3685303A1 (de) 2020-07-29
US20200211220A1 (en) 2020-07-02

Similar Documents

Publication Publication Date Title
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
DE112012005350B4 (de) Verfahren zum Schätzen der Stellung eines Objekts
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
EP0780002B1 (de) Verfahren und vorrichtung zur rekonstruktion von in rasterform vorliegenden linienstrukturen
DE112018000298T5 (de) System und verfahren zur poseninvarianten gesichtsausrichtung
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
DE112016004266T5 (de) Verfahren zur Gesichtsausrichtung
DE102015200260A1 (de) Verfahren zum Erstellen eines Deskriptors für ein Szenenbild
DE102017220307A1 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102016113904A1 (de) Online Pro-Merkmal-Deskriptoranpassung
DE112010002677T5 (de) Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen
EP1437685A2 (de) Verfahren zum Segmentieren einer dreidimensionalen Struktur
EP3511904B1 (de) Verfahren zum bestimmen einer pose eines objekts in einer umgebung des objekts mittels multi-task-lernens, sowie steuerungsvorrichtung
DE102006044595B4 (de) Bildverarbeitungsvorrichtung zur Segmentierung anhand von Konturpunkten
EP3867796A1 (de) Verfahren und vorrichtung zur bestimmung einer umgebungskarte
DE102010032193A1 (de) Verfahren und Vorrichtung zur Bestimmung der Augentorsion
EP1098268A2 (de) Verfahren zur dreidimensionalen optischen Vermessung von Objektoberflächen
EP2622540A1 (de) Verfahren zur klassifizierung von mustern in bilddatensätzen
DE60310766T2 (de) Beleuchtungsunabhängige gesichtserkennung
EP1709587A1 (de) Bildverarbeitungssystem
DE112023000151T5 (de) Inspektionsunterstützungssystem, inspektionsunterstützungsverfahren und inspektionsunterstützungsprogramm
DE102019100011A1 (de) Verfahren zur 3D-Rekonstruktion eines Objekts
EP1145086B1 (de) Verfahren und anordnung zur ermittlung eines ähnlichkeitsmasses einer ersten struktur mit mindestens einer vorgegebenen zweiten struktur
DE102005025578A1 (de) Verfahren zur Charakterisierung von Objekten

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee