DE102017216821A1

DE102017216821A1 - Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts

Info

Publication number: DE102017216821A1
Application number: DE102017216821.8A
Authority: DE
Inventors: Slobodan Ilic; Sergey Zakharov
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2019-03-28
Also published as: CN111149108A; WO2019057402A1; EP3685303A1; US20200211220A1

Abstract

Die Erfindung betrifft ein Verfahren zum Erkennen einer Objektinstanz von lokalisierten Objekten (10) in störbehafteten Umgebungen (14) mittels eines künstlichen neuronalen Netzwerks (CNN) mit den Schritten: Aufnehmen einer Mehrzahl von Bildern (x) wenigstens eines Objekts (10) zwecks Erhalt einer Mehrzahl von Sampeln (s), die Bilddaten (x), Objektidentität (c) und Orientierung (q) enthalten; Erzeugen einer Trainingsmenge (S) und einer Templatemenge (S) aus den Sampeln; Trainieren des künstlichen neuronalen Netzwerks (CNN) mittels der Trainingsmenge (S) und einer Lossfunktion (L), Ermitteln der Objektinstanz und/oder der Orientierung des Objekts (10) durch Auswerten der Templatemenge (S) mittels des künstlichen neuronalen Netzwerks. Erfindungsgemäß wird vorgeschlagen, dass die zum Trainieren angewandte Lossfunktion einen dynamischen Margin aufweist.

Description

Die Erfindung betrifft ein Verfahren zur Erkennung einer Objektinstanz und Bestimmung der Orientierung von schon lokalisierten Objekten in störbehafteten Umgebungen.
Objektinstanzerkennung und 3D-Orientierungsschätzung sind auf dem Gebiet der Computer Vision gut bekannte Problemstellungen. Es gibt zahlreiche Anwendungen in der Robotik und Augmented Reality.
Die derzeitigen Verfahren haben häufig Probleme mit Stördaten und Verdeckungen. Zudem sind sie empfindlich auf Hintergrund- und Beleuchtungsänderungen. Der am häufigsten genutzte Orientierungsschätzer verwendet einen einzigen Klassifizierer pro Objekt, so dass die Komplexität linear mit der Anzahl der Objekte wächst. Für Industriezwecke sind jedoch skalierbare Verfahren, die mit einer großen Zahl unterschiedlicher Objekte arbeiten erwünscht. Die jüngsten Fortschritte in der Objektinstanzerkennung können im Bereich der 3D Objekterkennung gefunden werden, wobei es das Ziel ist ähnliche Objekte aus einer großen Datenbasis zu extrahieren.
Es wird unter anderem auf folgende Dokumente verwiesen:

[1] P. Wohlhart and V. Lepetit, „Learning Descriptors for Object Recognition and 3D Pose Estimation,“ presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3109-3118.
[2] A. Singh, J. Sha, K. S. Narayan, T. Achim, and P. Abbeel, „BigBIRD: A large-scale 3D database of object instances,“ in 2014 IEEE International Conference on Robotics and Automation (ICRA), 2014, pp. 509-516.
[3] Z. Wu et al., „3D ShapeNets: A Deep Representation for Volumetric Shapes," presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1912-1920.
[4] D. Maturana and S. Scherer, „VoxNet: A 3D Convolutional Neural Network for real-time object recognition," in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, pp. 922-928.
[5] H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, „Multi-View Convolutional Neural Networks for 3D Shape Recognition," presented at the Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 945-953.
[6] R. Pless and R. Souvenir, „A Survey of Manifold Learning for Images," IPSJ Trans. Comput. Vis. Appl., vol. 1, pp. 83-94, 2009.
[7] R. Hadsell, S. Chopra, and Y. LeCun, „Dimensionality Reduction by Learning an Invariant Mapping," in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, vol. 2, pp. 1735-1742.
[8] J. Masci, M. M. Bronstein, A. M. Bronstein, and J. Schmidhuber, „Multimodal Similarity-Preserving Hashing," IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 4, pp. 824-830, Apr. 2014.
[9] E. Hoffer and N. Ailon, „Deep Metric Learning Using Triplet Network," in Similarity-Based Pattern Recognition, 2015, pp. 84-92.
[10] H. Guo, J. Wang, Y. Gao, J. Li, and H. Lu, „Multi-View 3D Object Retrieval With Deep Embedding Network," IEEE Trans. Image Process., vol. 25, no. 12, pp. 5526-5537, Dec. 2016.
[11] Stefan Hinterstoisser, Cedric Cagniart, Slobodan Ilic, Peter Sturm, Nassir Navab, Pascal Fua, and Vincent Lepetit. Gradient response maps for real-time detection of textureless objects. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(5), 2012.
[12] Ken Perlin. Noise hardware. Real-Time Shading SIGGRAPH Course Notes, 2001.
[13] Hao Su, Charles R Qi, Yangyan Li, and Leonidas J Guibas. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, 2015.

Der rasante Anstieg in der Zahl frei verfügbarer 3D-Modelle hat Verfahren hervorgebracht, die eine Suche in großen 3D-Objektdatenbanken ermöglichen. Diese Verfahren werden als 3D-Retrievalverfahren (engl.: „3D retrieval methods“ oder „3D content retrieval methods“) bezeichnet, da es deren Ziel ist, ähnliche Objekte zu einem 3D-Abfrageobjekt zu suchen
Das hierin vorgestellte Verfahren steht in enger Beziehung zu und kann als Repräsentant für 3D-Retrievalverfahren gesehen werden. Allerdings werden bei bekannten Verfahren die Abfragen aus dem Kontext der realen Szene herausgenommen und sind daher stördaten- und verdeckungsfrei. Zusätzlich ist es gewöhnlich nicht erforderlich, die Orientierung, Haltung oder Pose des Objekts zu ermitteln, das für die weitere Anwendung wesentlich ist, wie etwa Greifen in der Robotik. Schließlich zielen bekannte 3D Retrievalmaßstäbe darauf ab, lediglich die Objektklasse und nicht die Instanz des Objekts zu ermitteln, wodurch die Verwendung auf Datensätze für die Objektinstanzerkennung eingeschränkt ist.
Da der hier vorgestellte Ansatz verschiedenen Ansätzen des „manifold learning“ folgt, werden gleichzeitig die meisten diesbezüglichen Arbeiten des Gebiets ebenfalls betrachtet.
3D Retrievalverfahren werden hauptsächlich in zwei Klassen eingeteilt: modellbasiert und ansichtsbasiert. Modellbasierte Verfahren arbeiten direkt mittels 3D-Modellen und versuchen diese durch unterschiedliche Arten von Merkmalen zu repräsentieren.
Ansichtsbasierte Verfahren arbeiten hingegen mit 2D-Ansichten von Objekten. Sie erfordern daher nicht explizit SD-Objektmodelle, was diese Art für praktische Anwendungen geeignet erscheinen lässt. Überdies profitieren ansichtsbasierte Verfahren von der Verwendung von 2D-Bildern, was die Verwendung dutzender effizienter Methoden aus dem Gebiet der Bildverarbeitung ermöglicht.
In der Vergangenheit gab es eine Menge Literatur, die sich mit dem Design von Merkmalen, die für diesen Auftrag geeignet sind befasste. In letzter Zeit lernen die Ansätze Merkmale mittels tiefer neuronaler Netze (engl.: deep neural networks), meistens mittels faltender neuronaler Netze (engl.: convolutional neural networks, CNN). Grund hierfür ist, dass die durch taskspezifische Überwachung mittels CNN gelernten Merkmale bessere Leistung zeigen als handgemachte. Einige der beliebten modellbasierten Verfahren, wie etwa ShapeNet [3] und VoxNet [4], nehmen als Eingabe binäre 3D Voxelraster für ein 3D-CNN und geben eine Klasse des Objekts aus.
Diese Verfahren zeigen herausragende Leistung und werden als hochmoderne modellbasierte Verfahren angesehen. Es wurde jedoch demonstriert, dass selbst die neuesten volumetrischen modellbasierten Verfahren von CNN-basierten Ansätzen mit mehreren Ansichten übertroffen werden, etwa dem Verfahren nach Hang Su et al. [5].
Das hierin vorgestellt Verfahren fällt in die Gruppe der ansichtsbasierten Verfahren, gibt allerdings anstatt einer Objektklasse eine spezifische Instanz (des Objekts) als Ausgabe aus. Überdies ist eine gewisse Robustheit gegenüber Hintergrundstördaten erforderlich, da reale Szenen verwendet werden.
Ein anderer Aspekt, der in engem Bezug zu dieser Anmeldung steht ist das sogenannte „manifold learning“ [6]. Manifold learning ist ein Ansatz zur nichtlinearen Dimensionsreduktion, motiviert durch die Idee, dass hochdimensionale Daten, beispielsweise Bilder, in einem Raum mit niedrigerer Dimension effizient dargestellt werden können. Dieses Konzept unter Verwendung von CNNS ist gut untersucht in [7] auf Seite 20.
Um die Abbildung zu lernen, wird ein sogenanntes Siamese-Netzwerk verwendet, das zwei Eingaben statt einer nimmt und eine spezifische Kostenfunktion (engl.: cost function). Die Kostenfunktion ist so definiert, dass für ähnliche Objekte das Quadrat des euklidischen Abstandes zwischen diesen minimiert ist und für unähnliche Objekte die „hinge loss function“ angewendet wird, welche die Objekte mittels eines Differenzterms auseinanderzwingt. In dem Artikel wird dieses Konzept auf Orientierungsschätzung angewandt.
Die Arbeit [8] dehnt diese Idee noch weiter aus. Es wird darin ein System für multimodales ähnlichkeitserhaltendes Hashing vorgeschlagen, bei dem ein Objekt, das von einer einzigen oder mehreren Ausführungsarten herrührt, beispielsweise Text und Bild, in einen anderen Raum abgebildet wird, in welchem ähnliche Objekte so nah wie mögliche zusammen und unähnliche Objekte soweit wie möglich entfernt abgebildet werden.
Die neuesten Manifold Learning Ansätze verwenden die kürzlich eingeführten Triplettnetzwerke (engl. „triplet networks), die Siamese-Netzwerke beim Erzeugen wohlgetrennter Mannigfaltigkeiten übertreffen [9, Seite 20]. Ein Triplettnetzwerk, wie der Name nahelegt, nimmt drei Bilder als Eingabe (an Stelle von zwei im Falle des Siamese-Netzwerks), wobei zwei Bilder derselben Klasse angehören und das Dritte einer anderen Klasse. Die Kostenfunktion versucht die Ausgabedeskriptoren der Bilder derselben Klasse näher zueinander abzubilden als diejenigen einer anderen Klasse. Dies ermögliche eine schnelleres und robusteres Manifold Learning, da sowohl positive als auch negative Beispiele innerhalb einer einzigen Laufzeit berücksichtigt werden.
Das von Paul Wohlhart and Vincent Lepetit [1] vorgeschlagene Verfahren, beflügelt von diesen jüngsten Fortschritten, bildet die Eingabebilddaten mittels eines Triplett-CNN mit spezifisch ausgelegter Lossfunktion direkt in den ähnlichkeitserhaltenden Deskriptorraum ab. Die Lossfunktion stellt zwei Zwangsbedingungen: der euklidische Abstand zwischen den Ansichten der unähnlichen Objekte ist groß, wohingegen der Abstand zwischen den Ansichten von Objekten derselben Klasse ist der Relativabstand zu deren Orientierungen. Daher lernt das Verfahren das Einbetten der Objektansichten in einen Deskriptorraum mit niedrigerer Dimension. Objektinstanzerkennung wird sodann aufgelöst, indem ein effizientes und skalierbares Verfahren zur Suche nach nächsten Nachbarn auf den Deskriptorraum angewandt wird, um die nächsten Nachbarn aufzufinden. Zudem findet das Verfahren neben der Orientierung des Objekts auch dessen Identität und löst somit zwei getrennte Probleme zur selben Zeit, was den Wert dieses Verfahrens weiter erhöht.
Der Ansatz von [10] fügt einen Klassifikationsloss zu dem Triplettloss hinzu und lernt die Einbettung des Eingabebildraumes in einen Unterschiedsmerkmals-Raum (engl.: discriminative feature space). Dieser Ansatz ist zugeschnitten auf den Auftrag „Objektklassensuche“ und trainiert nur anhand echter Bilder und nicht anhand gerenderter SD-Objektmodelle.
Es ist die Aufgabe der Erfindung ein Verfahren zum Erkennen einer Objektinstanz in störbehafteten Umgebungen zu verbessern.
Die Aufgabe wird durch den Gegenstand des unabhängigen Anspruchs gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Die Erfindung schafft ein Verfahren zum Erkennen einer Objektinstanz und Bestimmung einer Orientierung von (schon) lokalisierten Objekten in störbehafteten Umgebungen mittels eines künstlichen neuronalen Netzwerks oder CNNs, mit den Schritten:

- Aufnehmen einer Mehrzahl von Bildern wenigstens eines Objekts zwecks Erhalt einer Mehrzahl von Sampeln, die Bilddaten, Objektidentität und Orientierung enthalten;
- Erzeugen einer Trainingsmenge und einer Templatemenge aus den Sampeln;
- Trainieren des künstlichen neuronalen Netzwerks oder CNNs mittels der Trainingsmenge und einer Lossfunktion,
- Ermitteln der Objektinstanz und/oder der Orientierung des Objekts durch Auswerten der Templatemenge mittels des künstlichen neuronalen Netzwerks,

Es ist bevorzugt, dass aus drei Samples ein Triplett derart gebildet wird, dass ein erstes und ein zweites Sample von demselben Objekt unter ähnlicher Orientierung stammen, wobei ein drittes Sample, so gewählt ist, dass das dritte Sample von einem anderen Objekt als das erste Sample stammt oder, wenn es von demselben Objekt wie das erste Sample stammt, eine zu dem ersten Sample unähnliche Orientierung aufweist.
Es ist bevorzugt, dass die Lossfunktion eine Triplett-Lossfunktion der folgenden Form aufweist: $L_{t r i p l e t s} = \sum_{(s_{i}, s_{j}, s_{k}) \in T} m a x (0,1 - \frac{{‖ f (x_{i}) - f (x_{k}) ‖}_{2}^{2}}{{‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2} + m}),$
wobei x das Bild des jeweiligen Samples, f(x) die Ausgabe des künstlichen neuronalen Netzwerks und m der dynamische Margin bedeutet.
Es ist bevorzugt, dass aus zwei Samples ein Paar derart gebildet wird, dass die beiden Samples von demselben Objekt stammen und eine ähnliche oder identische Orientierung aufweisen, wobei die beiden Samples unter unterschiedlichen Bildaufnahmebedingungen gewonnen wurden.
Es ist bevorzugt, dass die Lossfunktion eine Paar-Lossfunktion der folgenden Form aufweist: $L_{p a i r s} = \sum_{(s_{i}, s_{j}) \in P} {‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2},$
wobei x das Bild des jeweiligen Samples und f(x) die Ausgabe des künstlichen neuronalen Netzes bedeutet.
Es ist bevorzugt, dass das Aufnehmen des Objekts von einer Mehrzahl von Blickpunkten aus erfolgt.
Es ist bevorzugt, dass das Aufnehmen des Objekts derart erfolgt, dass von wenigstens einem Blickpunkt aus mehrere Aufnahmen gemacht werden, wobei die Kamera um ihre Aufnahmeachse gedreht wird, um weitere Samples mit Drehinformation, beispielsweise in Form von Quaternionen, zu erhalten.
Es ist bevorzugt, dass die Ähnlichkeit der Orientierung zwischen zwei Samples mittels einer Ähnlichkeitsmetrik ermittelt wird, wobei der dynamische Margin in Abhängigkeit von der Ähnlichkeit ermittelt wird.
Es ist bevorzugt, dass die Drehinformation in Form von Quaternionen ermittelt wird, wobei die Ähnlichkeitsmetrik folgende Form aufweist: $θ (q_{i}, q_{j}) = 2 arccos (q_{i}, q_{j}),$
wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert.
Es ist bevorzugt, dass der dynamische Margin folgende Form aufweist: $m = {\begin{matrix} 2 a r c c o s (q_{i}, q_{j}) & i f c_{i} = c_{j}, \\ n & e l s e, f o r n > π \end{matrix},$
wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert, wobei c die Objektidentität bedeutet.
Vorteilhafte Wirkungen der Erfindung sind nachfolgend näher erläutert. Weitere Vorteile und technische Wirkungen ergeben sich auch aus der übrigen Offenbarung.
Hierin wird der Ansatz aus [1] verbessert; zunächst durch Einführen eines dynamischen Margin in die Lossfunktion, wodurch ein schnelleres Training und kürzere Deskriptoren ermöglicht werden und anschließend durch Herstellen einer Rotationsinvarianz durch Lernen von Rotationen in der Ebene, einschließlich von Oberflächennormalen als starke und komplementäre Ausführungsart zu RGB-D-Daten.
Es wird ein Verfahren vorgeschlagen, das einen dynamischen Margin in die Manifold-Learning-Triplettlossfunktion einführt. Eine solche Lossfunktion ist ausgelegt, Bilder unterschiedlicher Objekte und ihrer Orientierung in einen Deskriptorraum mit niedrigerer Dimension abzubilden, wobei auf dem Deskriptorraum effiziente nächste Nachbar Suchverfahren angewandt werden können. Das Einführen eines dynamischen Margin erlaubt schnellere Trainingszeiten und bessere Genauigkeit der resultierenden niedrigdimensionalen Mannigfaltigkeiten.
Zusätzlich werden zu dem Training Rotationen in der Ebene beigetragen (die von dem Baselineverfahren ignoriert werden), und Oberflächennormalen als zusätzliche mächtige Bildausführungsart hinzugefügt, die eine Objektoberfläche repräsentieren und zu einer besseren Leistung führen als lediglich das Verwenden der Tiefe erlaubt
Es wurde eine erschöpfende Evaluation durchgeführt, um die Effekte der hier vorgestellten Beiträge zu untermauern. Zusätzlich evaluieren wir die Leistung des Verfahrens auf dem großen BigBIRD-Datensatz [2], um die guten Skalierbarkeitseigenschaften der Pipeline in Bezug auf die Anzahl der Modelle zu demonstrieren.
Es wird darauf hingewiesen, dass die Abfolge der Verfahrensschritte keine Reihenfolge impliziert. Die Schritte sind lediglich zur besseren Referenzierbarkeit mit Buchstaben versehen. Die Schritte können folglich auch in beliebigen anderen ausführbaren Kombinationen durchgeführt werden, so lange das gewünschte Ergebnis erreicht wird.
Ausführungsbeispiele der Erfindung werden anhand der beigefügten schematischen Zeichnungen näher erläutert. Darin zeigt:

1 Beispiele unterschiedlicher Samplingtypen;
2 eine beispielhafte Darstellung einer realen Szene;
3 ein Beispiel für eine Trainingsmenge und eine Testmenge;
4 ein Beispiel für ein CNN-Triplett und ein CNN-Paar;
5 ein Beispiel für Sampling mit Rotation in der Ebene;
6 ein Beispiel für die Ermittlung des Triplettloss mit dynamischem Margin;
7 Tabelle I der unterschiedlichen Testaufbauten;
8 Diagramme zur Veranschaulichung der Wirkung des dynamischen Margin;
9 Diagramme zur Veranschaulichung der Wirkung des dynamischen Margin;
10 Diagramme zur Veranschaulichung der Wirkung von Rauschen;
11 Diagramme zur Veranschaulichung der Wirkung unterschiedlicher Ausführungsarten; und
12 die Klassifikationsraten- und Orientierungsfehlerdiagramme für drei unterschiedlich trainierte Netzwerke.

Die verwendeten Datensätze enthalten die folgenden Daten: 3D-Meshmodelle einer Mehrzahl von Objekten 10 und/oder RGB-D-Bilder 12 der Objekte 10 in einer realen Umgebung 14 mit ihrer Orientierung zur Kamera. Mit diesen Daten werden drei Mengen erzeugt: eine Trainingsmenge Strain, Templatemenge S_db und eine Testmenge S_test . Die Trainingsmenge S_train wird ausschließlich zum Trainieren des CNN verwendet. Die Testmenge S_test wird nur in der Testphase zur Evaluation verwendet. Die Templatemenge S_db wird sowohl in der Trainings- als auch in der Testphase verwendet.
Jede dieser Mengen S_train , S_db , S_test umfasst eine Mehrzahl von Samples 16. Jedes Sample 16 weist insbesondere ein Bild x, eine Identität des Objekts c und/oder eine Orientierung q auf, auch s = (x; c; q).
In einem ersten Schritt werden zum Vorbereiten der Daten die Samples 16 für die Mengen Strain, S_db , Stest generiert. Hier werden die Mengen Strain, S_db , S_test aus zwei Arten von Bilddaten 18 erzeugt: reale Bilder 20 und synthetische Bilder 22. Die realen Bilder 20 repräsentieren die Objekte 10 in den realen Umgebungen 14 und werden mit einem im Handel verfügbaren RGB-D-Sensor, beispielsweise Kinect oder Primesense, erzeugt. Die realen Bilder 20 können mit den Datensätzen bereitgestellt werden.
Die synthetischen Bilder 22 sind zunächst nicht verfügbar und werden durch rendern von texturierten 3D-Meshmodellen erzeugt.
Es wird nachfolgend auf 1 Bezug genommen. Mit den gegebenen 3D-Modellen der Objekte 10, werden diese von unterschiedlichen Blickpunkten 24 aus gerendert, welche den oberen Teil des Objekts 10 abdecken, um die synthetischen Bilder 22 zu Erzeugen. Um die Blickpunkte 24 zu definieren, wird ein imaginäres Ikosaeder auf das Objekt 10 aufgesetzt, wobei jeder Vertex 26 eine Kameraposition 28 bzw. einen Blickpunkt 24 definiert. Um ein feineres Sampling zu erhalten wird jedes Dreieck rekursiv in vier Dreiecke unterteilt. Somit werden zwei unterschiedliche Samplingtypen definiert: ein Grobsampling, das in 1, links dargestellt ist und durch zwei Unterteilungen des Ikosaeders erreicht werden kann und/oder ein Feinsampling, das in 1, rechts dargestellt ist und durch drei aufeinanderfolgende Unterteilungen erreicht werden kann. Das Grobsampling wird verwendet um die Templatemenge S_db zu erzeugen, während insbesondere das Feinsampling für die Trainingsmenge S_train verwendet wird.
Für jede Kameraposition 28 bzw. jeden Vertex 26 wird bevorzugt ein Objekt 10 vor einem leeren Hintergrund 30, beispielsweise schwarz, gerendert. Bevorzugt werden sowohl der RGB als auch der Tiefenkanal gespeichert.
Es wird insbesondere auf 2 Bezug genommen. Sobald alle synthetischen Bilder 22 erzeugt wurden und auch die realen Bilder 20 vorliegen, können Samples 16 generiert werden. Für jedes Bild 20, 22 wird ein kleiner Bereich 32 extrahiert, der das Objekt 10 bedeckt und um das Objekt 10 zentriert ist. Dies wird etwa durch ein virtuelles Aufsetzen eines Würfels 34 erreicht, der insbesondere an dem Schwerpunkt 36 des Objekts 10 zentriert ist und beispielsweise eine Dimension von 40 cm³ aufweist.
Sobald alle Bereiche 32 extrahiert wurden, werden die Bereiche 32 vorzugsweise normalisiert. Die RGB-Kanäle werden vorzugsweise auf einen Mittelwert von 0 und eine Standardabweichung von 1 normalisiert. Der Tiefenkanal wird bevorzugt auf das Intervall [-1; 1] abgebildet, wobei insbesondere alles Darüberhinausgehende gekappt wird. Schließlich wird jeder Bereich 32 als Bild x zusätzlich zur Identität des Objekts 10 und dessen Orientierung q in einem Sample 16 gespeichert.
Im nächsten Schritt werden die Samples 16 bevorzugt zwischen der Trainingsmenge S_train , der Templatemenge S_db und der Testmenge S_test entsprechend aufgeteilt. Die Templatemenge S_db enthält insbesondere nur synthetische Bilder 22 vorzugsweise basierend auf dem Grobsampling.
Das Grobsampling wird bevorzugt sowohl in der Trainingsphase (um Tripletts 38 zu bilden) und der Testphase (als Datenbasis für die Suche nach nächsten Nachbarn) verwendet. Die Samples 16 der Templatemenge S_db definieren eine Suchdatenbasis, auf der die Suche nach nächsten Nachbarn später ausgeführt wird.
Einer der Gründe für die Verwendung des Grobsamplings ist gerade, die Größe der Datenbasis für eine schnellere Suche zu minimieren. Allerdings beschränkt das Grobsampling für die Templatemenge S_db auch direkt die Genauigkeit der Orientierungsschätzung.
Es wird insbesondere auf 3 Bezug genommen. Die Trainingsmenge S_train umfasst eine Mischung aus realen Bildern 20 und synthetischen Bildern 22. Die synthetischen Bilder 22 repräsentieren Samples 16, die aus dem Feinsampling stammen. Vorzugsweise etwa 50% der realen Bilder 20 wird zu der Trainingsmenge S_train hinzugefügt. Diese 50% werden ausgewählt, indem diejenigen realen Bilder 20 genommen werden, die orientierungsmäßig nahe an den Samples 16 der Templatemenge S_db liegen. Die übrigen realen Bilder 20 werden in der Testmenge S_test gespeichert, die zur Einschätzung der Leistungsfähigkeit des Verfahrens verwendet wird.
Sobald die Trainingsmenge S_train und die Templatemenge S_db erzeugt wurden, sind ausreichend Daten zum Trainieren des CNN vorhanden. Weiter wird bevorzugt ein Eingabeformat für das CNN festgelegt, das durch die Lossfunktion des CNN definiert ist. Vorliegend wird die Lossfunktion als Summe zweier separater Lossterme: $L = L_{t r i p l e t s} + L_{p a i r s} .$
Es wird insbesondere auf 4 Bezug genommen. Der erste Summand L_triplets ist ein Lossterm, der über einer Menge T von Tripletts 38 definiert ist, wobei ein Triplett 38 eine Gruppe von Samples 16 (s_i; sj; sk) derart ist, dass s_i und s_j stets vom selben Objekt 10 mit ähnlicher Orientierung stammen und s_k entweder von einem anderen Objekt 10 herrührt oder von demselben Objekt 10 allerdings mit weniger ähnlicher Orientierung. Mit anderen Worten umfasst ein einzelnes Triplett 38 ein Paar von ähnlichen Samples s_i, s_j und ein Paar unähnlicher Samples s_i, s_k.
Wie hierin verwendet, wird das Sample s_i auch als „Anker“, das Sample s_j als Positivsample oder „puller“ und das Sample s_k als Negativsample oder „pusher“ bezeichnet. Die Triplett-Losskomponente L_triblett hat die folgende Form: $L_{t r i p l e t s} = \sum_{(s_{i}, s_{j}, s_{k}) \in T} m a x (0,1 - \frac{{‖ f (x_{i}) - f (x_{k}) ‖}_{2}^{2}}{{‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2} + m})$
wobei x das Eingabebild eines bestimmten Samples, f(x) die Ausgabe des neuronalen Netzes bei Eingabe des Eingabebildes x, m der Margin und N die Anzahl an Tripletts 38 im Stapel ist.
Der Marginterm führt den Margin zur Klassifizierung ein und stellt das Minimalverhältnis für den euklidischen Abstand der ähnlichen und unähnlichen Paare von Samples 16 ein.
Durch Minimieren von L_triplets können zwei Eigenschaften durchgesetzt werden, die erreicht werden sollen, nämlich: einerseits Maximieren des euklidischen Abstandes zwischen Deskriptoren zweiter unterschiedlicher Objekte und andererseits Einstellen des euklidischen Abstandes zwischen Deskriptoren desselben Objekts 10, sodass diese repräsentativ für die Ähnlichkeit ihrer Orientierung sind.
Der zweite Summand L_pairs ist ein paarweiser Term. Er ist über einer Menge P von Samplepaaren (s_i; s_j) definiert. Samples innerhalb eines einzelnen Paares stammen von demselben Objekt 10 unter entweder sehr ähnlicher Orientierung oder derselben Orientierung mit unterschiedlichen Bildaufnahmebedingungen. Unterschiedliche Bildaufnahmebedingungen umfassen - sind aber nicht beschränkt auf: Beleuchtungsänderungen, unterschiedliche Hintergründe und Stördaten. Denkbar ist auch, dass ein Sample von einem realen Bild 20 stammt während das andere von einem synthetischen Bild 22 stammt. Ziel dieses Terms ist es, zwei Samples so nah wie möglich zueinander abzubilden: $L_{p a i r s} = \sum_{(s_{i}, s_{j}, s_{k}) \in P} {‖ f (x_{i}) - f (x_{k}) ‖}_{2}^{2}$
Durch das Minimieren von L_pairs bzw. des euklidischen Abstandes zwischen den Deskriptoren lernt das CNN dasselbe Objekt unter unterschiedlichen Bildaufnahmebedingungen gleich zu behandeln, indem die Objekte 10 auf im Wesentlichen denselben Punkt abgebildet werden. Zudem kann die Minimierung Sicherstellen, das Samples mit ähnlicher Orientierung im Deskriptorraum nahe zueinander eingestellt sind, was wiederum ein wichtiges Kriterium für den Triplett-Term L_triplets ist.
Bisherige Verfahren verwenden keine Rotationen in der Ebene bzw. lassen einen zusätzlichen Freiheitsgrad unberücksichtigt. Allerdings kann dies bei der Anwendung, beispielsweise in der Robotik, kaum unberücksichtigt bleiben.
Es wird insbesondere auf 5 Bezug genommen. Um Rotationen in der Ebene miteinzubeziehen, werden bevorzugt zusätzlichen Samples 40 mit Rotationen in der Ebene erzeugt. Ferner kann eine Metrik definiert werden, um die Ähnlichkeit zwischen den Samples 16, 40 zu vergleichen und Tripletts 38 aufzubauen.
Zum Erzeugen der Samples wird das Blickfeld der Kamera an jedem Blickpunkt 24 um die Aufnahmeachse 42 rotiert und ein Sample mit einer bestimmten Frequenz genommen. Beispielsweise werden insbesondere sieben Samples 40 pro Vertex 26 erzeugt, im Bereich zwischen -45° und +45° mit einem Schrittwinkel von 15°.
Die Drehungen Q der Objekte 10 bzw. der Modelle werden mittels Quaternionen dargestellt, wobei der Winkel zwischen den Quaternionen der verglichenen Samples als Orientierungsvergleichsmetrik dient $θ (q_{i}, q_{j}) = 2 arccos (q_{i}, q_{j}) .$
Die bekannte Triplett-Lossfunktion, wie sie beispielsweise in [1] verwendet wird weist einen konstanten Marginterm auf und ist daher für die unterschiedlichen Arten von Negativsamples stets gleich. Somit werden Objekte derselben und von unterschiedlichen Klassen mit genau demselben Marginterm beaufschlagt, wohingegen es das Ziel ist, die Objekte 10 aus unterschiedlichen Klassen weiter entfernt voneinander abzubilden. Somit wird das Training hinsichtlich der Klassifikation verlangsamt und die resultierende Mannigfaltigkeit weist eine schlechtere Separation auf.
Es wird deshalb vorgeschlagen, dass wenn das Negativsample zu derselben Klasse wie der Anker gehört der Marginterm auf den Winkelabstand zwischen diesen Samples eingestellt wird. Wenn allerdings das Negativsample zu einer anderen Klasse gehört, wird der Abstand auf einen konstanten Wert eingestellt, der größer als der maximal mögliche Winkelunterschied ist. Die Wirkung dieses dynamischen Margin ist in 6 verdeutlicht.
Die verbesserte Lossfunktion ist nachfolgend definiert: $\begin{array}{l} L_{t r i p l e t s} = \sum_{(s_{i}, s_{j}, s_{k}) \in T} m a x (0,1 - \frac{{‖ f (x_{i}) - f (x_{k}) ‖}_{2}^{2}}{{‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2} + m}) \\ wobei m = {\frac{2 a r c c o s (q_{i}, q_{j})}{n} \begin{matrix} i f c_{i} = c_{j} \\ e l s e, f o r n > π \end{matrix} \end{array}$
Oberflächennormalen können bevorzugt als weitere Ausführungsart verwendet werden, die ein Bild des Objekts 10 repräsentiert, und zwar zusätzlich zu den bereits berücksichtigten RGB- und Tiefenkanälen. Eine Oberflächennormale am Punkt p ist definiert als ein 3D-Vektor, der orthogonal zu der Tangentenebene an die Modelloberfläche im Punkt p ist. Angewandt auf eine Vielzahl von Punkten des Objektmodells, ergeben die Oberflächennormalen eine leistungsstarke Ausführungsart, welche die Krümmung des Objektmodells beschreibt.
Vorliegend werden Oberflächennormalen bevorzugt basierend auf den Tiefenkarten-Bildern erzeugt, sodass keine weiteren Sensordaten erforderlich sind. Es kann beispielsweise das aus [11] bekannte Verfahren verwendet werden, um eine schnelle und robuste Schätzung zu erhalten. Mit dieser Ausgestaltung kann ein Glätten des Oberflächenrauschens erfolgen und deshalb auch eine bessere Schätzung der Oberflächennormalen in der Nähe von Tiefenunstetigkeiten.
Eine herausfordernde Aufgabenstellung ist die Behandlung von Stördaten und unterschiedlichen Hintergründen in Bildern. Da unsere Samples 16, 40 zunächst keinen Hintergrund aufweisen, kann sich das CNN nur schwer an reale Daten voller Rauschen und Stördaten in Vorder- und Hintergrund anpassen.
Ein Ansatz ist es, reale Bilder 20 zum Trainieren zu verwenden. Falls keine oder lediglich wenige reale Bilder 20 zur Verfügung stehen, muss dem CNN auf andere Weise das Ignorieren und/oder Simulieren von Hintergrund beigebracht werden. Vorliegend wird wenigstens ein Rauchen aus einer Gruppe ausgewählt, die enthält: weißes Rauschen, Zufallsformen, Gradientenrauschen und reale Hintergründe.
Beim weißen Rauschen wird eine Gleitkommazahl zwischen 0 und 1 aus einer gleichmäßigen Verteilung für jeden Pixel erzeugt und darauf addiert. Im Fall von RGB, wird dieser Vorgang für jede Farbe, also insgesamt dreimal wiederholt.
Bei der zweiten Art Rauschen ist die Idee, die Hintergrundobjekte so darzustellen, dass diese ähnliche Tiefen- und Farbwerte aufweisen. Die Farbe der Objekte wird wiederum aus einer gleichmäßigen Verteilung zwischen 0 und 1 gesampelt, wobei die Position aus einer gleichmäßigen Verteilung zwischen 0 und der Breite des Samplebildes gesampelt wird. Dieser Ansatz kann auch zur Darstellung von Vordergrundstörungen verwendet werden, indem Zufallsformen auf das eigentliche Modell platziert werden.
Die dritte Art Rauschen ist Fraktalrauschen, das oft in der Computergraphik für Texturen- oder Landschaftsgenerierung verwendet wird. Das Fraktalrauschen kann wie in [12] beschrieben erzeugt werden. Es ergibt sich eine gleichmäßige Folge von Pseudozufallszahlen und vermeidet drastische Intensitätsänderungen, wie sie bei weißem Rauschen auftreten. Insgesamt ist dies näher an einem realen Szenario.
Eine weitere Art von Rauschen sind echte Hintergründe. Anstatt Rauschen zu erzeugen, werden RGB-D-Bilder von realen Hintergründen auf ähnliche Weise wie in [13]. Von einem realen Bild 20 wird ein Bereich 32 in der erforderlichen Größe gesampelt und als Hintergrund für ein synthetisch generiertes Modell verwendet. Diese Ausführungsart ist insbesondere nützlich, wenn im Vorhinein bekannt ist, in welchen Umgebungsarten die Objekte angeordnet sind.
Ein Nachteil des Baselineverfahrens ist, dass die Stapel vor der Ausführung erzeugt und gespeichert werden. Das bedeutet, dass zu jeder Epoche dieselben Hintergründe immer wieder verwendet werden, wodurch die Variabilität eingeschränkt ist. Es wird vorgeschlagen, die Stapel online zu erzeugen. Bei jeder Iteration wird der Hintergrund des ausgewählten Positivsamples mit einer der verfügbaren Ausführungsarten gefüllt.
Es wurden eine Reihe von Tests durchgeführt, um die Wirkung der neu eingefügten Modifikationen, z.B. Rotation in der Ebene, Oberflächennormalen, Hintergrundrauscharten, auszuwerten. Zudem wurde die Leistungsfähigkeit des Verfahrens auf einem größeren Datensatz (BigBIRD) und auf der Menge realer benötigter Daten getestet, die ausreichend aussagekräftig sind. Es sollte beachtet werden, dass alle Tests mit derselben Netzwerkarchitektur wie in [1] sowie dynamischer Margin durchgeführt wurden, wenn nicht anders angegeben. Die Ergebnisse sind in 7, Tabelle I
Wie bereits beschrieben, berücksichtigt [1] keine Rotationen in der Ebene. Allerdings sind diese wichtig zur Anwendung bei realen Szenarien. Verglichen wird hier die Leistung der folgenden Netzwerke: ein CNN, das Rotationen in der Ebene beim Trainieren berücksichtigt und ein CNN, das diese beim Trainieren nicht berücksichtigt.
Ergebnisse: Bei diesem Setup werden die zwei zuvor genannten CNNs verglichen, wobei dasjenige ohne Rotationen in der Ebene mit Baseline bezeichnet ist und das andere mit Baseline+ (siehe Tabelle II). TABELLE II: Vergleich des mit Rotationen trainierten CNN (baseline+) mit dem ohne Rotationen trainierten CNN (baseline)

Winkel fehler Klassifikation

10° 20° 40°

baseline 34, 6% 63,8% 73,7% 81,9%

baseline+ 60% 93,2% 97% 99,3%
Die Auswertung erfolgt nur für einen nächsten Nachbarn. Wie aus Tabelle II ersichtlich, ist eine deutliche Verbesserung im Vergleich zu den Ergebnissen des bekannten Ausführungsbeispiels eingetreten. Die Ergebnisse zeigen auch eine erfolgreiche Anpassung an einen zusätzlichen Freiheitsgrad.
Es wird insbesondere auf 8 Bezug genommen. Um die neue Lossfunktion mit dynamischem Margin DM auszuwerten, wurde eine Testreihe zum Vergleich mit der bisherigen Lossfunktion SM durchgeführt. Insbesondere wurden zwei Tests auf fünf LineMOD Objekten mittels der leistungsfähigsten Trainingskonfigurationen für 3- und 32-dimensionale Ausgangsdeskriptionen durchgeführt.
Ergebnisse: 8 vergleicht die Klassifikationsrate und die mittleren Winkelfehler für korrekt klassifizierte Samples über einen Satz von Trainingsepochen (ein Durchlauf der Trainingsmenge Strain) für beide Ausführungen, d.h. die CNN, die eine Lossfunktion mit statischer (SM) und dynamischem Margin (DM) aufweisen.
Wie aus den Ergebnissen klar ersichtlich, macht die neue Lossfunktion einen riesigen Unterschied am Endergebnis. Dies ermöglicht es dem CNN, eine bessere Klassifikation viel schneller im Vergleich zum Original zu erreichen. Während bei dem dynamischen Margin nahezu 100% Klassifikationsgenauigkeit wesentlich schneller erreicht werden, verbleibt die bekannte Implementierung bei etwa 80%. Zudem ist aus 8 ersichtlich, dass derselbe Winkelfehler für etwa 20% mehr korrekt klassifizierten erhältlich ist.
9 zeigt die Testsamples, die mittels des Deskriptornetzwerks, CNN, das mit der alten (links) und der neuen (rechts) Lossfunktion trainiert wurde. Der Unterschied im Separationsgrad der Objekte ist klar ersichtlich: rechte Figur, die Objekte sind wohl-separiert und erhalten den minimalen Marginabstand, was in einer perfekten Klassifikationsscore mündet; die linke Figur zeigt immer noch wohlunterscheidbare Objektstrukturen, die allerdings nahe beieinander platziert sind und teilweise überlappen, was eine Klassifikationsverwirrung hervorruft, die quantitativ in 8 geschätzt wurde.
In der Praxis jedoch werden höherdimensionale Deskriptorräume verwendet, was sowohl die Klassifikations- als auch die Winkelgenauigkeit steigert. 10 zeigt die gleichen Diagramme wie 8, jedoch für einen Deskriptorraum mit höherer Dimension, z.B. 32D. Dies resultiert in einem signifikanten Qualitätssprung für beide Ausführungsarten. Allerdings bleibt die Tendenz dieselbe: das erfindungsgemäße Verfahren lernt die Klassifikation deutlich schneller und ermöglicht dieselbe Winkelgenauigkeit für eine größere Anzahl korrekt klassifizierter Testsamples.
Da bei praktischen Anwendungen oft keine realen RGB-D-Bilder zur Verfügung stehen, sondern lediglich 3D-Modelle vorhanden sind, ist es förderlich, reale Daten beim Training zu benutzen. Zweck dieses Tests ist auch zu zeigen, wie gut sich das CNN an real daten anpasst und dabei lediglich synthetische Samples mit künstlich gefülltem Hintergrund verwendet. Insbesondere werden die oben beschriebenen Rauscharten verglichen.
Ergebnisse: 11 zeigt die Klassifikations- und Orientierungsgenauigkeiten für die unterschiedlichen Rauscharten. Weißes Rauschen zeigt insgesamt die schlechtesten Resultate mit lediglich 26% Klassifikationsgenauigkeit. Da beim zufälligen sampeln von Objekten aus einer gleichmäßigen Verteilung bereits 10% Genauigkeit erreicht werden, handelt es sich um keine große Verbesserung.
Bei der Ausführungsart „Zufallsformen“, werden bessere Ergebnisse erhalten, die um 38% Klassifikationsgenauigkeit fluktuieren. Das Fraktalrauschen zeigt die besten Ergebnisse unter den synthetischen Hintergrundrauscharten; es erreicht bis zu 54% Erkennungsrate. Die Ausführungsart mit realen Bildern 20 übertrifft das Fraktalrauschen klassfikationsmäßig und zeigt überdies noch bessere Orientierungsgenauigkeit für eine höhere Anzahl von korrekt klassifizierten Samples. Im Ergebnis ist es somit die beste Option, die Hintergründe mit realen Bildern 20 zu füllen, die ähnliche Umgebungen wie bei der Testmenge S_test aufweisen. Als zweite bevorzugte Option ist Fraktalrauschen anzusehen.
Es wird auf 12 Bezug genommen. Bei diesem Test zeigt sich die Wirkung des neu eingeführten Oberflächennormalkanals. Zum Vergleich werden drei Eingabebildkanäle verwendet, nämlich Tiefe, Normalen und deren Kombination. Genauer gesagt werden bevorzugt die Bereiche 32 zum Training herangezogen, die ausschließlich von den oben genannten Kanälen repräsentiert werden.
Ergebnisse: 12 zeigt die Klassifikationsraten- und Orientierungsfehlerdiagramme für drei unterschiedlich trainierte Netzwerke: Tiefe (d), Normalen (nor) sowie Tiefe und Normalen (nord). Es ist erkennbar, dass das Netzwerk CNN mit Oberflächennormalen lediglich besser abschneidet als das CNN mit Tiefenkarten. Die Oberflächennormalen werden vollständig auf Basis der Tiefenkarten (depth maps) erzeugt. Es werden keine zusätzlichen Sensordaten benötigt. Zudem ist das Ergebnis noch besser, wenn Tiefenkarten und Oberflächennormalen gleichzeitig verwendet werden.
Ziel des Tests an großen Datensätzen ist, wie gut das Verfahren sich auf eine größere Anzahl von Modellen verallgemeinern lässt. Insbesondere wurde untersucht, wie eine erhöhte Menge Modelle beim Training die Gesamtleistung beeinflusst.
Ergebnisse: Das CNN wurde an 50 Modellen des BigBIRD Datensatzes trainiert. Nach dem Ende des Trainings, wurden die Ergebnisse in Tabelle III erzielt: TABELLE III: Winkelfehlerhistogramm berechnet mit den Samples der Testmenge für einen einzigen nächsten Nachbarn.

Winkel fehler Klassifikation

10° 20° 40°

67,7% 91,2% 95, 6% 98,7%
Tabelle III zeigt ein Histogramm klassifizierter Testsamples für einige tolerierte Winkelfehler. Wie erkennbar ergibt sich für 50 Modelle, wobei jedes von etwa 300 Testsamples repräsentiert wird eine Klassifikationsgenauigkeit von 98,7% und eine sehr gute Winkelgenauigkeit. Im Ergebnis skaliert das Verfahren somit derart, dass es für Industrieanwendungen tauglich ist.
Das hierin beschriebene Verfahren weist eine verbesserte Lerngeschwindigkeit, Robustheit gegenüber Stördaten und Einsetzbarkeit in der Industrie auf. Eine neue Lossfunktion mit dynamischem Margin erlaubt ein schnelleres Lernen des CNN und eine größere Klassifikationsgenauigkeit. Zudem verwendet das Verfahren Rotationen in der Ebene und neue Hintergrund Rauscharten. Zusätzlich können Oberflächennormalen als weitere leistungsstarke Bildausführungsart verwendet werden. Auch ein effizientes Verfahren zum Erzeugen von Stapeln wurde vorgestellt, das eine größere Variabilität beim Training erlaubt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Z. Wu et al., „3D ShapeNets: A Deep Representation for Volumetric Shapes,“ presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1912-1920 [0004]
D. Maturana and S. Scherer, „VoxNet: A 3D Convolutional Neural Network for real-time object recognition,“ in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, pp. 922-928 [0004]
H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, „Multi-View Convolutional Neural Networks for 3D Shape Recognition,“ presented at the Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 945-953 [0004]
R. Pless and R. Souvenir, „A Survey of Manifold Learning for Images,“ IPSJ Trans. Comput. Vis. Appl., vol. 1, pp. 83-94, 2009 [0004]
R. Hadsell, S. Chopra, and Y. LeCun, „Dimensionality Reduction by Learning an Invariant Mapping,“ in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, vol. 2, pp. 1735-1742 [0004]
J. Masci, M. M. Bronstein, A. M. Bronstein, and J. Schmidhuber, „Multimodal Similarity-Preserving Hashing,“ IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 4, pp. 824-830, Apr. 2014 [0004]
E. Hoffer and N. Ailon, „Deep Metric Learning Using Triplet Network,“ in Similarity-Based Pattern Recognition, 2015, pp. 84-92 [0004]
H. Guo, J. Wang, Y. Gao, J. Li, and H. Lu, „Multi-View 3D Object Retrieval With Deep Embedding Network,“ IEEE Trans. Image Process., vol. 25, no. 12, pp. 5526-5537, Dec. 2016 [0004]
Hao Su, Charles R Qi, Yangyan Li, and Leonidas J Guibas. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, 2015 [0004]

Claims

Verfahren zum Erkennen einer Objektinstanz und Bestimmung einer Orientierung von lokalisierten Objekten (10) in störbehafteten Umgebungen (14) mittels eines künstlichen neuronalen Netzwerks (CNN) mit den Schritten: - Aufnehmen einer Mehrzahl von Bildern (x) wenigstens eines Objekts (10) zwecks Erhalt einer Mehrzahl von Sampeln (s), die Bilddaten (x), Objektidentität (c) und Orientierung (q) enthalten; - Erzeugen einer Trainingsmenge (S_train) und einer Templatemenge (S_db) aus den Sampeln; - Trainieren des künstlichen neuronalen Netzwerks (CNN) mittels der Trainingsmenge (S_train) und einer Lossfunktion (L), - Ermitteln der Objektinstanz und/oder der Orientierung des Objekts (10) durch Auswerten der Templatemenge (S_db) mittels des künstlichen neuronalen Netzwerks, dadurch gekennzeichnet, dass die zum Trainieren angewandte Lossfunktion (L) einen dynamischen Margin (m) aufweist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass aus drei Samples (s_i, s_j, s_k) ein Triplett (38) derart gebildet wird, dass ein erstes (s_i) und ein zweites (s_j) Sample von demselben Objekt (10) unter ähnlicher Orientierung (q) stammen, wobei ein drittes (s_k) Sample, so gewählt ist, dass das dritte Sample (s_k) von einem anderen Objekt (10) als das erste Sample (s_i) stammt oder, wenn es von demselben Objekt (10) wie das erste Sample (s_i) stammt, eine zu dem ersten Sample (s_i) unähnliche Orientierung (q) aufweist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Lossfunktion (L) eine Triplett-Lossfunktion (L_triplets) der folgenden Form aufweist: $L_{t r i p l e t s} = \sum_{(s_{i}, s_{j}, s_{k}) \in T} m a x (0,1 - \frac{{‖ f (x_{i}) - f (x_{k}) ‖}_{2}^{2}}{{‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2} + m}),$
wobei x das Bild des jeweiligen Samples (s_i, s_j, s_k), f(x) die Ausgabe des künstlichen neuronalen Netzwerks und m der dynamische Margin bedeutet.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aus zwei Samples (s_i, s_j) ein Paar derart gebildet wird, dass die beiden Samples (s_i, s_j) von demselben Objekt (10) stammen und eine ähnliche oder identische Orientierung (q) aufweisen, wobei die beiden Samples (s_i, s_j) unter unterschiedlichen Bildaufnahmebedingungen gewonnen wurden.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Lossfunktion (L) eine Paar-Lossfunktion (L_pairs) der folgenden Form aufweist: $L_{p a i r s} = \sum_{(s_{i}, s_{j}) \in P} {‖ f (x_{i}) - f (x_{j}) ‖}_{2}^{2},$
wobei x das Bild des jeweiligen Samples (s_i, s_j) und f(x) die Ausgabe des künstlichen neuronalen bedeutet.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Aufnehmen des Objekts (10) von einer Mehrzahl von Blickpunkten (24) aus erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Aufnehmen des Objekts (10) derart erfolgt, dass von wenigstens einem Blickpunkt (24) aus mehrere Aufnahmen gemacht werden, wobei die Kamera um ihre Aufnahmeachse (42) gedreht wird, um weitere Samples (40) mit Drehinformation, insbesondere in Form von Quaternionen, zu erhalten.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Ähnlichkeit der Orientierung zwischen zwei Samples mittels einer Ähnlichkeitsmetrik ermittelt wird, wobei der dynamische Margin in Abhängigkeit von der Ähnlichkeit ermittelt wird.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Drehinformation in Form von Quaternionen ermittelt wird, wobei die Ähnlichkeitsmetrik folgende Form aufweist: $θ (q_{i}, q_{j}) = 2 a r c c o s (q_{i}, q_{j}),$
wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der dynamische Margin folgende Form aufweist: $m = {\frac{2 a r c c o s (q_{i}, q_{j})}{n} \begin{matrix} i f c_{i} = c_{j}, \\ e l s e, f o r n > π \end{matrix},$
wobei q die Orientierung des jeweiligen Samples als Quaternion repräsentiert, wobei c die Objektidentität bedeutet.